查看: 653|回复: 30

字典去重复工具更新版,大幅缩短去重复所需时间

[复制链接]

签到天数: 4 天

classn_12: 1 天

[LV.2]偶尔看看I

发表于 2019-12-13 23:03 |显示全部楼层
Anywlan微信公众号
本帖最后由 mortimer7866 于 2019-12-21 09:16 编辑

同样是2亿多字典,仅需300多秒
QQ图片20191213221341.png


QQ图片20191213224027.png

请下载25楼的更新版本,优化了内存

点评

友情提示:1、切保剩余空间足够;2、切保内存足够;  发表于 2019-12-15 07:13

签到天数: 4 天

classn_12: 1 天

[LV.2]偶尔看看I

发表于 2019-12-18 22:11 |显示全部楼层
本帖最后由 mortimer7866 于 2019-12-18 22:14 编辑
随风飘 发表于 2019-12-18 21:54
在win下各种工具对非ASCII字符,一个文件多种格式都会出错,这是到目前为止还没有解决的难题,
所以我那贴 ...

谢谢前辈,浏览论坛不多,刚才看到您说的那个帖子,也看出来了您是个做字典的老手了。

最初做这个工具只不过是在想设计怎样的数据结构和算法能够高效的去重复,真正要针对字典去做一个很好的工具是当时没想到的,电脑条件并不丰富,虽然工作中也时有在linux下开发,但自己的电脑和小服务器都是Win环境,可以迅雷下个电影啥的哈哈,linux的熟悉程度应该也是没有您高,所以对我来说还是Win方便,有Win工具是最好的,前段时间移植了一个通过建立HASH表来破解wpa2的开源Linux工程到Win下,这几天打算放上论坛吧。

对您的那个只要硬盘足够大,就可以处理很多字典的思路倒是很感兴趣,也想试试效率如何,改日试试。
回复

使用道具 举报

头像被屏蔽

该用户从未签到

发表于 2019-12-14 08:32 |显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

签到天数: 1 天

classn_12: 0 天

[LV.1]初来乍到

发表于 2019-12-14 09:42 |显示全部楼层
赞一个
回复

使用道具 举报

签到天数: 4 天

classn_12: 1 天

[LV.2]偶尔看看I

发表于 2019-12-14 11:06 |显示全部楼层

目前是将所有的字典文件都读入到内存再进行处理,如果字典文件比较大,确实需要更大的内存

以后打算试试不读取到内存看看对去重的时间影响有多大
回复

使用道具 举报

签到天数: 31 天

classn_12: 0 天

[LV.5]常住居民I

发表于 2019-12-14 17:17 |显示全部楼层
只有8G内存,一次能合并多少G的字典
回复

使用道具 举报

签到天数: 1 天

classn_12: 0 天

[LV.1]初来乍到

发表于 2019-12-14 17:58 |显示全部楼层

你这个内存数和CPU核数不成比例啊
回复

使用道具 举报

签到天数: 4 天

classn_12: 1 天

[LV.2]偶尔看看I

发表于 2019-12-14 21:16 |显示全部楼层
工具现在这种情况还是不太好,占用内存太大,合并不了多大的字典,应该最近会修改,降低内存占用,稍稍牺牲一些去重复的时间,不过应该也不会牺牲多少
回复

使用道具 举报

签到天数: 1 天

classn_12: 0 天

[LV.1]初来乍到

发表于 2019-12-14 21:57 来自手机 |显示全部楼层
凑凑热闹

CCTV告诉大家,字典要先去乱马再去重 要不然会影响后续处理结果

没有保存路径选择又增加一个痛点
回复

使用道具 举报

签到天数: 1 天

classn_12: 0 天

[LV.1]初来乍到

发表于 2019-12-14 22:02 来自手机 |显示全部楼层
sorry D盘空间已满
回复

使用道具 举报

签到天数: 119 天

classn_12: 3 天

[LV.6]常住居民II

发表于 2019-12-16 20:20 |显示全部楼层
看看怎么样
回复

使用道具 举报

签到天数: 4 天

classn_12: 1 天

[LV.2]偶尔看看I

发表于 2019-12-17 23:14 |显示全部楼层
本帖最后由 mortimer7866 于 2019-12-21 09:14 编辑

新版本,降低内存占用,现在不能显示百分比进度了,还是那两亿多字典,内存降到10G左右占用 QQ图片20191217213247.png
惊奇的发现去重复时间不升反降,可能是以前内存占用过多使用了虚拟内存

另外增加了两个功能:
1.程序运行起来会出现一行提示:大致意思是是否只保留是数字字母组合的字符串,'y'代表是,其他任何字符为否
举例说明:
ggg
fff
ff$
ff1
输入y        “ff$”会被移除
输入非y     “ff$”不会被移除

2.可选保存路径
输入"y"或者其他任意字符回车,首先会弹出和之前一样的选择字典文件对话框,确定之后会再弹出选择保存路径对话框

附件:
请前往25楼下载最新版本
回复

使用道具 举报

头像被屏蔽

该用户从未签到

发表于 2019-12-18 09:04 |显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver| 手机版| 无线论坛 ( 粤ICP备11076993 ) |网站地图

GMT+8, 2020-1-25 09:49

Powered by Discuz! X3.4

© 2003-2013 广州威思信息科技有限公司

返回顶部 返回列表