ubnt解决方案
查看: 8135|回复: 52

字典去重复工具更新版,大幅缩短去重复所需时间

[复制链接]

42

回帖

285

积分

35 小时

在线时间

少尉

注册时间
2013-2-8
金币
195 个
威望
4 个
荣誉
2 个
累计签到:8 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-13 23:03 |显示全部楼层
本帖最后由 mortimer7866 于 2019-12-21 09:16 编辑

同样是2亿多字典,仅需300多秒





请下载25楼的更新版本,优化了内存


补充内容 (2021-4-5 22:23):
hello,大伙们,37楼有更新

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x

点评

友情提示:1、切保剩余空间足够;2、切保内存足够;  发表于 2019-12-15 07:13

评分

1

查看全部评分

42

回帖

285

积分

35 小时

在线时间

少尉

注册时间
2013-2-8
金币
195 个
威望
4 个
荣誉
2 个
累计签到:8 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-18 22:11 |显示全部楼层
本帖最后由 mortimer7866 于 2019-12-18 22:14 编辑
随风飘 发表于 2019-12-18 21:54
在win下各种工具对非ASCII字符,一个文件多种格式都会出错,这是到目前为止还没有解决的难题,
所以我那贴 ...

谢谢前辈,浏览论坛不多,刚才看到您说的那个帖子,也看出来了您是个做字典的老手了。

最初做这个工具只不过是在想设计怎样的数据结构和算法能够高效的去重复,真正要针对字典去做一个很好的工具是当时没想到的,电脑条件并不丰富,虽然工作中也时有在linux下开发,但自己的电脑和小服务器都是Win环境,可以迅雷下个电影啥的哈哈,linux的熟悉程度应该也是没有您高,所以对我来说还是Win方便,有Win工具是最好的,前段时间移植了一个通过建立HASH表来破解wpa2的开源Linux工程到Win下,这几天打算放上论坛吧。

对您的那个只要硬盘足够大,就可以处理很多字典的思路倒是很感兴趣,也想试试效率如何,改日试试。
回复

使用道具 举报

370

回帖

2981

积分

434 小时

在线时间

少校

超级管理员QQ 2632560408

注册时间
2019-5-1
金币
2573 个
威望
-5 个
荣誉
0 个

尚未签到

发表于 2019-12-14 08:32 |显示全部楼层
8GB内存都不行

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
回复

使用道具 举报

5

回帖

46

积分

20 小时

在线时间

新兵上阵

注册时间
2018-3-16
金币
38 个
威望
0 个
荣誉
0 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-14 09:42 |显示全部楼层
赞一个
回复

使用道具 举报

42

回帖

285

积分

35 小时

在线时间

少尉

注册时间
2013-2-8
金币
195 个
威望
4 个
荣誉
2 个
累计签到:8 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-14 11:06 |显示全部楼层

目前是将所有的字典文件都读入到内存再进行处理,如果字典文件比较大,确实需要更大的内存

以后打算试试不读取到内存看看对去重的时间影响有多大
回复

使用道具 举报

591

回帖

1万

积分

1778 小时

在线时间

上校

注册时间
2008-5-16
金币
15279 个
威望
8 个
荣誉
0 个
累计签到:1083 天
连续签到:1 天
[LV.1095]铁杆粉丝
发表于 2019-12-14 17:17 |显示全部楼层
只有8G内存,一次能合并多少G的字典
回复

使用道具 举报

1974

回帖

6998

积分

1559 小时

在线时间

中校

注册时间
2009-7-30
金币
4523 个
威望
22 个
荣誉
2 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-14 17:58 |显示全部楼层

你这个内存数和CPU核数不成比例啊
窮則獨善其身,富則兼濟天下。
回复

使用道具 举报

42

回帖

285

积分

35 小时

在线时间

少尉

注册时间
2013-2-8
金币
195 个
威望
4 个
荣誉
2 个
累计签到:8 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-14 21:16 |显示全部楼层
工具现在这种情况还是不太好,占用内存太大,合并不了多大的字典,应该最近会修改,降低内存占用,稍稍牺牲一些去重复的时间,不过应该也不会牺牲多少
回复

使用道具 举报

3352

回帖

1万

积分

4787 小时

在线时间

上校

注册时间
2015-5-1
金币
14022 个
威望
12 个
荣誉
1 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-14 21:57 来自手机 |显示全部楼层
凑凑热闹

CCTV告诉大家,字典要先去乱马再去重 要不然会影响后续处理结果

没有保存路径选择又增加一个痛点
回复

使用道具 举报

3352

回帖

1万

积分

4787 小时

在线时间

上校

注册时间
2015-5-1
金币
14022 个
威望
12 个
荣誉
1 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-14 22:02 来自手机 |显示全部楼层
sorry D盘空间已满
回复

使用道具 举报

137

回帖

1686

积分

76 小时

在线时间

上尉

注册时间
2017-10-10
金币
1515 个
威望
2 个
荣誉
1 个
累计签到:134 天
连续签到:0 天
[LV.200]无线新星
发表于 2019-12-16 20:20 |显示全部楼层
看看怎么样
回复

使用道具 举报

42

回帖

285

积分

35 小时

在线时间

少尉

注册时间
2013-2-8
金币
195 个
威望
4 个
荣誉
2 个
累计签到:8 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2019-12-17 23:14 |显示全部楼层
本帖最后由 mortimer7866 于 2019-12-21 09:14 编辑

新版本,降低内存占用,现在不能显示百分比进度了,还是那两亿多字典,内存降到10G左右占用
惊奇的发现去重复时间不升反降,可能是以前内存占用过多使用了虚拟内存

另外增加了两个功能:
1.程序运行起来会出现一行提示:大致意思是是否只保留是数字字母组合的字符串,'y'代表是,其他任何字符为否
举例说明:
ggg
fff
ff$
ff1
输入y        “ff$”会被移除
输入非y     “ff$”不会被移除

2.可选保存路径
输入"y"或者其他任意字符回车,首先会弹出和之前一样的选择字典文件对话框,确定之后会再弹出选择保存路径对话框

附件:
请前往25楼下载最新版本

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
回复

使用道具 举报

370

回帖

2981

积分

434 小时

在线时间

少校

超级管理员QQ 2632560408

注册时间
2019-5-1
金币
2573 个
威望
-5 个
荣誉
0 个

尚未签到

发表于 2019-12-18 09:04 |显示全部楼层
mortimer7866 发表于 2019-12-17 23:14
新版本,降低内存占用,现在不能显示百分比进度了,还是那两亿多字典,内存降到10G左右占用
惊奇的发现去 ...

处理3个字典  去重不正确   

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
跑包QQ 2632560408
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

站点统计 | Archiver | 手机版 | 无线门户 ( 粤ICP备11076993号|粤公网安备44010602008359号 ) |网站地图

GMT+8, 2024-4-20 09:52

返回顶部 返回列表