ubnt解决方案
查看: 1080|回复: 6

[其它求助] 百G字典如何去除重复

[复制链接]

0

回帖

25

积分

2 小时

在线时间

新兵上阵

注册时间
2018-9-26
金币
19 个
威望
1 个
荣誉
0 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2018-9-26 16:38
如题,尝试过linux下awk不过会爆内存,运行到一半运存就占用100%

988

回帖

1万

积分

1430 小时

在线时间

上校

注册时间
2013-5-31
金币
11911 个
威望
0 个
荣誉
0 个
累计签到:1006 天
连续签到:0 天
[LV.1095]铁杆粉丝
发表于 2018-9-27 21:58
用间接办法
3 J3 S- P- a& O; J! T/ g先分割源文件分成若干小的文件7 t+ w" u% }1 `+ I
然后对每个小文件排序- Z' [$ H2 s. R8 `
人为设置若干字符串作为标准,将小文件再分成若干块# o* z/ ^' I+ M1 U& E, Z
再将其中被相同字符串分割后的部分进行合并,再进行去重复处理,最后合并
: Q: @1 C7 ~! a5 P+ k0 K1 K" Q  [( r! b
如果要求不高,允许一定的重复,可以将源文件等分成几块,每块检查重复,然后再两两合并,对合并后的检查重复,再次两两合并重复上面步骤,直到合并成一个文件,最后的文件重复率不大于1,如果文件够小,可以进行最终的重复检查去除重复,另外不同的两两组合可能最后的文件有差异,

988

回帖

1万

积分

1430 小时

在线时间

上校

注册时间
2013-5-31
金币
11911 个
威望
0 个
荣誉
0 个
累计签到:1006 天
连续签到:0 天
[LV.1095]铁杆粉丝
发表于 2018-9-27 22:04
分割的时候注意分割点处的字符串的完整性

3351

回帖

1万

积分

4787 小时

在线时间

上校

注册时间
2015-5-1
金币
14054 个
威望
12 个
荣誉
1 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2018-10-1 16:58
如题,尝试过linux下awk不过会爆内存,运行到一半运存就占用100%
, z$ O) ^* c. D% e" T
0 Z" N: F; t5 a& ~
sort -u
) A& o, N+ Q' s# B) B- \100T也搞得了,就怕你硬盘不够大

449

回帖

8151

积分

405 小时

在线时间

中校

注册时间
2016-5-5
金币
7312 个
威望
59 个
荣誉
0 个
累计签到:699 天
连续签到:0 天
[LV.730]常住居民
发表于 2018-10-18 20:10
字典文本导入数据库Oracle、Sybase、SQL Server请随意,然后运行这条命令:
7 k. Q3 Q6 i7 f7 a: V; X/ `) MDELETE * FROM [数据表名] WHERE (字段名) IN (SELECT (字段名) FROM [数据表名] GROUP BY (字段名) HAVING COUNT((字段名)) > 1);

18

回帖

207

积分

6 小时

在线时间

少尉

注册时间
2013-6-24
金币
163 个
威望
2 个
荣誉
1 个
累计签到:3 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2018-11-3 12:34
文本字典可以导入数据库吗- -

128

回帖

1767

积分

253 小时

在线时间

上尉

注册时间
2014-11-18
金币
1600 个
威望
1 个
荣誉
0 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2018-12-27 14:06
只要硬盘没问题,大于字典的3倍空间应就没问题。100G需要300G的空余。

站点统计 | Archiver | 手机版 | 无线门户 ( 粤ICP备11076993号|粤公网安备44010602008359号 ) |网站地图

GMT+8, 2024-4-16 20:57

返回顶部 返回列表