ubnt解决方案
查看: 1081|回复: 6

[其它求助] 百G字典如何去除重复

[复制链接]

0

回帖

25

积分

2 小时

在线时间

新兵上阵

注册时间
2018-9-26
金币
19 个
威望
1 个
荣誉
0 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2018-9-26 16:38
如题,尝试过linux下awk不过会爆内存,运行到一半运存就占用100%

988

回帖

1万

积分

1430 小时

在线时间

上校

注册时间
2013-5-31
金币
11911 个
威望
0 个
荣誉
0 个
累计签到:1006 天
连续签到:0 天
[LV.1095]铁杆粉丝
发表于 2018-9-27 21:58
用间接办法. m! q  w1 M& u4 Y! f. e$ g3 a; Y
先分割源文件分成若干小的文件
$ D9 v+ j) I) \: h8 [9 g. f" u( ^然后对每个小文件排序1 y3 {  T5 p9 p& V- [8 \
人为设置若干字符串作为标准,将小文件再分成若干块
+ R- @, c/ B1 Q# d1 ]( h7 l) g( \再将其中被相同字符串分割后的部分进行合并,再进行去重复处理,最后合并! P8 A4 b  T1 R3 P, H4 @. B

; a% v8 ~' K1 x. V2 ^& t如果要求不高,允许一定的重复,可以将源文件等分成几块,每块检查重复,然后再两两合并,对合并后的检查重复,再次两两合并重复上面步骤,直到合并成一个文件,最后的文件重复率不大于1,如果文件够小,可以进行最终的重复检查去除重复,另外不同的两两组合可能最后的文件有差异,

988

回帖

1万

积分

1430 小时

在线时间

上校

注册时间
2013-5-31
金币
11911 个
威望
0 个
荣誉
0 个
累计签到:1006 天
连续签到:0 天
[LV.1095]铁杆粉丝
发表于 2018-9-27 22:04
分割的时候注意分割点处的字符串的完整性

3352

回帖

1万

积分

4788 小时

在线时间

上校

注册时间
2015-5-1
金币
13845 个
威望
12 个
荣誉
1 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2018-10-1 16:58
如题,尝试过linux下awk不过会爆内存,运行到一半运存就占用100%

/ e4 {9 N9 U( e* T" G/ u" p
# l2 @/ \! ^$ V! }sort -u
+ ^: d/ b8 S3 T$ Z0 G3 R: ?100T也搞得了,就怕你硬盘不够大

449

回帖

8155

积分

405 小时

在线时间

中校

注册时间
2016-5-5
金币
7316 个
威望
59 个
荣誉
0 个
累计签到:699 天
连续签到:0 天
[LV.730]常住居民
发表于 2018-10-18 20:10
字典文本导入数据库Oracle、Sybase、SQL Server请随意,然后运行这条命令:& _5 b3 d- C: Z2 ?
DELETE * FROM [数据表名] WHERE (字段名) IN (SELECT (字段名) FROM [数据表名] GROUP BY (字段名) HAVING COUNT((字段名)) > 1);

18

回帖

207

积分

6 小时

在线时间

少尉

注册时间
2013-6-24
金币
163 个
威望
2 个
荣誉
1 个
累计签到:3 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2018-11-3 12:34
文本字典可以导入数据库吗- -

128

回帖

1767

积分

253 小时

在线时间

上尉

注册时间
2014-11-18
金币
1600 个
威望
1 个
荣誉
0 个
累计签到:1 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2018-12-27 14:06
只要硬盘没问题,大于字典的3倍空间应就没问题。100G需要300G的空余。

站点统计 | Archiver | 手机版 | 无线门户 ( 粤ICP备11076993号|粤公网安备44010602008359号 ) |网站地图

GMT+8, 2024-4-25 20:47

返回顶部 返回列表