蒲公英路由器
楼主: yunnanyaic

鸡年新春大福利!精选自760万各分类裤子的33万个小伙伴真实姓名

[复制链接]

主题

好友

5134

积分

中校

签到天数: 496 天

[LV.9]以坛为家II

发表于 2017-1-26 10:33 |显示全部楼层
Anywlan微信公众号
真实姓名各种生僻字,人民的智慧是无穷滴,一般的常用编码看来不够啊,只能再度娘找找看了
回复

使用道具 举报

主题

好友

5134

积分

中校

签到天数: 496 天

[LV.9]以坛为家II

发表于 2017-1-26 10:34 |显示全部楼层
本帖最后由 yunnanyaic 于 2017-1-26 10:59 编辑
vcxz 发表于 2017-1-26 10:26
有点麻烦。编码不够用的。转换不全。
还剩3万5千多,没转换的。不太好处理,正在想办法中

真实姓名各种生僻字,人民的智慧是无穷滴,一般的常用编码看来不够啊,只能再度娘找找看了

暂时找不到所有汉字的拼音编码

不过,可以SQL先取出含有汉字的字段,然后再上网(http://zhongwenzhuanpinyin.51240.com)批量查询,最后整理下就成
一:查询字段首位是否为汉字?
SELECT * FROM 表名 WHERE ascii(字段)>127;
二:查询字段是否包含汉字(任意位)?
SELECT * FROM 表名 WHERE 字段 Like '%[吖-座]%';
这个可以判断是否包含汉字而不是其它双字节字符
[吖-座]是中文字符集第一个到最后一个的范围,虽然匹配准确,但是用Like的效率很低,目前只想到此法



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入

x
回复

使用道具 举报

主题

好友

1万

积分

上校

签到天数: 39 天

[LV.5]常住居民I

发表于 2017-1-26 12:03 |显示全部楼层
那些年2000W的那个数据选取出的姓名两个字与三个字的姓名去重后几百W
中文文件不是拼音

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入

x
回复

使用道具 举报

主题

好友

5134

积分

中校

签到天数: 496 天

[LV.9]以坛为家II

发表于 2017-1-26 12:05 |显示全部楼层
随风飘 发表于 2017-1-26 12:03
那些年2000W的那个数据选取出的姓名两个字与三个字的姓名去重后几百W
中文文件不是拼音

我顶!
此回复虽仅有两个字,却深刻的表达了回复人的深深的祝福与刻骨的情感,可谓言简意赅,一字千金,字字扣人心弦,催人泪下,足见回复人扎实的文字功底和信手拈来的写作技巧及惨绝人寰的创新能力。实在是佩服佩服!再加上以感叹号收尾,点睛之笔,妙笔生花,意境深远,照应前文,升华主题,把回复人的感情表达得淋漓尽致,给人无限感动和惆怅,有浑然天成之感,实属回复中之极品,祝福中之绝笔...
回复

使用道具 举报

主题

好友

13万

积分

上将

签到天数: 4 天

[LV.2]偶尔看看I

发表于 2017-1-26 13:11 |显示全部楼层
本帖最后由 vcxz 于 2017-1-26 13:43 编辑
yunnanyaic 发表于 2017-1-26 10:34
真实姓名各种生僻字,人民的智慧是无穷滴,一般的常用编码看来不够啊,只能再度娘找找看了

暂时找不到 ...

你是这方面专家,厉害!

你应该把每一个字直接生成拼音,用空格分开。这样别人就走捷径了。否则,每一个人都单独处理,且不说功力如何,要浪费多少时间?

好人做到底啊!辛苦,谢谢!

等我处理完近4万条,看看是什么情况,再说
我要比较下最终的人名结果
发愁中、犹豫中。共有440kb要处理,一次只能处理的结果是3.8kb。要折腾一百一二十次,此方法行不通

回复

使用道具 举报

主题

好友

5134

积分

中校

签到天数: 496 天

[LV.9]以坛为家II

发表于 2017-1-26 13:57 |显示全部楼层
vcxz 发表于 2017-1-26 13:11
你是这方面专家,厉害!

你应该把每一个字直接生成拼音,用空格分开。这样别人就走捷径了。否则,每一 ...

更新了帖子,请看分割符后的内容,只要把姓名按单个汉字分列到表中,然后再对照ASCII表并表查询取拼音就可以了
回复

使用道具 举报

主题

好友

13万

积分

上将

签到天数: 4 天

[LV.2]偶尔看看I

发表于 2017-1-26 14:43 |显示全部楼层
随风飘 发表于 2017-1-26 12:03
那些年2000W的那个数据选取出的姓名两个字与三个字的姓名去重后几百W
中文文件不是拼音


谢谢,大牛

等我抽功夫,处理下。然后,你的、楼主的、我的,比较下。筛选出真正有用的东西出来

我的原则,少而精,不追求越大越好,体积太大受不了。体积大好办,少而精难办
回复

使用道具 举报

主题

好友

13万

积分

上将

签到天数: 4 天

[LV.2]偶尔看看I

发表于 2017-1-26 14:52 |显示全部楼层
yunnanyaic 发表于 2017-1-26 10:34
真实姓名各种生僻字,人民的智慧是无穷滴,一般的常用编码看来不够啊,只能再度娘找找看了

暂时找不到 ...




大牛,你是专家

把这个把你刚刚的编码再往里面增加一些内容吧 (只有依靠你了)
你费些时间,但,使用起来很是方便。辛苦了
看附件

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入

x
回复

使用道具 举报

主题

好友

6406

积分

中校

签到天数: 732 天

[LV.9]以坛为家II

发表于 2017-1-26 15:46 |显示全部楼层
脑子完全跟不上,反正就收收成果吧
回复

使用道具 举报

主题

好友

5134

积分

中校

签到天数: 496 天

[LV.9]以坛为家II

发表于 2017-1-26 21:44 |显示全部楼层
vcxz 发表于 2017-1-26 14:52
大牛,你是专家

把这个把你刚刚的编码再往里面增加一些内容吧 (只有依靠你了)

现整理出最终解决方法:
1、将字典导入Oracle中;
2、使用《Oracle汉字转拼音Package(获得全拼、拼音首字母、拼音截取等)》SQL语句直接转换为拼音并导出拼音文本字典。
之前给出的《GB2312收录汉字6763个读音对照表》的确不够用,所以只能调用Oracle中的GB18030编码(收录汉字27533个)才能覆盖所有生僻字啦。
回复

使用道具 举报

主题

好友

7万

积分

中将

签到天数: 293 天

[LV.8]以坛为家I

发表于 2017-1-26 22:26 |显示全部楼层
本帖最后由 mmfdr 于 2017-1-27 06:55 编辑
yunnanyaic 发表于 2017-1-26 21:44
现整理出最终解决方法:
1、将字典导入Oracle中;
2、使用《Oracle汉字转拼音Package(获得全拼、拼音 ...

感谢你这个真实人名。整理了一下,去重后是24万多。大小2.8M。这个转拼音没这么复杂


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入

x
回复

使用道具 举报

主题

好友

3600

积分

少校

签到天数: 397 天

[LV.9]以坛为家II

发表于 2017-1-26 22:40 |显示全部楼层
GB18030-2000收录汉字27533个读音对照表.zip 文件提示打不开。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 加入

本版积分规则

Archiver| 手机版| 中国无线门户 ( 粤ICP备11076993 ) |网站地图

GMT+8, 2019-2-17 12:42

Powered by Discuz! X3.4

© 2003-2013 广州威思信息科技有限公司

返回顶部 返回列表