ubnt解决方案
楼主: yunnanyaic

鸡年新春大福利!精选自760万各分类裤子的33万个小伙伴真实姓名

[复制链接]

449

回帖

8155

积分

405 小时

在线时间

中校

注册时间
2016-5-5
金币
7316 个
威望
59 个
荣誉
0 个
累计签到:699 天
连续签到:0 天
[LV.730]常住居民
发表于 2017-1-26 10:33 |显示全部楼层
真实姓名各种生僻字,人民的智慧是无穷滴,一般的常用编码看来不够啊,只能再度娘找找看了
回复

使用道具 举报

449

回帖

8155

积分

405 小时

在线时间

中校

注册时间
2016-5-5
金币
7316 个
威望
59 个
荣誉
0 个
累计签到:699 天
连续签到:0 天
[LV.730]常住居民
发表于 2017-1-26 10:34 |显示全部楼层
本帖最后由 yunnanyaic 于 2017-1-26 10:59 编辑
vcxz 发表于 2017-1-26 10:26
有点麻烦。编码不够用的。转换不全。
还剩3万5千多,没转换的。不太好处理,正在想办法中

真实姓名各种生僻字,人民的智慧是无穷滴,一般的常用编码看来不够啊,只能再度娘找找看了

暂时找不到所有汉字的拼音编码

不过,可以SQL先取出含有汉字的字段,然后再上网(http://zhongwenzhuanpinyin.51240.com)批量查询,最后整理下就成
一:查询字段首位是否为汉字?
SELECT * FROM 表名 WHERE ascii(字段)>127;
二:查询字段是否包含汉字(任意位)?
SELECT * FROM 表名 WHERE 字段 Like '%[吖-座]%';
这个可以判断是否包含汉字而不是其它双字节字符
[吖-座]是中文字符集第一个到最后一个的范围,虽然匹配准确,但是用Like的效率很低,目前只想到此法



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
回复

使用道具 举报

2289

回帖

3万

积分

3679 小时

在线时间

大校

随风无限跑包76646806

灌水天才正义勋章

注册时间
2009-11-15
金币
29046 个
威望
23 个
荣誉
5 个
累计签到:39 天
连续签到:0 天
[LV.50]初入江湖
发表于 2017-1-26 12:03 |显示全部楼层
那些年2000W的那个数据选取出的姓名两个字与三个字的姓名去重后几百W
中文文件不是拼音

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
随风无限跑包76646806
回复

使用道具 举报

449

回帖

8155

积分

405 小时

在线时间

中校

注册时间
2016-5-5
金币
7316 个
威望
59 个
荣誉
0 个
累计签到:699 天
连续签到:0 天
[LV.730]常住居民
发表于 2017-1-26 12:05 |显示全部楼层
随风飘 发表于 2017-1-26 12:03
那些年2000W的那个数据选取出的姓名两个字与三个字的姓名去重后几百W
中文文件不是拼音

我顶!
此回复虽仅有两个字,却深刻的表达了回复人的深深的祝福与刻骨的情感,可谓言简意赅,一字千金,字字扣人心弦,催人泪下,足见回复人扎实的文字功底和信手拈来的写作技巧及惨绝人寰的创新能力。实在是佩服佩服!再加上以感叹号收尾,点睛之笔,妙笔生花,意境深远,照应前文,升华主题,把回复人的感情表达得淋漓尽致,给人无限感动和惆怅,有浑然天成之感,实属回复中之极品,祝福中之绝笔...
回复

使用道具 举报

2130

回帖

13万

积分

4978 小时

在线时间

上将

注册时间
2014-4-9
金币
133272 个
威望
12 个
荣誉
2 个
累计签到:4 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2017-1-26 13:11 |显示全部楼层
本帖最后由 vcxz 于 2017-1-26 13:43 编辑
yunnanyaic 发表于 2017-1-26 10:34
真实姓名各种生僻字,人民的智慧是无穷滴,一般的常用编码看来不够啊,只能再度娘找找看了

暂时找不到 ...

你是这方面专家,厉害!

你应该把每一个字直接生成拼音,用空格分开。这样别人就走捷径了。否则,每一个人都单独处理,且不说功力如何,要浪费多少时间?

好人做到底啊!辛苦,谢谢!

等我处理完近4万条,看看是什么情况,再说
我要比较下最终的人名结果
发愁中、犹豫中。共有440kb要处理,一次只能处理的结果是3.8kb。要折腾一百一二十次,此方法行不通

回复

使用道具 举报

449

回帖

8155

积分

405 小时

在线时间

中校

注册时间
2016-5-5
金币
7316 个
威望
59 个
荣誉
0 个
累计签到:699 天
连续签到:0 天
[LV.730]常住居民
发表于 2017-1-26 13:57 |显示全部楼层
vcxz 发表于 2017-1-26 13:11
你是这方面专家,厉害!

你应该把每一个字直接生成拼音,用空格分开。这样别人就走捷径了。否则,每一 ...

更新了帖子,请看分割符后的内容,只要把姓名按单个汉字分列到表中,然后再对照ASCII表并表查询取拼音就可以了
回复

使用道具 举报

2130

回帖

13万

积分

4978 小时

在线时间

上将

注册时间
2014-4-9
金币
133272 个
威望
12 个
荣誉
2 个
累计签到:4 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2017-1-26 14:43 |显示全部楼层
随风飘 发表于 2017-1-26 12:03
那些年2000W的那个数据选取出的姓名两个字与三个字的姓名去重后几百W
中文文件不是拼音


谢谢,大牛

等我抽功夫,处理下。然后,你的、楼主的、我的,比较下。筛选出真正有用的东西出来

我的原则,少而精,不追求越大越好,体积太大受不了。体积大好办,少而精难办
回复

使用道具 举报

2130

回帖

13万

积分

4978 小时

在线时间

上将

注册时间
2014-4-9
金币
133272 个
威望
12 个
荣誉
2 个
累计签到:4 天
连续签到:0 天
[LV.20]漫游旅程
发表于 2017-1-26 14:52 |显示全部楼层
yunnanyaic 发表于 2017-1-26 10:34
真实姓名各种生僻字,人民的智慧是无穷滴,一般的常用编码看来不够啊,只能再度娘找找看了

暂时找不到 ...




大牛,你是专家

把这个把你刚刚的编码再往里面增加一些内容吧 (只有依靠你了)
你费些时间,但,使用起来很是方便。辛苦了
看附件

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
回复

使用道具 举报

119

回帖

1万

积分

360 小时

在线时间

上校

注册时间
2017-1-24
金币
10214 个
威望
3 个
荣誉
1 个
累计签到:1094 天
连续签到:0 天
[LV.1095]铁杆粉丝
发表于 2017-1-26 15:46 |显示全部楼层
脑子完全跟不上,反正就收收成果吧
回复

使用道具 举报

449

回帖

8155

积分

405 小时

在线时间

中校

注册时间
2016-5-5
金币
7316 个
威望
59 个
荣誉
0 个
累计签到:699 天
连续签到:0 天
[LV.730]常住居民
发表于 2017-1-26 21:44 |显示全部楼层
vcxz 发表于 2017-1-26 14:52
大牛,你是专家

把这个把你刚刚的编码再往里面增加一些内容吧 (只有依靠你了)

现整理出最终解决方法:
1、将字典导入Oracle中;
2、使用《Oracle汉字转拼音Package(获得全拼、拼音首字母、拼音截取等)》SQL语句直接转换为拼音并导出拼音文本字典。
之前给出的《GB2312收录汉字6763个读音对照表》的确不够用,所以只能调用Oracle中的GB18030编码(收录汉字27533个)才能覆盖所有生僻字啦。
回复

使用道具 举报

3215

回帖

7万

积分

2555 小时

在线时间

中将

注册时间
2012-6-7
金币
73155 个
威望
2 个
荣誉
0 个
累计签到:326 天
连续签到:0 天
[LV.365]无线熟人
发表于 2017-1-26 22:26 |显示全部楼层
本帖最后由 mmfdr 于 2017-1-27 06:55 编辑
yunnanyaic 发表于 2017-1-26 21:44
现整理出最终解决方法:
1、将字典导入Oracle中;
2、使用《Oracle汉字转拼音Package(获得全拼、拼音 ...

感谢你这个真实人名。整理了一下,去重后是24万多。大小2.8M。这个转拼音没这么复杂


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
闲着没事只跑小字典
回复

使用道具 举报

12

回帖

5499

积分

155 小时

在线时间

中校

注册时间
2017-1-6
金币
5394 个
威望
15 个
荣誉
0 个
累计签到:563 天
连续签到:0 天
[LV.730]常住居民
发表于 2017-1-26 22:40 |显示全部楼层
GB18030-2000收录汉字27533个读音对照表.zip 文件提示打不开。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

站点统计 | Archiver | 手机版 | 无线门户 ( 粤ICP备11076993号|粤公网安备44010602008359号 ) |网站地图

GMT+8, 2024-4-26 03:38

返回顶部 返回列表