2010年11月08日 星期一 11:41
有一个项目上用得到这方面的内容。中文转拼音,程序或库,网上易搜索到的多 是对多音字取最常见的拼音,这样输出的结果错误很多,比一一对应简繁体 转换 程序(网上常见到)的错误还要多得多。 和简繁转换一样,拼音要做好必须做分词,按词处理,不是按字处理。 想问一下有没有开源的产品做中文转换为拼音的?我觉得这个肯定不难做,开源的 分词系统如ictclas早就有很多年了,开源的词库也很多了 (ubuntu上就带一 个,ibus-table-extraphrase包里有),两者结合一下,做个库/命令行程序出来 似不难,应该已经有人 做出来了,只是我如何搜索都搜不到。 同理,开源的中文简繁转换程序(用分词原理)肯定也应该做出来了。 两者要做到最好都不易,分词很难做好的。比如“棋盘上的后走在王后面”,分词程 序可能误判为“棋盘 上 的 后 走 在 王后 面”,这样就错了,会引起繁体变为“棋 盤上的後走在王后 面”(这是Google translate的输出),而正确的分词是“棋盘 上 的 后 走 在 王 后面”,繁体应该是“棋盤上的后走在王後面”。有分词功能还 会出这 种错误,连Google translator都会出错的,那么不带分词功能的简繁体转 换就更不靠谱了。 -- 锐业软服(北京)信息技术有限公司 Real Softservice Information & Communication Technologies 北京市朝阳区 曙光西里甲6号 (邮100028) 时间国际中心 8号楼810室 ShuGuangXiLi No.6 (north to San Yuanqiao) Time fortune Tower 8-810 Chaoyuan, Beijing, China. Postal Code: 100028 http://www.realss.com Tel: +86 (10) 010 - 5977 3049
2010年11月08日 星期一 14:27
事实上,中文分词一真没有做出很好的,到现在也还是高校的一个研究課題, 这方面,用得比较多的应该是wikipedia的转换api 你可以看一下这个: http://zh.wikipedia.org/zh-cn/Help:繁简处理/技术方案 和 http://code.google.com/p/mediawiki-zhconverter/ 拼音和简繁转换其实本质上是一样的,关键都是在分词和词库 :) --- 10年11月8日,周一, Zhang Weiwu <zhangweiwu在realss.com> 写道: > 发件人: Zhang Weiwu <zhangweiwu在realss.com> > 主题: [zeuux-universe] 中文转换为拼音(及简繁转换) > 收件人: zeuux-universe在zeuux.org > 抄送: "王鹏辉" <wangpenghui在realss.com>, "炜" <acevery在gmail.com>, =?UTF-8?B?5L2Z6ZKw?=@z.billxu.com > 日期: 2010年11月8日,周一,上午11:41 > > 有一个项目上用得到这方面的内容。中文转拼音,程序或库,网上易搜索到的多 > 是对多音字取最常见的拼音,这样输出的结果错误很多,比一一对应简繁体 > 转换 > 程序(网上常见到)的错误还要多得多。 > > 和简繁转换一样,拼音要做好必须做分词,按词处理,不是按字处理。 > > 想问一下有没有开源的产品做中文转换为拼音的?我觉得这个肯定不难做,开源的 > 分词系统如ictclas早就有很多年了,开源的词库也很多了 > (ubuntu上就带一 > 个,ibus-table-extraphrase包里有),两者结合一下,做个库/命令行程序出来 > 似不难,应该已经有人 > 做出来了,只是我如何搜索都搜不到。 > > 同理,开源的中文简繁转换程序(用分词原理)肯定也应该做出来了。 > > 两者要做到最好都不易,分词很难做好的。比如“棋盘上的后走在王后面”,分词程 > 序可能误判为“棋盘 上 的 后 走 在 王后 > 面”,这样就错了,会引起繁体变为“棋 > 盤上的後走在王后 面”(这是Google > translate的输出),而正确的分词是“棋盘 > 上 的 后 走 在 王 > 后面”,繁体应该是“棋盤上的后走在王後面”。有分词功能还 > 会出这 种错误,连Google > translator都会出错的,那么不带分词功能的简繁体转 > 换就更不靠谱了。
Zeuux © 2024
京ICP备05028076号