zeuux-universe  - 讨论区

标题:[zeuux-universe] 中文转换为拼音(及简繁转换)

2010年11月08日 星期一 11:41

Zhang Weiwu zhangweiwu在realss.com
星期一 十一月 8 11:41:13 CST 2010

 有一个项目上用得到这方面的内容。中文转拼音,程序或库,网上易搜索到的多
是对多音字取最常见的拼音,这样输出的结果错误很多,比一一对应简繁体 转换
程序(网上常见到)的错误还要多得多。

和简繁转换一样,拼音要做好必须做分词,按词处理,不是按字处理。

想问一下有没有开源的产品做中文转换为拼音的?我觉得这个肯定不难做,开源的
分词系统如ictclas早就有很多年了,开源的词库也很多了 (ubuntu上就带一
个,ibus-table-extraphrase包里有),两者结合一下,做个库/命令行程序出来
似不难,应该已经有人 做出来了,只是我如何搜索都搜不到。

同理,开源的中文简繁转换程序(用分词原理)肯定也应该做出来了。

两者要做到最好都不易,分词很难做好的。比如“棋盘上的后走在王后面”,分词程
序可能误判为“棋盘 上 的 后 走 在 王后 面”,这样就错了,会引起繁体变为“棋
盤上的後走在王后 面”(这是Google translate的输出),而正确的分词是“棋盘
上 的 后 走 在 王 后面”,繁体应该是“棋盤上的后走在王後面”。有分词功能还
会出这 种错误,连Google translator都会出错的,那么不带分词功能的简繁体转
换就更不靠谱了。

-- 
锐业软服(北京)信息技术有限公司
Real Softservice Information & Communication Technologies

北京市朝阳区 曙光西里甲6号 (邮100028) 时间国际中心 8号楼810室 
ShuGuangXiLi No.6 (north to San Yuanqiao) Time fortune Tower 8-810
Chaoyuan, Beijing, China. Postal Code: 100028

http://www.realss.com
Tel: +86 (10) 010 - 5977 3049


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2010年11月08日 星期一 14:27

吕韦甫  treehouse_of_horror在yahoo.cn
星期一 十一月 8 14:27:12 CST 2010

事实上,中文分词一真没有做出很好的,到现在也还是高校的一个研究課題,

这方面,用得比较多的应该是wikipedia的转换api
你可以看一下这个:
http://zh.wikipedia.org/zh-cn/Help:繁简处理/技术方案http://code.google.com/p/mediawiki-zhconverter/

拼音和简繁转换其实本质上是一样的,关键都是在分词和词库 :)



--- 10年11月8日,周一, Zhang Weiwu <zhangweiwu在realss.com> 写道:

> 发件人: Zhang Weiwu <zhangweiwu在realss.com>
> 主题: [zeuux-universe] 中文转换为拼音(及简繁转换)
> 收件人: zeuux-universe在zeuux.org
> 抄送: "王鹏辉" <wangpenghui在realss.com>, "炜" <acevery在gmail.com>, =?UTF-8?B?5L2Z6ZKw?=@z.billxu.com
> 日期: 2010年11月8日,周一,上午11:41
> 
> 有一个项目上用得到这方面的内容。中文转拼音,程序或库,网上易搜索到的多
> 是对多音字取最常见的拼音,这样输出的结果错误很多,比一一对应简繁体
> 转换
> 程序(网上常见到)的错误还要多得多。
> 
> 和简繁转换一样,拼音要做好必须做分词,按词处理,不是按字处理。
> 
> 想问一下有没有开源的产品做中文转换为拼音的?我觉得这个肯定不难做,开源的
> 分词系统如ictclas早就有很多年了,开源的词库也很多了
> (ubuntu上就带一
> 个,ibus-table-extraphrase包里有),两者结合一下,做个库/命令行程序出来
> 似不难,应该已经有人
> 做出来了,只是我如何搜索都搜不到。
> 
> 同理,开源的中文简繁转换程序(用分词原理)肯定也应该做出来了。
> 
> 两者要做到最好都不易,分词很难做好的。比如“棋盘上的后走在王后面”,分词程
> 序可能误判为“棋盘 上 的 后 走 在 王后
> 面”,这样就错了,会引起繁体变为“棋
> 盤上的後走在王后 面”(这是Google
> translate的输出),而正确的分词是“棋盘
> 上 的 后 走 在 王
> 后面”,繁体应该是“棋盤上的后走在王後面”。有分词功能还
> 会出这 种错误,连Google
> translator都会出错的,那么不带分词功能的简繁体转
> 换就更不靠谱了。



      


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号