哲思官方群认证群组  - 讨论区

标题:[zeuux-universe] 回复: 中文转换为拼音(及简繁转换)

2011年02月17日 星期四 16:55

夏清然 Xia Qingran qingran在zeuux.org
星期四 二月 17 16:55:30 CST 2011

On 2010-11-8 14:27, 吕韦甫   wrote:
> 事实上,中文分词一真没有做出很好的,到现在也还是高校的一个研究課題,

不同意你这个说法。我认为现在中文分词已经很成熟了,不多要不是掌握在search 
engine手里,要不就是商业方案(比如海量科技)。

07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。

如果Weiwu能承受购买的开支,海量科技肯定有成熟的解决方案。

> 这方面,用得比较多的应该是wikipedia的转换api
> 你可以看一下这个:
> http://zh.wikipedia.org/zh-cn/Help:繁简处理/技术方案
>> http://code.google.com/p/mediawiki-zhconverter/
>
> 拼音和简繁转换其实本质上是一样的,关键都是在分词和词库 :)
>
>
>
> --- 10年11月8日,周一, Zhang Weiwu<zhangweiwu at realss.com>  写道:
>
>> 发件人: Zhang Weiwu<zhangweiwu at realss.com>
>> 主题: [zeuux-universe] 中文转换为拼音(及简繁转换)
>> 收件人: zeuux-universe at zeuux.org
>> 抄送: "王鹏辉"<wangpenghui at realss.com>, "炜"<acevery at gmail.com>, =?UTF-8?B?5L2Z6ZKw?=@z.billxu.com
>> 日期: 2010年11月8日,周一,上午11:41
>>
>> 有一个项目上用得到这方面的内容。中文转拼音,程序或库,网上易搜索到的多
>> 是对多音字取最常见的拼音,这样输出的结果错误很多,比一一对应简繁体
>> 转换
>> 程序(网上常见到)的错误还要多得多。
>>
>> 和简繁转换一样,拼音要做好必须做分词,按词处理,不是按字处理。
>>
>> 想问一下有没有开源的产品做中文转换为拼音的?我觉得这个肯定不难做,开源的
>> 分词系统如ictclas早就有很多年了,开源的词库也很多了
>> (ubuntu上就带一
>> 个,ibus-table-extraphrase包里有),两者结合一下,做个库/命令行程序出来
>> 似不难,应该已经有人
>> 做出来了,只是我如何搜索都搜不到。
>>
>> 同理,开源的中文简繁转换程序(用分词原理)肯定也应该做出来了。
>>
>> 两者要做到最好都不易,分词很难做好的。比如“棋盘上的后走在王后面”,分词程
>> 序可能误判为“棋盘 上 的 后 走 在 王后
>> 面”,这样就错了,会引起繁体变为“棋
>> 盤上的後走在王后 面”(这是Google
>> translate的输出),而正确的分词是“棋盘
>> 上 的 后 走 在 王
>> 后面”,繁体应该是“棋盤上的后走在王後面”。有分词功能还
>> 会出这 种错误,连Google
>> translator都会出错的,那么不带分词功能的简繁体转
>> 换就更不靠谱了。
>
>
>
>
> _______________________________________________
> zeuux-universe mailing list
> zeuux-universe at zeuux.org
> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
> ZEUUX Project - Free Software, Free Society!
> http://www.zeuux.org


-- 
夏清然
Gtalk qingran.xia at gmail.com
http://www.qingran.net


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2011年02月17日 星期四 17:01

pansz pan.shizhu在gmail.com
星期四 二月 17 17:01:22 CST 2011

2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>:
> 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。

95%准确率意味着20个词就可能出现一个不准确的。
绝大多数普通人不会认为这算是“成熟”的技术。

一般人能忍受千分之一错误率就不错了。
换言之: 99.9%准确率。

也就是说,这个准确率还得提升50倍。

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2011年02月17日 星期四 17:12

高增琦 pgf00a在gmail.com
星期四 二月 17 17:12:53 CST 2011

海量科技被google收购了?是不是真的?

另外:海量科技网站的demo给出分词结果是:“棋盘 上 的 后 走 在 王后面 ”,算是差强人意

--
GaoZengqi
pgf00a在gmail.com
zengqigao在gmail.com


2011/2/17 pansz <pan.shizhu在gmail.com>

> 2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>:
> > 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。
>
> 95%准确率意味着20个词就可能出现一个不准确的。
> 绝大多数普通人不会认为这算是“成熟”的技术。
>
> 一般人能忍受千分之一错误率就不错了。
> 换言之: 99.9%准确率。
>
> 也就是说,这个准确率还得提升50倍。
> _______________________________________________
> zeuux-universe mailing list
> zeuux-universe在zeuux.org
> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
> ZEUUX Project - Free Software, Free Society!
> http://www.zeuux.org
>
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20110217/670054a7/attachment.html>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2011年02月17日 星期四 19:33

Yongwei Wu wuyongwei在gmail.com
星期四 二月 17 19:33:09 CST 2011

这个结果,也就跟我写的基于词典的分词完全一样而已。

http://wyw.dcweb.cn/w-cedict/

这是一个早期命令行版本的源代码(GPL):

http://wyw.dcweb.cn/cedict-lookup-0.1.tar.gz

2011/2/17 高增琦 <pgf00a在gmail.com>:
> 海量科技被google收购了?是不是真的?
>
> 另外:海量科技网站的demo给出分词结果是:“棋盘 上 的 后 走 在 王后面 ”,算是差强人意
>
> --
> GaoZengqi
> pgf00a在gmail.com
> zengqigao在gmail.com
>
>
> 2011/2/17 pansz <pan.shizhu在gmail.com>
>>
>> 2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>:
>> > 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。
>>
>> 95%准确率意味着20个词就可能出现一个不准确的。
>> 绝大多数普通人不会认为这算是“成熟”的技术。
>>
>> 一般人能忍受千分之一错误率就不错了。
>> 换言之: 99.9%准确率。
>>
>> 也就是说,这个准确率还得提升50倍。
>> _______________________________________________
>> zeuux-universe mailing list
>> zeuux-universe在zeuux.org
>> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>>
>> ZEUUX Project - Free Software, Free Society!
>> http://www.zeuux.org
>
> _______________________________________________
> zeuux-universe mailing list
> zeuux-universe在zeuux.org
> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
> ZEUUX Project - Free Software, Free Society!
> http://www.zeuux.org
>



-- 
Wu Yongwei
URL: http://wyw.dcweb.cn/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2011年02月18日 星期五 09:14

高增琦 pgf00a在gmail.com
星期五 二月 18 09:14:39 CST 2011

也许这个是巧合?
什么是基于词典的分词?没有概率?
--
GaoZengqi
pgf00a在gmail.com
zengqigao在gmail.com


2011/2/17 Yongwei Wu <wuyongwei在gmail.com>

> 这个结果,也就跟我写的基于词典的分词完全一样而已。
>
> http://wyw.dcweb.cn/w-cedict/
>
> 这是一个早期命令行版本的源代码(GPL):
>
> http://wyw.dcweb.cn/cedict-lookup-0.1.tar.gz
>
> 2011/2/17 高增琦 <pgf00a在gmail.com>:
> > 海量科技被google收购了?是不是真的?
> >
> > 另外:海量科技网站的demo给出分词结果是:“棋盘 上 的 后 走 在 王后面 ”,算是差强人意
> >
> > --
> > GaoZengqi
> > pgf00a在gmail.com
> > zengqigao在gmail.com
> >
> >
> > 2011/2/17 pansz <pan.shizhu在gmail.com>
> >>
> >> 2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>:
> >> > 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。
> >>
> >> 95%准确率意味着20个词就可能出现一个不准确的。
> >> 绝大多数普通人不会认为这算是“成熟”的技术。
> >>
> >> 一般人能忍受千分之一错误率就不错了。
> >> 换言之: 99.9%准确率。
> >>
> >> 也就是说,这个准确率还得提升50倍。
> >> _______________________________________________
> >> zeuux-universe mailing list
> >> zeuux-universe在zeuux.org
> >> http://www.zeuux.org/mailman/listinfo/zeuux-universe
> >>
> >> ZEUUX Project - Free Software, Free Society!
> >> http://www.zeuux.org
> >
> > _______________________________________________
> > zeuux-universe mailing list
> > zeuux-universe在zeuux.org
> > http://www.zeuux.org/mailman/listinfo/zeuux-universe
> >
> > ZEUUX Project - Free Software, Free Society!
> > http://www.zeuux.org
> >
>
>
>
> --
> Wu Yongwei
> URL: http://wyw.dcweb.cn/
>
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20110218/4a9053c2/attachment.html>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2011年02月19日 星期六 12:04

Yongwei Wu wuyongwei在gmail.com
星期六 二月 19 12:04:30 CST 2011

就是简单地根据词典寻找最大匹配,没有回溯。

2011/2/18 高增琦 <pgf00a在gmail.com>:
> 也许这个是巧合?
> 什么是基于词典的分词?没有概率?
> --
> GaoZengqi
> pgf00a在gmail.com
> zengqigao在gmail.com
>
>
> 2011/2/17 Yongwei Wu <wuyongwei在gmail.com>
>>
>> 这个结果,也就跟我写的基于词典的分词完全一样而已。
>>
>> http://wyw.dcweb.cn/w-cedict/
>>
>> 这是一个早期命令行版本的源代码(GPL):
>>
>> http://wyw.dcweb.cn/cedict-lookup-0.1.tar.gz
>>
>> 2011/2/17 高增琦 <pgf00a在gmail.com>:
>> > 海量科技被google收购了?是不是真的?
>> >
>> > 另外:海量科技网站的demo给出分词结果是:“棋盘 上 的 后 走 在 王后面 ”,算是差强人意
>> >
>> > --
>> > GaoZengqi
>> > pgf00a在gmail.com
>> > zengqigao在gmail.com
>> >
>> >
>> > 2011/2/17 pansz <pan.shizhu在gmail.com>
>> >>
>> >> 2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>:
>> >> > 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。
>> >>
>> >> 95%准确率意味着20个词就可能出现一个不准确的。
>> >> 绝大多数普通人不会认为这算是“成熟”的技术。
>> >>
>> >> 一般人能忍受千分之一错误率就不错了。
>> >> 换言之: 99.9%准确率。
>> >>
>> >> 也就是说,这个准确率还得提升50倍。
>> >> _______________________________________________
>> >> zeuux-universe mailing list
>> >> zeuux-universe在zeuux.org
>> >> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>> >>
>> >> ZEUUX Project - Free Software, Free Society!
>> >> http://www.zeuux.org
>> >
>> > _______________________________________________
>> > zeuux-universe mailing list
>> > zeuux-universe在zeuux.org
>> > http://www.zeuux.org/mailman/listinfo/zeuux-universe
>> >
>> > ZEUUX Project - Free Software, Free Society!
>> > http://www.zeuux.org
>> >
>>
>>
>>
>> --
>> Wu Yongwei
>> URL: http://wyw.dcweb.cn/
>
>



-- 
Wu Yongwei
URL: http://wyw.dcweb.cn/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号