2011年02月17日 星期四 16:55
On 2010-11-8 14:27, 吕韦甫 wrote: > 事实上,中文分词一真没有做出很好的,到现在也还是高校的一个研究課題, 不同意你这个说法。我认为现在中文分词已经很成熟了,不多要不是掌握在search engine手里,要不就是商业方案(比如海量科技)。 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。 如果Weiwu能承受购买的开支,海量科技肯定有成熟的解决方案。 > 这方面,用得比较多的应该是wikipedia的转换api > 你可以看一下这个: > http://zh.wikipedia.org/zh-cn/Help:繁简处理/技术方案 > 和 > http://code.google.com/p/mediawiki-zhconverter/ > > 拼音和简繁转换其实本质上是一样的,关键都是在分词和词库 :) > > > > --- 10年11月8日,周一, Zhang Weiwu<zhangweiwu at realss.com> 写道: > >> 发件人: Zhang Weiwu<zhangweiwu at realss.com> >> 主题: [zeuux-universe] 中文转换为拼音(及简繁转换) >> 收件人: zeuux-universe at zeuux.org >> 抄送: "王鹏辉"<wangpenghui at realss.com>, "炜"<acevery at gmail.com>, =?UTF-8?B?5L2Z6ZKw?=@z.billxu.com >> 日期: 2010年11月8日,周一,上午11:41 >> >> 有一个项目上用得到这方面的内容。中文转拼音,程序或库,网上易搜索到的多 >> 是对多音字取最常见的拼音,这样输出的结果错误很多,比一一对应简繁体 >> 转换 >> 程序(网上常见到)的错误还要多得多。 >> >> 和简繁转换一样,拼音要做好必须做分词,按词处理,不是按字处理。 >> >> 想问一下有没有开源的产品做中文转换为拼音的?我觉得这个肯定不难做,开源的 >> 分词系统如ictclas早就有很多年了,开源的词库也很多了 >> (ubuntu上就带一 >> 个,ibus-table-extraphrase包里有),两者结合一下,做个库/命令行程序出来 >> 似不难,应该已经有人 >> 做出来了,只是我如何搜索都搜不到。 >> >> 同理,开源的中文简繁转换程序(用分词原理)肯定也应该做出来了。 >> >> 两者要做到最好都不易,分词很难做好的。比如“棋盘上的后走在王后面”,分词程 >> 序可能误判为“棋盘 上 的 后 走 在 王后 >> 面”,这样就错了,会引起繁体变为“棋 >> 盤上的後走在王后 面”(这是Google >> translate的输出),而正确的分词是“棋盘 >> 上 的 后 走 在 王 >> 后面”,繁体应该是“棋盤上的后走在王後面”。有分词功能还 >> 会出这 种错误,连Google >> translator都会出错的,那么不带分词功能的简繁体转 >> 换就更不靠谱了。 > > > > > _______________________________________________ > zeuux-universe mailing list > zeuux-universe at zeuux.org > http://www.zeuux.org/mailman/listinfo/zeuux-universe > > ZEUUX Project - Free Software, Free Society! > http://www.zeuux.org -- 夏清然 Gtalk qingran.xia at gmail.com http://www.qingran.net
2011年02月17日 星期四 17:01
2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>: > 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。 95%准确率意味着20个词就可能出现一个不准确的。 绝大多数普通人不会认为这算是“成熟”的技术。 一般人能忍受千分之一错误率就不错了。 换言之: 99.9%准确率。 也就是说,这个准确率还得提升50倍。
2011年02月17日 星期四 17:12
海量科技被google收购了?是不是真的? 另外:海量科技网站的demo给出分词结果是:“棋盘 上 的 后 走 在 王后面 ”,算是差强人意 -- GaoZengqi pgf00a在gmail.com zengqigao在gmail.com 2011/2/17 pansz <pan.shizhu在gmail.com> > 2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>: > > 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。 > > 95%准确率意味着20个词就可能出现一个不准确的。 > 绝大多数普通人不会认为这算是“成熟”的技术。 > > 一般人能忍受千分之一错误率就不错了。 > 换言之: 99.9%准确率。 > > 也就是说,这个准确率还得提升50倍。 > _______________________________________________ > zeuux-universe mailing list > zeuux-universe在zeuux.org > http://www.zeuux.org/mailman/listinfo/zeuux-universe > > ZEUUX Project - Free Software, Free Society! > http://www.zeuux.org > -------------- 下一部分 -------------- 一个HTML附件被移除... URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20110217/670054a7/attachment.html>
2011年02月17日 星期四 19:33
这个结果,也就跟我写的基于词典的分词完全一样而已。 http://wyw.dcweb.cn/w-cedict/ 这是一个早期命令行版本的源代码(GPL): http://wyw.dcweb.cn/cedict-lookup-0.1.tar.gz 2011/2/17 高增琦 <pgf00a在gmail.com>: > 海量科技被google收购了?是不是真的? > > 另外:海量科技网站的demo给出分词结果是:“棋盘 上 的 后 走 在 王后面 ”,算是差强人意 > > -- > GaoZengqi > pgf00a在gmail.com > zengqigao在gmail.com > > > 2011/2/17 pansz <pan.shizhu在gmail.com> >> >> 2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>: >> > 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。 >> >> 95%准确率意味着20个词就可能出现一个不准确的。 >> 绝大多数普通人不会认为这算是“成熟”的技术。 >> >> 一般人能忍受千分之一错误率就不错了。 >> 换言之: 99.9%准确率。 >> >> 也就是说,这个准确率还得提升50倍。 >> _______________________________________________ >> zeuux-universe mailing list >> zeuux-universe在zeuux.org >> http://www.zeuux.org/mailman/listinfo/zeuux-universe >> >> ZEUUX Project - Free Software, Free Society! >> http://www.zeuux.org > > _______________________________________________ > zeuux-universe mailing list > zeuux-universe在zeuux.org > http://www.zeuux.org/mailman/listinfo/zeuux-universe > > ZEUUX Project - Free Software, Free Society! > http://www.zeuux.org > -- Wu Yongwei URL: http://wyw.dcweb.cn/
2011年02月18日 星期五 09:14
也许这个是巧合? 什么是基于词典的分词?没有概率? -- GaoZengqi pgf00a在gmail.com zengqigao在gmail.com 2011/2/17 Yongwei Wu <wuyongwei在gmail.com> > 这个结果,也就跟我写的基于词典的分词完全一样而已。 > > http://wyw.dcweb.cn/w-cedict/ > > 这是一个早期命令行版本的源代码(GPL): > > http://wyw.dcweb.cn/cedict-lookup-0.1.tar.gz > > 2011/2/17 高增琦 <pgf00a在gmail.com>: > > 海量科技被google收购了?是不是真的? > > > > 另外:海量科技网站的demo给出分词结果是:“棋盘 上 的 后 走 在 王后面 ”,算是差强人意 > > > > -- > > GaoZengqi > > pgf00a在gmail.com > > zengqigao在gmail.com > > > > > > 2011/2/17 pansz <pan.shizhu在gmail.com> > >> > >> 2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>: > >> > 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。 > >> > >> 95%准确率意味着20个词就可能出现一个不准确的。 > >> 绝大多数普通人不会认为这算是“成熟”的技术。 > >> > >> 一般人能忍受千分之一错误率就不错了。 > >> 换言之: 99.9%准确率。 > >> > >> 也就是说,这个准确率还得提升50倍。 > >> _______________________________________________ > >> zeuux-universe mailing list > >> zeuux-universe在zeuux.org > >> http://www.zeuux.org/mailman/listinfo/zeuux-universe > >> > >> ZEUUX Project - Free Software, Free Society! > >> http://www.zeuux.org > > > > _______________________________________________ > > zeuux-universe mailing list > > zeuux-universe在zeuux.org > > http://www.zeuux.org/mailman/listinfo/zeuux-universe > > > > ZEUUX Project - Free Software, Free Society! > > http://www.zeuux.org > > > > > > -- > Wu Yongwei > URL: http://wyw.dcweb.cn/ > -------------- 下一部分 -------------- 一个HTML附件被移除... URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20110218/4a9053c2/attachment.html>
2011年02月19日 星期六 12:04
就是简单地根据词典寻找最大匹配,没有回溯。 2011/2/18 高增琦 <pgf00a在gmail.com>: > 也许这个是巧合? > 什么是基于词典的分词?没有概率? > -- > GaoZengqi > pgf00a在gmail.com > zengqigao在gmail.com > > > 2011/2/17 Yongwei Wu <wuyongwei在gmail.com> >> >> 这个结果,也就跟我写的基于词典的分词完全一样而已。 >> >> http://wyw.dcweb.cn/w-cedict/ >> >> 这是一个早期命令行版本的源代码(GPL): >> >> http://wyw.dcweb.cn/cedict-lookup-0.1.tar.gz >> >> 2011/2/17 高增琦 <pgf00a在gmail.com>: >> > 海量科技被google收购了?是不是真的? >> > >> > 另外:海量科技网站的demo给出分词结果是:“棋盘 上 的 后 走 在 王后面 ”,算是差强人意 >> > >> > -- >> > GaoZengqi >> > pgf00a在gmail.com >> > zengqigao在gmail.com >> > >> > >> > 2011/2/17 pansz <pan.shizhu在gmail.com> >> >> >> >> 2011/2/17 夏清然 Xia Qingran <qingran在zeuux.org>: >> >> > 07年我们用的那个分词库,常用文章的准确率已经超过95%,而且速度飞快。 >> >> >> >> 95%准确率意味着20个词就可能出现一个不准确的。 >> >> 绝大多数普通人不会认为这算是“成熟”的技术。 >> >> >> >> 一般人能忍受千分之一错误率就不错了。 >> >> 换言之: 99.9%准确率。 >> >> >> >> 也就是说,这个准确率还得提升50倍。 >> >> _______________________________________________ >> >> zeuux-universe mailing list >> >> zeuux-universe在zeuux.org >> >> http://www.zeuux.org/mailman/listinfo/zeuux-universe >> >> >> >> ZEUUX Project - Free Software, Free Society! >> >> http://www.zeuux.org >> > >> > _______________________________________________ >> > zeuux-universe mailing list >> > zeuux-universe在zeuux.org >> > http://www.zeuux.org/mailman/listinfo/zeuux-universe >> > >> > ZEUUX Project - Free Software, Free Society! >> > http://www.zeuux.org >> > >> >> >> >> -- >> Wu Yongwei >> URL: http://wyw.dcweb.cn/ > > -- Wu Yongwei URL: http://wyw.dcweb.cn/
Zeuux © 2024
京ICP备05028076号