zeuux-universe  - 讨论区

标题:[zeuux-universe] 一个命令行汉英词典程序

2009年04月18日 星期六 20:33

Yongwei Wu wuyongwei在gmail.com
星期六 四月 18 20:33:26 CST 2009

ÏÂÔصØÖ·£º

http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz

ÒªÊÔÑéһϷdz£¼òµ¥£¬ÊäÈë¡°make run¡±¼´¿É¡£Makefile»á±àÒë³ö³ÌÐò£¬²¢ÏÂÔØ
CEDICTÎļþ£¬È»ºóÔËÐС£ÊäÈëºÍÊä³öÄ¿Ç°Ö»Ö§³ÖUTF-8¡£

µ±È»£¬ÐèÒª¸Ä½øµÄµØ·½·Ç³£¶à£¬²¢ÇÒ£¬Ö»ÓдúÂ룬ûÓÐÎĵµ£¬»ù±¾Ã»ÓÐ×¢ÊÍ£¬Ëä
È»´úÂëÓ¦µ±»¹ÊÇÏ൱¸É¾»ºÍ¼ò½àµÄ¡£´úÂëÖ»ÓÐÔ¼Áù°ÙÐС£

´ó¼Ò¿´¿´ÓÐûÓÐÐËȤʹÓÃһϣ¬²¢ÌáÌáÏÂÁм¸·½ÃæµÄ·´À¡£º

- ÓÐûÓÐÐËȤ²ÎÓë³ÌÐòµÄ¸Ä½ø¹¤×÷£¬ÌرðÊÇÍⲿµÄ¹¦ÄÜÀ©Õ¹£¬È翪·¢Í¼ÐνçÃæ¡£
- Ï£ÍûʹÓÃʲôÐí¿É¡£Ä¿Ç°ÎÒÓÃÁËGPL v2+£¬µ«ÔÚ±ðÈ˹±Ï×´úÂë֮ǰ£¬ÈÔÈ»ÊÇ¿É
  ÒÔÉÌȶµÄ£¬Èç¹ûÄãÓкõÄÀíÓɵĻ°¡£
- ÆäËüÄãÈÏΪºÏÊʵÄÒâ¼û¡£

Ä¿Ç°Patrick NagelÓÃËûµÄ»úÆ÷°ïÎÒ×ö°æ±¾¹ÜÀí¡£Èç¹û´ó¼Ò·´À¡¶àµÄ»°£¬ÎÒÃÇ¿É
ÒÔÒƵ½SourceForgeÉÏ£¬¿ªÒ»¸öÕýʽµÄÏîÄ¿¡£

¼ÓÒ»¾ä¸½¼Ó˵Ã÷£¬±¾³ÌÐòÔÊÐíÊäÈëÁ¬ÐøµÄÖÐÎÄÎı¾£¬²»ÐèҪʹÓÿոñ»òÆäËü×Ö·û
½øÐзָ±ÈÈ磬ÊäÈë¡°±È¶û¡¤¸Ç´ÄÊÇ΢ÈíµÄÇ°×ܲá±£¬Äã»áµÃµ½£º

±È¶û¡¤¸Ç´Ä
	(±È –¡¤Éw´Ä {T}) {S} [Bi3 er3 ¡¤ Gai4 ci2]
	  1. Bill Gates (1955-), founder and chairman of Microsoft
ÊÇ
	{T} {S} [shi4]
	  1. is
	  2. are
	  3. am
	  4. yes
	  5. to be
΢Èí
	(΢ܛ {T}) {S} [Wei1 ruan3]
	  1. Microsoft corporation
µÄ
	{T} {S} [de5]
	  1. of
	  2. structural particle: used before a noun, linking it to preceding
possessive or descriptive attributive
	{T} {S} [di2]
	  1. really and truly
	{T} {S} [di4]
	  1. aim
	  2. clear
ǰ
	{T} {S} [qian2]
	  1. before
	  2. in front
	  3. ago
	  4. former
	  5. previous
	  6. earlier
	  7. front
	  8. prefixed word denoting respect (polite ÃÀ³Æ); foremost; premier
×ܲÃ
	(¿‚²Ã {T}) {S} [zong3 cai2]
	  1. chairman
	  2. director-general (of a company etc)

ÎâÓ½ì¿

-- 
Wu Yongwei
URL: http://wyw.dcweb.cn/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月18日 星期六 20:43

Corsair chris.corsair在gmail.com
星期六 四月 18 20:43:54 CST 2009

On Sat, Apr 18, 2009 at 08:33:26PM +0800, Yongwei Wu wrote:
> 下载地址:
> 
> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
> 
> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
> 
> 当然,需要改进的地方非常多,并且,只有代码,没有文档,基本没有注释,虽
> 然代码应当还是相当干净和简洁的。代码只有约六百行。

不是有 DICT server 么,只要做个字典就行了。

-- 
There is no emotion; there is peace.
There is no ignorance; there is knowledge.
There is no passion; there is serenity.
There is no death; there is the Force.
-------------- 下一部分 --------------
A non-text attachment was scrubbed...
Name: 不可用
Type: application/pgp-signature
Size: 198 bytes
Desc: 不可用
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20090418/747b29e4/attachment.bin>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月18日 星期六 21:14

Yongwei Wu wuyongwei在gmail.com
星期六 四月 18 21:14:41 CST 2009

2009/4/18 Corsair <chris.corsair在gmail.com>:
> On Sat, Apr 18, 2009 at 08:33:26PM +0800, Yongwei Wu wrote:
>> 下载地址:
>>
>> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
>>
>> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
>> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
>>
>> 当然,需要改进的地方非常多,并且,只有代码,没有文档,基本没有注释,虽
>> 然代码应当还是相当干净和简洁的。代码只有约六百行。
>
> 不是有 DICT server 么,只要做个字典就行了。

看了我下面的例子吗?有哪个服务器可以接受整句中文句子?

另外,你没有断网的时候?:-)

-- 
Wu Yongwei
URL: http://wyw.dcweb.cn/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月18日 星期六 21:16

Yongwei Wu wuyongwei在gmail.com
星期六 四月 18 21:16:55 CST 2009

2009/4/18 Yongwei Wu <wuyongwei在gmail.com>:
> 2009/4/18 Corsair <chris.corsair在gmail.com>:
>> On Sat, Apr 18, 2009 at 08:33:26PM +0800, Yongwei Wu wrote:
>>> 下载地址:
>>>
>>> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
>>>
>>> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
>>> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
>>>
>>> 当然,需要改进的地方非常多,并且,只有代码,没有文档,基本没有注释,虽
>>> 然代码应当还是相当干净和简洁的。代码只有约六百行。
>>
>> 不是有 DICT server 么,只要做个字典就行了。
>
> 看了我下面的例子吗?有哪个服务器可以接受整句中文句子?
>
> 另外,你没有断网的时候?:-)

抱歉,刚才对DICT server理解错了。不过,我想DICT还是不能接受整句中文的吧。

-- 
Wu Yongwei
URL: http://wyw.dcweb.cn/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月19日 星期日 02:56

monnand monnand.deng在gmail.com
星期日 四月 19 02:56:48 CST 2009

Yongwei Wu 写道:
> 2009/4/18 Yongwei Wu <wuyongwei在gmail.com>:
>   
>> 2009/4/18 Corsair <chris.corsair在gmail.com>:
>>     
>>> On Sat, Apr 18, 2009 at 08:33:26PM +0800, Yongwei Wu wrote:
>>>       
>>>> 下载地址:
>>>>
>>>> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
>>>>
>>>> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
>>>> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
>>>>
>>>> 当然,需要改进的地方非常多,并且,只有代码,没有文档,基本没有注释,虽
>>>> 然代码应当还是相当干净和简洁的。代码只有约六百行。
>>>>         
>>> 不是有 DICT server 么,只要做个字典就行了。
>>>       
>> 看了我下面的例子吗?有哪个服务器可以接受整句中文句子?
>>
>> 另外,你没有断网的时候?:-)
>>     
>
> 抱歉,刚才对DICT server理解错了。不过,我想DICT还是不能接受整句中文的吧。
>
>   
大概看了一下, 感觉这个整句翻译还是很方便的. 有个小建议, 我觉得整句翻译挺 
有用, 看了看代码, 好像这部分的功能一些是在main里面实现的. 能不能把这功能 
单独封装在dict类或者什么别的类里面, 作为一个方法, 大概的原型类似这样:
std::vector trans_sentence(const char *text, size_t len);

其实就是把main里面那个while(posmonnand在gmail.com
GTalk: monnand在gmail.com



[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月19日 星期日 07:56

zhangweiwu在realss.com zhangweiwu在realss.com
星期日 四月 19 07:56:44 CST 2009

Yongwei Wu wrote:
> 下载地址:
>
> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
>
> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
>   
还没有仔细看,但是先冒失地问一下,有没有考虑从改进wordnet、dictd以及
FreeBSD自带的命令行字典之类现有命令行词典程序开始?因为这些程序已经有一
定用户,从推广软件的角度看,使现有用户得到更好体验比说服现有用户换用不同
的新工具,更为容易办到。

-- 
Real Softservice

Baiyan Building Unit 406B
Beisihuan Zhong Road No. 238

Tel: +86 (10) 8232 7451 ext. 805
http://www.realss.com


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月19日 星期日 08:00

zhangweiwu在realss.com zhangweiwu在realss.com
星期日 四月 19 08:00:41 CST 2009

zhangweiwu at realss.com wrote:
> Yongwei Wu wrote:
>   
>> 下载地址:
>>
>> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
>>
>> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
>> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
>>   
>>     
> 还没有仔细看,但是先冒失地问一下,有没有考虑从改进wordnet、dictd以及
> FreeBSD自带的命令行字典之类现有命令行词典程序开始?因为这些程序已经有一
> 定用户,从推广软件的角度看,使现有用户得到更好体验比说服现有用户换用不同
> 的新工具,更为容易办到。
>
>   
另外提供一个信息:gnome-dictionary的命令行版本不能用,这是一个bug,还没
有人修复它。有精力的开发人员考虑一下修好这个东西?
http://bugzilla.gnome.org/show_bug.cgi?id=511745


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月19日 星期日 09:30

Yongwei Wu wuyongwei在gmail.com
星期日 四月 19 09:30:28 CST 2009

2009/4/19  <zhangweiwu在realss.com>:
> Yongwei Wu wrote:
>> 下载地址:
>>
>> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
>>
>> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
>> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
>>
> 还没有仔细看,但是先冒失地问一下,有没有考虑从改进wordnet、dictd以及
> FreeBSD自带的命令行字典之类现有命令行词典程序开始?因为这些程序已经有一
> 定用户,从推广软件的角度看,使现有用户得到更好体验比说服现有用户换用不同
> 的新工具,更为容易办到。

并不熟悉那些工具,所以……。谁有经验的可以考虑整合。我会尽量让代码更模
块化。

本来,我写这个东西,也是因为有老外在SHLUG的邮件列表上提到了类似的需
求,又有人提到了CEDICT这个CC许可的词典,一时兴起之下的周末项目。

回Monnand,我已经在考虑类似的改进。代码可重用性高一直是我的追求。但这
可能不太容易。我事实上想的是输入一个流,输出一个流。因为纯粹从数据结构
角度讲,返回值应该是:

vector > >

即,返回分割后的短语,及每个短语可能对应的多个词条。有点复杂,我不太确
定别人是否真正想用这样的返回值。

-- 
Wu Yongwei
URL: http://wyw.dcweb.cn/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月19日 星期日 10:59

Corsair chris.corsair在gmail.com
星期日 四月 19 10:59:49 CST 2009

On Sat, Apr 18, 2009 at 09:14:41PM +0800, Yongwei Wu wrote:
> 2009/4/18 Corsair <chris.corsair在gmail.com>:
> > On Sat, Apr 18, 2009 at 08:33:26PM +0800, Yongwei Wu wrote:
> >> 下载地址:
> >>
> >> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
> >>
> >> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
> >> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
> >>
> >> 当然,需要改进的地方非常多,并且,只有代码,没有文档,基本没有注释,虽
> >> 然代码应当还是相当干净和简洁的。代码只有约六百行。
> >
> > 不是有 DICT server 么,只要做个字典就行了。
> 
> 看了我下面的例子吗?有哪个服务器可以接受整句中文句子?

噢,抱歉,没看仔细... 厉害! :-)

-- 
There is no emotion; there is peace.
There is no ignorance; there is knowledge.
There is no passion; there is serenity.
There is no death; there is the Force.
-------------- 下一部分 --------------
A non-text attachment was scrubbed...
Name: 不可用
Type: application/pgp-signature
Size: 198 bytes
Desc: 不可用
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20090419/d05d5579/attachment.bin>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月21日 星期二 20:20

Kermit Mei kermit.mei在gmail.com
星期二 四月 21 20:20:48 CST 2009

On Sat, 2009-04-18 at 20:33 +0800, Yongwei Wu wrote:
> 下载地址:
> 
> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz

呵呵,Yongwei兄怎么想起来弄这个了? 说来也巧,我前阵子弄过一个英汉命令行
的,不过后来觉得没有什么人会用就改做其他软件了:

http://repo.or.cz/w/QFreeRecite.git

这是我和孔建军一起弄的,说来有点惭愧,主要是因为俺英语有点那个,记不住单
词,所以弄个软件过来自救,还是很有效果的,呵呵。 旧的版本样式在这里:

http://www.kermit-mei.info/blog/?page_id=85

> 
> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
> 
> 当然,需要改进的地方非常多,并且,只有代码,没有文档,基本没有注释,虽
> 然代码应当还是相当干净和简洁的。代码只有约六百行。
> 
> 大家看看有没有兴趣使用一下,并提提下列几方面的反馈:
> 
> - 有没有兴趣参与程序的改进工作,特别是外部的功能扩展,如开发图形界面。
如果你的功能基本规划好了,我可以用Qt4写个GUI,GTK+也可以,不过用它画界面
很不爽。

> - 希望使用什么许可。目前我用了GPL v2+,但在别人贡献代码之前,仍然是可
>   以商榷的,如果你有好的理由的话。
为什么不用GPLv3呢? (这个不是建议,是我的问题:)  )

> - 其它你认为合适的意见。

> 
> 目前Patrick Nagel用他的机器帮我做版本管理。如果大家反馈多的话,我们可
> 以移到SourceForge上,开一个正式的项目。
> 
> 加一句附加说明,本程序允许输入连续的中文文本,不需要使用空格或其它字符
> 进行分割。比如,输入“比尔・盖茨是微软的前总裁”,你会得到:

这个好玩,不过不知道这个实现是否稳妥?机器会不会按别的划分?
看代码很累,希望给点提示。

> 
> 比尔・盖茨
> 	(比・w茨 {T}) {S} [Bi3 er3 ・ Gai4 ci2]
> 	  1. Bill Gates (1955-), founder and chairman of Microsoft
>> 	{T} {S} [shi4]
> 	  1. is
> 	  2. are
> 	  3. am
> 	  4. yes
> 	  5. to be
> 微软
> 	(微 {T}) {S} [Wei1 ruan3]
> 	  1. Microsoft corporation
>> 	{T} {S} [de5]
> 	  1. of
> 	  2. structural particle: used before a noun, linking it to preceding
> possessive or descriptive attributive
> 	{T} {S} [di2]
> 	  1. really and truly
> 	{T} {S} [di4]
> 	  1. aim
> 	  2. clear
>> 	{T} {S} [qian2]
> 	  1. before
> 	  2. in front
> 	  3. ago
> 	  4. former
> 	  5. previous
> 	  6. earlier
> 	  7. front
> 	  8. prefixed word denoting respect (polite 美称); foremost; premier
> 总裁
> 	(裁 {T}) {S} [zong3 cai2]
> 	  1. chairman
> 	  2. director-general (of a company etc)
> 
> 吴咏炜

Have fun!



[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月21日 星期二 20:28

Sutra Zhou zhoushuqun在gmail.com
星期二 四月 21 20:28:03 CST 2009

2009/4/21 Kermit Mei <kermit.mei在gmail.com>:
> On Sat, 2009-04-18 at 20:33 +0800, Yongwei Wu wrote:
>> 下载地址:
>>
>> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
>
> 呵呵,Yongwei兄怎么想起来弄这个了? 说来也巧,我前阵子弄过一个英汉命令行
> 的,不过后来觉得没有什么人会用就改做其他软件了:
>
> http://repo.or.cz/w/QFreeRecite.git
>
> 这是我和孔建军一起弄的,说来有点惭愧,主要是因为俺英语有点那个,记不住单
> 词,所以弄个软件过来自救,还是很有效果的,呵呵。 旧的版本样式在这里:
>
> http://www.kermit-mei.info/blog/?page_id=85
>
>>
>> 要试验一下非常简单,输入“make run”即可。Makefile会编译出程序,并下载
>> CEDICT文件,然后运行。输入和输出目前只支持UTF-8。
>>
>> 当然,需要改进的地方非常多,并且,只有代码,没有文档,基本没有注释,虽
>> 然代码应当还是相当干净和简洁的。代码只有约六百行。
>>
>> 大家看看有没有兴趣使用一下,并提提下列几方面的反馈:
>>
>> - 有没有兴趣参与程序的改进工作,特别是外部的功能扩展,如开发图形界面。
> 如果你的功能基本规划好了,我可以用Qt4写个GUI,GTK+也可以,不过用它画界面
> 很不爽。
>
>> - 希望使用什么许可。目前我用了GPL v2+,但在别人贡献代码之前,仍然是可
>>   以商榷的,如果你有好的理由的话。
> 为什么不用GPLv3呢? (这个不是建议,是我的问题:)  )
>
>> - 其它你认为合适的意见。
>
>>
>> 目前Patrick Nagel用他的机器帮我做版本管理。如果大家反馈多的话,我们可
>> 以移到SourceForge上,开一个正式的项目。
>>
>> 加一句附加说明,本程序允许输入连续的中文文本,不需要使用空格或其它字符
>> 进行分割。比如,输入“比尔・盖茨是微软的前总裁”,你会得到:
>
> 这个好玩,不过不知道这个实现是否稳妥?机器会不会按别的划分?
> 看代码很累,希望给点提示。
>
>>
>> 比尔・盖茨
>>       (比・w茨 {T}) {S} [Bi3 er3 ・ Gai4 ci2]
>>         1. Bill Gates (1955-), founder and chairman of Microsoft
>>>>       {T} {S} [shi4]
>>         1. is
>>         2. are
>>         3. am
>>         4. yes
>>         5. to be
>> 微软
>>       (微 {T}) {S} [Wei1 ruan3]
>>         1. Microsoft corporation
>>>>       {T} {S} [de5]
>>         1. of
>>         2. structural particle: used before a noun, linking it to preceding
>> possessive or descriptive attributive
>>       {T} {S} [di2]
>>         1. really and truly
>>       {T} {S} [di4]
>>         1. aim
>>         2. clear
>>>>       {T} {S} [qian2]
>>         1. before
>>         2. in front
>>         3. ago
>>         4. former
>>         5. previous
>>         6. earlier
>>         7. front
>>         8. prefixed word denoting respect (polite 美称); foremost; premier
>> 总裁
>>       (裁 {T}) {S} [zong3 cai2]
>>         1. chairman
>>         2. director-general (of a company etc)
>>
>> 吴咏炜
>
> Have fun!

请问找个词典和stardict有什么区别(目前我看到的区别好像就是分词)呢?如果都是GPL的为什么不在stardict的基础上继续呢?

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月21日 星期二 21:32

Yongwei Wu wuyongwei在gmail.com
星期二 四月 21 21:32:30 CST 2009

2009/4/21 Kermit Mei <kermit.mei在gmail.com>:
> On Sat, 2009-04-18 at 20:33 +0800, Yongwei Wu wrote:
>> 下载地址:
>>
>> http://wyw.dcweb.cn/download.asp?path=&file;=cedict-lookup-0.1.tar.gz
>
> 呵呵,Yongwei兄怎么想起来弄这个了? 说来也巧,我前阵子弄过一个英汉命令行
> 的,不过后来觉得没有什么人会用就改做其他软件了:

一时凑巧,一时兴起。正好有人问相关问题,正好有人给出了CEDICT的URL。正
好觉得用词典来分词的想法值得写程序来实践一下。

>> 大家看看有没有兴趣使用一下,并提提下列几方面的反馈:
>>
>> - 有没有兴趣参与程序的改进工作,特别是外部的功能扩展,如开发图形界面。
> 如果你的功能基本规划好了,我可以用Qt4写个GUI,GTK+也可以,不过用它画界面
> 很不爽。

命令行是给自己和其它程序员用的。如果普通用户用的话,需要有好的界面。这
方面我不是专家。我只打算把这个程序的模块化做好,易于重用。

>> - 希望使用什么许可。目前我用了GPL v2+,但在别人贡献代码之前,仍然是可
>>   以商榷的,如果你有好的理由的话。
> 为什么不用GPLv3呢? (这个不是建议,是我的问题:)  )

我以前甚至都没有使用GPL,一直是用BSD类的许可。既然自己没有太多理念上的
要求,我喜欢给别人多一点自由。这次觉得让商业开发者赚便宜也不好,就尝试
一下GPL。GPL v2+可以和v2或v3一起合用。如果只是GPL v3的话,v2的程序就不
能一起编译了。

>> - 其它你认为合适的意见。
>
>>
>> 目前Patrick Nagel用他的机器帮我做版本管理。如果大家反馈多的话,我们可
>> 以移到SourceForge上,开一个正式的项目。
>>
>> 加一句附加说明,本程序允许输入连续的中文文本,不需要使用空格或其它字符
>> 进行分割。比如,输入“比尔・盖茨是微软的前总裁”,你会得到:
>
> 这个好玩,不过不知道这个实现是否稳妥?机器会不会按别的划分?

要不是为了这个,我就不写这个代码了。其它东西已经被很多人实现过了。当然
不是百分百可靠,但目前试验下来,分词错误的情况非常少。毕竟使用的词典条
目数相当高。

> 看代码很累,希望给点提示。

cedict::dict::match的代码才约40行,啃啃就下来了:-)。

原理实际也很简单,词典初始化时对词条进行排序,然后文本进来就对词条进行
匹配,匹配成功就加一个字符,直到匹配失败为止。看最后一次成功的匹配,就
得到了分词结果和词条。

-- 
Wu Yongwei
URL: http://wyw.dcweb.cn/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月21日 星期二 21:41

Yongwei Wu wuyongwei在gmail.com
星期二 四月 21 21:41:31 CST 2009

2009/4/21 Sutra Zhou <zhoushuqun在gmail.com>:
> 请问找个词典和stardict有什么区别(目前我看到的区别好像就是分词)呢?
> 如果都是GPL的为什么不在stardict的基础上继续呢?

我不是GUI的程序员,对stardict的代码也完全不熟悉。我想做的只是命令行,
还有可重用的模块,也许以后还会扩展到一个小的服务器。目前Patrick已经写
了一个简单的脚本,可以直接在Web上查词[1]。欢迎大家自由组合。

[1] http://patrick-nagel.net/cedict-lookup.php

-- 
Wu Yongwei
URL: http://wyw.dcweb.cn/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月21日 星期二 21:47

Sutra Zhou zhoushuqun在gmail.com
星期二 四月 21 21:47:21 CST 2009

2009/4/21 Yongwei Wu <wuyongwei在gmail.com>:
> 2009/4/21 Sutra Zhou <zhoushuqun在gmail.com>:
>> 请问找个词典和stardict有什么区别(目前我看到的区别好像就是分词)呢?
>> 如果都是GPL的为什么不在stardict的基础上继续呢?
>
> 我不是GUI的程序员,对stardict的代码也完全不熟悉。我想做的只是命令行,
> 还有可重用的模块,也许以后还会扩展到一个小的服务器。目前Patrick已经写
> 了一个简单的脚本,可以直接在Web上查词[1]。欢迎大家自由组合。
>
> [1] http://patrick-nagel.net/cedict-lookup.php
>
补充一个分词的事情,我不知道你现在分词功能是不是自己实现的,分词可以考虑这个:
http://www.nlp.org.cn/project/project.php?proj_id=6
,而不是自己去实现分词,如果要实现分词,那么分词代码应该考虑和词典分开成两个项目。

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月21日 星期二 21:57

Yongwei Wu wuyongwei在gmail.com
星期二 四月 21 21:57:06 CST 2009

2009/4/21 Sutra Zhou <zhoushuqun在gmail.com>:
> 2009/4/21 Yongwei Wu <wuyongwei在gmail.com>:
>> 2009/4/21 Sutra Zhou <zhoushuqun在gmail.com>:
>>> 请问找个词典和stardict有什么区别(目前我看到的区别好像就是分词)呢?
>>> 如果都是GPL的为什么不在stardict的基础上继续呢?
>>
>> 我不是GUI的程序员,对stardict的代码也完全不熟悉。我想做的只是命令行,
>> 还有可重用的模块,也许以后还会扩展到一个小的服务器。目前Patrick已经写
>> 了一个简单的脚本,可以直接在Web上查词[1]。欢迎大家自由组合。
>>
>> [1] http://patrick-nagel.net/cedict-lookup.php
>>
> 补充一个分词的事情,我不知道你现在分词功能是不是自己实现的,分词可以考虑这个:
> http://www.nlp.org.cn/project/project.php?proj_id=6
> ,而不是自己去实现分词,如果要实现分词,那么分词代码应该考虑和词典分开成两个项目。

我做得就是靠词典实现的分词,所以不存在分开一说。

我的实现的复杂度跟你的链接中完全不能类比。总共才几百行代码,效果应该比
那个差,但UNIX的哲学就是简单为美。另外,我自己目前自测中碰到的失败例子
非常少。

-- 
Wu Yongwei
URL: http://wyw.dcweb.cn/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年04月24日 星期五 02:44

Bill Xu bill在zeuux.org
星期五 四月 24 02:44:01 CST 2009


Yongwei Wu 写道:
> 2009/4/21 Sutra Zhou <zhoushuqun在gmail.com>:
>   
>> 请问找个词典和stardict有什么区别(目前我看到的区别好像就是分词)呢?
>> 如果都是GPL的为什么不在stardict的基础上继续呢?
>>     
>
> 我不是GUI的程序员,对stardict的代码也完全不熟悉。我想做的只是命令行,
> 还有可重用的模块,也许以后还会扩展到一个小的服务器。目前Patrick已经写
> 了一个简单的脚本,可以直接在Web上查词[1]。欢迎大家自由组合。
>   
非常好的产品创意!命令行下的翻译有独特的优势,比如和man结合起来,对于英 
文不好的系统管理员来说,将是很实用的。

$ man freedom | dict


> [1] http://patrick-nagel.net/cedict-lookup.php
>
>   
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20090424/2d546a9e/attachment.html>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号