binheart

binheart的博客

他的个人主页  他的博客

也许汉语分词是一个错误的方向

binheart  2011年06月08日 星期三 15:31 | 2180次浏览 | 1条评论

汉语分词 搜索 中文 西文 人工智能 自然语言理解

也许汉语分词是一个错误的方向

今天从一本《古汉语句读》中读到下面一段话:

===引用开始===

古代汉语句读分析,人们首先注意的是“句”,即现代所说的句子。中国人句读分析的顺序是句、读、字,而不是西方式的语素、词、词组、句子,这跟东西方不同的思维模式有关:西方重分析,东方则重综合。季羡林显示认为,“汉语言没有形态变化,只看单独一个词儿,你就不敢判定它的含义。必须把它放在一个词组或句子中,它的含义才能判断。使用惯了这种语言的中国人,特别是汉族,在潜意识里就习惯于普遍联系,习惯于整体观念。”古汉语句读分析的句、读、字顺序,就是这种整体观念的具体体现。

===引用结束===

想到人工智能中对于中文语言的预处理,首先就是中文分词,就是把一段句子按照意思分成单个的词语,因为英文词与词之间有天然的空格,所以不需要分词,这里对汉语的处理方式,其实是仿照了英文,而事实上,正如上述所说,中文和英文是两种差异很大的语言,这里的差异指的是语言的结构方式,中文必须把单个词放到整个句子里才能确定其确切的含义,为什么人工智能面对西文会按照一个词一个词去处理呢?说到底还是无法让机器做到真正理解自然语言,只能采取最原始的办法“匹配”,就是说你必须提供一个或一些用于匹配的所谓“关键字”,然后再根据这些关键字进行全文检索,找到的就列出来,找不到就返回为空,换句话说,计算机只能做到手指的程度,对于手指所指的月亮就无能为力了,鉴于我们IT从业者对于中文知识的极度匮乏,我们就直接照搬西方学者的人工智能理论,中文检索也采取类似的匹配算法,完全没有考虑中文自身的特点,或许换一个方向,不再对中文进行分词,改为分析其含义,是否会发展出全新的人工智能理论呢?

评论

我的评论:

发表评论

请 登录 后发表评论。还没有在Zeuux哲思注册吗?现在 注册 !
鄺徽

回复 鄺徽  2012年08月10日 星期五 16:44

我也是在研究分詞,hownet義原,然後搜索“漢語 分詞 錯誤方向”路過的。 同意樓主思維

0条回复

暂时没有评论

Zeuux © 2024

京ICP备05028076号