binheart 2011年06月08日 星期三 15:31 | 2180次浏览 | 1条评论
汉语分词 搜索 中文 西文 人工智能 自然语言理解
也许汉语分词是一个错误的方向
今天从一本《古汉语句读》中读到下面一段话:
===引用开始===
古代汉语句读分析,人们首先注意的是“句”,即现代所说的句子。中国人句读分析的顺序是句、读、字,而不是西方式的语素、词、词组、句子,这跟东西方不同的思维模式有关:西方重分析,东方则重综合。季羡林显示认为,“汉语言没有形态变化,只看单独一个词儿,你就不敢判定它的含义。必须把它放在一个词组或句子中,它的含义才能判断。使用惯了这种语言的中国人,特别是汉族,在潜意识里就习惯于普遍联系,习惯于整体观念。”古汉语句读分析的句、读、字顺序,就是这种整体观念的具体体现。
===引用结束===
想到人工智能中对于中文语言的预处理,首先就是中文分词,就是把一段句子按照意思分成单个的词语,因为英文词与词之间有天然的空格,所以不需要分词,这里对汉语的处理方式,其实是仿照了英文,而事实上,正如上述所说,中文和英文是两种差异很大的语言,这里的差异指的是语言的结构方式,中文必须把单个词放到整个句子里才能确定其确切的含义,为什么人工智能面对西文会按照一个词一个词去处理呢?说到底还是无法让机器做到真正理解自然语言,只能采取最原始的办法“匹配”,就是说你必须提供一个或一些用于匹配的所谓“关键字”,然后再根据这些关键字进行全文检索,找到的就列出来,找不到就返回为空,换句话说,计算机只能做到手指的程度,对于手指所指的月亮就无能为力了,鉴于我们IT从业者对于中文知识的极度匮乏,我们就直接照搬西方学者的人工智能理论,中文检索也采取类似的匹配算法,完全没有考虑中文自身的特点,或许换一个方向,不再对中文进行分词,改为分析其含义,是否会发展出全新的人工智能理论呢?
Zeuux © 2024
京ICP备05028076号
回复 鄺徽 2012年08月10日 星期五 16:44