binheart的博客

也许汉语分词是一个错误的方向

binheart 2011年06月08日星期三 15:31 | 2220次浏览 | 1条评论

汉语分词搜索中文西文人工智能自然语言理解

也许汉语分词是一个错误的方向

今天从一本《古汉语句读》中读到下面一段话：

===引用开始===

古代汉语句读分析，人们首先注意的是“句”，即现代所说的句子。中国人句读分析的顺序是句、读、字，而不是西方式的语素、词、词组、句子，这跟东西方不同的思维模式有关：西方重分析，东方则重综合。季羡林显示认为，“汉语言没有形态变化，只看单独一个词儿，你就不敢判定它的含义。必须把它放在一个词组或句子中，它的含义才能判断。使用惯了这种语言的中国人，特别是汉族，在潜意识里就习惯于普遍联系，习惯于整体观念。”古汉语句读分析的句、读、字顺序，就是这种整体观念的具体体现。

===引用结束===

想到人工智能中对于中文语言的预处理，首先就是中文分词，就是把一段句子按照意思分成单个的词语，因为英文词与词之间有天然的空格，所以不需要分词，这里对汉语的处理方式，其实是仿照了英文，而事实上，正如上述所说，中文和英文是两种差异很大的语言，这里的差异指的是语言的结构方式，中文必须把单个词放到整个句子里才能确定其确切的含义，为什么人工智能面对西文会按照一个词一个词去处理呢？说到底还是无法让机器做到真正理解自然语言，只能采取最原始的办法“匹配”，就是说你必须提供一个或一些用于匹配的所谓“关键字”，然后再根据这些关键字进行全文检索，找到的就列出来，找不到就返回为空，换句话说，计算机只能做到手指的程度，对于手指所指的月亮就无能为力了，鉴于我们IT从业者对于中文知识的极度匮乏，我们就直接照搬西方学者的人工智能理论，中文检索也采取类似的匹配算法，完全没有考虑中文自身的特点，或许换一个方向，不再对中文进行分词，改为分析其含义，是否会发展出全新的人工智能理论呢？

分享添加到桌面

回复鄺徽 2012年08月10日星期五 16:44

我也是在研究分詞，hownet義原，然後搜索“漢語分詞錯誤方向”路過的。同意樓主思維

0条回复

也许汉语分词是一个错误的方向

评论

回复 鄺徽 2012年08月10日 星期五 16:44

回复鄺徽 2012年08月10日星期五 16:44