2006年02月09日 星期四 14:12
搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? -- 『忙忙碌碌 ★ 碌碌无为』 ――――一只小蚂蚁―――― http://blog.csdn.net/qixiang_nj -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060209/22c073e8/attachment.htm
2006年02月09日 星期四 17:54
在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道: > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? 你看看google,python写的。 当然,你用C也能写出来,就是耗费体力。 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
2006年02月09日 星期四 20:39
有一些开源项目,比如: http://www.lucene.com.cn/ 我对这个也不了解 多去搜一搜吧 突然发现google又进不去了 郁闷 楼上那句"你看看google,python写的", 挺吓人的, 呵呵 On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com> wrote: > > 在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道: > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > 你看看google,python写的。 > 当然,你用C也能写出来,就是耗费体力。 > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -- http://codeplayer.blogbus.com -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060209/36a0890b/attachment.html
2006年02月10日 星期五 09:56
Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > Java > Python。 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" 一种分词的结果是"杭州市 长春 药店" 而另一种分词的结果是"杭州 市长 春药 店" 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com> wrote: > > 在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道: > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > 你看看google,python写的。 > 当然,你用C也能写出来,就是耗费体力。 > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060210/96a3beab/attachment.html
2006年02月10日 星期五 15:07
谢谢大家的回答,大家说得都很好,尤其Robert Chen。希望大家可以将讨论继续下去,各位在具体应用方面的经验也多介绍介绍。谢谢了。 在06-2-10,Robert Chen <search.pythoner at gmail.com> 写道: > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > > Java > Python。 > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 > > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 > > > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > 一种分词的结果是"杭州市 长春 药店" > 而另一种分词的结果是"杭州 市长 春药 店" > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > > > > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com> wrote: > > > > 在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道: > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > > > 你看看google,python写的。 > > 当然,你用C也能写出来,就是耗费体力。 > > > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -- 『忙忙碌碌 ★ 碌碌无为』 ――――一只小蚂蚁―――― http://blog.csdn.net/qixiang_nj -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060210/2d687ed6/attachment.html
2006年02月10日 星期五 15:55
On 2/10/06, Robert Chen <search.pythoner at gmail.com> wrote: > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > 一种分词的结果是"杭州市 长春 药店" > 而另一种分词的结果是"杭州 市长 春药 店" > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) google了下"杭州市 长春 药店"和"杭州 市长 春药 店",最下面都显示: 相关搜索: 杭州市药店 而百度则五花八门。 -- -------------------------------------------------------------------------- Yskin E-MAIL: Yskins at gmail.com BLOG: http://yskin.sitesled.com/blog
2006年02月10日 星期五 16:34
难道是专门对 "杭州市长春药店" 作的优化 :) 2006/2/10, Yskin <yskins at gmail.com>: > > On 2/10/06, Robert Chen <search.pythoner at gmail.com> wrote: > > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > > 一种分词的结果是"杭州市 长春 药店" > > 而另一种分词的结果是"杭州 市长 春药 店" > > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > > google了下"杭州市 长春 药店"和"杭州 市长 春药 店",最下面都显示: > 相关搜索: 杭州市药店 > > 而百度则五花八门。 > > -- > -------------------------------------------------------------------------- > Yskin > E-MAIL: Yskins at gmail.com > BLOG: http://yskin.sitesled.com/blog > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -- 欢迎访问我的小站: http://www.2tuzi.com blog : http://blog.2tuzi.com -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060210/dee01731/attachment.htm
2006年02月10日 星期五 23:50
在 06-2-9,huangyi<huangyi12 at gmail.com> 写道: > 楼上那句"你看看google,python写的", 挺吓人的, 呵呵 呵呵,回答有点偷懒了,不好意思。 我记得以前《程序员》有几期连载了一篇关于搜索引擎的原理和实现的文章,可以去CSDN查查看。 至于用什么语言来实现,还是那句话,按照需要了。 对于分词的算法,那些就是语言专家和算法专家、数学家的事情拉。 排序也是一样,难度很大,目前各家的解决方法都不太同。又要客观,又要可人工干预(搜索引擎赚钱的方式),不容易啊!
2006年02月11日 星期六 04:45
说点题外话, 我喜欢 google ,从他开始出现就喜欢,一直不变,因为他崇高,做商业也可以做的很高尚。 国内一些网站就完完全全是在竞争谁更卑劣谁更无耻 在06-2-10,马踏飞燕 <honeyday.mj at gmail.com> 写道: > > 在 06-2-9,huangyi<huangyi12 at gmail.com> 写道: > > > 楼上那句"你看看google,python写的", 挺吓人的, 呵呵 > > 呵呵,回答有点偷懒了,不好意思。 > 我记得以前《程序员》有几期连载了一篇关于搜索引擎的原理和实现的文章,可以去CSDN查查看。 > 至于用什么语言来实现,还是那句话,按照需要了。 > 对于分词的算法,那些就是语言专家和算法专家、数学家的事情拉。 > 排序也是一样,难度很大,目前各家的解决方法都不太同。又要客观,又要可人工干预(搜索引擎赚钱的方式),不容易啊! > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -- 欢迎访问我的小站: http://www.2tuzi.com blog : http://blog.2tuzi.com -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060211/6d357718/attachment.html
2006年02月11日 星期六 19:25
Robert Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键 On 2/10/06, Robert Chen <search.pythoner at gmail.com> wrote: > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > > Java > Python。 > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 > > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 > > > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > 一种分词的结果是"杭州市 长春 药店" > 而另一种分词的结果是"杭州 市长 春药 店" > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > > > > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com> wrote: > > > > 在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道: > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > > > 你看看google,python写的。 > > 当然,你用C也能写出来,就是耗费体力。 > > > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060211/6e900eca/attachment.html
2006年02月11日 星期六 23:11
呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天 :) On 2/11/06, Steve Chu <devforum at gmail.com> wrote: > > Robert Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键 > > On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote: > > > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > > > Java > Python。 > > > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 > > > > > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 > > > > > > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > > 一种分词的结果是"杭州市 长春 药店" > > 而另一种分词的结果是"杭州 市长 春药 店" > > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > > > > > > > > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote: > > > > > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道: > > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > > > > > 你看看google,python写的。 > > > 当然,你用C也能写出来,就是耗费体力。 > > > > > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > > > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese at lists.python.cn > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > Unsubscribe: send unsubscribe to > > > python-chinese-request at lists.python.cn > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060211/45238507/attachment.html
2006年02月12日 星期日 08:17
Albert Lee,您好! 说得好~~~ ======== 2006-02-12 03:46:17 您在来信中写道: ======== 说点题外话, 我喜欢 google ,从他开始出现就喜欢,一直不变,因为他崇高,做商业也可以做的很高尚。 国内一些网站就完完全全是在竞争谁更卑劣谁更无耻 在06-2-10,马踏飞燕 <honeyday.mj at gmail.com > 写道: 在 06-2-9,huangyi<huangyi12 at gmail.com > 写道: > 楼上那句"你看看google,python写的", 挺吓人的, 呵呵 呵呵,回答有点偷懒了,不好意思。 我记得以前《程序员》有几期连载了一篇关于搜索引擎的原理和实现的文章,可以去CSDN查查看。 至于用什么语言来实现,还是那句话,按照需要了。 对于分词的算法,那些就是语言专家和算法专家、数学家的事情拉。 排序也是一样,难度很大,目前各家的解决方法都不太同。又要客观,又要可人工干预(搜索引擎赚钱的方式),不容易啊! _______________________________________________ python-chinese Post: send python-chinese at lists.python.cn Subscribe: send subscribe to python-chinese-request at lists.python.cn Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn Detail Info: http://python.cn/mailman/listinfo/python-chinese -- 欢迎访问我的小站: http://www.2tuzi.com blog : http://blog.2tuzi.com = = = = = = = = = = = = = = = = = = = = = = 致 礼! bkkkd bkkkd at 163.com 2006-02-12 -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060212/cf780103/attachment.html
2006年02月12日 星期日 17:15
Apache的Lucene项目…… 现在有PyLucene模块的……可以Python中使用…… 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用…… 如果有感兴趣的……可以一起交流经验…… ----- Original Message ----- From: "Robert Chen" <search.pythoner at gmail.com> To: <python-chinese at lists.python.cn> Sent: Saturday, February 11, 2006 11:11 PM Subject: Re: [python-chinese] 搜索引擎 > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天 > :) > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote: >> >> Robert Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键 >> >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote: >> > >> > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ >> > > Java > Python。 >> > >> > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 >> > >> > >> > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 >> > >> > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" >> > 一种分词的结果是"杭州市 长春 药店" >> > 而另一种分词的结果是"杭州 市长 春药 店" >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) >> > >> > >> > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote: >> > > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道: >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? >> > > >> > > 你看看google,python写的。 >> > > 当然,你用C也能写出来,就是耗费体力。 >> > > >> > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) >> > > >> > > _______________________________________________ >> > > python-chinese >> > > Post: send python-chinese at lists.python.cn >> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn >> > > Unsubscribe: send unsubscribe to >> > > python-chinese-request at lists.python.cn >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese >> > > >> > > >> > >> > _______________________________________________ >> > python-chinese >> > Post: send python-chinese at lists.python.cn >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn >> > Unsubscribe: send unsubscribe to >> > python-chinese-request at lists.python.cn >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese >> > >> > >> >> _______________________________________________ >> python-chinese >> Post: send python-chinese at lists.python.cn >> Subscribe: send subscribe to python-chinese-request at lists.python.cn >> Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn >> Detail Info: http://python.cn/mailman/listinfo/python-chinese >> >> > -------------------------------------------------------------------------------- > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese
2006年02月13日 星期一 20:31
看到各位的热心回答,很感动。 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢? 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的? 在06-2-12,骨头 <7527575 at 163.com> 写道: > > Apache的Lucene项目…… > 现在有PyLucene模块的……可以Python中使用…… > > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用…… > > 如果有感兴趣的……可以一起交流经验…… > ----- Original Message ----- > From: "Robert Chen" <search.pythoner at gmail.com> > To: <python-chinese at lists.python.cn> > Sent: Saturday, February 11, 2006 11:11 PM > Subject: Re: [python-chinese] 搜索引擎 > > > > > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天 > > :) > > > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote: > >> > >> Robert > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键 > >> > >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote: > >> > > >> > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > >> > > Java > Python。 > >> > > >> > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 > >> > > >> > > >> > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 > >> > > >> > > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > >> > 一种分词的结果是"杭州市 长春 药店" > >> > 而另一种分词的结果是"杭州 市长 春药 店" > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > >> > > >> > > >> > > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote: > >> > > > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道: > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > >> > > > >> > > 你看看google,python写的。 > >> > > 当然,你用C也能写出来,就是耗费体力。 > >> > > > >> > > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > >> > > > >> > > _______________________________________________ > >> > > python-chinese > >> > > Post: send python-chinese at lists.python.cn > >> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > >> > > Unsubscribe: send unsubscribe to > >> > > python-chinese-request at lists.python.cn > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > >> > > > >> > > > >> > > >> > _______________________________________________ > >> > python-chinese > >> > Post: send python-chinese at lists.python.cn > >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn > >> > Unsubscribe: send unsubscribe to > >> > python-chinese-request at lists.python.cn > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese > >> > > >> > > >> > >> _______________________________________________ > >> python-chinese > >> Post: send python-chinese at lists.python.cn > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn > >> Unsubscribe: send unsubscribe to > python-chinese-request at lists.python.cn > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese > >> > >> > > > > > > -------------------------------------------------------------------------------- > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -- 『忙忙碌碌 ★ 碌碌无为』 ――――一只小蚂蚁―――― http://blog.csdn.net/qixiang_nj -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060213/6e89431a/attachment.htm
2006年02月13日 星期一 21:09
搜索引擎的发展是永无止境的,上次看到微软亚洲研究院副院长洪小文的《下一代互联网搜索发展趋势》就谈到当前搜索引擎的一些不足之处和微软的研究方向,如: 超链分析技术的不足 更智能化搜索 音频和视频搜索 图像搜索 移动搜索 互联网挖掘 …… On 2/13/06, 一只小蚂蚁 <qixiangnj at gmail.com> wrote: > > 看到各位的热心回答,很感动。 > 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢? > 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的? > > > 在06-2-12,骨头 <7527575 at 163.com> 写道: > > > > Apache的Lucene项目…… > > 现在有PyLucene模块的……可以Python中使用…… > > > > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用…… > > > > 如果有感兴趣的……可以一起交流经验…… > > ----- Original Message ----- > > From: "Robert Chen" <search.pythoner at gmail.com> > > To: < python-chinese at lists.python.cn> > > Sent: Saturday, February 11, 2006 11:11 PM > > Subject: Re: [python-chinese] 搜索引擎 > > > > > > > > > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天 > > > :) > > > > > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote: > > >> > > >> Robert > > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键 > > >> > > >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote: > > >> > > > >> > > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > > > > >> > > Java > Python。 > > >> > > > >> > > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 > > > > >> > > > >> > > > >> > > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 > > > > >> > > > >> > > > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > > >> > 一种分词的结果是"杭州市 长春 药店" > > >> > 而另一种分词的结果是"杭州 市长 春药 店" > > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > > >> > > > >> > > > >> > > > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote: > > >> > > > > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道: > > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > >> > > > > >> > > 你看看google,python写的。 > > >> > > 当然,你用C也能写出来,就是耗费体力。 > > >> > > > > >> > > > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > >> > > > > >> > > _______________________________________________ > > >> > > python-chinese > > >> > > Post: send python-chinese at lists.python.cn > > >> > > Subscribe: send subscribe to > > python-chinese-request at lists.python.cn > > >> > > Unsubscribe: send unsubscribe to > > >> > > python-chinese-request at lists.python.cn > > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > >> > > > > >> > > > > >> > > > >> > _______________________________________________ > > >> > python-chinese > > >> > Post: send python-chinese at lists.python.cn > > >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > >> > Unsubscribe: send unsubscribe to > > >> > python-chinese-request at lists.python.cn > > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > >> > > > >> > > > >> > > >> _______________________________________________ > > >> python-chinese > > >> Post: send python-chinese at lists.python.cn > > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn > > >> Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese > > >> > > >> > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese at lists.python.cn > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > -- > 『忙忙碌碌 ★ 碌碌无为』 > > ――――一只小蚂蚁―――― > http://blog.csdn.net/qixiang_nj > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060213/d1d06e94/attachment-0001.html
2006年02月14日 星期二 09:22
这些问题最好到donews上看那些牛人们如何侃 在06-2-13,一只小蚂蚁 <qixiangnj at gmail.com> 写道: > > 看到各位的热心回答,很感动。 > 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢? > 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的? > > > 在06-2-12,骨头 <7527575 at 163.com> 写道: > > > > Apache的Lucene项目…… > > 现在有PyLucene模块的……可以Python中使用…… > > > > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用…… > > > > 如果有感兴趣的……可以一起交流经验…… > > ----- Original Message ----- > > From: "Robert Chen" <search.pythoner at gmail.com> > > To: < python-chinese at lists.python.cn> > > Sent: Saturday, February 11, 2006 11:11 PM > > Subject: Re: [python-chinese] 搜索引擎 > > > > > > > > > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天 > > > :) > > > > > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote: > > >> > > >> Robert > > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键 > > >> > > >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote: > > >> > > > >> > > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > > > > >> > > Java > Python。 > > >> > > > >> > > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 > > > > >> > > > >> > > > >> > > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 > > > > >> > > > >> > > > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > > >> > 一种分词的结果是"杭州市 长春 药店" > > >> > 而另一种分词的结果是"杭州 市长 春药 店" > > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > > >> > > > >> > > > >> > > > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote: > > >> > > > > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道: > > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > >> > > > > >> > > 你看看google,python写的。 > > >> > > 当然,你用C也能写出来,就是耗费体力。 > > >> > > > > >> > > > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > >> > > > > >> > > _______________________________________________ > > >> > > python-chinese > > >> > > Post: send python-chinese at lists.python.cn > > >> > > Subscribe: send subscribe to > > python-chinese-request at lists.python.cn > > >> > > Unsubscribe: send unsubscribe to > > >> > > python-chinese-request at lists.python.cn > > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > >> > > > > >> > > > > >> > > > >> > _______________________________________________ > > >> > python-chinese > > >> > Post: send python-chinese at lists.python.cn > > >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > >> > Unsubscribe: send unsubscribe to > > >> > python-chinese-request at lists.python.cn > > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > >> > > > >> > > > >> > > >> _______________________________________________ > > >> python-chinese > > >> Post: send python-chinese at lists.python.cn > > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn > > >> Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese > > >> > > >> > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese at lists.python.cn > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > -- > 『忙忙碌碌 ★ 碌碌无为』 > > ――――一只小蚂蚁―――― > http://blog.csdn.net/qixiang_nj > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -- 欢迎访问我的小站: http://www.2tuzi.com blog : http://blog.2tuzi.com -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060214/84df78d1/attachment-0001.htm
2006年02月14日 星期二 09:24
Donews是什么?确实不知道呀。 On 2/13/06, Albert Lee <hanzhupeng at gmail.com> wrote: > > 这些问题最好到donews上看那些牛人们如何侃 > > 在06-2-13,一只小蚂蚁 <qixiangnj at gmail.com> 写道: > > > > 看到各位的热心回答,很感动。 > > 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢? > > > > 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的? > > > > > > 在06-2-12,骨头 <7527575 at 163.com> 写道: > > > > > > Apache的Lucene项目…… > > > 现在有PyLucene模块的……可以Python中使用…… > > > > > > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用…… > > > > > > 如果有感兴趣的……可以一起交流经验…… > > > ----- Original Message ----- > > > From: "Robert Chen" <search.pythoner at gmail.com > > > > To: < python-chinese at lists.python.cn> > > > Sent: Saturday, February 11, 2006 11:11 PM > > > Subject: Re: [python-chinese] 搜索引擎 > > > > > > > > > > > > > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天 > > > > :) > > > > > > > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote: > > > >> > > > >> Robert > > > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键 > > > >> > > > >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote: > > > >> > > > > >> > > > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > > > > > > >> > > Java > Python。 > > > >> > > > > >> > > > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 > > > > > > >> > > > > >> > > > > >> > > > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 > > > > > > >> > > > > >> > > > > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > > > >> > 一种分词的结果是"杭州市 长春 药店" > > > >> > 而另一种分词的结果是"杭州 市长 春药 店" > > > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > > > >> > > > > >> > > > > >> > > > > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote: > > > >> > > > > > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道: > > > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > > >> > > > > > >> > > 你看看google,python写的。 > > > >> > > 当然,你用C也能写出来,就是耗费体力。 > > > >> > > > > > >> > > > > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > > >> > > > > > >> > > _______________________________________________ > > > >> > > python-chinese > > > >> > > Post: send python-chinese at lists.python.cn > > > >> > > Subscribe: send subscribe to > > > python-chinese-request at lists.python.cn > > > >> > > Unsubscribe: send unsubscribe to > > > >> > > python-chinese-request at lists.python.cn > > > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > >> > > > > > >> > > > > > >> > > > > >> > _______________________________________________ > > > >> > python-chinese > > > >> > Post: send python-chinese at lists.python.cn > > > >> > Subscribe: send subscribe to > > > python-chinese-request at lists.python.cn > > > >> > Unsubscribe: send unsubscribe to > > > >> > python-chinese-request at lists.python.cn > > > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > >> > > > > >> > > > > >> > > > >> _______________________________________________ > > > >> python-chinese > > > >> Post: send python-chinese at lists.python.cn > > > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > >> Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > > > > > > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > >> > > > >> > > > > > > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > > > > _______________________________________________ > > > > python-chinese > > > > Post: send python-chinese at lists.python.cn > > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > > Unsubscribe: send unsubscribe to > > > python-chinese-request at lists.python.cn > > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese at lists.python.cn > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > Unsubscribe: send unsubscribe to > > > python-chinese-request at lists.python.cn > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > > > > > > -- > > 『忙忙碌碌 ★ 碌碌无为』 > > > > ――――一只小蚂蚁―――― > > http://blog.csdn.net/qixiang_nj > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > -- > 欢迎访问我的小站: http://www.2tuzi.com > blog : http://blog.2tuzi.com > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -- 李超群 mobile phone:13759961869 office phone:029-87607341 -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060213/1efed518/attachment.html
2006年02月14日 星期二 10:11
呵呵,恰恰相反,我觉得做搜索是大有可为的。实际上,就搜索而言,我以为Google,Baidu做得并不是很好。正如洪小文所言的,人类对于搜索的梦想是永无止境的。 纯粹就技术上而言,Google的相关排序很大程度上依赖于网页的PageRank值,这个值指明了网页在整个Internet的链接结构中的重要性。所以本质上,Google基本上只会返回给你最重要的信息来源,而不是最与查询相关的信息来源。幸运的是,对于大多数的通用查询,这两者基本上是重叠的,即重要的信息来源也是真正的相关内容的信息来源,所以这并没有什么问题。而Baidu,基于商业的目的甚至采用了竞价排名的方式...... 对于如何最方便、最只能地为用户提供最准确的查询答案,当前的通用搜索引擎做得还很不够,所以空间还很大,当然,这必须依赖于技术的突破,商业思维的突破,这跟用什么框架,用什么语言没有关系。至于一个方向可不可为,我想你基本上肯定可以听到正反两方面的意见,所以坚持自己的分析就好。牛顿之后,我们说给我们一组方程和宇宙的初始状态,我们就可以进行任何的预测,结果我们错了;所以如果市场能够百分百地预测,你也就看不到Google的崛起了。 Robert http://blog.donews.com/lemur/ On 2/13/06, 一只小蚂蚁 <qixiangnj at gmail.com> wrote: > > 看到各位的热心回答,很感动。 > 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢? > 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的? > > > 在06-2-12,骨头 <7527575 at 163.com> 写道: > > > > Apache的Lucene项目…… > > 现在有PyLucene模块的……可以Python中使用…… > > > > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用…… > > > > 如果有感兴趣的……可以一起交流经验…… > > ----- Original Message ----- > > From: "Robert Chen" <search.pythoner at gmail.com> > > To: < python-chinese at lists.python.cn> > > Sent: Saturday, February 11, 2006 11:11 PM > > Subject: Re: [python-chinese] 搜索引擎 > > > > > > > > > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天 > > > :) > > > > > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote: > > >> > > >> Robert > > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键 > > >> > > >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote: > > >> > > > >> > > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > > > > >> > > Java > Python。 > > >> > > > >> > > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 > > > > >> > > > >> > > > >> > > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 > > > > >> > > > >> > > > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > > >> > 一种分词的结果是"杭州市 长春 药店" > > >> > 而另一种分词的结果是"杭州 市长 春药 店" > > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > > >> > > > >> > > > >> > > > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote: > > >> > > > > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道: > > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > >> > > > > >> > > 你看看google,python写的。 > > >> > > 当然,你用C也能写出来,就是耗费体力。 > > >> > > > > >> > > > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > >> > > > > >> > > _______________________________________________ > > >> > > python-chinese > > >> > > Post: send python-chinese at lists.python.cn > > >> > > Subscribe: send subscribe to > > python-chinese-request at lists.python.cn > > >> > > Unsubscribe: send unsubscribe to > > >> > > python-chinese-request at lists.python.cn > > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > >> > > > > >> > > > > >> > > > >> > _______________________________________________ > > >> > python-chinese > > >> > Post: send python-chinese at lists.python.cn > > >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > >> > Unsubscribe: send unsubscribe to > > >> > python-chinese-request at lists.python.cn > > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > >> > > > >> > > > >> > > >> _______________________________________________ > > >> python-chinese > > >> Post: send python-chinese at lists.python.cn > > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn > > >> Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese > > >> > > >> > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese at lists.python.cn > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > -- > 『忙忙碌碌 ★ 碌碌无为』 > > ――――一只小蚂蚁―――― > http://blog.csdn.net/qixiang_nj > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060214/d5adcc36/attachment.htm
2006年02月14日 星期二 12:48
谢谢大家。情人节快乐!哈,与我无关的节日…… 在06-2-14,Robert Chen <search.pythoner at gmail.com> 写道: > > > 呵呵,恰恰相反,我觉得做搜索是大有可为的。实际上,就搜索而言,我以为Google,Baidu做得并不是很好。正如洪小文所言的,人类对于搜索的梦想是永无止境的。 > > 纯粹就技术上而言,Google的相关排序很大程度上依赖于网页的PageRank值,这个值指明了网页在整个Internet的链接结构中的重要性。所以本质上,Google基本上只会返回给你最重要的信息来源,而不是最与查询相关的信息来源。幸运的是,对于大多数的通用查询,这两者基本上是重叠的,即重要的信息来源也是真正的相关内容的信息来源,所以这并没有什么问题。而Baidu,基于商业的目的甚至采用了竞价排名的方式...... > > 对于如何最方便、最只能地为用户提供最准确的查询答案,当前的通用搜索引擎做得还很不够,所以空间还很大,当然,这必须依赖于技术的突破,商业思维的突破,这跟用什么框架,用什么语言没有关系。至于一个方向可不可为,我想你基本上肯定可以听到正反两方面的意见,所以坚持自己的分析就好。牛顿之后,我们说给我们一组方程和宇宙的初始状态,我们就可以进行任何的预测,结果我们错了;所以如果市场能够百分百地预测,你也就看不到Google的崛起了。 > > Robert > http://blog.donews.com/lemur/ > > On 2/13/06, 一只小蚂蚁 <qixiangnj at gmail.com> wrote: > > > > 看到各位的热心回答,很感动。 > > 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢? > > > > 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的? > > > > > > 在06-2-12,骨头 <7527575 at 163.com> 写道: > > > > > > Apache的Lucene项目…… > > > 现在有PyLucene模块的……可以Python中使用…… > > > > > > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用…… > > > > > > 如果有感兴趣的……可以一起交流经验…… > > > ----- Original Message ----- > > > From: "Robert Chen" <search.pythoner at gmail.com > > > > To: < python-chinese at lists.python.cn> > > > Sent: Saturday, February 11, 2006 11:11 PM > > > Subject: Re: [python-chinese] 搜索引擎 > > > > > > > > > > > > > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天 > > > > :) > > > > > > > > On 2/11/06, Steve Chu < devforum at gmail.com> wrote: > > > >> > > > >> Robert > > > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键 > > > >> > > > >> On 2/10/06, Robert Chen < search.pythoner at gmail.com > wrote: > > > >> > > > > >> > > > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++ > > > > > > >> > > Java > Python。 > > > >> > > > > >> > > > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。 > > > > > > >> > > > > >> > > > > >> > > > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。 > > > > > > >> > > > > >> > > > > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店" > > > >> > 一种分词的结果是"杭州市 长春 药店" > > > >> > 而另一种分词的结果是"杭州 市长 春药 店" > > > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:) > > > >> > > > > >> > > > > >> > > > > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote: > > > >> > > > > > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道: > > > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处? > > > >> > > > > > >> > > 你看看google,python写的。 > > > >> > > 当然,你用C也能写出来,就是耗费体力。 > > > >> > > > > > >> > > > > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦) > > > > > > >> > > > > > >> > > _______________________________________________ > > > >> > > python-chinese > > > >> > > Post: send python-chinese at lists.python.cn > > > >> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > > > > >> > > Unsubscribe: send unsubscribe to > > > >> > > python-chinese-request at lists.python.cn > > > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > >> > > > > > >> > > > > > >> > > > > >> > _______________________________________________ > > > >> > python-chinese > > > >> > Post: send python-chinese at lists.python.cn > > > >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > > > > >> > Unsubscribe: send unsubscribe to > > > >> > python-chinese-request at lists.python.cn > > > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > >> > > > > >> > > > > >> > > > >> _______________________________________________ > > > >> python-chinese > > > >> Post: send python-chinese at lists.python.cn > > > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > > > > >> Unsubscribe: send unsubscribe to > > > python-chinese-request at lists.python.cn > > > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > >> > > > >> > > > > > > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > > > > _______________________________________________ > > > > python-chinese > > > > Post: send python-chinese at lists.python.cn > > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > > Unsubscribe: send unsubscribe to > > > python-chinese-request at lists.python.cn > > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese at lists.python.cn > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > > > > > > -- > > 『忙忙碌碌 ★ 碌碌无为』 > > > > ――――一只小蚂蚁―――― > > http://blog.csdn.net/qixiang_nj > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > -- 『忙忙碌碌 ★ 碌碌无为』 ――――一只小蚂蚁―――― http://blog.csdn.net/qixiang_nj -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060214/9bfda126/attachment-0001.html
Zeuux © 2025
京ICP备05028076号