Python论坛  - 讨论区

标题:[python-chinese] 搜索引擎

2006年02月09日 星期四 14:12

一只小蚂蚁 qixiangnj at gmail.com
Thu Feb 9 14:12:23 HKT 2006

搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?

--
『忙忙碌碌   ★   碌碌无为』

――――一只小蚂蚁――――
http://blog.csdn.net/qixiang_nj
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060209/22c073e8/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月09日 星期四 17:54

马踏飞燕 honeyday.mj at gmail.com
Thu Feb 9 17:54:19 HKT 2006

在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道:
> 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?

你看看google,python写的。
当然,你用C也能写出来,就是耗费体力。
用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月09日 星期四 20:39

huangyi huangyi12 at gmail.com
Thu Feb 9 20:39:28 HKT 2006

有一些开源项目,比如:
http://www.lucene.com.cn/
我对这个也不了解 多去搜一搜吧
突然发现google又进不去了 郁闷

楼上那句"你看看google,python写的", 挺吓人的, 呵呵

On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com> wrote:
>
> 在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道:
> > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
>
> 你看看google,python写的。
> 当然,你用C也能写出来,就是耗费体力。
>
> 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>


--
http://codeplayer.blogbus.com
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060209/36a0890b/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月10日 星期五 09:56

Robert Chen search.pythoner at gmail.com
Fri Feb 10 09:56:38 HKT 2006

Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> Java > Python。

对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。

说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。

举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
一种分词的结果是"杭州市 长春 药店"
而另一种分词的结果是"杭州 市长 春药 店"
如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)



On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com> wrote:
>
> 在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道:
> > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
>
> 你看看google,python写的。
> 当然,你用C也能写出来,就是耗费体力。
>
> 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060210/96a3beab/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月10日 星期五 15:07

一只小蚂蚁 qixiangnj at gmail.com
Fri Feb 10 15:07:39 HKT 2006

谢谢大家的回答,大家说得都很好,尤其Robert Chen。希望大家可以将讨论继续下去,各位在具体应用方面的经验也多介绍介绍。谢谢了。

在06-2-10,Robert Chen <search.pythoner at gmail.com> 写道:
>
> Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> > Java > Python。
>
> 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
>
>
> 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
>
>
> 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> 一种分词的结果是"杭州市 长春 药店"
> 而另一种分词的结果是"杭州 市长 春药 店"
> 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
>
>
>
> On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com> wrote:
> >
> > 在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道:
> > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
> >
> > 你看看google,python写的。
> > 当然,你用C也能写出来,就是耗费体力。
> >
> > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>


--
『忙忙碌碌   ★   碌碌无为』

――――一只小蚂蚁――――
http://blog.csdn.net/qixiang_nj
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060210/2d687ed6/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月10日 星期五 15:55

Yskin yskins at gmail.com
Fri Feb 10 15:55:20 HKT 2006

On 2/10/06, Robert Chen <search.pythoner at gmail.com> wrote:
> 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> 一种分词的结果是"杭州市 长春 药店"
> 而另一种分词的结果是"杭州 市长 春药 店"
> 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)

google了下"杭州市 长春 药店"和"杭州 市长 春药 店",最下面都显示:
相关搜索:  杭州市药店

而百度则五花八门。

--
--------------------------------------------------------------------------
Yskin
E-MAIL: Yskins at gmail.com
BLOG: http://yskin.sitesled.com/blog

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月10日 星期五 16:34

Albert Lee hanzhupeng at gmail.com
Fri Feb 10 16:34:30 HKT 2006

难道是专门对 "杭州市长春药店" 作的优化  :)

2006/2/10, Yskin <yskins at gmail.com>:
>
> On 2/10/06, Robert Chen <search.pythoner at gmail.com> wrote:
> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> > 一种分词的结果是"杭州市 长春 药店"
> > 而另一种分词的结果是"杭州 市长 春药 店"
> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
>
> google了下"杭州市 长春 药店"和"杭州 市长 春药 店",最下面都显示:
> 相关搜索:  杭州市药店
>
> 而百度则五花八门。
>
> --
> --------------------------------------------------------------------------
> Yskin
> E-MAIL: Yskins at gmail.com
> BLOG: http://yskin.sitesled.com/blog
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>


--
欢迎访问我的小站:   http://www.2tuzi.com
blog :   http://blog.2tuzi.com
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060210/dee01731/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月10日 星期五 23:50

马踏飞燕 honeyday.mj at gmail.com
Fri Feb 10 23:50:38 HKT 2006

在 06-2-9,huangyi<huangyi12 at gmail.com> 写道:

> 楼上那句"你看看google,python写的", 挺吓人的, 呵呵

呵呵,回答有点偷懒了,不好意思。
我记得以前《程序员》有几期连载了一篇关于搜索引擎的原理和实现的文章,可以去CSDN查查看。
至于用什么语言来实现,还是那句话,按照需要了。
对于分词的算法,那些就是语言专家和算法专家、数学家的事情拉。
排序也是一样,难度很大,目前各家的解决方法都不太同。又要客观,又要可人工干预(搜索引擎赚钱的方式),不容易啊!

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月11日 星期六 04:45

Albert Lee hanzhupeng at gmail.com
Sat Feb 11 04:45:11 HKT 2006

说点题外话, 我喜欢 google ,从他开始出现就喜欢,一直不变,因为他崇高,做商业也可以做的很高尚。
国内一些网站就完完全全是在竞争谁更卑劣谁更无耻


在06-2-10,马踏飞燕 <honeyday.mj at gmail.com> 写道:
>
> 在 06-2-9,huangyi<huangyi12 at gmail.com> 写道:
>
> > 楼上那句"你看看google,python写的", 挺吓人的, 呵呵
>
> 呵呵,回答有点偷懒了,不好意思。
> 我记得以前《程序员》有几期连载了一篇关于搜索引擎的原理和实现的文章,可以去CSDN查查看。
> 至于用什么语言来实现,还是那句话,按照需要了。
> 对于分词的算法,那些就是语言专家和算法专家、数学家的事情拉。
> 排序也是一样,难度很大,目前各家的解决方法都不太同。又要客观,又要可人工干预(搜索引擎赚钱的方式),不容易啊!
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>


--
欢迎访问我的小站:   http://www.2tuzi.com
blog :   http://blog.2tuzi.com
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060211/6d357718/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月11日 星期六 19:25

Steve Chu devforum at gmail.com
Sat Feb 11 19:25:19 HKT 2006

Robert Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键

On 2/10/06, Robert Chen <search.pythoner at gmail.com> wrote:
>
> Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> > Java > Python。
>
> 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
>
>
> 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
>
>
> 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> 一种分词的结果是"杭州市 长春 药店"
> 而另一种分词的结果是"杭州 市长 春药 店"
> 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
>
>
>
> On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com> wrote:
> >
> > 在06-2-9,一只小蚂蚁 <qixiangnj at gmail.com> 写道:
> > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
> >
> > 你看看google,python写的。
> > 当然,你用C也能写出来,就是耗费体力。
> >
> > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060211/6e900eca/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月11日 星期六 23:11

Robert Chen search.pythoner at gmail.com
Sat Feb 11 23:11:16 HKT 2006

呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天
:)

On 2/11/06, Steve Chu <devforum at gmail.com> wrote:
>
> Robert Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键
>
> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote:
> >
> > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> > > Java > Python。
> >
> > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
> >
> >
> > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
> >
> >
> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> > 一种分词的结果是"杭州市 长春 药店"
> > 而另一种分词的结果是"杭州 市长 春药 店"
> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
> >
> >
> >
> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote:
> > >
> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道:
> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
> > >
> > > 你看看google,python写的。
> > > 当然,你用C也能写出来,就是耗费体力。
> > >
> > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
> > >
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese at lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > > Unsubscribe: send unsubscribe to
> > > python-chinese-request at lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >
> > >
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060211/45238507/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月12日 星期日 08:17

bkkkd bkkkd at 163.com
Sun Feb 12 08:17:44 HKT 2006

Albert Lee,您好! 

  说得好~~~

======== 2006-02-12 03:46:17 您在来信中写道: ========

说点题外话, 我喜欢 google ,从他开始出现就喜欢,一直不变,因为他崇高,做商业也可以做的很高尚。
国内一些网站就完完全全是在竞争谁更卑劣谁更无耻



在06-2-10,马踏飞燕 <honeyday.mj at gmail.com > 写道:
在 06-2-9,huangyi<huangyi12 at gmail.com > 写道:

> 楼上那句"你看看google,python写的", 挺吓人的, 呵呵

呵呵,回答有点偷懒了,不好意思。
我记得以前《程序员》有几期连载了一篇关于搜索引擎的原理和实现的文章,可以去CSDN查查看。
至于用什么语言来实现,还是那句话,按照需要了。
对于分词的算法,那些就是语言专家和算法专家、数学家的事情拉。
排序也是一样,难度很大,目前各家的解决方法都不太同。又要客观,又要可人工干预(搜索引擎赚钱的方式),不容易啊! 

_______________________________________________
python-chinese
Post: send python-chinese at lists.python.cn
Subscribe: send subscribe to python-chinese-request at lists.python.cn
Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese





-- 
欢迎访问我的小站:   http://www.2tuzi.com
blog :   http://blog.2tuzi.com 

= = = = = = = = = = = = = = = = = = = = = = 
        致
礼!

              bkkkd
              bkkkd at 163.com
               2006-02-12
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060212/cf780103/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月12日 星期日 17:15

骨头 7527575 at 163.com
Sun Feb 12 17:15:36 HKT 2006

Apache的Lucene项目……
现在有PyLucene模块的……可以Python中使用……

在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用……

如果有感兴趣的……可以一起交流经验……
----- Original Message ----- 
From: "Robert Chen" <search.pythoner at gmail.com>
To: <python-chinese at lists.python.cn>
Sent: Saturday, February 11, 2006 11:11 PM
Subject: Re: [python-chinese] 搜索引擎


> 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天
> :)
> 
> On 2/11/06, Steve Chu <devforum at gmail.com> wrote:
>>
>> Robert Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键
>>
>> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote:
>> >
>> > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
>> > > Java > Python。
>> >
>> > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
>> >
>> >
>> > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
>> >
>> >
>> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
>> > 一种分词的结果是"杭州市 长春 药店"
>> > 而另一种分词的结果是"杭州 市长 春药 店"
>> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
>> >
>> >
>> >
>> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote:
>> > >
>> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道:
>> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
>> > >
>> > > 你看看google,python写的。
>> > > 当然,你用C也能写出来,就是耗费体力。
>> > >
>> > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
>> > >
>> > > _______________________________________________
>> > > python-chinese
>> > > Post: send python-chinese at lists.python.cn
>> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
>> > > Unsubscribe: send unsubscribe to
>> > > python-chinese-request at lists.python.cn
>> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
>> > >
>> > >
>> >
>> > _______________________________________________
>> > python-chinese
>> > Post: send python-chinese at lists.python.cn
>> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
>> > Unsubscribe: send unsubscribe to
>> > python-chinese-request at lists.python.cn
>> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
>> >
>> >
>>
>> _______________________________________________
>> python-chinese
>> Post: send python-chinese at lists.python.cn
>> Subscribe: send subscribe to python-chinese-request at lists.python.cn
>> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
>> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>>
>>
>


--------------------------------------------------------------------------------


> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月13日 星期一 20:31

一只小蚂蚁 qixiangnj at gmail.com
Mon Feb 13 20:31:57 HKT 2006

看到各位的热心回答,很感动。
上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢?
另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的?


在06-2-12,骨头 <7527575 at 163.com> 写道:
>
> Apache的Lucene项目……
> 现在有PyLucene模块的……可以Python中使用……
>
> 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用……
>
> 如果有感兴趣的……可以一起交流经验……
> ----- Original Message -----
> From: "Robert Chen" <search.pythoner at gmail.com>
> To: <python-chinese at lists.python.cn>
> Sent: Saturday, February 11, 2006 11:11 PM
> Subject: Re: [python-chinese] 搜索引擎
>
>
> >
> 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天
> > :)
> >
> > On 2/11/06, Steve Chu <devforum at gmail.com> wrote:
> >>
> >> Robert
> Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键
> >>
> >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote:
> >> >
> >> >
> Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> >> > > Java > Python。
> >> >
> >> >
> 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
> >> >
> >> >
> >> >
> 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
> >> >
> >> >
> >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> >> > 一种分词的结果是"杭州市 长春 药店"
> >> > 而另一种分词的结果是"杭州 市长 春药 店"
> >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
> >> >
> >> >
> >> >
> >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote:
> >> > >
> >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道:
> >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
> >> > >
> >> > > 你看看google,python写的。
> >> > > 当然,你用C也能写出来,就是耗费体力。
> >> > >
> >> > >
> 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
> >> > >
> >> > > _______________________________________________
> >> > > python-chinese
> >> > > Post: send python-chinese at lists.python.cn
> >> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> >> > > Unsubscribe: send unsubscribe to
> >> > > python-chinese-request at lists.python.cn
> >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >> > >
> >> > >
> >> >
> >> > _______________________________________________
> >> > python-chinese
> >> > Post: send python-chinese at lists.python.cn
> >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> >> > Unsubscribe: send unsubscribe to
> >> > python-chinese-request at lists.python.cn
> >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >> >
> >> >
> >>
> >> _______________________________________________
> >> python-chinese
> >> Post: send python-chinese at lists.python.cn
> >> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> >> Unsubscribe: send unsubscribe to
> python-chinese-request at lists.python.cn
> >> Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >>
> >>
> >
>
>
>
> --------------------------------------------------------------------------------
>
>
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>


--
『忙忙碌碌   ★   碌碌无为』

――――一只小蚂蚁――――
http://blog.csdn.net/qixiang_nj
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060213/6e89431a/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月13日 星期一 21:09

Feng min feng.tank at gmail.com
Mon Feb 13 21:09:36 HKT 2006

搜索引擎的发展是永无止境的,上次看到微软亚洲研究院副院长洪小文的《下一代互联网搜索发展趋势》就谈到当前搜索引擎的一些不足之处和微软的研究方向,如:

超链分析技术的不足
更智能化搜索
音频和视频搜索
图像搜索
移动搜索
互联网挖掘
……



On 2/13/06, 一只小蚂蚁 <qixiangnj at gmail.com> wrote:
>
> 看到各位的热心回答,很感动。
> 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢?
> 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的?
>
>
> 在06-2-12,骨头 <7527575 at 163.com> 写道:
> >
> > Apache的Lucene项目……
> > 现在有PyLucene模块的……可以Python中使用……
> >
> > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用……
> >
> > 如果有感兴趣的……可以一起交流经验……
> > ----- Original Message -----
> > From: "Robert Chen" <search.pythoner at gmail.com>
> > To: < python-chinese at lists.python.cn>
> > Sent: Saturday, February 11, 2006 11:11 PM
> > Subject: Re: [python-chinese] 搜索引擎
> >
> >
> > >
> > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天
> > > :)
> > >
> > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote:
> > >>
> > >> Robert
> > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键
> > >>
> > >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote:
> > >> >
> > >> >
> > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> >
> > >> > > Java > Python。
> > >> >
> > >> >
> > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
> >
> > >> >
> > >> >
> > >> >
> > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
> >
> > >> >
> > >> >
> > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> > >> > 一种分词的结果是"杭州市 长春 药店"
> > >> > 而另一种分词的结果是"杭州 市长 春药 店"
> > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
> > >> >
> > >> >
> > >> >
> > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote:
> > >> > >
> > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道:
> > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
> > >> > >
> > >> > > 你看看google,python写的。
> > >> > > 当然,你用C也能写出来,就是耗费体力。
> > >> > >
> > >> > >
> > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
> > >> > >
> > >> > > _______________________________________________
> > >> > > python-chinese
> > >> > > Post: send python-chinese at lists.python.cn
> > >> > > Subscribe: send subscribe to
> > python-chinese-request at lists.python.cn
> > >> > > Unsubscribe: send unsubscribe to
> > >> > > python-chinese-request at lists.python.cn
> > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >> > >
> > >> > >
> > >> >
> > >> > _______________________________________________
> > >> > python-chinese
> > >> > Post: send python-chinese at lists.python.cn
> > >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > >> > Unsubscribe: send unsubscribe to
> > >> > python-chinese-request at lists.python.cn
> > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >> >
> > >> >
> > >>
> > >> _______________________________________________
> > >> python-chinese
> > >> Post: send python-chinese at lists.python.cn
> > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > >> Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >>
> > >>
> > >
> >
> >
> >
> > --------------------------------------------------------------------------------
> >
> >
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese at lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > > Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
>
>
> --
> 『忙忙碌碌   ★   碌碌无为』
>
> ――――一只小蚂蚁――――
> http://blog.csdn.net/qixiang_nj
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060213/d1d06e94/attachment-0001.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月14日 星期二 09:22

Albert Lee hanzhupeng at gmail.com
Tue Feb 14 09:22:31 HKT 2006

这些问题最好到donews上看那些牛人们如何侃

在06-2-13,一只小蚂蚁 <qixiangnj at gmail.com> 写道:
>
> 看到各位的热心回答,很感动。
> 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢?
> 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的?
>
>
> 在06-2-12,骨头 <7527575 at 163.com> 写道:
> >
> > Apache的Lucene项目……
> > 现在有PyLucene模块的……可以Python中使用……
> >
> > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用……
> >
> > 如果有感兴趣的……可以一起交流经验……
> > ----- Original Message -----
> > From: "Robert Chen" <search.pythoner at gmail.com>
> > To: < python-chinese at lists.python.cn>
> > Sent: Saturday, February 11, 2006 11:11 PM
> > Subject: Re: [python-chinese] 搜索引擎
> >
> >
> > >
> > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天
> > > :)
> > >
> > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote:
> > >>
> > >> Robert
> > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键
> > >>
> > >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote:
> > >> >
> > >> >
> > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> >
> > >> > > Java > Python。
> > >> >
> > >> >
> > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
> >
> > >> >
> > >> >
> > >> >
> > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
> >
> > >> >
> > >> >
> > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> > >> > 一种分词的结果是"杭州市 长春 药店"
> > >> > 而另一种分词的结果是"杭州 市长 春药 店"
> > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
> > >> >
> > >> >
> > >> >
> > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote:
> > >> > >
> > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道:
> > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
> > >> > >
> > >> > > 你看看google,python写的。
> > >> > > 当然,你用C也能写出来,就是耗费体力。
> > >> > >
> > >> > >
> > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
> > >> > >
> > >> > > _______________________________________________
> > >> > > python-chinese
> > >> > > Post: send python-chinese at lists.python.cn
> > >> > > Subscribe: send subscribe to
> > python-chinese-request at lists.python.cn
> > >> > > Unsubscribe: send unsubscribe to
> > >> > > python-chinese-request at lists.python.cn
> > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >> > >
> > >> > >
> > >> >
> > >> > _______________________________________________
> > >> > python-chinese
> > >> > Post: send python-chinese at lists.python.cn
> > >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > >> > Unsubscribe: send unsubscribe to
> > >> > python-chinese-request at lists.python.cn
> > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >> >
> > >> >
> > >>
> > >> _______________________________________________
> > >> python-chinese
> > >> Post: send python-chinese at lists.python.cn
> > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > >> Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >>
> > >>
> > >
> >
> >
> >
> > --------------------------------------------------------------------------------
> >
> >
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese at lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > > Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
>
>
> --
> 『忙忙碌碌   ★   碌碌无为』
>
> ――――一只小蚂蚁――――
> http://blog.csdn.net/qixiang_nj
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>


--
欢迎访问我的小站:   http://www.2tuzi.com
blog :   http://blog.2tuzi.com
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060214/84df78d1/attachment-0001.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月14日 星期二 09:24

超群李 achilles.lee at gmail.com
Tue Feb 14 09:24:45 HKT 2006

Donews是什么?确实不知道呀。

On 2/13/06, Albert Lee <hanzhupeng at gmail.com> wrote:
>
> 这些问题最好到donews上看那些牛人们如何侃
>
> 在06-2-13,一只小蚂蚁 <qixiangnj at gmail.com> 写道:
> >
> > 看到各位的热心回答,很感动。
> > 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢?
> >
> > 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的?
> >
> >
> > 在06-2-12,骨头 <7527575 at 163.com> 写道:
> > >
> > > Apache的Lucene项目……
> > > 现在有PyLucene模块的……可以Python中使用……
> > >
> > > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用……
> > >
> > > 如果有感兴趣的……可以一起交流经验……
> > > ----- Original Message -----
> > > From: "Robert Chen" <search.pythoner at gmail.com >
> > > To: < python-chinese at lists.python.cn>
> > > Sent: Saturday, February 11, 2006 11:11 PM
> > > Subject: Re: [python-chinese] 搜索引擎
> > >
> > >
> > > >
> > > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天
> > > > :)
> > > >
> > > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote:
> > > >>
> > > >> Robert
> > > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键
> > > >>
> > > >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote:
> > > >> >
> > > >> >
> > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> > >
> > > >> > > Java > Python。
> > > >> >
> > > >> >
> > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
> > >
> > > >> >
> > > >> >
> > > >> >
> > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
> > >
> > > >> >
> > > >> >
> > > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> > > >> > 一种分词的结果是"杭州市 长春 药店"
> > > >> > 而另一种分词的结果是"杭州 市长 春药 店"
> > > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
> > > >> >
> > > >> >
> > > >> >
> > > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote:
> > > >> > >
> > > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道:
> > > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
> > > >> > >
> > > >> > > 你看看google,python写的。
> > > >> > > 当然,你用C也能写出来,就是耗费体力。
> > > >> > >
> > > >> > >
> > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
> > > >> > >
> > > >> > > _______________________________________________
> > > >> > > python-chinese
> > > >> > > Post: send python-chinese at lists.python.cn
> > > >> > > Subscribe: send subscribe to
> > > python-chinese-request at lists.python.cn
> > > >> > > Unsubscribe: send unsubscribe to
> > > >> > > python-chinese-request at lists.python.cn
> > > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > > >> > >
> > > >> > >
> > > >> >
> > > >> > _______________________________________________
> > > >> > python-chinese
> > > >> > Post: send python-chinese at lists.python.cn
> > > >> > Subscribe: send subscribe to
> > > python-chinese-request at lists.python.cn
> > > >> > Unsubscribe: send unsubscribe to
> > > >> > python-chinese-request at lists.python.cn
> > > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > > >> >
> > > >> >
> > > >>
> > > >> _______________________________________________
> > > >> python-chinese
> > > >> Post: send python-chinese at lists.python.cn
> > > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > > >> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> > >
> > > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > > >>
> > > >>
> > > >
> > >
> > >
> > >
> > > --------------------------------------------------------------------------------
> > >
> > >
> > > > _______________________________________________
> > > > python-chinese
> > > > Post: send python-chinese at lists.python.cn
> > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > > > Unsubscribe: send unsubscribe to
> > > python-chinese-request at lists.python.cn
> > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese at lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > > Unsubscribe: send unsubscribe to
> > > python-chinese-request at lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >
> > >
> >
> >
> > --
> > 『忙忙碌碌   ★   碌碌无为』
> >
> > ――――一只小蚂蚁――――
> > http://blog.csdn.net/qixiang_nj
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
>
>
> --
> 欢迎访问我的小站:   http://www.2tuzi.com
> blog :   http://blog.2tuzi.com
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>


--
李超群
mobile phone:13759961869
office phone:029-87607341
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060213/1efed518/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月14日 星期二 10:11

Robert Chen search.pythoner at gmail.com
Tue Feb 14 10:11:09 HKT 2006

呵呵,恰恰相反,我觉得做搜索是大有可为的。实际上,就搜索而言,我以为Google,Baidu做得并不是很好。正如洪小文所言的,人类对于搜索的梦想是永无止境的。
纯粹就技术上而言,Google的相关排序很大程度上依赖于网页的PageRank值,这个值指明了网页在整个Internet的链接结构中的重要性。所以本质上,Google基本上只会返回给你最重要的信息来源,而不是最与查询相关的信息来源。幸运的是,对于大多数的通用查询,这两者基本上是重叠的,即重要的信息来源也是真正的相关内容的信息来源,所以这并没有什么问题。而Baidu,基于商业的目的甚至采用了竞价排名的方式......
对于如何最方便、最只能地为用户提供最准确的查询答案,当前的通用搜索引擎做得还很不够,所以空间还很大,当然,这必须依赖于技术的突破,商业思维的突破,这跟用什么框架,用什么语言没有关系。至于一个方向可不可为,我想你基本上肯定可以听到正反两方面的意见,所以坚持自己的分析就好。牛顿之后,我们说给我们一组方程和宇宙的初始状态,我们就可以进行任何的预测,结果我们错了;所以如果市场能够百分百地预测,你也就看不到Google的崛起了。

Robert
http://blog.donews.com/lemur/

On 2/13/06, 一只小蚂蚁 <qixiangnj at gmail.com> wrote:
>
> 看到各位的热心回答,很感动。
> 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢?
> 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的?
>
>
> 在06-2-12,骨头 <7527575 at 163.com> 写道:
> >
> > Apache的Lucene项目……
> > 现在有PyLucene模块的……可以Python中使用……
> >
> > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用……
> >
> > 如果有感兴趣的……可以一起交流经验……
> > ----- Original Message -----
> > From: "Robert Chen" <search.pythoner at gmail.com>
> > To: < python-chinese at lists.python.cn>
> > Sent: Saturday, February 11, 2006 11:11 PM
> > Subject: Re: [python-chinese] 搜索引擎
> >
> >
> > >
> > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天
> > > :)
> > >
> > > On 2/11/06, Steve Chu <devforum at gmail.com> wrote:
> > >>
> > >> Robert
> > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键
> > >>
> > >> On 2/10/06, Robert Chen <search.pythoner at gmail.com > wrote:
> > >> >
> > >> >
> > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> >
> > >> > > Java > Python。
> > >> >
> > >> >
> > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
> >
> > >> >
> > >> >
> > >> >
> > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
> >
> > >> >
> > >> >
> > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> > >> > 一种分词的结果是"杭州市 长春 药店"
> > >> > 而另一种分词的结果是"杭州 市长 春药 店"
> > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
> > >> >
> > >> >
> > >> >
> > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote:
> > >> > >
> > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道:
> > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
> > >> > >
> > >> > > 你看看google,python写的。
> > >> > > 当然,你用C也能写出来,就是耗费体力。
> > >> > >
> > >> > >
> > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
> > >> > >
> > >> > > _______________________________________________
> > >> > > python-chinese
> > >> > > Post: send python-chinese at lists.python.cn
> > >> > > Subscribe: send subscribe to
> > python-chinese-request at lists.python.cn
> > >> > > Unsubscribe: send unsubscribe to
> > >> > > python-chinese-request at lists.python.cn
> > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >> > >
> > >> > >
> > >> >
> > >> > _______________________________________________
> > >> > python-chinese
> > >> > Post: send python-chinese at lists.python.cn
> > >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > >> > Unsubscribe: send unsubscribe to
> > >> > python-chinese-request at lists.python.cn
> > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >> >
> > >> >
> > >>
> > >> _______________________________________________
> > >> python-chinese
> > >> Post: send python-chinese at lists.python.cn
> > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > >> Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >>
> > >>
> > >
> >
> >
> >
> > --------------------------------------------------------------------------------
> >
> >
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese at lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > > Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
>
>
> --
> 『忙忙碌碌   ★   碌碌无为』
>
> ――――一只小蚂蚁――――
> http://blog.csdn.net/qixiang_nj
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060214/d5adcc36/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年02月14日 星期二 12:48

一只小蚂蚁 qixiangnj at gmail.com
Tue Feb 14 12:48:41 HKT 2006

谢谢大家。情人节快乐!哈,与我无关的节日……


在06-2-14,Robert Chen <search.pythoner at gmail.com> 写道:
>
>
> 呵呵,恰恰相反,我觉得做搜索是大有可为的。实际上,就搜索而言,我以为Google,Baidu做得并不是很好。正如洪小文所言的,人类对于搜索的梦想是永无止境的。
>
> 纯粹就技术上而言,Google的相关排序很大程度上依赖于网页的PageRank值,这个值指明了网页在整个Internet的链接结构中的重要性。所以本质上,Google基本上只会返回给你最重要的信息来源,而不是最与查询相关的信息来源。幸运的是,对于大多数的通用查询,这两者基本上是重叠的,即重要的信息来源也是真正的相关内容的信息来源,所以这并没有什么问题。而Baidu,基于商业的目的甚至采用了竞价排名的方式......
>
> 对于如何最方便、最只能地为用户提供最准确的查询答案,当前的通用搜索引擎做得还很不够,所以空间还很大,当然,这必须依赖于技术的突破,商业思维的突破,这跟用什么框架,用什么语言没有关系。至于一个方向可不可为,我想你基本上肯定可以听到正反两方面的意见,所以坚持自己的分析就好。牛顿之后,我们说给我们一组方程和宇宙的初始状态,我们就可以进行任何的预测,结果我们错了;所以如果市场能够百分百地预测,你也就看不到Google的崛起了。
>
> Robert
> http://blog.donews.com/lemur/
>
> On 2/13/06, 一只小蚂蚁 <qixiangnj at gmail.com> wrote:
> >
> > 看到各位的热心回答,很感动。
> > 上面的几位都提到了Lucene,想请教各位,现在在实际应用中开发自己的搜索引擎的是不是很少?而一般是不是就直接用Lucene之类的做应用呢?
> >
> > 另外就是在搜索领域,google、baidu已经做得很好了,是不是意味着搜索领域已经没什么大的发展空间了,往"细分搜索"的方向,是不是可以坚持的?
> >
> >
> > 在06-2-12,骨头 <7527575 at 163.com> 写道:
> > >
> > > Apache的Lucene项目……
> > > 现在有PyLucene模块的……可以Python中使用……
> > >
> > > 在开源的全文搜索引擎领域……这个东西名气算大了……而且实际测试的效果也相当不错……本人用这个做过一些应用……
> > >
> > > 如果有感兴趣的……可以一起交流经验……
> > > ----- Original Message -----
> > > From: "Robert Chen" <search.pythoner at gmail.com >
> > > To: < python-chinese at lists.python.cn>
> > > Sent: Saturday, February 11, 2006 11:11 PM
> > > Subject: Re: [python-chinese] 搜索引擎
> > >
> > >
> > > >
> > > 呵呵,老兄所言极是,从技术上来说,算法才是搜索引擎的核心所在。用什么语言歧视没什么关系,Lucene不就是舍C/C++而取Java么,一样是红透半边天
> > > > :)
> > > >
> > > > On 2/11/06, Steve Chu < devforum at gmail.com> wrote:
> > > >>
> > > >> Robert
> > > Chen的见解比较感兴趣,Python又天生与C结缘,google到底是C还是Python,也没有考证的必要,我也觉得算法才是关键
> > > >>
> > > >> On 2/10/06, Robert Chen < search.pythoner at gmail.com > wrote:
> > > >> >
> > > >> >
> > > Google应该不是纯Python的,最核心的引擎应该是C或C++的,外围的工具可能是Python的。对于搜索引擎,速度是一个值得考虑的因素,所以核心的引擎用C或C++的可能性是比较大的,Guido也曾说过,在Google中各大语言的使用排名是C++
> > >
> > > >> > > Java > Python。
> > > >> >
> > > >> >
> > > 对于Google来说,或者对于一切搜索引擎来说,最关键的技术(算法)是相关排序,现代的所有搜索引擎对于用户的查询几乎都会返回上百万的结果,如何将用户真正需要的结果在第一页中返回是搜索引擎的核心问题,对于这个问题,Google有其自己的专利算法:PageRank,而也正是这个PageRank在一定程度上帮助了Google的崛起。爬虫技术和索引技术都是搜索引擎必不可少的,但这些技术都是非常成熟的了,对于搜索引擎的实现,不会是一个太难的点。
> > >
> > > >> >
> > > >> >
> > > >> >
> > > 说到分词(断词)技术,其实这个东西是中文搜索引擎才有的问题,对于世界上大多数的语言,并不存在分词的问题,比如英语,其词与词之间有天然的分隔,只有对于一些东方语言,比如中文等,才会存在分词技术。分词技术对于中文搜索引擎的重要性也是跟搜索引擎的核心难点―相关排序―有关的。对文本的分词将最终影响到对文本的语义的理解,而这个理解最终将影响对查询结果的相关排序。当然,现在的搜索引擎(包括Google,Baidu以及开源的Lucene)对分词结果的使用几乎都是用来进行查询关键词的匹配,并没有深入到文本的语义理解一层。
> > >
> > > >> >
> > > >> >
> > > >> > 举个例子,呵呵,这个例子在分词界是比较有名的:"杭州市长春药店"
> > > >> > 一种分词的结果是"杭州市 长春 药店"
> > > >> > 而另一种分词的结果是"杭州 市长 春药 店"
> > > >> > 如果用户查询"杭州市 药店",不同的分词结果将导致这个句子是否会作为查询结果返回:)
> > > >> >
> > > >> >
> > > >> >
> > > >> > On 2/9/06, 马踏飞燕 <honeyday.mj at gmail.com > wrote:
> > > >> > >
> > > >> > > 在06-2-9,一只小蚂蚁 < qixiangnj at gmail.com> 写道:
> > > >> > > > 搜索引擎一般用什么语言实现?对语言的要求高吗?Python在这方面有什么过人之处?
> > > >> > >
> > > >> > > 你看看google,python写的。
> > > >> > > 当然,你用C也能写出来,就是耗费体力。
> > > >> > >
> > > >> > >
> > > 用什么语言来实现不是主要问题,而主要的难题是算法。例如,爬虫技术、索引技术,还有最最难的断词技术等。(中文断词方面百度号称世界第一,呵呵,具体效果怎样就不知道啦)
> > >
> > > >> > >
> > > >> > > _______________________________________________
> > > >> > > python-chinese
> > > >> > > Post: send python-chinese at lists.python.cn
> > > >> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > >
> > > >> > > Unsubscribe: send unsubscribe to
> > > >> > > python-chinese-request at lists.python.cn
> > > >> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > > >> > >
> > > >> > >
> > > >> >
> > > >> > _______________________________________________
> > > >> > python-chinese
> > > >> > Post: send python-chinese at lists.python.cn
> > > >> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > >
> > > >> > Unsubscribe: send unsubscribe to
> > > >> > python-chinese-request at lists.python.cn
> > > >> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > > >> >
> > > >> >
> > > >>
> > > >> _______________________________________________
> > > >> python-chinese
> > > >> Post: send python-chinese at lists.python.cn
> > > >> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > >
> > > >> Unsubscribe: send unsubscribe to
> > > python-chinese-request at lists.python.cn
> > > >> Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > > >>
> > > >>
> > > >
> > >
> > >
> > >
> > > --------------------------------------------------------------------------------
> > >
> > >
> > > > _______________________________________________
> > > > python-chinese
> > > > Post: send python-chinese at lists.python.cn
> > > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > > > Unsubscribe: send unsubscribe to
> > > python-chinese-request at lists.python.cn
> > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese at lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > > Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >
> > >
> >
> >
> > --
> > 『忙忙碌碌   ★   碌碌无为』
> >
> > ――――一只小蚂蚁――――
> > http://blog.csdn.net/qixiang_nj
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>


--
『忙忙碌碌   ★   碌碌无为』

――――一只小蚂蚁――――
http://blog.csdn.net/qixiang_nj
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060214/9bfda126/attachment-0001.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号