zeuux-universe  - 讨论区

标题:[zeuux-universe] 请教一下搜索引擎的原理

2009年02月11日 星期三 11:45

Kermit Mei kermit.mei在gmail.com
星期三 二月 11 11:45:45 CST 2009

俺现在越来越觉得google这个东西太神奇了,我搜我的ID,居然
连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对
此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实
现的?

市面上有一本书叫《自己动手写搜索引擎》,因为它是用Java写的,
而我对Java好不感冒,所以就没有看。希望对此了解的朋友能够给俺指
点一下其中的原理,google是怎么知道哪些网页上有用户关键字能够
索引到的资源的呢? 尤其是那些犄角旮旯里的东西,它居然都可以搜
到。

难道google的服务器机群会为了一个普通用户的请求,在全世界的IP
上搜索用户要的内容?然后把最长搜索的缓存起来?

谢谢!



[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月11日 星期三 12:02

Sutra Zhou zhoushuqun在gmail.com
星期三 二月 11 12:02:39 CST 2009

2009/2/11 Kermit Mei <kermit.mei在gmail.com>:
> 俺现在越来越觉得google这个东西太神奇了,我搜我的ID,居然
> 连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对
> 此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实
> 现的?
>
> 市面上有一本书叫《自己动手写搜索引擎》,因为它是用Java写的,
> 而我对Java好不感冒,所以就没有看。希望对此了解的朋友能够给俺指
> 点一下其中的原理,google是怎么知道哪些网页上有用户关键字能够
> 索引到的资源的呢? 尤其是那些犄角旮旯里的东西,它居然都可以搜
> 到。
>
> 难道google的服务器机群会为了一个普通用户的请求,在全世界的IP
> 上搜索用户要的内容?然后把最长搜索的缓存起来?
>
> 谢谢!
>
>
> _______________________________________________
> zeuux-universe mailing list
> zeuux-universe在zeuux.org
> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
> ZEUUX Project - Free Software, Free Society!
> http://www.zeuux.org


反向索引
Java类库:
Lucene(http://lucene.apache.org/)
Nutch(http://lucene.apache.org/nutch/)
-- 
今天要带伞吗?——雨雪天气会通过手机短信[免费](也可以选择其它方式)在指定的时间提醒您出门别忘记带伞。 http://xiayu.info/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月11日 星期三 13:15

trydofor trydofor在gmail.com
星期三 二月 11 13:15:07 CST 2009

对搜索引擎没啥研究,google提到了这个东西
http://labs.google.com/papers/mapreduce.html

Kermit Mei wrote:
> 
俺现在越来
> 越觉得google这个东西太神奇了,我搜我的ID,居然 > 连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对 > 此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实 > 现的? > > 市面上有一本书叫《自己动手写搜索引擎》,因为它是用Java写的, > 而我对Java好不感冒,所以就没有看。希望对此了解的朋友能够给俺指 > 点一下其中的原理,google是怎么知道哪些网页上有用户关键字能够 > 索引到的资源的呢? 尤其是那些犄角旮旯里的东西,它居然都可以搜 > 到。 > > 难道google的服务器机群会为了一个普通用户的请求,在全世界的IP > 上搜索用户要的内容?然后把最长搜索的缓存起来? > > 谢谢! > > > > >

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月11日 星期三 13:31

Xia Qingran qingran在zeuux.org
星期三 二月 11 13:31:56 CST 2009

trydofor wrote:
> 对搜索引擎没啥研究, google提到了这个东西
> http://labs.google.com/papers/mapreduce.html
这个只是讲一个具体的工程技术map reduce.

想从宏观了解搜索引擎的,可以看看wikipedia的这个文章:
http://en.wikipedia.org/wiki/Search_engines

-- 
夏清然
Xia Qingran
E-mail: qingran at zeuux.org
Gtalk: qingran.xia at gmail.com
MSN: supermanxqr at msn.com


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月11日 星期三 19:14

monnand monnand.deng在gmail.com
星期三 二月 11 19:14:17 CST 2009

Kermit Mei 写道:
> 俺现在越来越觉得 google这个东西太神奇了,我搜我的ID,居然
> 连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对
> 此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实
> 现的?
这篇论文是当年google两个创始人的博士论文(?不记得是不是了, 反正是他俩写 
的). google当初也就是靠这套算法起家的: 
http://infolab.stanford.edu/~backrub/google.html
>
> 市面上有一本书叫《自己动手写搜索引擎》,因为它是用Java写的,
> 而我对Java好不感冒,所以就没有看。希望对此了解的朋友能够给俺指
> 点一下其中的原理,google是怎么知道哪些网页上有用户关键字能够
> 索引到的资源的呢? 尤其是那些犄角旮旯里的东西,它居然都可以搜
> 到。
O'REILLY有本书叫 Programming Collective Intelligence. 中文翻译叫``集体智 
慧编程''. 作者是Toby Segaran. 里面就介绍了搜索引擎 还有很多有意思的算法. 
代码是用python写的. 值得一看
>
> 难道google的服务器机群会为了一个普通用户的请求,在全世界的IP
> 上搜索用户要的内容?然后把最长搜索的缓存起来?
>
> 谢谢!
>
>
> _______________________________________________
> zeuux-universe mailing list
> zeuux-universe在zeuux.org
> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
> ZEUUX Project - Free Software, Free Society!
> http://www.zeuux.org


-- 
Regards

monnand
Email: monnand在gmail.com
GTalk: monnand在gmail.com



[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月11日 星期三 20:00

Kermit Mei kermit.mei在gmail.com
星期三 二月 11 20:00:01 CST 2009

monnand wrote:
> Kermit Mei 写道:
>> 俺现在越来越觉得 google这个东西太神奇了,我搜我的ID,居然
>> 连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对
>> 此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实
>> 现的?
> 这篇论文是当年google两个创始人的博士论文(?不记得是不是了, 反正是他俩写 
> 的). google当初也就是靠这套算法起家的: 
> http://infolab.stanford.edu/~backrub/google.html  

> O'REILLY有本书叫 Programming Collective Intelligence. 中文翻译叫``集体 
> 智 慧编程''. 作者是Toby Segaran. 里面就介绍了搜索引擎 还有很多有意思的 
> 算法. 代码是用python写的. 值得一看
太好了,谢谢!


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月11日 星期三 22:56

Bill Xu bill在zeuux.org
星期三 二月 11 22:56:54 CST 2009

给大家介绍个朋友,钟华,原新浪iask搜索的资深工程师。有搜索的具体问题可以 
请教钟华同学,:)


Kermit Mei 写道:
> monnand wrote:
>> Kermit Mei 写道:
>>> 俺现在越来越觉得 google这个东西太神奇了,我搜我的ID,居然
>>> 连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对
>>> 此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实
>>> 现的?
>> 这篇论文是当年google两个创始人的博士论文(?不记得是不是了, 反正是他俩 
>> 写 的). google当初也就是靠这套算法起家的: 
>> http://infolab.stanford.edu/~backrub/google.html  
> 
>> O'REILLY有本书叫 Programming Collective Intelligence. 中文翻译叫``集 
>> 体 智 慧编程''. 作者是Toby Segaran. 里面就介绍了搜索引擎 还有很多有意 
>> 思的算法. 代码是用python写的. 值得一看
> 太好了,谢谢!
>
> _______________________________________________
> zeuux-universe mailing list
> zeuux-universe在zeuux.org
> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
> ZEUUX Project - Free Software, Free Society!
> http://www.zeuux.org

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月11日 星期三 23:07

soker coolzhh在gmail.com
星期三 二月 11 23:07:16 CST 2009

      很高兴来到这里,有幸与各位认识,以后就多向各牛人们学习啦!
bill是我在sina认识牛人之一,很感谢他把我介绍到这里.一直以来都在搜索行业里,到现在也没个名,惭愧之极呀,希望在各们的帮助下,能所有进步,有所提高.谢谢!!

soker

2009/2/11 Bill Xu <bill在zeuux.org>

> 给大家介绍个朋友,钟华,原新浪iask搜索的资深工程师。有搜索的具体问题可以 请教钟华同学,:)
>
>
> Kermit Mei 写道:
>
>> monnand wrote:
>>
>>> Kermit Mei 写道:
>>>
>>>> 俺现在越来越觉得 google这个东西太神奇了,我搜我的ID,居然
>>>> 连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对
>>>> 此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实
>>>> 现的?
>>>>
>>> 这篇论文是当年google两个创始人的博士论文(?不记得是不是了, 反正是他俩 写 的). google当初也就是靠这套算法起家的:
>>> http://infolab.stanford.edu/~backrub/google.html>
>>>
>> 
>>
>>> O'REILLY有本书叫 Programming Collective Intelligence. 中文翻译叫``集 体 智 慧编程''.
>>> 作者是Toby Segaran. 里面就介绍了搜索引擎 还有很多有意 思的算法. 代码是用python写的. 值得一看
>>>
>> 太好了,谢谢!
>>
>> _______________________________________________
>> zeuux-universe mailing list
>> zeuux-universe在zeuux.org
>> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>>
>> ZEUUX Project - Free Software, Free Society!
>> http://www.zeuux.org
>>
> _______________________________________________
> zeuux-universe mailing list
> zeuux-universe在zeuux.org
> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
> ZEUUX Project - Free Software, Free Society!
> http://www.zeuux.org




-- 
sokerspace.com
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20090211/89131430/attachment-0001.html>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月11日 星期三 23:16

monnand monnand.deng在gmail.com
星期三 二月 11 23:16:52 CST 2009

soker 写道:
> 很高兴来到这里,有幸与各位认识,以后就多向各牛人们学习啦! bill是我在sina
> 认识牛人之一,很感谢他把我介绍到这里.一直以来都在搜索行业里,到现在也没
> 个名,惭愧之极呀,希望在各们的帮助下,能所有进步, 有所提高.谢谢!!
欢迎欢迎. 有问题的话还请多多指教了
>
> soker
>
> 2009/2/11 Bill Xu <bill在zeuux.org bill在zeuux.org>>
>
>     给大家介绍个朋友,钟华,原新浪iask搜索的资深工程师。有搜索的具体问
>     题可以 请教钟华同学,:)
>
>
>     Kermit Mei 写道:
>
>         monnand wrote:
>
>             Kermit Mei 写道:
>
>                 俺现在越来越觉得 google这个东西太神奇了,我搜我的ID,居然
>                 连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对
>                 此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实
>                 现的?
>
>             这篇论文是当年google两个创始人的博士论文(?不记得是不是了,
>             反正是他俩 写 的). google当初也就是靠这套算法起家的:
>             http://infolab.stanford.edu/~backrub/google.html
>             <http://infolab.stanford.edu/%7Ebackrub/google.html>
>
>         
>
>             O'REILLY有本书叫 Programming Collective Intelligence. 中文
>             翻译叫``集 体 智 慧编程''. 作者是Toby Segaran. 里面就介绍
>             了搜索引擎 还有很多有意 思的算法. 代码是用python写的. 值得一看
>
>         太好了,谢谢!
>
>         _______________________________________________
>         zeuux-universe mailing list
>         zeuux-universe在zeuux.org zeuux-universe在zeuux.org>
>         http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
>         ZEUUX Project - Free Software, Free Society!
>         http://www.zeuux.org
>
>     _______________________________________________
>     zeuux-universe mailing list
>     zeuux-universe在zeuux.org zeuux-universe在zeuux.org>
>     http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
>     ZEUUX Project - Free Software, Free Society!
>     http://www.zeuux.org
>
>
>
>
> -- 
> sokerspace.com <http://sokerspace.com>
> ------------------------------------------------------------------------
>
> _______________________________________________
> zeuux-universe mailing list
> zeuux-universe在zeuux.org
> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
> ZEUUX Project - Free Software, Free Society!
> http://www.zeuux.org


-- 
Regards

monnand
Email: monnand在gmail.com
GTalk: monnand在gmail.com



[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月11日 星期三 23:35

Zoom.Quiet zoom.quiet在gmail.com
星期三 二月 11 23:35:18 CST 2009

2009/2/11 Bill Xu <bill在zeuux.org>:
> 给大家介绍个朋友,钟华,原新浪iask搜索的资深工程师。有搜索的具体问题可以 请教钟华同学,:)
>
好哪!俺这儿也刚好需要搜索相关的支持,,,以便开展金山内部的搜索服务提供,多多沟通了,,,

>
> Kermit Mei 写道:
>>
>> monnand wrote:
>>>
>>> Kermit Mei 写道:
>>>>
>>>> 俺现在越来越觉得 google这个东西太神奇了,我搜我的ID,居然
>>>> 连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对
>>>> 此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实
>>>> 现的?
>>>
>>> 这篇论文是当年google两个创始人的博士论文(?不记得是不是了, 反正是他俩 写 的). google当初也就是靠这套算法起家的:
>>> http://infolab.stanford.edu/~backrub/google.html
>>
>> 
>>>
>>> O'REILLY有本书叫 Programming Collective Intelligence. 中文翻译叫``集 体 智 慧编程''.
>>> 作者是Toby Segaran. 里面就介绍了搜索引擎 还有很多有意 思的算法. 代码是用python写的. 值得一看
>>
>> 太好了,谢谢!



-- 
http://zoomquiet.org
'''过程改进乃是催生可促生靠谱的人的组织!'''
一个人如果力求完善自己,就会看到:为此也必须同时完善他人. 一个人如果不关心别人的完善,自己便不可能完善!

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2009年02月12日 星期四 16:40

John Hax johnhax在gmail.com
星期四 二月 12 16:40:58 CST 2009

就一般而言,google比较其他搜索引擎并没有什么神奇。

我所讶异的在于,在google上搜索我的名字,
可以搜到我的两个blog。然而其中一个blog上根本没有我的名字(只有我的网名),只有另外一个blog上有。google是如何知道那一个blog与我的关联的?而且还放在所有搜索结果之前!!实在百思不得其解。


2009/2/11 soker <coolzhh在gmail.com>

>       很高兴来到这里,有幸与各位认识,以后就多向各牛人们学习啦!
> bill是我在sina认识牛人之一,很感谢他把我介绍到这里.一直以来都在搜索行业里,到现在也没个名,惭愧之极呀,希望在各们的帮助下,能所有进步,有所提高.谢谢!!
>
> soker
>
> 2009/2/11 Bill Xu <bill在zeuux.org>
>
> 给大家介绍个朋友,钟华,原新浪iask搜索的资深工程师。有搜索的具体问题可以 请教钟华同学,:)
>>
>>
>> Kermit Mei 写道:
>>
>>> monnand wrote:
>>>
>>>> Kermit Mei 写道:
>>>>
>>>>> 俺现在越来越觉得 google这个东西太神奇了,我搜我的ID,居然
>>>>> 连我在同学blog上或者其他很小的网站上的留言都搜得到。以前对
>>>>> 此没有仔细想,现在想想真觉得不可思议,这个在技术上是怎么实
>>>>> 现的?
>>>>>
>>>> 这篇论文是当年google两个创始人的博士论文(?不记得是不是了, 反正是他俩 写 的). google当初也就是靠这套算法起家的:
>>>> http://infolab.stanford.edu/~backrub/google.html>
>>>>
>>> 
>>>
>>>> O'REILLY有本书叫 Programming Collective Intelligence. 中文翻译叫``集 体 智 慧编程''.
>>>> 作者是Toby Segaran. 里面就介绍了搜索引擎 还有很多有意 思的算法. 代码是用python写的. 值得一看
>>>>
>>> 太好了,谢谢!
>>>
>>> _______________________________________________
>>> zeuux-universe mailing list
>>> zeuux-universe在zeuux.org
>>> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>>>
>>> ZEUUX Project - Free Software, Free Society!
>>> http://www.zeuux.org
>>>
>> _______________________________________________
>> zeuux-universe mailing list
>> zeuux-universe在zeuux.org
>> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>>
>> ZEUUX Project - Free Software, Free Society!
>> http://www.zeuux.org
>
>
>
>
> --
> sokerspace.com
>
> _______________________________________________
> zeuux-universe mailing list
> zeuux-universe在zeuux.org
> http://www.zeuux.org/mailman/listinfo/zeuux-universe
>
> ZEUUX Project - Free Software, Free Society!
> http://www.zeuux.org
>
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20090212/345b3a73/attachment.html>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号