2007年12月29日 星期六 06:39
ÏÖÔÚ´ó¶àÊýÂÛ̳¶¼ÉèÖÃÁ˱ØÐëµÇ½²ÅÄÜ·ÃÎÊ£¬¶ÔÓÚspiderÀ´½²£¬Ôõôץȡµ½ÀïÃæµÄÒ³ÃæÄØ£¿ ¶àл~~ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071229/3b9cbfe9/attachment.html
2007年12月29日 星期六 09:27
ÏÖÔÚgoogleËÑË÷µ½Ò»Ð©ÂÛ̳µÄÌû×Ó ·¢ÏÖÕâ¸öÌû×ÓÊÇÒªµÇ¼²ÅÄÜ·ÃÎ浀 µ«ÊÇgoogle×¥µ½ÁËÄÚÈÝ¡£ ²»ÖªµÀÂÛ̳ÊDz»ÊÇ»áÅжÏgoogle botµÄUser-Agent»òÕßʲôȻºó»á·Å¿ªµÇ¼Óû§¿ØÖÆ¡£ Èç¹ûÊǵĻ°²»ÖªµÀÄܲ»ÄÜÄ£·¶google botµÄrequest On 12/29/07, Xian Chen <hoganxian在gmail.com> wrote: > > ÏÖÔÚ´ó¶àÊýÂÛ̳¶¼ÉèÖÃÁ˱ØÐëµÇ½²ÅÄÜ·ÃÎÊ£¬¶ÔÓÚspiderÀ´½²£¬Ôõôץȡµ½ÀïÃæµÄÒ³ÃæÄØ£¿ > > ¶àл~~ > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071229/cfdddb23/attachment-0001.html
2007年12月29日 星期六 09:34
ÂÛ̳¶ÔÓÚËùÓеÄËÑË÷ÒýÇ涼ÊÇ¿ª·ÅµÄÂ𣿠Ӧ¸ÃÓиöÌØÊâµÄ·½·¨°É On Dec 29, 2007 9:27 AM, @@ <askfor在gmail.com> wrote: > ÏÖÔÚgoogleËÑË÷µ½Ò»Ð©ÂÛ̳µÄÌû×Ó ·¢ÏÖÕâ¸öÌû×ÓÊÇÒªµÇ¼²ÅÄÜ·ÃÎ浀 µ«ÊÇgoogle×¥µ½ÁËÄÚÈÝ¡£ > ²»ÖªµÀÂÛ̳ÊDz»ÊÇ»áÅжÏgoogle botµÄUser-Agent»òÕßʲôȻºó»á·Å¿ªµÇ¼Óû§¿ØÖÆ¡£ > Èç¹ûÊǵĻ°²»ÖªµÀÄܲ»ÄÜÄ£·¶google botµÄrequest > > > On 12/29/07, Xian Chen <hoganxian在gmail.com> wrote: > > > > ÏÖÔÚ´ó¶àÊýÂÛ̳¶¼ÉèÖÃÁ˱ØÐëµÇ½²ÅÄÜ·ÃÎÊ£¬¶ÔÓÚspiderÀ´½²£¬Ôõôץȡµ½ÀïÃæµÄÒ³ÃæÄØ£¿ > > > > ¶àл~~ > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request在lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071229/39cc3757/attachment.html
2007年12月29日 星期六 09:58
是判断 User-Agent 的, 通常这些论坛都给 google 之类爬虫特别对待, 让 google bot 的权限比游客要高。 有些下载工具如 flashget 也会模拟为 google bot,以便下载需要登录的东西。 On Dec 29, 2007 6:39 AM, Xian Chen <hoganxian at gmail.com> wrote: > 现在大多数论坛都设置了必须登陆才能访问,对于spider来讲,怎么抓取到里面的页面呢? > > 多谢~~
2007年12月29日 星期六 11:50
On Dec 29, 2007 9:58 AM, Jiahua Huang <jhuangjiahua在gmail.com> wrote: > 是判断 User-Agent 的, > 通常这些论坛都给 google 之类爬虫特别对待, > 让 google bot 的权限比游客要高。 在理论上,Google是不允许,它的bot看到的内容跟,普通用户看到的不一样的,如果这样,它会认为过度SEO,会进行制裁,所以要小心做这样的事情。 -- Gary Jiahttp://blog.zenmeban.org
2007年12月29日 星期六 12:40
用不着理论, 起码现在 Discuz 等几个论坛程序就是这样处理的, 方便搜索引擎索引帖子 On Dec 29, 2007 11:50 AM, Jia Ke <jiakeke at gmail.com> wrote: > On Dec 29, 2007 9:58 AM, Jiahua Huang <jhuangjiahua at gmail.com> wrote: > > 是判断 User-Agent 的, > > 通常这些论坛都给 google 之类爬虫特别对待, > > 让 google bot 的权限比游客要高。 > > 在理论上,Google是不允许,它的bot看到的内容跟,普通用户看到的不一样的,如果这样,它会认为过度SEO,会进行制裁,所以要小心做这样的事情。 >
2007年12月29日 星期六 12:43
再者, python 有个 Mechanize 库是专门用来模拟浏览器行为的
2007年12月29日 星期六 13:05
ÐÞ¸ÄhttpÏûϢͷ£¬¼ÓÈësession id½øÈ¥¾ÍÐÐ On 12/29/07, Xian Chen <hoganxian在gmail.com> wrote: > > ÏÖÔÚ´ó¶àÊýÂÛ̳¶¼ÉèÖÃÁ˱ØÐëµÇ½²ÅÄÜ·ÃÎÊ£¬¶ÔÓÚspiderÀ´½²£¬Ôõôץȡµ½ÀïÃæµÄÒ³ÃæÄØ£¿ > > ¶àл~~ > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -- --------------------------------------------------- www.douban.com/people/tutuqiang/ --------------------------------------------------- -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071229/7da2a3d2/attachment.html
Zeuux © 2024
京ICP备05028076号