Python论坛  - 讨论区

标题:[python-chinese] spider 怎么才能抓取设置了必须登陆的论坛的页面?

2007年12月29日 星期六 06:39

Xian Chen hoganxian在gmail.com
星期六 十二月 29 06:39:10 HKT 2007

ÏÖÔÚ´ó¶àÊýÂÛ̳¶¼ÉèÖÃÁ˱ØÐëµÇ½²ÅÄÜ·ÃÎÊ£¬¶ÔÓÚspiderÀ´½²£¬Ôõôץȡµ½ÀïÃæµÄÒ³ÃæÄØ£¿

¶àл~~
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071229/3b9cbfe9/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月29日 星期六 09:27

@@ askfor在gmail.com
星期六 十二月 29 09:27:10 HKT 2007

ÏÖÔÚgoogleËÑË÷µ½Ò»Ð©ÂÛ̳µÄÌû×Ó ·¢ÏÖÕâ¸öÌû×ÓÊÇÒªµÇ¼²ÅÄÜ·ÃÎ浀 µ«ÊÇgoogle×¥µ½ÁËÄÚÈÝ¡£
²»ÖªµÀÂÛ̳ÊDz»ÊÇ»áÅжÏgoogle botµÄUser-Agent»òÕßʲôȻºó»á·Å¿ªµÇ¼Óû§¿ØÖÆ¡£
Èç¹ûÊǵĻ°²»ÖªµÀÄܲ»ÄÜÄ£·¶google botµÄrequest


On 12/29/07, Xian Chen <hoganxian在gmail.com> wrote:
>
> ÏÖÔÚ´ó¶àÊýÂÛ̳¶¼ÉèÖÃÁ˱ØÐëµÇ½²ÅÄÜ·ÃÎÊ£¬¶ÔÓÚspiderÀ´½²£¬Ôõôץȡµ½ÀïÃæµÄÒ³ÃæÄØ£¿
>
> ¶àл~~
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071229/cfdddb23/attachment-0001.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月29日 星期六 09:34

Xian Chen hoganxian在gmail.com
星期六 十二月 29 09:34:51 HKT 2007

ÂÛ̳¶ÔÓÚËùÓеÄËÑË÷ÒýÇ涼ÊÇ¿ª·ÅµÄÂð£¿

Ó¦¸ÃÓиöÌØÊâµÄ·½·¨°É
On Dec 29, 2007 9:27 AM, @@ <askfor在gmail.com> wrote:

> ÏÖÔÚgoogleËÑË÷µ½Ò»Ð©ÂÛ̳µÄÌû×Ó ·¢ÏÖÕâ¸öÌû×ÓÊÇÒªµÇ¼²ÅÄÜ·ÃÎ浀 µ«ÊÇgoogle×¥µ½ÁËÄÚÈÝ¡£
> ²»ÖªµÀÂÛ̳ÊDz»ÊÇ»áÅжÏgoogle botµÄUser-Agent»òÕßʲôȻºó»á·Å¿ªµÇ¼Óû§¿ØÖÆ¡£
> Èç¹ûÊǵĻ°²»ÖªµÀÄܲ»ÄÜÄ£·¶google botµÄrequest
>
>
> On 12/29/07, Xian Chen <hoganxian在gmail.com> wrote:
> >
> > ÏÖÔÚ´ó¶àÊýÂÛ̳¶¼ÉèÖÃÁ˱ØÐëµÇ½²ÅÄÜ·ÃÎÊ£¬¶ÔÓÚspiderÀ´½²£¬Ôõôץȡµ½ÀïÃæµÄÒ³ÃæÄØ£¿
> >
> > ¶àл~~
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071229/39cc3757/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月29日 星期六 09:58

Jiahua Huang jhuangjiahua在gmail.com
星期六 十二月 29 09:58:09 HKT 2007

是判断 User-Agent 的,
通常这些论坛都给 google 之类爬虫特别对待,
让 google bot 的权限比游客要高。

有些下载工具如 flashget 也会模拟为 google bot,以便下载需要登录的东西。

On Dec 29, 2007 6:39 AM, Xian Chen <hoganxian at gmail.com> wrote:
> 现在大多数论坛都设置了必须登陆才能访问,对于spider来讲,怎么抓取到里面的页面呢?
>
> 多谢~~

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月29日 星期六 11:50

Jia Ke jiakeke在gmail.com
星期六 十二月 29 11:50:45 HKT 2007

On Dec 29, 2007 9:58 AM, Jiahua Huang <jhuangjiahua在gmail.com> wrote:
> 是判断 User-Agent 的,
> 通常这些论坛都给 google 之类爬虫特别对待,
> 让 google bot 的权限比游客要高。

在理论上,Google是不允许,它的bot看到的内容跟,普通用户看到的不一样的,如果这样,它会认为过度SEO,会进行制裁,所以要小心做这样的事情。

-- 
Gary Jia 
http://blog.zenmeban.org

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月29日 星期六 12:40

Jiahua Huang jhuangjiahua在gmail.com
星期六 十二月 29 12:40:54 HKT 2007

用不着理论,
起码现在 Discuz 等几个论坛程序就是这样处理的,
方便搜索引擎索引帖子


On Dec 29, 2007 11:50 AM, Jia Ke <jiakeke at gmail.com> wrote:
> On Dec 29, 2007 9:58 AM, Jiahua Huang <jhuangjiahua at gmail.com> wrote:
> > 是判断 User-Agent 的,
> > 通常这些论坛都给 google 之类爬虫特别对待,
> > 让 google bot 的权限比游客要高。
>
> 在理论上,Google是不允许,它的bot看到的内容跟,普通用户看到的不一样的,如果这样,它会认为过度SEO,会进行制裁,所以要小心做这样的事情。
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月29日 星期六 12:43

Jiahua Huang jhuangjiahua在gmail.com
星期六 十二月 29 12:43:28 HKT 2007

再者, python 有个 Mechanize 库是专门用来模拟浏览器行为的

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月29日 星期六 13:05

Tu Tu tu.tuqiang在gmail.com
星期六 十二月 29 13:05:39 HKT 2007

ÐÞ¸ÄhttpÏûϢͷ£¬¼ÓÈësession id½øÈ¥¾ÍÐÐ

On 12/29/07, Xian Chen <hoganxian在gmail.com> wrote:
>
> ÏÖÔÚ´ó¶àÊýÂÛ̳¶¼ÉèÖÃÁ˱ØÐëµÇ½²ÅÄÜ·ÃÎÊ£¬¶ÔÓÚspiderÀ´½²£¬Ôõôץȡµ½ÀïÃæµÄÒ³ÃæÄØ£¿
>
> ¶àл~~
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
---------------------------------------------------
www.douban.com/people/tutuqiang/
---------------------------------------------------
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071229/7da2a3d2/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号