Python论坛  - 讨论区

标题:[python-chinese] python spider

2007年11月01日 星期四 11:02

Xian Chen hoganxian在gmail.com
星期四 十一月 1 11:02:06 HKT 2007

Hi,

ÓÐûÓбȽϺõÄpython spider¿ÉÒÔ¶¨ÏòץȡÂÛ̳֮ÀàµÄ¡£

лл:)
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071101/7c985dbd/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年11月01日 星期四 11:15

yuan xuan xuanyuan14.leo在gmail.com
星期四 十一月 1 11:15:11 HKT 2007

直接用urllib2就成啊。

在07-11-1,Xian Chen <hoganxian在gmail.com> 写道:
>
> Hi,
>
> 有没有比较好的python spider可以定向抓取论坛之类的。
>
> 谢谢:)
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20071101/332e23f6/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年11月01日 星期四 12:39

Wayne moonbingbing在gmail.com
星期四 十一月 1 12:39:30 HKT 2007

有些网站的内容用urllib2得不到。比如http://www.my-proxy.com/list/proxy.php
不知道爬虫是否可以爬到?

在07-11-1,yuan xuan <xuanyuan14.leo at gmail.com> 写道:
>
> 直接用urllib2就成啊。
>
> 在07-11-1,Xian Chen <hoganxian at gmail.com> 写道:
> >
> > Hi,
> >
> > 有没有比较好的python spider可以定向抓取论坛之类的。
> >
> > 谢谢:)
> >
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
wayne
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20071101/d9b0bf61/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年11月01日 星期四 12:43

yuan xuan xuanyuan14.leo在gmail.com
星期四 十一月 1 12:43:47 HKT 2007

有些页面需要认证的,就用cookie,需要代理的,就用代理方式连接。
这个lib很好用:mechanize

在07-11-1,Wayne <moonbingbing在gmail.com> 写道:
>
> 有些网站的内容用urllib2得不到。比如http://www.my-proxy.com/list/proxy.php
> 不知道爬虫是否可以爬到?
>
> 在07-11-1,yuan xuan <xuanyuan14.leo在gmail.com> 写道:
> >
> > 直接用urllib2就成啊。
> >
> > 在07-11-1,Xian Chen <hoganxian在gmail.com > 写道:
> > >
> > > Hi,
> > >
> > > 有没有比较好的python spider可以定向抓取论坛之类的。
> > >
> > > 谢谢:)
> > >
> > >
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese在lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > > Unsubscribe: send unsubscribe to
> > > python-chinese-request在lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >
> >
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
>
>
>
> --
> wayne
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20071101/faf46659/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年11月05日 星期一 16:16

??? ?? clfff.peter在gmail.com
星期一 十一月 5 16:16:53 HKT 2007

mechanizeÔÚÄÄѽ£¿Ã»ÕÒµ½Ñ½¡£

ÔÚ07-11-1£¬yuan xuan <xuanyuan14.leo在gmail.com> дµÀ£º
>
> ÓÐЩҳÃæÐèÒªÈÏÖ¤µÄ£¬¾ÍÓÃcookie£¬ÐèÒª´úÀíµÄ£¬¾ÍÓôúÀí·½Ê½Á¬½Ó¡£
> Õâ¸ölibºÜºÃÓãºmechanize
>
> ÔÚ07-11-1£¬Wayne <moonbingbing在gmail.com> дµÀ£º
> >
> > ÓÐЩÍøÕ¾µÄÄÚÈÝÓÃurllib2µÃ²»µ½¡£±ÈÈç http://www.my-proxy.com/list/proxy.php
> > ²»ÖªµÀÅÀ³æÊÇ·ñ¿ÉÒÔÅÀµ½£¿
> >
> > ÔÚ07-11-1£¬yuan xuan <xuanyuan14.leo在gmail.com > дµÀ£º
> > >
> > > Ö±½ÓÓÃurllib2¾Í³É°¡¡£
> > >
> > > ÔÚ07-11-1£¬Xian Chen <hoganxian在gmail.com > дµÀ£º
> > > >
> > > > Hi,
> > > >
> > > > ÓÐûÓбȽϺõÄpython spider¿ÉÒÔ¶¨ÏòץȡÂÛ̳֮ÀàµÄ¡£
> > > >
> > > > лл:)
> > > >
> > > >
> > > > _______________________________________________
> > > > python-chinese
> > > > Post: send python-chinese在lists.python.cn
> > > > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > > > Unsubscribe: send unsubscribe to
> > > > python-chinese-request在lists.python.cn
> > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > > >
> > >
> > >
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese在lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > > Unsubscribe: send unsubscribe to
> > > python-chinese-request在lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> > >
> >
> >
> >
> > --
> > wayne
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071105/29bd742c/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年11月05日 星期一 16:21

vicalloy zbirder在gmail.com
星期一 十一月 5 16:21:50 HKT 2007

如果没有实时性要求,可以先用离线浏览器抓回来再慢慢分析。
-- 
Blog http://vicalloy.spaces.live.com/
My googlepage http://vicalloy.googlepages.com/
OldPhoto http://www.lzpian.com/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年11月05日 星期一 16:29

Jiahua Huang jhuangjiahua在gmail.com
星期一 十一月 5 16:29:23 HKT 2007

在 http header 加个
('Referer','http://www.my-proxy.com/list/proxy.php')

在 07-11-1,Wayne<moonbingbing at gmail.com> 写道:
> 有些网站的内容用urllib2得不到。比如http://www.my-proxy.com/list/proxy.php
> 不知道爬虫是否可以爬到?
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年11月05日 星期一 16:30

Jiahua Huang jhuangjiahua在gmail.com
星期一 十一月 5 16:30:48 HKT 2007

简单地用 wget 就可以抓了,

wget 也有 windows 下版本,
仔细设好参数

在 07-11-1,Xian Chen<hoganxian at gmail.com> 写道:
> Hi,
>
> 有没有比较好的python spider可以定向抓取论坛之类的。
>
> 谢谢:)
>
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年11月05日 星期一 17:15

yuan xuan xuanyuan14.leo在gmail.com
星期一 十一月 5 17:15:36 HKT 2007

在这里:
http://wwwsearch.sourceforge.net/mechanize/

在07-11-5,??? ?? <clfff.peter在gmail.com> 写道:
>
> mechanize在哪呀?没找到呀。
>
> 在07-11-1,yuan xuan <xuanyuan14.leo在gmail.com> 写道:
> >
> > 有些页面需要认证的,就用cookie,需要代理的,就用代理方式连接。
> > 这个lib很好用:mechanize
> >
> > 在07-11-1,Wayne <moonbingbing在gmail.com> 写道:
> > >
> > > 有些网站的内容用urllib2得不到。比如 http://www.my-proxy.com/list/proxy.php
> > > 不知道爬虫是否可以爬到?
> > >
> > > 在07-11-1,yuan xuan <xuanyuan14.leo在gmail.com > 写道:
> > > >
> > > > 直接用urllib2就成啊。
> > > >
> > > <http://python.cn/mailman/listinfo/python-chinese>
>
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20071105/4d0457c8/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年11月05日 星期一 17:28

??? ?? clfff.peter在gmail.com
星期一 十一月 5 17:28:50 HKT 2007

лл¡£

ÔÚ07-11-5£¬yuan xuan <xuanyuan14.leo在gmail.com> дµÀ£º
>
> ÔÚÕâÀ
> http://wwwsearch.sourceforge.net/mechanize/
>
> ÔÚ07-11-5£¬ ??? ?? <clfff.peter在gmail.com> дµÀ£º
> >
> > mechanizeÔÚÄÄѽ£¿Ã»ÕÒµ½Ñ½¡£
> >
> > ÔÚ07-11-1£¬yuan xuan <xuanyuan14.leo在gmail.com > дµÀ£º
> > >
> > > ÓÐЩҳÃæÐèÒªÈÏÖ¤µÄ£¬¾ÍÓÃcookie£¬ÐèÒª´úÀíµÄ£¬¾ÍÓôúÀí·½Ê½Á¬½Ó¡£
> > > Õâ¸ölibºÜºÃÓãºmechanize
> > >
> > > ÔÚ07-11-1£¬Wayne <moonbingbing在gmail.com> дµÀ£º
> > > >
> > > > ÓÐЩÍøÕ¾µÄÄÚÈÝÓÃurllib2µÃ²»µ½¡£±ÈÈç http://www.my-proxy.com/list/proxy.php
> > > > ²»ÖªµÀÅÀ³æÊÇ·ñ¿ÉÒÔÅÀµ½£¿
> > > >
> > > > ÔÚ07-11-1£¬yuan xuan <xuanyuan14.leo在gmail.com > дµÀ£º
> > > > >
> > > > > Ö±½ÓÓÃurllib2¾Í³É°¡¡£
> > > > >
> > > > <http://python.cn/mailman/listinfo/python-chinese>
> >
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071105/778c70e0/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号