2007年11月01日 星期四 11:02
Hi, ÓÐûÓбȽϺõÄpython spider¿ÉÒÔ¶¨ÏòץȡÂÛ̳֮ÀàµÄ¡£ лл:) -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071101/7c985dbd/attachment.htm
2007年11月01日 星期四 11:15
直接用urllib2就成啊。 在07-11-1,Xian Chen <hoganxian在gmail.com> 写道: > > Hi, > > 有没有比较好的python spider可以定向抓取论坛之类的。 > > 谢谢:) > > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- 下一部分 -------------- 一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20071101/332e23f6/attachment.html
2007年11月01日 星期四 12:39
有些网站的内容用urllib2得不到。比如http://www.my-proxy.com/list/proxy.php 不知道爬虫是否可以爬到? 在07-11-1,yuan xuan <xuanyuan14.leo at gmail.com> 写道: > > 直接用urllib2就成啊。 > > 在07-11-1,Xian Chen <hoganxian at gmail.com> 写道: > > > > Hi, > > > > 有没有比较好的python spider可以定向抓取论坛之类的。 > > > > 谢谢:) > > > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese at lists.python.cn > > Subscribe: send subscribe to python-chinese-request at lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request at lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -- wayne -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20071101/d9b0bf61/attachment.html
2007年11月01日 星期四 12:43
有些页面需要认证的,就用cookie,需要代理的,就用代理方式连接。 这个lib很好用:mechanize 在07-11-1,Wayne <moonbingbing在gmail.com> 写道: > > 有些网站的内容用urllib2得不到。比如http://www.my-proxy.com/list/proxy.php > 不知道爬虫是否可以爬到? > > 在07-11-1,yuan xuan <xuanyuan14.leo在gmail.com> 写道: > > > > 直接用urllib2就成啊。 > > > > 在07-11-1,Xian Chen <hoganxian在gmail.com > 写道: > > > > > > Hi, > > > > > > 有没有比较好的python spider可以定向抓取论坛之类的。 > > > > > > 谢谢:) > > > > > > > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese在lists.python.cn > > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > > Unsubscribe: send unsubscribe to > > > python-chinese-request在lists.python.cn > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request在lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > -- > wayne > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- 下一部分 -------------- 一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20071101/faf46659/attachment.html
2007年11月05日 星期一 16:16
mechanizeÔÚÄÄѽ£¿Ã»ÕÒµ½Ñ½¡£ ÔÚ07-11-1£¬yuan xuan <xuanyuan14.leo在gmail.com> дµÀ£º > > ÓÐЩҳÃæÐèÒªÈÏÖ¤µÄ£¬¾ÍÓÃcookie£¬ÐèÒª´úÀíµÄ£¬¾ÍÓôúÀí·½Ê½Á¬½Ó¡£ > Õâ¸ölibºÜºÃÓãºmechanize > > ÔÚ07-11-1£¬Wayne <moonbingbing在gmail.com> дµÀ£º > > > > ÓÐЩÍøÕ¾µÄÄÚÈÝÓÃurllib2µÃ²»µ½¡£±ÈÈç http://www.my-proxy.com/list/proxy.php > > ²»ÖªµÀÅÀ³æÊÇ·ñ¿ÉÒÔÅÀµ½£¿ > > > > ÔÚ07-11-1£¬yuan xuan <xuanyuan14.leo在gmail.com > дµÀ£º > > > > > > Ö±½ÓÓÃurllib2¾Í³É°¡¡£ > > > > > > ÔÚ07-11-1£¬Xian Chen <hoganxian在gmail.com > дµÀ£º > > > > > > > > Hi, > > > > > > > > ÓÐûÓбȽϺõÄpython spider¿ÉÒÔ¶¨ÏòץȡÂÛ̳֮ÀàµÄ¡£ > > > > > > > > лл:) > > > > > > > > > > > > _______________________________________________ > > > > python-chinese > > > > Post: send python-chinese在lists.python.cn > > > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > > > Unsubscribe: send unsubscribe to > > > > python-chinese-request在lists.python.cn > > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > > > > > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese在lists.python.cn > > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > > Unsubscribe: send unsubscribe to > > > python-chinese-request在lists.python.cn > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > > > > > -- > > wayne > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request在lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071105/29bd742c/attachment.htm
2007年11月05日 星期一 16:21
如果没有实时性要求,可以先用离线浏览器抓回来再慢慢分析。 -- Blog http://vicalloy.spaces.live.com/ My googlepage http://vicalloy.googlepages.com/ OldPhoto http://www.lzpian.com/
2007年11月05日 星期一 16:29
在 http header 加个 ('Referer','http://www.my-proxy.com/list/proxy.php') 在 07-11-1,Wayne<moonbingbing at gmail.com> 写道: > 有些网站的内容用urllib2得不到。比如http://www.my-proxy.com/list/proxy.php > 不知道爬虫是否可以爬到? >
2007年11月05日 星期一 16:30
简单地用 wget 就可以抓了, wget 也有 windows 下版本, 仔细设好参数 在 07-11-1,Xian Chen<hoganxian at gmail.com> 写道: > Hi, > > 有没有比较好的python spider可以定向抓取论坛之类的。 > > 谢谢:) > >
2007年11月05日 星期一 17:15
在这里: http://wwwsearch.sourceforge.net/mechanize/ 在07-11-5,??? ?? <clfff.peter在gmail.com> 写道: > > mechanize在哪呀?没找到呀。 > > 在07-11-1,yuan xuan <xuanyuan14.leo在gmail.com> 写道: > > > > 有些页面需要认证的,就用cookie,需要代理的,就用代理方式连接。 > > 这个lib很好用:mechanize > > > > 在07-11-1,Wayne <moonbingbing在gmail.com> 写道: > > > > > > 有些网站的内容用urllib2得不到。比如 http://www.my-proxy.com/list/proxy.php > > > 不知道爬虫是否可以爬到? > > > > > > 在07-11-1,yuan xuan <xuanyuan14.leo在gmail.com > 写道: > > > > > > > > 直接用urllib2就成啊。 > > > > > > > <http://python.cn/mailman/listinfo/python-chinese> > -------------- 下一部分 -------------- 一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20071105/4d0457c8/attachment.htm
2007年11月05日 星期一 17:28
лл¡£ ÔÚ07-11-5£¬yuan xuan <xuanyuan14.leo在gmail.com> дµÀ£º > > ÔÚÕâÀ > http://wwwsearch.sourceforge.net/mechanize/ > > ÔÚ07-11-5£¬ ??? ?? <clfff.peter在gmail.com> дµÀ£º > > > > mechanizeÔÚÄÄѽ£¿Ã»ÕÒµ½Ñ½¡£ > > > > ÔÚ07-11-1£¬yuan xuan <xuanyuan14.leo在gmail.com > дµÀ£º > > > > > > ÓÐЩҳÃæÐèÒªÈÏÖ¤µÄ£¬¾ÍÓÃcookie£¬ÐèÒª´úÀíµÄ£¬¾ÍÓôúÀí·½Ê½Á¬½Ó¡£ > > > Õâ¸ölibºÜºÃÓãºmechanize > > > > > > ÔÚ07-11-1£¬Wayne <moonbingbing在gmail.com> дµÀ£º > > > > > > > > ÓÐЩÍøÕ¾µÄÄÚÈÝÓÃurllib2µÃ²»µ½¡£±ÈÈç http://www.my-proxy.com/list/proxy.php > > > > ²»ÖªµÀÅÀ³æÊÇ·ñ¿ÉÒÔÅÀµ½£¿ > > > > > > > > ÔÚ07-11-1£¬yuan xuan <xuanyuan14.leo在gmail.com > дµÀ£º > > > > > > > > > > Ö±½ÓÓÃurllib2¾Í³É°¡¡£ > > > > > > > > > <http://python.cn/mailman/listinfo/python-chinese> > > > > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071105/778c70e0/attachment.html
Zeuux © 2025
京ICP备05028076号