2012年05月22日 星期二 09:34
我现在在做一个QQ相册的图片抓取的功能,抓取指定QQ号码的图片专辑,碰到了几点难点(我使用的是z.qq.com 3g版的QQ空间,必须登录再能查看其他公开相册,就是说我手里已经有一个开通qq空间的帐号)
1.QQ相册的专辑列表是后台ajax加载的,获取专辑url是一个难题(chrome-F12 js设断点,追踪了半天也么有找到专辑连接的信息)
2.在抓取的时候,可能会出现即使登录也会要求用户重新输入验证码,验证。
不知道 能否使用Windmill或者Selenium 来解决这个问题
希望社区有过web抓取的大侠指点下
thanks advance!
2012年05月23日 星期三 16:50
只用过urllib2+cookielib~~
2012年05月25日 星期五 19:02
验证码需要图像识别一下
Zeuux © 2024
京ICP备05028076号