2013年04月01日 星期一 15:00
现在,我正在做一个网站爬虫,但是应该是被一个网站视为攻击了吧!我用浏览器访问这个网站,显示正常,但是程序访问,返回的是电信的那个域名错误;为了躲过限制:
1.采用了禁用cookie;
2.访问google cache(由于学校上午必须安装学校的客户端,使用vpn一会后,就把我链接断了);
3.使用torproject(tor被封了,要想使用需要使用vpn);
4.改变user-aget;
请问各位大神,还有什么方法可以尝试?
悲剧的是现在浏览球也返回http://sddnserror7.wo.com.cn:8080/issueunziped/baidusd121009/self0.jsp?UserUrl=www.woaidu.org 大神求指导
2013年04月02日 星期二 09:15
应该先查查你是什么原因被封的,具体使用可以使用CURL做试验(如果你使用的是GNU/Linux)。
根据如上的情况,可以做如下判断:
1、浏览器可以访问,那么确定你的IP地址没有被封。
2、可以通过改变HTTP头和抓取频率来做尝试。
如果不介意,可以把你的代码贴出来看看,这样更清楚一些。
Zeuux © 2024
京ICP备05028076号