Python论坛  - 讨论区

标题:关于爬虫如何突破网站对爬虫的限制

2013年04月01日 星期一 15:00

现在,我正在做一个网站爬虫,但是应该是被一个网站视为攻击了吧!我用浏览器访问这个网站,显示正常,但是程序访问,返回的是电信的那个域名错误;为了躲过限制:

    1.采用了禁用cookie;

    2.访问google cache(由于学校上午必须安装学校的客户端,使用vpn一会后,就把我链接断了);

    3.使用torproject(tor被封了,要想使用需要使用vpn);

    4.改变user-aget;

请问各位大神,还有什么方法可以尝试?

悲剧的是现在浏览球也返回http://sddnserror7.wo.com.cn:8080/issueunziped/baidusd121009/self0.jsp?UserUrl=www.woaidu.org 大神求指导

2013年04月02日 星期二 09:15

应该先查查你是什么原因被封的,具体使用可以使用CURL做试验(如果你使用的是GNU/Linux)。

根据如上的情况,可以做如下判断:

1、浏览器可以访问,那么确定你的IP地址没有被封。

2、可以通过改变HTTP头和抓取频率来做尝试。

如果不介意,可以把你的代码贴出来看看,这样更清楚一些。

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号