Python论坛的帖子：

Python论坛 - 讨论区

标题：两个scrapy downloadmiddleware来阻止站点对网络爬虫的爬取限制

楼主 2013年04月02日星期二 15:26

写了两个scrapy downloadmiddleware用来突破网站对爬虫爬取的限制：
1.GoogleCacheMiddleware：你可以设置需要通过google cache进行访问的站点域名，类似：
GOOGLE_CACHE_DOMAINS = ['www.woaidu.org',]，然后下载时会自动访问google cache 版本的站点
2.RotateUserAgentMiddleware：每次请求会随机选择user-aget进行设置，默认user-aget包括浏览器包括：chrome,I E,firefox,Mozilla,opera,netscape

这是代码地址：https://github.com/gnemoug/scrapy.git，在scrapy/scrapy/contrib/downloadmiddleware目录下，文件名分别为：rotate_useragent.py和 google_cache.py，使用方法请看 README.rst

夏武

1楼 2013年04月02日星期二 19:16

cool!

请登录后回复。还没有在Zeuux哲思注册吗？现在注册！