2013年04月02日 星期二 15:26
写了两个scrapy downloadmiddleware用来突破网站对爬虫爬取的限制:
1.GoogleCacheMiddleware:你可以设置需要通过google cache进行访问的站点域名,类似:
GOOGLE_CACHE_DOMAINS = ['www.woaidu.org',],然后下载时会自动访问google cache 版本的站点
2.RotateUserAgentMiddleware:每次请求会随机选择user-aget进行设置,默认user-aget包括浏览器包括:chrome,I E,firefox,Mozilla,opera,netscape
这是代码地址:https://github.com/gnemoug/scrapy.git,在scrapy/scrapy/contrib/downloadmiddleware目录下,文件名分别为:rotate_useragent.py和 google_cache.py,使用方法请看 README.rst
2013年04月02日 星期二 19:16
cool!
Zeuux © 2024
京ICP备05028076号