2013年03月22日 星期五 13:28
目前我采用celery做分布式处理,采用master-slave模式,每个slave采用scrapy进行detail页的爬取和存储,其中scrapy的调度,去重,和cache自己用redis重写;在master一方进行request的分析调度,然后将request传递给各个slave,然后跟踪slave状态,这样master的主要任务就是调度和管理各个slave,底层存储采用的mongodb。
详请各位提一下意见,或者给个成熟的python开源分布式爬虫框架。
2013年03月27日 星期三 13:56
实现一个稳定可靠的爬虫系统是比较复杂的,最好是混合语言实现,可以发挥每个语言的优势。试试nutch (http://nutch.apache.org)+ python + beatifulsoap.
2013年03月28日 星期四 18:42
beautifulsoup性能太差了吧!
2013年03月29日 星期五 09:12
网页内容抽取不是爬虫系统的瓶颈,抓取和存储才是关键。如果你对性能要求很高,可以用Python的C模块,或者C或C++来实现。但是,过早的优化是罪恶之源,关键是让你的系统可以快速work,这才是最重要的。
Zeuux © 2024
京ICP备05028076号