Python论坛  - 讨论区

标题:各位能不能给推荐一个python的分布式爬虫框架

2013年03月22日 星期五 13:28

目前我采用celery做分布式处理,采用master-slave模式,每个slave采用scrapy进行detail页的爬取和存储,其中scrapy的调度,去重,和cache自己用redis重写;在master一方进行request的分析调度,然后将request传递给各个slave,然后跟踪slave状态,这样master的主要任务就是调度和管理各个slave,底层存储采用的mongodb。

详请各位提一下意见,或者给个成熟的python开源分布式爬虫框架。

2013年03月27日 星期三 13:56

实现一个稳定可靠的爬虫系统是比较复杂的,最好是混合语言实现,可以发挥每个语言的优势。试试nutch (http://nutch.apache.org)+ python + beatifulsoap.

 

2013年03月28日 星期四 18:42

beautifulsoup性能太差了吧!

2013年03月29日 星期五 09:12

网页内容抽取不是爬虫系统的瓶颈,抓取和存储才是关键。如果你对性能要求很高,可以用Python的C模块,或者C或C++来实现。但是,过早的优化是罪恶之源,关键是让你的系统可以快速work,这才是最重要的。

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号