WEB  - 讨论区

标题:几种开源网络爬虫的简单比较

2011年03月21日 星期一 08:54

    爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表:

    python

    还有其他的一些比如Ubicrawler、FAST Crawler、天网蜘蛛等等没有添加进来。

    之后主要研究下larbin爬虫,如果有可能会给它添加一个删除功能,因为其排重部分用的是bloom filter算法,这个算法的有点很明显,对大规模数据的处理很快,性能很好,而且内存占用很小,但是什么事都没有尽善尽美的,该算法的直接缺点就是不能删除,还会出现误判情况。关于bloom filter有很多相关论文,网上也有些高质量的文章,暂时不做累述,之后如果自己有不一样的看法,再写关于该算法的文章。

    删除功能的算法暂时还不太确定,需要进一步了解,现在了解的counting bloom filter不错,带来的代价是内存占用高一点。

    引用来源

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号