2007年02月27日 星期二 11:14
ÇëÎÊÒ»¸öËÑË÷ÒýÇæÐÔÄܲâÊÔ²ÎÊýÓÐÄÄЩ£¿¾¡Á¿Ïêϸµã¡£ÓÐÖ÷Á÷ËÑË÷ÒýÇæ²âÊÔ±¨¸æÁ´½Ó×îºÃ£¡·Ç³£¸Ðл£¡ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070227/1dcecfd0/attachment.htm
2007年02月27日 星期二 13:10
前几天写过一个爬虫,提一点不成熟的意见: 1、从数据库中获取尚未访问URL的响应速度,包括数据库中的记录数量很大的时候。 2、向数据库中添加尚未访问的URL的响应速度。 3、去除网页中重复URL的能力。 4、分析和提取HTML页面中信息的速度。 个人感觉,小规模的爬虫的性能瓶颈在网络速度上,中大规模爬虫的性能瓶颈在数据库上。中大规模的爬虫一般都不使用关系数据库,太慢。bdb等等一般作为数据库底层驱动的框架可以考虑。 -- 从前有一只很冷的毛毛虫,他想获得一点温暖。而获得温暖的机会只有从树上掉下来,落进别人的领口。 片刻的温暖,之后便失去生命。而很多同类却连这片刻的温暖都没有得到就.. 我会得到温暖么?小心翼翼的尝试,却还是会受到伤害。 我愿为那一刻的温暖去拼,可是谁愿意接受? 欢迎访问偶的博客: http://blog.csdn.net/gashero
2007年02月27日 星期二 14:39
能不能给讲讲都有那些是非关系型数据库 很感兴趣 -- --~--~---------~--~----~------------~-------~--~----~ 我的blog: http://jessezhao.cnblogs.com http://www.pinzui.cn http://jnlinux.org --~--~---------~--~----~------------~-------~--~----~
2007年02月27日 星期二 14:49
2个参数,精度和召回率。 精度是指查询词返回的网页中,与查询相关的网页占的百分比 召回率是指与查询词相关的所有网页中,系统找到的网页占的百分比 在07-2-27,boyeestudio <boyee118 at gmail.com> 写道: > > 请问一个搜索引擎性能测试参数有哪些?尽量详细点。有主流搜索引擎测试报告链接最好!非常感谢! > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -- devdoer devdoer at gmail.com http://devdoer.blog.sohu.com/ -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20070227/4831002c/attachment.html
2007年02月28日 星期三 17:05
gdbm http://www.gnu.org/software/gdbm/ Ó¦¸ÃËãÒ»ÖַǹØϵÊý¾Ý¿â¡£ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070228/edf4ed0d/attachment.html
Zeuux © 2025
京ICP备05028076号