2007年04月06日 星期五 18:11
http://download.csdn.net/source/164786 软件说明: 本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。 如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。 配置文件采用ini的格式. spider_config.ini蜘蛛的配置 1. maxThreads 爬虫的线程数 2. startURL 爬虫开始的URL 3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配) 4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配) sucker_config.ini 网页分析器的配置 1. maxThreads 分析器的线程数 2. pattern parser匹配的正则表达式 3. parser 指定对应pattern的分析器 本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser, 前提是熟悉python。写好后运行compile编译承pyc就可以了 -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20070406/0fae5b74/attachment.htm
Zeuux © 2025
京ICP备05028076号