Python论坛  - 讨论区

标题:[python-chinese] 在csdn下载频道发现的爬虫

2007年04月06日 星期五 18:11

haoyu haoyu在csdn.net
星期五 四月 6 18:11:09 HKT 2007

http://download.csdn.net/source/164786

 

软件说明:

 

本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。

 如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。

 配置文件采用ini的格式.

 spider_config.ini蜘蛛的配置

 1. maxThreads 爬虫的线程数

 2. startURL 爬虫开始的URL

 3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配)

 4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配)

 sucker_config.ini 网页分析器的配置

 1. maxThreads 分析器的线程数

 2. pattern parser匹配的正则表达式

 3. parser 指定对应pattern的分析器

 本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser,
前提是熟悉python。写好后运行compile编译承pyc就可以了

-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20070406/0fae5b74/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号