Python论坛  - 讨论区

标题:[python-chinese] 下载南方周末最新网页并保存成一个txt文

2007年07月05日 星期四 18:21

kergee!z kergee在gmail.com
星期四 七月 5 18:21:22 HKT 2007

   南方周末是我一直以来坚持看的报纸之一,并且每周四傍晚南方报业会把文章发布在网站上,为了方便拷到手机上看,写了一个小脚本(底下不清楚可见附件)。

# down html from zm and save html to txt
#  -*- coding:utf-8 -*-
import htmllib, formatter, urllib, re

website = 'http://www.nanfangdaily.com.cn/zm/'
f = urllib.urlopen(website)
html = f.read().lower()
i = html.find('url=')
j = html.find('/',i+4)
date = html[i+4:j]
website += date

f = urllib.urlopen(website)
p = htmllib.HTMLParser(formatter.NullFormatter())
p.feed(f.read())
p.close()
seen = set()
for url in p.anchorlist:
 if url[-3::] == 'asp':
  if url in seen: continue
  seen.add(url)

urls=list(seen)
k=len(urls)
doc=open(u'南方周末'.encode('gb18030')+date+'.txt','a')
for l, url in enumerate(urls):
 f = urllib.urlopen(website+url[1:])
 html = f.read()
 i = html.find('#ff0000')
 i = html.find('>',i+7)
 j = html.find('<',i+1)
 doc.write(html[i+1:j])
 i = html.find('content01',j+1)
 i = html.find('>',i+9)
 j = html.find(']*>',re.IGNORECASE)
 doc.write(reobj.sub('\n',content)+'\n------------\n')
 print l+1,'-->',k
doc.close()
print u'下载结束'
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20070705/e8c299b4/attachment-0001.html 
-------------- 下一部分 --------------
一个非文本附件被清除...
发信人: %(who)s
主题: %(subject)s
日期: %(date)s
大小: 718
Url: http://python.cn/pipermail/python-chinese/attachments/20070705/e8c299b4/attachment-0001.zip 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号