Python论坛的帖子：

星期五六月 1 09:57:27 HKT 2007

ÓÃFirefoxµÄDownload All
²å¼þ´ÓÐÂÀË¶ÁÊéÆµµÀÏÂÔØÁËÎÄÕÂ¡£ÏëÔÚTreo650Àï¿´´¿ÎÄ±¾¡£È»ºó¾ÍÓÃÁËÒÔÏÂÁ½¸öÐ¡³ÌÐò¡£ËãÊÇUnixË¼ÏëµÄÒ»ÖÖÌåÏÖ°É¡£Ð¡¹¤¾ßÖ»×öÒ»¼þÊÂÇé¡£´ó¼Ò°Ñ×Ô¼ºµçÄÔÀïµÄÐ¡±¦±´ÄÃ³öÀ´·ÖÏí°¡¡£»òÕßÔÚÍøÕ¾ÉÏ¶àÒ»¸öWikiÒ³Ãæ£¿

#####################
#html2txt.py
#####################

from formatter import AbstractFormatter, NullWriter
from htmllib import HTMLParser

def _(str, in_encoder="gbk", out_encoder="utf8"):
    return unicode(str, in_encoder).encode(out_encoder)


class myWriter(NullWriter):
    def __init__(self):
        NullWriter.__init__(self)
        self._bodyText = []

    def send_flowing_data(self, str):
        self._bodyText.append(str)

    def _get_bodyText(self):
        return '\n'.join(self._bodyText)

    bodyText = property(_get_bodyText, None, None, 'plain text from body')

class myHTMLParser(HTMLParser):
    def do_meta(self, attrs):
        self.metas = attrs

def convertFile(filename):
    mywriter = myWriter()
    absformatter = AbstractFormatter(mywriter)
    parser = myHTMLParser(absformatter)
    parser.feed(open(filename).read())
    return ( _(parser.title), parser.formatter.writer.bodyText )

import os
import os.path

OUTPUTDIR = "./txt"
INPUTDIR = "."
if __name__ == "__main__":
    if not os.path.exists(OUTPUTDIR):
        os.mkdir(OUTPUTDIR)

    for file in os.listdir(INPUTDIR):
        if file[-4:] == '.htm' or file[-5:] == '.html':
            print "Coverting", file,
            outfilename = os.path.splitext(file)[0]
            a, text = convertFile(file)
            outfilename = outfilename + '.txt'
            outfullname = os.path.join(OUTPUTDIR, outfilename)
            open(outfullname, "wt").write(text)
            print "Done!"

################################
#pickupcontent.py
################################

# -*- coding: utf-8 -*-

import sys
import glob
import os
import re

sys.argv[1:] = [item for arg in sys.argv[1:] for item in glob.glob(arg)]
startstr = u"^°ËÊ®".encode("gb2312") # article title
endstr = u"^\[·µ»Ø".encode("gb2312") #
tmp_start = re.compile(startstr)
tmp_end = re.compile(endstr)
for infile in sys.argv[1:]:
   # print infile
    f = open(infile,'r')
    #print f
    lines = f.readlines()
    fout = ''
    for index, line in enumerate(lines):
        if tmp_start.match(line):
            kstart = index
        if tmp_end.match(line):
            kend = index
            break

    f.close()
    fout = fout.join(lines[kstart:kend])
    tmp = open('tmp','w')
    tmp.write(fout)
    tmp.close()
    os.remove(infile)
    os.rename('tmp',infile)
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒÆ³ý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070601/2155e424/attachment.htm

标题：[python-chinese] 用Python处理下载新浪下载下来的电子书