2007年04月12日 星期四 11:52
其实,我是想要把HTML格式的小说,变成TXT,方便放到手机上面去看。 -- 这是一个有钱人的世界,与我的世界截然不同!
2007年04月12日 星期四 11:58
把HTML标签如<.*>等滤掉就是文本了 然后再做一些处理 On 4/12/07, zongzi <honghunter在gmail.com> wrote: > 其实,我是想要把HTML格式的小说,变成TXT,方便放到手机上面去看。 > > -- > 这是一个有钱人的世界,与我的世界截然不同! > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese -- In doG We Trust
2007年04月12日 星期四 12:28
在07-4-12,hutuworm <hutuworm at gmail.com> 写道: > > 把HTML标签如<.*>等滤掉就是文本了 > 然后再做一些处理 不见得有这么简单,标准xhtml还好 还有转义一类的字符 dive into py好象有这方面的例子,要求不高的情况下HTMLParser.py完全够用 -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20070412/c8aa31ad/attachment.html
2007年04月12日 星期四 21:07
ÎÒÔÚÍøÉÏÕÒµ½µÄÒ»¸öÖйúÅóÓÑÓà python дµÄС³ÌÐòÓÃÀ´ html to txt from formatter import AbstractFormatter, NullWriter from htmllib import HTMLParser def _(str, in_encoder="gbk", out_encoder="utf8"): return unicode(str, in_encoder).encode(out_encoder) class myWriter(NullWriter): def __init__(self): NullWriter.__init__(self) self._bodyText = [] def send_flowing_data(self, str): self._bodyText.append(str) def _get_bodyText(self): return '\n'.join(self._bodyText) bodyText = property(_get_bodyText, None, None, 'plain text from body') class myHTMLParser(HTMLParser): def do_meta(self, attrs): self.metas = attrs def convertFile(filename): mywriter = myWriter() absformatter = AbstractFormatter(mywriter) parser = myHTMLParser(absformatter) parser.feed(open(filename).read()) return ( _(parser.title), parser.formatter.writer.bodyText ) import os import os.path OUTPUTDIR = "./txt" INPUTDIR = "." if __name__ == "__main__": if not os.path.exists(OUTPUTDIR): os.mkdir(OUTPUTDIR) for file in os.listdir(INPUTDIR): if file[-4:] == '.htm': print "Coverting", file, outfilename, text = convertFile(file) outfilename = outfilename + '.txt' outfullname = os.path.join(OUTPUTDIR, outfilename) open(outfullname, "wt").write(text) print "Done!" -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070412/2f879d73/attachment.html
2007年04月20日 星期五 12:11
ÎÒÒ²Óöµ½¹ýͬÑùµÄÎÊÌ⣬ÎÒÊÇÓÃlynx ÃüÁîÀ´×ª»¯µÄ¡£¼òµ¥¿ì½Ý£¡ ÔÚ07-4-12£¬zongzi <honghunter在gmail.com> дµÀ£º > > Æäʵ£¬ÎÒÊÇÏëÒª°ÑHTML¸ñʽµÄС˵£¬±ä³ÉTXT£¬·½±ã·Åµ½ÊÖ»úÉÏÃæÈ¥¿´¡£ > > -- > ÕâÊÇÒ»¸öÓÐÇ®È˵ÄÊÀ½ç£¬ÓëÎÒµÄÊÀ½ç½ØÈ»²»Í¬£¡ > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese -- Let Plato be your friend, and Aristotle, but more let your friend be truth. -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070420/c7d0733f/attachment.html
2007年04月20日 星期五 15:57
w3m -dump file.html > file.txt On 4/20/07, button <buttonww在gmail.com> wrote: > > > 我也遇到过同样的问题,我是用lynx 命令来转化的。简单快捷! > > 在07-4-12,zongzi <honghunter在gmail.com> 写道: > > > > 其实,我是想要把HTML格式的小说,变成TXT,方便放到手机上面去看。 > > > > -- > > 这是一个有钱人的世界,与我的世界截然不同! > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > -- > Let Plato be your friend, and Aristotle, but more let your friend be > truth. > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- 下一部分 -------------- 一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20070420/fb22e9f2/attachment.htm
2007年04月20日 星期五 22:32
有人用过这个吗? ============================================== wide find and replace Ver 2.2.1.712 by BaiYang / 2004 - 2006, Freeware ============================================== Find string in files or pipe, and replace it to another string With Multi- charset encoding support. 在 07-4-20,Shao Feng<sevenever在gmail.com> 写道: > w3m -dump file.html > file.txt > > > On 4/20/07, button <buttonww在gmail.com> wrote: > > > > 我也遇到过同样的问题,我是用lynx 命令来转化的。简单快捷! > > > > > > 在07-4-12,zongzi < honghunter在gmail.com> 写道: > > > > > 其实,我是想要把HTML格式的小说,变成TXT,方便放到手机上面去看。 > > > > > > -- > > > 这是一个有钱人的世界,与我的世界截然不同! > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese在lists.python.cn > > > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > > > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > > > Detail Info: > http://python.cn/mailman/listinfo/python-chinese > > > > > > > > -- > > Let Plato be your friend, and Aristotle, but more let your friend be > truth. > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > > Detail Info: > http://python.cn/mailman/listinfo/python-chinese > > > > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > Detail Info: > http://python.cn/mailman/listinfo/python-chinese > -- 这是一个有钱人的世界,与我的世界截然不同!
2007年04月21日 星期六 19:24
On Fri, Apr 20, 2007 at 03:57:23PM +0800, Shao Feng wrote: > w3m -dump file.html > file.txt 用w3mmee可能要好一些。它基于w3m,作了一些扩展,不容易出现乱码。
Zeuux © 2025
京ICP备05028076号