Python论坛  - 讨论区

标题:[python-chinese] 【请教】提取HTML中的TXT部分,有什么简单实用的方法吗?

2007年04月12日 星期四 11:52

zongzi honghunter在gmail.com
星期四 四月 12 11:52:44 HKT 2007

其实,我是想要把HTML格式的小说,变成TXT,方便放到手机上面去看。

-- 
这是一个有钱人的世界,与我的世界截然不同!

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月12日 星期四 11:58

hutuworm hutuworm在gmail.com
星期四 四月 12 11:58:16 HKT 2007

把HTML标签如<.*>等滤掉就是文本了
然后再做一些处理

On 4/12/07, zongzi <honghunter在gmail.com> wrote:
> 其实,我是想要把HTML格式的小说,变成TXT,方便放到手机上面去看。
>
> --
> 这是一个有钱人的世界,与我的世界截然不同!
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese


-- 
In doG We Trust

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月12日 星期四 12:28

Andelf andelf在gmail.com
星期四 四月 12 12:28:18 HKT 2007

在07-4-12,hutuworm <hutuworm at gmail.com> 写道:
>
> 把HTML标签如<.*>等滤掉就是文本了
> 然后再做一些处理


 不见得有这么简单,标准xhtml还好
还有转义一类的字符
dive into py好象有这方面的例子,要求不高的情况下HTMLParser.py完全够用
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20070412/c8aa31ad/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月12日 星期四 21:07

Ben Luo benluo在gmail.com
星期四 四月 12 21:07:06 HKT 2007

ÎÒÔÚÍøÉÏÕÒµ½µÄÒ»¸öÖйúÅóÓÑÓà python дµÄС³ÌÐòÓÃÀ´ html to txt

from formatter import AbstractFormatter, NullWriter
from htmllib import HTMLParser

def _(str, in_encoder="gbk", out_encoder="utf8"):
    return unicode(str, in_encoder).encode(out_encoder)


class myWriter(NullWriter):
    def __init__(self):
        NullWriter.__init__(self)
        self._bodyText = []

    def send_flowing_data(self, str):
        self._bodyText.append(str)

    def _get_bodyText(self):
        return '\n'.join(self._bodyText)

    bodyText = property(_get_bodyText, None, None, 'plain text from body')

class myHTMLParser(HTMLParser):
    def do_meta(self, attrs):
        self.metas = attrs

def convertFile(filename):
    mywriter = myWriter()
    absformatter = AbstractFormatter(mywriter)
    parser = myHTMLParser(absformatter)
    parser.feed(open(filename).read())
    return ( _(parser.title), parser.formatter.writer.bodyText )

import os
import os.path

OUTPUTDIR = "./txt"
INPUTDIR = "."
if __name__ == "__main__":
    if not os.path.exists(OUTPUTDIR):
        os.mkdir(OUTPUTDIR)

    for file in os.listdir(INPUTDIR):
        if file[-4:] == '.htm':
            print "Coverting", file,
            outfilename, text = convertFile(file)
            outfilename = outfilename + '.txt'
            outfullname = os.path.join(OUTPUTDIR, outfilename)
            open(outfullname, "wt").write(text)
            print "Done!"
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070412/2f879d73/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月20日 星期五 12:11

button buttonww在gmail.com
星期五 四月 20 12:11:10 HKT 2007

ÎÒÒ²Óöµ½¹ýͬÑùµÄÎÊÌ⣬ÎÒÊÇÓÃlynx ÃüÁîÀ´×ª»¯µÄ¡£¼òµ¥¿ì½Ý£¡

ÔÚ07-4-12£¬zongzi <honghunter在gmail.com> дµÀ£º
>
> Æäʵ£¬ÎÒÊÇÏëÒª°ÑHTML¸ñʽµÄС˵£¬±ä³ÉTXT£¬·½±ã·Åµ½ÊÖ»úÉÏÃæÈ¥¿´¡£
>
> --
> ÕâÊÇÒ»¸öÓÐÇ®È˵ÄÊÀ½ç£¬ÓëÎÒµÄÊÀ½ç½ØÈ»²»Í¬£¡
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese




-- 
Let Plato be your friend, and Aristotle, but more let your friend be truth.
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070420/c7d0733f/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月20日 星期五 15:57

Shao Feng sevenever在gmail.com
星期五 四月 20 15:57:23 HKT 2007

w3m -dump file.html > file.txt

On 4/20/07, button <buttonww在gmail.com> wrote:
>
>
> 我也遇到过同样的问题,我是用lynx 命令来转化的。简单快捷!
>
> 在07-4-12,zongzi <honghunter在gmail.com> 写道:
> >
> > 其实,我是想要把HTML格式的小说,变成TXT,方便放到手机上面去看。
> >
> > --
> > 这是一个有钱人的世界,与我的世界截然不同!
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
>
>
> --
> Let Plato be your friend, and Aristotle, but more let your friend be
> truth.
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20070420/fb22e9f2/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月20日 星期五 22:32

zongzi honghunter在gmail.com
星期五 四月 20 22:32:27 HKT 2007

有人用过这个吗?
==============================================
  wide find and replace Ver 2.2.1.712 by BaiYang / 2004 - 2006, Freeware
==============================================
Find string in files or pipe, and replace it to another string With Multi-
charset encoding support.


在 07-4-20,Shao Feng<sevenever在gmail.com> 写道:
> w3m -dump file.html > file.txt
>
>
> On 4/20/07, button <buttonww在gmail.com> wrote:
> >
> > 我也遇到过同样的问题,我是用lynx 命令来转化的。简单快捷!
> >
> >
> > 在07-4-12,zongzi < honghunter在gmail.com> 写道:
> >
> > > 其实,我是想要把HTML格式的小说,变成TXT,方便放到手机上面去看。
> > >
> > > --
> > > 这是一个有钱人的世界,与我的世界截然不同!
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese在lists.python.cn
> > > Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> > > Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> > > Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
> >
> >
> >
> > --
> > Let Plato be your friend, and Aristotle, but more let your friend be
> truth.
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> > Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
> >
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>


-- 
这是一个有钱人的世界,与我的世界截然不同!

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月21日 星期六 19:24

Ken Lai soulhacker511在163.com
星期六 四月 21 19:24:15 HKT 2007

On Fri, Apr 20, 2007 at 03:57:23PM +0800, Shao Feng wrote:
> w3m -dump file.html > file.txt
用w3mmee可能要好一些。它基于w3m,作了一些扩展,不容易出现乱码。


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号