Python论坛  - 讨论区

标题:[python-chinese] list中文编码问题

2006年11月26日 星期日 16:30

一只小蚂蚁 qixiangnj在gmail.com
星期日 十一月 26 16:30:10 HKT 2006

´úÂëÈçÏ£º
import re

class GetTextBet2Tags:
    def __init__(self):
        self.text = []

    def getText(self, startTag, endTag, input):
        expression = startTag + '(.*?)' + endTag
        texts = re.findall(expression , input)
        for t in texts:
            self.text.append(t)

if __name__ == "__main__":
    import urllib
    usock = urllib.urlopen("http://www.blogjava.net/")
    input = usock.read().decode('utf-8').encode('gbk', 'ignore')
    g = GetTextBet2Tags()
    g.getText('

', '

', input) usock.close() #for t in g.text: print t print g.text ÎÒÏëÊä³öÕû¸ölist£¬µ«´òÓ¡³öÀàËÆÕâÑùµÄ£º \xdaXML\xb6\xaf\xcc\xac\xbc\xd3\xd4\xd8\xb5\xc4JS\xca\ Èç¹ûÖ´ÐÐfor t in g.text: print t£¬ÔòÊä³öÕý³£¡£µ«ÎÒµÄÐèÒªÊÇÏ£ÍûµÃµ½Õû¸ölist. Âé·³´ó¼Ò¡£ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20061126/fdcdfc17/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年11月26日 星期日 18:07

Linker Lin linkerlin88在gmail.com
星期日 十一月 26 18:07:58 HKT 2006

On 11/26/06, 一只小蚂蚁 <qixiangnj在gmail.com> wrote:
>
> 我想输出整个list,但打印出类似这样的:
> \xdaXML\xb6\xaf\xcc\xac\xbc\xd3\xd4\xd8\xb5\xc4JS\xca\
> 如果执行 for t in g.text: print t,则输出正常。但我的需要是希望得到整个list.
> 麻烦大家。


加上这些:
import sys

reload(sys)
sys.setdefaultencoding('gb2312')

再试一下。






-- 
Linker M Lin
linkerlin88在gmail.com
  ※※※※※※※※※
  ※※我思故我在※※
  ※※※※※※※※※
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20061126/0aa70ac2/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年11月26日 星期日 19:31

一只小蚂蚁 qixiangnj在gmail.com
星期日 十一月 26 19:31:16 HKT 2006

ÊÔÁËÏ£¬»¹ÊDz»¿ÉÒÔ¡£
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20061126/b407a395/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年11月26日 星期日 20:59

limodou limodou在gmail.com
星期日 十一月 26 20:59:34 HKT 2006

On 11/26/06, 一只小蚂蚁 <qixiangnj在gmail.com> wrote:
> 代码如下:
> import re
>
> class GetTextBet2Tags:
>     def __init__(self):
>         self.text = []
>
>     def getText(self, startTag, endTag, input):
>         expression = startTag + '(.*?)' + endTag
>         texts = re.findall(expression , input)
>         for t in texts:
>             self.text.append(t)
>
> if __name__ == "__main__":
>     import urllib
>     usock = urllib.urlopen(" http://www.blogjava.net/")
>     input = usock.read().decode('utf-8').encode('gbk',
> 'ignore')
>     g = GetTextBet2Tags()
>     g.getText('

', '

', input)
> usock.close() > #for t in g.text: print t > print g.text > > 我想输出整个list,但打印出类似这样的: > \xdaXML\xb6\xaf\xcc\xac\xbc\xd3\xd4\xd8\xb5\xc4JS\xca\ > 如果执行 for t in g.text: print t,则输出正常。但我的需要是希望得到整个list. > 麻烦大家。 > list本身不是一个可以打印的结构,所以直接使用print是不行的。要转为字符串才可以。 -- I like python! UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad My Blog: http://www.donews.net/limodou

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号