2006年11月26日 星期日 16:30
´úÂëÈçÏ£º import re class GetTextBet2Tags: def __init__(self): self.text = [] def getText(self, startTag, endTag, input): expression = startTag + '(.*?)' + endTag texts = re.findall(expression , input) for t in texts: self.text.append(t) if __name__ == "__main__": import urllib usock = urllib.urlopen("http://www.blogjava.net/") input = usock.read().decode('utf-8').encode('gbk', 'ignore') g = GetTextBet2Tags() g.getText('', '
', input) usock.close() #for t in g.text: print t print g.text ÎÒÏëÊä³öÕû¸ölist£¬µ«´òÓ¡³öÀàËÆÕâÑùµÄ£º \xdaXML\xb6\xaf\xcc\xac\xbc\xd3\xd4\xd8\xb5\xc4JS\xca\ Èç¹ûÖ´ÐÐfor t in g.text: print t£¬ÔòÊä³öÕý³£¡£µ«ÎÒµÄÐèÒªÊÇÏ£ÍûµÃµ½Õû¸ölist. Âé·³´ó¼Ò¡£ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20061126/fdcdfc17/attachment.html
2006年11月26日 星期日 18:07
On 11/26/06, 一只小蚂蚁 <qixiangnj在gmail.com> wrote: > > 我想输出整个list,但打印出类似这样的: > \xdaXML\xb6\xaf\xcc\xac\xbc\xd3\xd4\xd8\xb5\xc4JS\xca\ > 如果执行 for t in g.text: print t,则输出正常。但我的需要是希望得到整个list. > 麻烦大家。 加上这些: import sys reload(sys) sys.setdefaultencoding('gb2312') 再试一下。 -- Linker M Lin linkerlin88在gmail.com ※※※※※※※※※ ※※我思故我在※※ ※※※※※※※※※ -------------- 下一部分 -------------- 一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20061126/0aa70ac2/attachment.html
2006年11月26日 星期日 19:31
ÊÔÁËÏ£¬»¹ÊDz»¿ÉÒÔ¡£ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20061126/b407a395/attachment.html
2006年11月26日 星期日 20:59
On 11/26/06, 一只小蚂蚁 <qixiangnj在gmail.com> wrote: > 代码如下: > import re > > class GetTextBet2Tags: > def __init__(self): > self.text = [] > > def getText(self, startTag, endTag, input): > expression = startTag + '(.*?)' + endTag > texts = re.findall(expression , input) > for t in texts: > self.text.append(t) > > if __name__ == "__main__": > import urllib > usock = urllib.urlopen(" http://www.blogjava.net/") > input = usock.read().decode('utf-8').encode('gbk', > 'ignore') > g = GetTextBet2Tags() > g.getText('', '
', input) > usock.close() > #for t in g.text: print t > print g.text > > 我想输出整个list,但打印出类似这样的: > \xdaXML\xb6\xaf\xcc\xac\xbc\xd3\xd4\xd8\xb5\xc4JS\xca\ > 如果执行 for t in g.text: print t,则输出正常。但我的需要是希望得到整个list. > 麻烦大家。 > list本身不是一个可以打印的结构,所以直接使用print是不行的。要转为字符串才可以。 -- I like python! UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad My Blog: http://www.donews.net/limodou
Zeuux © 2025
京ICP备05028076号