Python论坛  - 讨论区

标题:[python-chinese] [正则] 提取UTF-8网页,匹配中文内容匹配不到

2007年05月17日 星期四 01:55

风向标 vaneoooo在gmail.com
星期四 五月 17 01:55:59 HKT 2007

¼ÙÉ裬ÎÒÆ¥ÅäÕâ¸öµØÖ·
http://groups.google.com/group/adsense-help-basics-zhs/browse_thread/thread/f708c78128954582/15eb27aadb6bdc53?hl=zh-CN#15eb27aadb6bdc53

ÌáÈ¡ÄÚÈݵıêÌâ
   ²»Ð¡ÐĵãµÈ×Ô¼ºÕ¾ÉϵĹã¸æÔõô°ì£¿ÓÐûºÃµÄ·ÀÖ¹·½·¨¡£

´úÂëÈ磺
request = urllib2.Request(.....
.......
......)#Ê¡ÂÔ

str = opener.open(request).read().decode('utf-8')
title = re.compile('(.*?)')

i = title.search(str)

ÏÖÔÚÎÒtype(i)
½á¹û½«»áÊÇ Nonetype

¹ØÓÚÕýÔòÎÒ»¹³¢ÊÔÁËÈ¥µôתÒå\·ûºÅ£¬ÒÔ¼°Ô­Ê¼×Ö·û´®µÄr'.......'·ûºÅ£¬»¹ÓÐ
title = re.compile('(.*?)<\/span>',re.UNICODE
)
title = re.compile('(.*?)<\/span>',re.VERBOSE
)
title = re.compile('(.*?)<\/span>',
re.MULTILINE)

¶¼Ã»ÓÐÓÃ

ÎÒÊÇÔÚulipadµÄshell´°¿Ú¼°cmd´°¿ÚÖÐ×öµÄµ÷ÊÔ£¬²Â²âºÍ±àÂëÒÔ¼°ÎÒµÄÕýÔòÓйØϵ¡£ÀÍÇë½â»ó¡£Ð»Ð»
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070517/0ff382ab/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年05月17日 星期四 03:09

book4e book4e在gmail.com
星期四 五月 17 03:09:12 HKT 2007

Maybe this help:

>>> import re
>>> title = re.compile(r'(.*?)(?u)')
>>> c = '¤¤¤å`.,@$%9khih===kljljl¡A°Õ°Õ°Õ'
>>> r = title.findall(c)
>>> for i in r:
...     print i
...
¤¤¤å`.,@$%9khih===kljljl¡A°Õ°Õ°Õ
>>>
-------------- 下一部分 --------------
¤@?HTMLªþ¥ó³Q²¾°£...
URL: http://python.cn/pipermail/python-chinese/attachments/20070517/14f8e07e/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年05月17日 星期四 08:38

jessinio smith jessinio在gmail.com
星期四 五月 17 08:38:26 HKT 2007

×Ö·û´®Îª£º²»Ð¡ÐĵãµÈ×Ô¼ºÕ¾ÉϵĹã¸æÔõô°ì£¿ÓÐûºÃµÄ·ÀÖ¹·½·¨¡£

Ϊʲô
ÕýÔò£º(.*)
Óë
ÕýÔò£º(.*?)

µÄ½á¹ûÊÇÒ»ÑùµÄ£¿£¿
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070517/69213302/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年05月17日 星期四 08:51

大熊 bearsprite在gmail.com
星期四 五月 17 08:51:06 HKT 2007

我简单试了一下,是可以的啊,不知你是那里出了问题

#coding: utf8
import re

a = '''不小心点等自己站上的广告怎么办?有没好的防止方法。'''

title = re.compile('(.*?)')

i = title.search(a)

print i.group(1)


在07-5-17,风向标 <vaneoooo在gmail.com> 写道:
>
>
>
> 假设,我匹配这个地址http://groups.google.com/group/adsense-help-basics-zhs/browse_thread/thread/f708c78128954582/15eb27aadb6bdc53?hl=zh-CN#15eb27aadb6bdc53
>
>
> 提取内容的标题
>    不小心点等自己站上的广告怎么办?有没好的防止方法。
>
> 代码如:
> request = urllib2.Request(.....
> .......
> ......)#省略
>
> str = opener.open(request).read().decode('utf-8')
> title = re.compile('(.*?)')
>
> i = title.search(str)
>
> 现在我type(i)
> 结果将会是 Nonetype
>
> 关于正则我还尝试了去掉转义\符号,以及原始字符串的r'.......'符号,还有
> title = re.compile('(.*?)<\/span>',
> re.UNICODE)
> title = re.compile('(.*?)<\/span>',
> re.VERBOSE)
> title = re.compile('(.*?)<\/span>',
> re.MULTILINE)
>
> 都没有用
>
> 我是在ulipad的shell窗口及cmd窗口中做的调试,猜测和编码以及我的正则有关系。劳请解惑。谢谢
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
茫茫人海,你是我的最爱
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20070517/32f12a36/attachment-0001.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年05月17日 星期四 08:55

大熊 bearsprite在gmail.com
星期四 五月 17 08:55:57 HKT 2007

没有问号的是贪婪匹配

也就是如果下面的字符串
XXXXXX

前一个将匹配 XXXXXX
后一个将匹配 XXXXXX

在07-5-17,jessinio smith <jessinio在gmail.com> 写道:
>
> 字符串为:不小心点等自己站上的广告怎么办?有没好的防止方法。
>
> 为什么
> 正则:(.*)
>> 正则:(.*?)
>
> 的结果是一样的??
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
茫茫人海,你是我的最爱
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20070517/330b1fbc/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年05月17日 星期四 09:02

jessinio smith jessinio在gmail.com
星期四 五月 17 09:02:23 HKT 2007

Á½´Î½á¹ûÊÇÒ»ÑùµÄѽ£¬Ã»ÓÐÄã˵µÄ£ºÇ°Ò»¸ö½«Æ¥Åä XXXXXX
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070517/262dd98a/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年05月17日 星期四 14:17

haur hekun06在gmail.com
星期四 五月 17 14:17:56 HKT 2007

ɵС×Ó,ÕâÊÇÌØÊâÇé¿ö,»òÕßÄãµÃ²¡ÁË»¹Ã»·¢×÷¶øÒÑ,Òþ»¼ÆäʵÒѾ­ÓÐÁË,벡»¹Ìü¶à,ºÙºÙ ...

ÔÚ07-5-17£¬jessinio smith <jessinio在gmail.com> дµÀ£º
>
> Á½´Î½á¹ûÊÇÒ»ÑùµÄѽ£¬Ã»ÓÐÄã˵µÄ£ºÇ°Ò»¸ö½«Æ¥Åä XXXXXX
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070517/a7d09f9b/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年05月17日 星期四 14:58

风向标 vaneoooo在gmail.com
星期四 五月 17 14:58:50 HKT 2007

ллbook4e
   ͨ¹ý°ÑƬ¶ÎÄÚÈݷŵ½×Ö·û´®ÀïÀ´²âÊÔÊdzɹ¦µÄ£¬¿ÉÊǾÍÊÇ°ÑÍøÒ³ÄÚÈݶÁÈ¡»ØÀ´Æ¥Åä²»³É¹¦£¬²âÊÔÁËÄãµÄ´úÂ룬½á¹û»¹ÊÇNone.

ÁíÍâÎÒÒ²³¢ÊÔÓÃulipadÀïµÄ¶¯Ì¬ÕýÔò£¨¿Éϧ²»´ó»áÓã©£¬Ö»ÄÜÁí±Ùõ辶£¬³¢ÊÔ½«Îı¾Õ³ÌùΪһ¸öÎļþ(ԭʼÎı¾£¬°üº¬\nÖ®ÀàµÄתÒå·ûµÄ)£¬È»ºóʹÓÃulipadµÄÕýÔò²éѯ£¬Ò²ÊÇÄÜÕýÈ·ÕÒµ½µÄ£¬µ«Æ«Æ«×÷ΪÍøÒ³ÄÚÈݱ£´æΪ×Ö·û´®±äÁ¿Ê±²»ÐУ¬ÒÔÏÂÊÇÎÒ×ö¹ýµÄ³¢ÊÔ£º
#¶ÁÈ¡ÍøÒ³
request = urllib2.Request('
http://groups.google.com/group/adsense-help-basics-zhs/browse_thread/thread/f708c78128954582/15eb27aadb6bdc53?hl=zh-CN#15eb27aadb6bdc53'
)

#¹¹ÔìheadÍ·ÐÅÏ¢
request.add_header("User-Agent",'Mozilla/5.0 (Windows; U; Windows NT 5.1;
zh-CN; rv:1.8.1.3) Gecko/20070309 Firefox/2.0.0.3')

#³¢ÊÔbook4eÐÖµÄÕýÔò
opener = urllib2.build_opener()
title = re.compile(r'(.*?)(?u)')
str = opener.open(request).read().decode('utf-8')
i=title.search(str)
type(i)


#³¢ÊÔlimodouÐÖ˵µÄÏȲ»×ª»»±àÂë

str = opener.open(request).read()
title = re.compile(r'(.*?)')
i=title.search(str)
i
type(i)


#³¢ÊÔÆäËûÕýÔò»ò±àÂ뷽ʽ
str = unicode(opener.open(request).read(),'utf8')
i=title.search(str)
type(i)


#¼ÌÐø³¢ÊÔ
title = re.compile( u'(.*?)')
str = unicode(opener.open(request).read(),'utf8')
i=title.search(str)
type(i)


ÎÒ´òÓ¡str³öÀ´£¬ÎÒÐèҪץȡµÄ²¿·ÖÊÇÕâÑù£º"\n
\xe8\xaf\xb7\xe9\x97\xaebarcode\xe9\x97\xae\xe9\xa2\x98\n  \n"

ºÍתÒå·ûÓйØϵ£¿»¹ÊÇÔõôÄØ£¿
лл
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070517/2d4a3cf9/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年05月18日 星期五 15:01

zhangfan yalexfan在gmail.com
星期五 五月 18 15:01:26 HKT 2007

ÔÚÕýÔòÆ¥ÅäÖУ¬"."Æ¥Åä³ýÁË»»ÐÐÒÔÍâµÄËùÓÐ×Ö·û£¬ËùÒÔ
r'(.*?)'
ʵ¼ÊÖ»ÄÜÆ¥ÅäÔÚÒ»ÐеÄ×Ö·û´®£¬¶øÔÚÄãµÄÍøÒ³ÖÐ

===code===
>>> print str[11784:12084].decode('utf-8')
ss="ln" href="/group/adsense-help-basics-zhs/topics?hl=zh-CN">AdSense »ù´¡ÖªÊ¶ >
  
  ²»Ð¡ÐĵãµÈ×Ô¼ºÕ¾ÉϵĹã¸æÔõô°ì£¿ÓÐûºÃµÄ·ÀÖ¹·½·¨¡£
  
  
  
(.*?)', re.S) ===code=== >>> pat = re.compile(r'(.*?)', re.S) >>> result = pat.search(str) >>> print result.groups()[0].decode('utf-8') ²»Ð¡ÐĵãµÈ×Ô¼ºÕ¾ÉϵĹã¸æÔõô°ì£¿ÓÐûºÃµÄ·ÀÖ¹·½·¨¡£ >>> ===code=== ²»¹ý£¬ÕâÑùÒ²¾ÍÐèÒª×Ô¼ºstrip£¬È¥µô\nÁË¡£ zhangfan 2007-05-18 ·¢¼þÈË£º ·çÏò±ê ·¢ËÍʱ¼ä£º 2007-05-17 15:00:01 ÊÕ¼þÈË£º python-chinese在lists.python.cn ³­ËÍ£º Ö÷Ì⣺ Re: [python-chinese][ÕýÔò] ÌáÈ¡UTF-8ÍøÒ³£¬Æ¥ÅäÖÐÎÄÄÚÈÝÆ¥Åä²»µ½ ллbook4e ͨ¹ý°ÑƬ¶ÎÄÚÈݷŵ½×Ö·û´®ÀïÀ´²âÊÔÊdzɹ¦µÄ£¬¿ÉÊǾÍÊÇ°ÑÍøÒ³ÄÚÈݶÁÈ¡»ØÀ´Æ¥Åä²»³É¹¦£¬²âÊÔÁËÄãµÄ´úÂ룬½á¹û»¹ÊÇNone. ÁíÍâÎÒÒ²³¢ÊÔÓÃulipadÀïµÄ¶¯Ì¬ÕýÔò£¨¿Éϧ²»´ó»áÓã©£¬Ö»ÄÜÁí±Ùõ辶£¬³¢ÊÔ½«Îı¾Õ³ÌùΪһ¸öÎļþ(ԭʼÎı¾£¬°üº¬\nÖ®ÀàµÄתÒå·ûµÄ)£¬È»ºóʹÓÃulipadµÄÕýÔò²éѯ£¬Ò²ÊÇÄÜÕýÈ·ÕÒµ½µÄ£¬µ«Æ«Æ«×÷ΪÍøÒ³ÄÚÈݱ£´æΪ×Ö·û´®±äÁ¿Ê±²»ÐУ¬ÒÔÏÂÊÇÎÒ×ö¹ýµÄ³¢ÊÔ£º #¶ÁÈ¡ÍøÒ³ request = urllib2.Request(' http://groups.google.com/group/adsense-help-basics-zhs/browse_thread/thread/f708c78128954582/15eb27aadb6bdc53?hl=zh-CN#15eb27aadb6bdc53') #¹¹ÔìheadÍ·ÐÅÏ¢ request.add_header("User-Agent",'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.1.3) Gecko/20070309 Firefox/2.0.0.3') #³¢ÊÔbook4eÐÖµÄÕýÔò opener = urllib2.build_opener() title = re.compile(r'(.*?)(?u)') str = opener.open(request).read().decode('utf-8') i=title.search(str) type(i) #³¢ÊÔlimodouÐÖ˵µÄÏȲ»×ª»»±àÂë str = opener.open(request).read() title = re.compile(r'(.*?)') i=title.search(str) i type(i) #³¢ÊÔÆäËûÕýÔò»ò±àÂ뷽ʽ str = unicode(opener.open(request).read(),'utf8') i=title.search(str) type(i) #¼ÌÐø³¢ÊÔ title = re.compile( u'(.*?)') str = unicode(opener.open(request).read(),'utf8') i=title.search (str) type(i) ÎÒ´òÓ¡str³öÀ´£¬ÎÒÐèҪץȡµÄ²¿·ÖÊÇÕâÑù£º"\n \xe8\xaf\xb7\xe9\x97\xaebarcode\xe9\x97\xae\xe9\xa2\x98\n \n" ºÍתÒå·ûÓйØϵ£¿»¹ÊÇÔõôÄØ£¿ лл -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070518/ee6acd5f/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年05月18日 星期五 15:08

风向标 vaneoooo在gmail.com
星期五 五月 18 15:08:26 HKT 2007

ÎÊÌâÒѾ­ÔÚHYRYÐֵİïÖúϽâ¾ö£¬Ê£ÓàÐèҪƥÅäµÄ²¿·ÖÎÒ²ÉÓÃÁËBeautifulSoup½â¾ö

Ò²ÍƼöÐèÒªhtml·ÖÎöÌáÈ¡ÄÚÈݵÄÅóÓÑ£¬ÊÔÊÔÕâ¸ö

¸ÐлÖîλ
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070518/6885987c/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号