2007年05月17日 星期四 01:55
¼ÙÉ裬ÎÒÆ¥ÅäÕâ¸öµØÖ· http://groups.google.com/group/adsense-help-basics-zhs/browse_thread/thread/f708c78128954582/15eb27aadb6bdc53?hl=zh-CN#15eb27aadb6bdc53 ÌáÈ¡ÄÚÈݵıêÌâ ²»Ð¡ÐĵãµÈ×Ô¼ºÕ¾ÉϵĹã¸æÔõô°ì£¿ÓÐûºÃµÄ·ÀÖ¹·½·¨¡£ ´úÂëÈ磺 request = urllib2.Request(..... ....... ......)#Ê¡ÂÔ str = opener.open(request).read().decode('utf-8') title = re.compile('(.*?)') i = title.search(str) ÏÖÔÚÎÒtype(i) ½á¹û½«»áÊÇ Nonetype ¹ØÓÚÕýÔòÎÒ»¹³¢ÊÔÁËÈ¥µôתÒå\·ûºÅ£¬ÒÔ¼°Ôʼ×Ö·û´®µÄr'.......'·ûºÅ£¬»¹ÓÐ title = re.compile('(.*?)<\/span>',re.UNICODE ) title = re.compile('(.*?)<\/span>',re.VERBOSE ) title = re.compile('(.*?)<\/span>', re.MULTILINE) ¶¼Ã»ÓÐÓà ÎÒÊÇÔÚulipadµÄshell´°¿Ú¼°cmd´°¿ÚÖÐ×öµÄµ÷ÊÔ£¬²Â²âºÍ±àÂëÒÔ¼°ÎÒµÄÕýÔòÓйØϵ¡£ÀÍÇë½â»ó¡£Ð»Ð» -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070517/0ff382ab/attachment.html
2007年05月17日 星期四 03:09
Maybe this help: >>> import re >>> title = re.compile(r'(.*?)(?u)') >>> c = '¤¤¤å`.,@$%9khih===kljljl¡A°Õ°Õ°Õ' >>> r = title.findall(c) >>> for i in r: ... print i ... ¤¤¤å`.,@$%9khih===kljljl¡A°Õ°Õ°Õ >>> -------------- 下一部分 -------------- ¤@?HTMLªþ¥ó³Q²¾°£... URL: http://python.cn/pipermail/python-chinese/attachments/20070517/14f8e07e/attachment.html
2007年05月17日 星期四 08:38
×Ö·û´®Îª£º²»Ð¡ÐĵãµÈ×Ô¼ºÕ¾ÉϵĹã¸æÔõô°ì£¿ÓÐûºÃµÄ·ÀÖ¹·½·¨¡£ Ϊʲô ÕýÔò£º(.*) Óë ÕýÔò£º(.*?) µÄ½á¹ûÊÇÒ»ÑùµÄ£¿£¿ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070517/69213302/attachment.html
2007年05月17日 星期四 08:51
我简单试了一下,是可以的啊,不知你是那里出了问题 #coding: utf8 import re a = '''不小心点等自己站上的广告怎么办?有没好的防止方法。''' title = re.compile('(.*?)') i = title.search(a) print i.group(1) 在07-5-17,风向标 <vaneoooo在gmail.com> 写道: > > > > 假设,我匹配这个地址http://groups.google.com/group/adsense-help-basics-zhs/browse_thread/thread/f708c78128954582/15eb27aadb6bdc53?hl=zh-CN#15eb27aadb6bdc53 > > > 提取内容的标题 > 不小心点等自己站上的广告怎么办?有没好的防止方法。 > > 代码如: > request = urllib2.Request(..... > ....... > ......)#省略 > > str = opener.open(request).read().decode('utf-8') > title = re.compile('(.*?)') > > i = title.search(str) > > 现在我type(i) > 结果将会是 Nonetype > > 关于正则我还尝试了去掉转义\符号,以及原始字符串的r'.......'符号,还有 > title = re.compile('(.*?)<\/span>', > re.UNICODE) > title = re.compile('(.*?)<\/span>', > re.VERBOSE) > title = re.compile('(.*?)<\/span>', > re.MULTILINE) > > 都没有用 > > 我是在ulipad的shell窗口及cmd窗口中做的调试,猜测和编码以及我的正则有关系。劳请解惑。谢谢 > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -- 茫茫人海,你是我的最爱 -------------- 下一部分 -------------- 一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20070517/32f12a36/attachment-0001.html
2007年05月17日 星期四 08:55
没有问号的是贪婪匹配 也就是如果下面的字符串 XXXXXX 前一个将匹配 XXXXXX 后一个将匹配 XXXXXX 在07-5-17,jessinio smith <jessinio在gmail.com> 写道: > > 字符串为:不小心点等自己站上的广告怎么办?有没好的防止方法。 > > 为什么 > 正则:(.*) > 与 > 正则:(.*?) > > 的结果是一样的?? > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -- 茫茫人海,你是我的最爱 -------------- 下一部分 -------------- 一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20070517/330b1fbc/attachment.htm
2007年05月17日 星期四 09:02
Á½´Î½á¹ûÊÇÒ»ÑùµÄѽ£¬Ã»ÓÐÄã˵µÄ£ºÇ°Ò»¸ö½«Æ¥Åä XXXXXX -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070517/262dd98a/attachment.html
2007年05月17日 星期四 14:17
ɵС×Ó,ÕâÊÇÌØÊâÇé¿ö,»òÕßÄãµÃ²¡ÁË»¹Ã»·¢×÷¶øÒÑ,Òþ»¼ÆäʵÒѾÓÐÁË,벡»¹Ìü¶à,ºÙºÙ ... ÔÚ07-5-17£¬jessinio smith <jessinio在gmail.com> дµÀ£º > > Á½´Î½á¹ûÊÇÒ»ÑùµÄѽ£¬Ã»ÓÐÄã˵µÄ£ºÇ°Ò»¸ö½«Æ¥Åä XXXXXX > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070517/a7d09f9b/attachment.htm
2007年05月17日 星期四 14:58
ллbook4e ͨ¹ý°ÑƬ¶ÎÄÚÈݷŵ½×Ö·û´®ÀïÀ´²âÊÔÊdzɹ¦µÄ£¬¿ÉÊǾÍÊÇ°ÑÍøÒ³ÄÚÈݶÁÈ¡»ØÀ´Æ¥Åä²»³É¹¦£¬²âÊÔÁËÄãµÄ´úÂ룬½á¹û»¹ÊÇNone. ÁíÍâÎÒÒ²³¢ÊÔÓÃulipadÀïµÄ¶¯Ì¬ÕýÔò£¨¿Éϧ²»´ó»áÓã©£¬Ö»ÄÜÁí±Ùõ辶£¬³¢ÊÔ½«Îı¾Õ³ÌùΪһ¸öÎļþ(ÔʼÎı¾£¬°üº¬\nÖ®ÀàµÄתÒå·ûµÄ)£¬È»ºóʹÓÃulipadµÄÕýÔò²éѯ£¬Ò²ÊÇÄÜÕýÈ·ÕÒµ½µÄ£¬µ«Æ«Æ«×÷ΪÍøÒ³ÄÚÈݱ£´æΪ×Ö·û´®±äÁ¿Ê±²»ÐУ¬ÒÔÏÂÊÇÎÒ×ö¹ýµÄ³¢ÊÔ£º #¶ÁÈ¡ÍøÒ³ request = urllib2.Request(' http://groups.google.com/group/adsense-help-basics-zhs/browse_thread/thread/f708c78128954582/15eb27aadb6bdc53?hl=zh-CN#15eb27aadb6bdc53' ) #¹¹ÔìheadÍ·ÐÅÏ¢ request.add_header("User-Agent",'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.1.3) Gecko/20070309 Firefox/2.0.0.3') #³¢ÊÔbook4eÐÖµÄÕýÔò opener = urllib2.build_opener() title = re.compile(r'(.*?)(?u)') str = opener.open(request).read().decode('utf-8') i=title.search(str) type(i)#³¢ÊÔlimodouÐÖ˵µÄÏȲ»×ª»»±àÂë str = opener.open(request).read() title = re.compile(r'(.*?)') i=title.search(str) i type(i) #³¢ÊÔÆäËûÕýÔò»ò±àÂ뷽ʽ str = unicode(opener.open(request).read(),'utf8') i=title.search(str) type(i) #¼ÌÐø³¢ÊÔ title = re.compile( u'(.*?)') str = unicode(opener.open(request).read(),'utf8') i=title.search(str) type(i) ÎÒ´òÓ¡str³öÀ´£¬ÎÒÐèҪץȡµÄ²¿·ÖÊÇÕâÑù£º"\n \xe8\xaf\xb7\xe9\x97\xaebarcode\xe9\x97\xae\xe9\xa2\x98\n \n" ºÍתÒå·ûÓйØϵ£¿»¹ÊÇÔõôÄØ£¿ лл -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070517/2d4a3cf9/attachment.html
2007年05月18日 星期五 15:01
ÔÚÕýÔòÆ¥ÅäÖУ¬"."Æ¥Åä³ýÁË»»ÐÐÒÔÍâµÄËùÓÐ×Ö·û£¬ËùÒÔ r'(.*?)' ʵ¼ÊÖ»ÄÜÆ¥ÅäÔÚÒ»ÐеÄ×Ö·û´®£¬¶øÔÚÄãµÄÍøÒ³ÖÐ ===code=== >>> print str[11784:12084].decode('utf-8') ss="ln" href="/group/adsense-help-basics-zhs/topics?hl=zh-CN">AdSense »ù´¡ÖªÊ¶ > ²»Ð¡ÐĵãµÈ×Ô¼ºÕ¾ÉϵĹã¸æÔõô°ì£¿ÓÐûºÃµÄ·ÀÖ¹·½·¨¡£(.*?)', re.S) ===code=== >>> pat = re.compile(r'(.*?)', re.S) >>> result = pat.search(str) >>> print result.groups()[0].decode('utf-8') ²»Ð¡ÐĵãµÈ×Ô¼ºÕ¾ÉϵĹã¸æÔõô°ì£¿ÓÐûºÃµÄ·ÀÖ¹·½·¨¡£ >>> ===code=== ²»¹ý£¬ÕâÑùÒ²¾ÍÐèÒª×Ô¼ºstrip£¬È¥µô\nÁË¡£ zhangfan 2007-05-18 ·¢¼þÈË£º ·çÏò±ê ·¢ËÍʱ¼ä£º 2007-05-17 15:00:01 ÊÕ¼þÈË£º python-chinese在lists.python.cn ³ËÍ£º Ö÷Ì⣺ Re: [python-chinese][ÕýÔò] ÌáÈ¡UTF-8ÍøÒ³£¬Æ¥ÅäÖÐÎÄÄÚÈÝÆ¥Åä²»µ½ ллbook4e ͨ¹ý°ÑƬ¶ÎÄÚÈݷŵ½×Ö·û´®ÀïÀ´²âÊÔÊdzɹ¦µÄ£¬¿ÉÊǾÍÊÇ°ÑÍøÒ³ÄÚÈݶÁÈ¡»ØÀ´Æ¥Åä²»³É¹¦£¬²âÊÔÁËÄãµÄ´úÂ룬½á¹û»¹ÊÇNone. ÁíÍâÎÒÒ²³¢ÊÔÓÃulipadÀïµÄ¶¯Ì¬ÕýÔò£¨¿Éϧ²»´ó»áÓã©£¬Ö»ÄÜÁí±Ùõ辶£¬³¢ÊÔ½«Îı¾Õ³ÌùΪһ¸öÎļþ(ÔʼÎı¾£¬°üº¬\nÖ®ÀàµÄתÒå·ûµÄ)£¬È»ºóʹÓÃulipadµÄÕýÔò²éѯ£¬Ò²ÊÇÄÜÕýÈ·ÕÒµ½µÄ£¬µ«Æ«Æ«×÷ΪÍøÒ³ÄÚÈݱ£´æΪ×Ö·û´®±äÁ¿Ê±²»ÐУ¬ÒÔÏÂÊÇÎÒ×ö¹ýµÄ³¢ÊÔ£º #¶ÁÈ¡ÍøÒ³ request = urllib2.Request(' http://groups.google.com/group/adsense-help-basics-zhs/browse_thread/thread/f708c78128954582/15eb27aadb6bdc53?hl=zh-CN#15eb27aadb6bdc53') #¹¹ÔìheadÍ·ÐÅÏ¢ request.add_header("User-Agent",'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.1.3) Gecko/20070309 Firefox/2.0.0.3') #³¢ÊÔbook4eÐÖµÄÕýÔò opener = urllib2.build_opener() title = re.compile(r'(.*?)(?u)') str = opener.open(request).read().decode('utf-8') i=title.search(str) type(i)#³¢ÊÔlimodouÐÖ˵µÄÏȲ»×ª»»±àÂë str = opener.open(request).read() title = re.compile(r'(.*?)') i=title.search(str) i type(i) #³¢ÊÔÆäËûÕýÔò»ò±àÂ뷽ʽ str = unicode(opener.open(request).read(),'utf8') i=title.search(str) type(i) #¼ÌÐø³¢ÊÔ title = re.compile( u'(.*?)') str = unicode(opener.open(request).read(),'utf8') i=title.search (str) type(i) ÎÒ´òÓ¡str³öÀ´£¬ÎÒÐèҪץȡµÄ²¿·ÖÊÇÕâÑù£º"\n \xe8\xaf\xb7\xe9\x97\xaebarcode\xe9\x97\xae\xe9\xa2\x98\n \n" ºÍתÒå·ûÓйØϵ£¿»¹ÊÇÔõôÄØ£¿ лл -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070518/ee6acd5f/attachment.htm
2007年05月18日 星期五 15:08
ÎÊÌâÒѾÔÚHYRYÐֵİïÖúϽâ¾ö£¬Ê£ÓàÐèҪƥÅäµÄ²¿·ÖÎÒ²ÉÓÃÁËBeautifulSoup½â¾ö Ò²ÍƼöÐèÒªhtml·ÖÎöÌáÈ¡ÄÚÈݵÄÅóÓÑ£¬ÊÔÊÔÕâ¸ö ¸ÐлÖîλ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070518/6885987c/attachment.html
Zeuux © 2025
京ICP备05028076号