Python论坛  - 讨论区

标题:贪婪匹配问题

2010年05月27日 星期四 14:32

#-*-coding:utf-8-*-
html = """<tr align="center" bgcolor="#FFFFCC" class="top5_right_table_row2_td">
<td width="100%" align="left" valign="top" bgcolor="#FFFCE9"><script>
                                var imgUrl=new Array();
                                var imgLink=new Array();
                                var adNum=0;
                                imgUrl[1]="http://pic.lenso.cn/upimg/pic/1195805131212106.jpg_summ";imgUrl[2]="http://pic.lenso.cn/upimg/pic/1195805098529939.jpg_summ";imgUrl[3]="http://pic.lenso.cn/upimg/pic/1195805048381337.jpg_summ";imgUrl[4]="http://pic.lenso.cn/upimg/pic/1195805006290728.jpg_summ";</script><script src="../js/pic.js"></script><div style="float:right;MARGIN:0px 0px 0px 10px;width:300;height:300;border:1px #f1f1f1 solid;text-align:center"><img style="FILTER: revealTrans(transition=6)" src="javascript:nextAd()" name="imgInit" border="0" /></div><p>&nbsp;&nbsp;&nbsp; │﾿゙←ヤチ¦ᄌᆳ¥ロᄑ￧ᄑム¬タユ│﾿゙←ヤチ₩ヒロ¥ユニ¥ハᅠ￧ロ゚│ᄀフ¦ᄌレ￧ᄏᄐ¥ミネ₩タᄃ¦﾿ᄀ₩チᆵ¥フヨ₩ワヘ¥ハᄀ₩マミ¦ᄒロ¥ユニ￯ᄐフ¦ᄍ゚₩リᆵ←ロニ￧ヤᄉ¥ᆳミ¥ユニ¥ハᄀ ̄タチ│ᄉト│ᆴᆵ¦ᄐᅠ¥ᆰメ ̄タチ¥ユニ¦ᄌレ₩ワヘ¥ハᄀ¦ᄎホ¦ᄌタ¦ᄑモ￧レト₩ヒロ¥ユニ¥ハᅠ￧ロ゚│ᄀフ¦ᄌレ₩ワヘ¥ハᄀ¥ᄍᄈ¥マᄚ ̄タツ₩ネム¦ᄏᆲ│ヌᄡ¥ハロ¦ᄎホ¦ᄌᄎ│﾿゙←ヤチ₩ヒロ¥ユニ¥モチ￧ノフ¦ᄐチ¦ᄌレ¥メフ¥ハᅠ￧ロ゚¥ネロ¦ᄌレ₩ハユ│ᄉト¦ᄎᄎ₩マミ¦ᄒロ¥ナᄄ₩ヨᄍ¦ᄑヘ￧レト¦ᄌモ¦ᄌレ¥フヨ₩ワヘ¥ハᄀ ̄タツ </p>
<p>&nbsp;&nbsp;&nbsp; ¦ᄌᄎ¦ᄐチ¦ᄌレ￯ᄐレ│﾿゙←ヤチ¦ᄌᆳ¥ロᄑ￧ᄑム₩マミ¦ᄒロ¦ᄎニ¦ᄌモ¦ᄌレ¥フヨ ̄タチ₩ᅠヌ¥ヌニ¥フヨ ̄タチ¥モチ￧ノフ¥フヨ￧レト₩ヒロ¥ユニ¥ハᅠ￧ロ゚₩ホᄄ¥ᄍ﾿₩ワヘ¥ハᄀ¥ᄍᄈ¥マᄚ￯ᄐロ¥ミフ₩ラᄊ¦ᄌᄎ│﾿゙←ヤチ¦ᄐチ¦ᄌレ￧レト¥モチ￧ノフ¥チレ₩ユᄡ¦ᄑモ₩タᄃ￧レト←ᄀᄍ￧ロᆴ¥フナ│ᆪナ￧ᆳヨ¥ネメ ̄タチ│﾿゙←ヤチ₩ヒロ¥ユニ¦ᄑモ￧ᄈᄏ¥ᆵᄐ¥ナᆬ ̄タチ│﾿゙←ヤチ¦ᄌモ¦ᄌレ¦ᄎᄎ₩ノヘ¥゚ᄍ¥ナᄏ￧ᆳノ¦ᄐチ¦ᄌレ←ワタ│ᆭチ￧レト│ミᆬ←ヤタ₩ホᄄ¥ᄍ﾿¦ᄎᄃ¥モチ¥メフ₩ワヘ¥ハᄀ ̄タツ </p>
<div v:shape="_x0000_s1026">
<div></div>
<div>&nbsp;&nbsp;&nbsp;&nbsp;¦ᄌᄎ¦ᄌᆰ¦ᄎᄎ￯ᄐレ│﾿゙←ヤチ¦ᄌᆳ¥ロᄑ￧ᄑム₩マミ¦ᄒロ¥ネロ¦ᄌレ₩ハユ│ᄉト¥メᄄ│ᆵᄁ ̄タチ¥ハᅠ￧ロ゚←ᄀᄍ￧ロᆴ₩ホᄄ│ヘミ ̄タチ←ᄀᄍ￧ロᆴ│タテ¥ᆵ゚ ̄タチ¥ネロ¦ᄌレ₩ハユ│ᄉト￧゚ᆬ│ᆵニ₩ルᆴ¥マハ￧ᆳノ₩ハユ│ᄉト¦ᄎᄎ₩ノタ←ワタ│ᆭチ￧レト¥ミト￧ᄃヘ₩ワヘ¥ハᄀ ̄タツ </div>
<div></div>
<div>&nbsp;&nbsp;&nbsp;&nbsp;│﾿゙←ヤチ¦ᄌᆳ¥ロᄑ￧ᄑム¦ᄏᆬ ¬タワ₩ホᄄ¥ハᄄ¦ᄌᆳ¥ロᄑ│﾿゙←ヤチ¥ハᅠ￧ロ゚¦ᄌレ￧レト¥﾿ᆱ←タ゚¥マム¥ᄆユ│タフ│ᄡᄀ￧フᆴ│ヌᆰ¥ᄋᄆ￧レト¦ᄌタ¦ᄏᄑ¥ハロ←ヌマ￯ᄐチ¬タン ¦ᄌᄎ¦ᄑ﾿¥ムᄑ￯ᄐフ¥ナᄄ←ンᄁ₩ユᄡ¥ミネ￧ᄑム¦ᄌハ￧ᄑム¦ᄌヒ│ᄉト₩ᄎミ￯ᄐフ¦ᄌᄎ¥ネロ¦ᄌレ₩ハユ│ᄉト│タナ ̄タチ¦ᄌᄎ₩ヒロ¥ユニ¥ハᅠ￧ロ゚¦ᄐチ¦ᄌレ ̄タチ¦ᄌᄎ¥ᄂᄃ¥ᆳᆭ￧ヤ゚¥ネロ¦ᄌレ¥ロᄁ¦ᄑモ ̄タチ￧ᄂᄒ¦ᄐレ¥ロᄁ¦ᄑモ¥メフ₩ワヘ¥ハᄀ₩ワᄎ₩゙ト￧ᆳノ₩マミ¦ᄒロ¥ᄂレ¥ナテ¥フヨ￧レト₩ワヘ¥ハᄀ ̄タツ </div>
<div></div>
<div>&nbsp;&nbsp;&nbsp;&nbsp;│﾿゙←ヤチ¦ᄌᆳ¥ロᄑ￧ᄑム￯ᄐネwww.lenso.cn￯ᄐノ<br />&nbsp;&nbsp;&nbsp;&nbsp;¦ᄌᄎ│﾿゙←ヤチ₩ヒロ¥ユニ¦ᄐチ¦ᄌレ¥メフ¥ネロ¦ᄌレ₩ハユ│ᄉト¦ᄎᄎ₩ミᆳ¥ᄏᄎ¦ᄎニ¦ᄌタ¦ᄌᆰ¦﾿ᄀ₩チᆵ₩ᄇ゚←タレ￧レト¥ᄍᄈ¥マᄚ￯ᄐフ¦ᄍ゚₩リᆵ│﾿゙←ヤチ¦ᄎᄎ¥ᄋᆬ¦ᄑワ¦ᄌホ￧ヤ゚₩ᄡᄏ￧レト￧ミニ₩テᄈ￧ᄂᄒ¥フᄎ ̄タツ </div>
<div></div></div></td>
</tr>
"""
import re
s = "<script>([\n].*)*script>"
print re.search(s,html).group()

结果

<script>
                                var imgUrl=new Array();
                                var imgLink=new Array();
                                var adNum=0;
                                imgUrl[1]="http://pic.lenso.cn/upimg/pic/1195805131212106.jpg_summ";imgUrl[2]="http://pic.lenso.cn/upimg/pic/1195805098529939.jpg_summ";imgUrl[3]="http://pic.lenso.cn/upimg/pic/1195805048381337.jpg_summ";imgUrl[4]="http://pic.lenso.cn/upimg/pic/1195805006290728.jpg_summ";</script><script src="../js/pic.js"></script>

 

但是把

“”“import re
s = "<script>([\n].*)*script>"
print re.search(s,html).group()“”“

爬虫代码里,他就不输出了  怎么半

 

2010年05月27日 星期四 15:23

乱码、、

2010年05月27日 星期四 16:37

已经解决

2010年05月31日 星期一 23:42

你想得到什么结论呢?

2010年06月01日 星期二 09:35

乱码是汉字,就是将前面的标签删掉,最后提取出汉字,我知道这样做可能会影响字串,但是确实没有深究,拿到结果就停了,而且我现在的工作,基本离不开re了。多写多练,最能找到答案

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号