2010年05月27日 星期四 14:32
#-*-coding:utf-8-*-
html = """<tr align="center" bgcolor="#FFFFCC" class="top5_right_table_row2_td">
<td width="100%" align="left" valign="top" bgcolor="#FFFCE9"><script>
var imgUrl=new Array();
var imgLink=new Array();
var adNum=0;
imgUrl[1]="http://pic.lenso.cn/upimg/pic/1195805131212106.jpg_summ";imgUrl[2]="http://pic.lenso.cn/upimg/pic/1195805098529939.jpg_summ";imgUrl[3]="http://pic.lenso.cn/upimg/pic/1195805048381337.jpg_summ";imgUrl[4]="http://pic.lenso.cn/upimg/pic/1195805006290728.jpg_summ";</script><script src="../js/pic.js"></script><div style="float:right;MARGIN:0px 0px 0px 10px;width:300;height:300;border:1px #f1f1f1 solid;text-align:center"><img style="FILTER: revealTrans(transition=6)" src="javascript:nextAd()" name="imgInit" border="0" /></div><p> │゙←ヤチ¦ᄌᆳ¥ロᄑᄑム¬タユ│゙←ヤチ₩ヒロ¥ユニ¥ハᅠロ゚│ᄀフ¦ᄌレᄏᄐ¥ミネ₩タᄃ¦ᄀ₩チᆵ¥フヨ₩ワヘ¥ハᄀ₩マミ¦ᄒロ¥ユニᄐフ¦ᄍ゚₩リᆵ←ロニヤᄉ¥ᆳミ¥ユニ¥ハᄀ ̄タチ│ᄉト│ᆴᆵ¦ᄐᅠ¥ᆰメ ̄タチ¥ユニ¦ᄌレ₩ワヘ¥ハᄀ¦ᄎホ¦ᄌタ¦ᄑモレト₩ヒロ¥ユニ¥ハᅠロ゚│ᄀフ¦ᄌレ₩ワヘ¥ハᄀ¥ᄍᄈ¥マᄚ ̄タツ₩ネム¦ᄏᆲ│ヌᄡ¥ハロ¦ᄎホ¦ᄌᄎ│゙←ヤチ₩ヒロ¥ユニ¥モチノフ¦ᄐチ¦ᄌレ¥メフ¥ハᅠロ゚¥ネロ¦ᄌレ₩ハユ│ᄉト¦ᄎᄎ₩マミ¦ᄒロ¥ナᄄ₩ヨᄍ¦ᄑヘレト¦ᄌモ¦ᄌレ¥フヨ₩ワヘ¥ハᄀ ̄タツ </p>
<p> ¦ᄌᄎ¦ᄐチ¦ᄌレᄐレ│゙←ヤチ¦ᄌᆳ¥ロᄑᄑム₩マミ¦ᄒロ¦ᄎニ¦ᄌモ¦ᄌレ¥フヨ ̄タチ₩ᅠヌ¥ヌニ¥フヨ ̄タチ¥モチノフ¥フヨレト₩ヒロ¥ユニ¥ハᅠロ゚₩ホᄄ¥ᄍ₩ワヘ¥ハᄀ¥ᄍᄈ¥マᄚᄐロ¥ミフ₩ラᄊ¦ᄌᄎ│゙←ヤチ¦ᄐチ¦ᄌレレト¥モチノフ¥チレ₩ユᄡ¦ᄑモ₩タᄃレト←ᄀᄍロᆴ¥フナ│ᆪナᆳヨ¥ネメ ̄タチ│゙←ヤチ₩ヒロ¥ユニ¦ᄑモᄈᄏ¥ᆵᄐ¥ナᆬ ̄タチ│゙←ヤチ¦ᄌモ¦ᄌレ¦ᄎᄎ₩ノヘ¥゚ᄍ¥ナᄏᆳノ¦ᄐチ¦ᄌレ←ワタ│ᆭチレト│ミᆬ←ヤタ₩ホᄄ¥ᄍ¦ᄎᄃ¥モチ¥メフ₩ワヘ¥ハᄀ ̄タツ </p>
<div v:shape="_x0000_s1026">
<div></div>
<div> ¦ᄌᄎ¦ᄌᆰ¦ᄎᄎᄐレ│゙←ヤチ¦ᄌᆳ¥ロᄑᄑム₩マミ¦ᄒロ¥ネロ¦ᄌレ₩ハユ│ᄉト¥メᄄ│ᆵᄁ ̄タチ¥ハᅠロ゚←ᄀᄍロᆴ₩ホᄄ│ヘミ ̄タチ←ᄀᄍロᆴ│タテ¥ᆵ゚ ̄タチ¥ネロ¦ᄌレ₩ハユ│ᄉト゚ᆬ│ᆵニ₩ルᆴ¥マハᆳノ₩ハユ│ᄉト¦ᄎᄎ₩ノタ←ワタ│ᆭチレト¥ミトᄃヘ₩ワヘ¥ハᄀ ̄タツ </div>
<div></div>
<div> │゙←ヤチ¦ᄌᆳ¥ロᄑᄑム¦ᄏᆬ ¬タワ₩ホᄄ¥ハᄄ¦ᄌᆳ¥ロᄑ│゙←ヤチ¥ハᅠロ゚¦ᄌレレト¥ᆱ←タ゚¥マム¥ᄆユ│タフ│ᄡᄀフᆴ│ヌᆰ¥ᄋᄆレト¦ᄌタ¦ᄏᄑ¥ハロ←ヌマᄐチ¬タン ¦ᄌᄎ¦ᄑ¥ムᄑᄐフ¥ナᄄ←ンᄁ₩ユᄡ¥ミネᄑム¦ᄌハᄑム¦ᄌヒ│ᄉト₩ᄎミᄐフ¦ᄌᄎ¥ネロ¦ᄌレ₩ハユ│ᄉト│タナ ̄タチ¦ᄌᄎ₩ヒロ¥ユニ¥ハᅠロ゚¦ᄐチ¦ᄌレ ̄タチ¦ᄌᄎ¥ᄂᄃ¥ᆳᆭヤ゚¥ネロ¦ᄌレ¥ロᄁ¦ᄑモ ̄タチᄂᄒ¦ᄐレ¥ロᄁ¦ᄑモ¥メフ₩ワヘ¥ハᄀ₩ワᄎ₩゙トᆳノ₩マミ¦ᄒロ¥ᄂレ¥ナテ¥フヨレト₩ワヘ¥ハᄀ ̄タツ </div>
<div></div>
<div> │゙←ヤチ¦ᄌᆳ¥ロᄑᄑムᄐネwww.lenso.cnᄐノ<br /> ¦ᄌᄎ│゙←ヤチ₩ヒロ¥ユニ¦ᄐチ¦ᄌレ¥メフ¥ネロ¦ᄌレ₩ハユ│ᄉト¦ᄎᄎ₩ミᆳ¥ᄏᄎ¦ᄎニ¦ᄌタ¦ᄌᆰ¦ᄀ₩チᆵ₩ᄇ゚←タレレト¥ᄍᄈ¥マᄚᄐフ¦ᄍ゚₩リᆵ│゙←ヤチ¦ᄎᄎ¥ᄋᆬ¦ᄑワ¦ᄌホヤ゚₩ᄡᄏレトミニ₩テᄈᄂᄒ¥フᄎ ̄タツ </div>
<div></div></div></td>
</tr>
"""
import re
s = "<script>([\n].*)*script>"
print re.search(s,html).group()
结果
<script>
var imgUrl=new Array();
var imgLink=new Array();
var adNum=0;
imgUrl[1]="http://pic.lenso.cn/upimg/pic/1195805131212106.jpg_summ";imgUrl[2]="http://pic.lenso.cn/upimg/pic/1195805098529939.jpg_summ";imgUrl[3]="http://pic.lenso.cn/upimg/pic/1195805048381337.jpg_summ";imgUrl[4]="http://pic.lenso.cn/upimg/pic/1195805006290728.jpg_summ";</script><script src="../js/pic.js"></script>
但是把
“”“import re
s = "<script>([\n].*)*script>"
print re.search(s,html).group()“”“
爬虫代码里,他就不输出了 怎么半
2010年05月27日 星期四 15:23
乱码、、
2010年05月27日 星期四 16:37
已经解决
2010年05月31日 星期一 23:42
你想得到什么结论呢?
2010年06月01日 星期二 09:35
乱码是汉字,就是将前面的标签删掉,最后提取出汉字,我知道这样做可能会影响字串,但是确实没有深究,拿到结果就停了,而且我现在的工作,基本离不开re了。多写多练,最能找到答案
Zeuux © 2024
京ICP备05028076号