Python论坛的帖子：

星期六十月 28 17:03:03 HKT 2006

现在百度的mp3搜索不能直接点击下载了，需要点击链接打开新窗口再下载，这样网上以前的一些百度mp3下载工具和python代码
都失效了，找了一下还没有找到当前依然可用的程序，就打算写一个，基本上完成了。
谈一下到目前为止的感受，程序内部使用UTF-8编码处理GBK数据真痛苦，尤其是处理URL和html内容。就拿这个下载mp3的小爬
虫为例，参看下面的一断代码。所提交的查询URL中的中文关键字对搜索结果有直接影响，虽然已经把URL转换成了gbk编码再提
交，但是获取的搜索结果却不能使用gbk编码来解码，大概是因为结果中有个别的UTF-8编码的字符？

def GetSongURLs(artist, title):
    """Search results in baidu can't be downloaded directly,
       this function get top 30(or less) urls from the results.
       arguments:
           artist: artist
           title: title/song name
       return values:
           urls: urls got from search results.
    """
    baseurl = '
http://mp3.baidu.com/m?f=ms&tn;=baidump3&ct;=134217728&lf;=&rn;=&lm;=0&word;='
    keyword = '%s %s' %(artist, title)
    keyword = keyword.decode('utf8').encode('gbk') #这里，已经把关键字转为gbk编码了
    url = baseurl + urllib.quote(keyword, string.punctuation)

    html = urllib2.urlopen(url).read()
    try:
        html = html.decode('gbk').encode('utf8')  # 但是这里有时候解码会出错
    except UnicodeDecodeError:
        print url  #打印出解码会出错的页面的url，在浏览器中打开没看出有什么不正常
        sys.exit(1)
    pattern = 'http://.*baidusg.*&lm;=16777216'
    urls = re.findall(pattern, html)
    if len(urls) >= 10:
        return urls[:10]
    else:
        return urls

上面代码中我用红色所注释的地方有时候会解码失败， 但是也不是完全不能用，相反是绝大多数情况下都很正常，但
就是在某些为知的情况下会失败。

编码转来转去觉得很头疼，最终还是妥协了，程序内部使用gbk，不再转来转去了，sigh……

还有就是以前也遇到过，有一些文本，无论尝试用什么编码都无法解码，是因为这些文本中含有不止一种编码的字符？不知道处理这类问题有没有什么好的方法。
-- 
I like Python & Linux.
Blog: http://recordus.cublog.cn
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20061028/b262db22/attachment.htm

标题：[python-chinese] 正在写一个小爬虫，程序内部使用UTF-8编码处理GBK编码的数据真痛苦