Python论坛  - 讨论区

标题:[python-chinese] Python 编码问题整理

2008年01月12日 星期六 11:52

liwei anbutu在gmail.com
星期六 一月 12 11:52:36 HKT 2008

说实话,直到现在,还时不时的在使用 Python 的过程中遇到编码出错的问题。在这里讨论一下,以后整理一下留作参考。

先说说我目前对 Python 编码的理解:

几个概念性的东西
ANSCII:
标准的 ANSCII 编码只使用7个比特来表示一个字符,因此最多编码128个字符。扩充的 ANSCII 使用8个比特来表示一个字符,最多也只能
编码 256 个字符。

UNICODE:
使用2个甚至4个字节来编码一个字符,因此可以将世界上所有的字符进行统一编码。

UTF:
UNICODE编码转换格式,就是用来指导如何将 unicode 编码成适合文件存储和网络传输的字节序列的形式 (unicode ->
str)。像其他的一些编码方式 gb2312, gb18030, big5 和 UTF 的作用是一样的,只是编码方式不同。

Python 里面有两种数据模型来支持字符串这种数据类型,一种是 str,另外一种是 unicode ,它们都是 sequence 的派生类
型,这个可以参考 Python Language Ref 中的描述:

   Strings
       The items of a string are characters. There is no separate
character type; a character is represented by a string of one item.
Characters represent (at least) 8-bit bytes. The built-in functions
chr() and ord() convert between characters and nonnegative integers
representing the byte values. Bytes with the values 0-127 usually
represent the corresponding ASCII values, but the interpretation of
values is up to the program. The string data type is also used to
represent arrays of bytes, e.g., to hold data read from a file.

       (On systems whose native character set is not ASCII, strings
may use EBCDIC in their internal representation, provided the
functions chr() and ord() implement a mapping between ASCII and
EBCDIC, and string comparison preserves the ASCII order. Or perhaps
someone can propose a better rule?)

   Unicode
       The items of a Unicode object are Unicode code units. A
Unicode code unit is represented by a Unicode object of one item and
can hold either a 16-bit or 32-bit value representing a Unicode
ordinal (the maximum value for the ordinal is given in sys.maxunicode,
and depends on how Python is configured at compile time). Surrogate
pairs may be present in the Unicode object, and will be reported as
two separate items. The built-in functions unichr() and ord() convert
between code units and nonnegative integers representing the Unicode
ordinals as defined in the Unicode Standard 3.0. Conversion from and
to other encodings are possible through the Unicode method encode()
and the built-in function unicode().

这里面是这么几句:
"The items of a string are characters", "The items of a Unicode object
are Unicode code units", "The string data type is also used to
represent arrays of bytes, e.g., to hold data read from a file."
一二句说明 str 和 unicode 的组成单元(item)是什么(因为它们同是 sequence ) 。sequence 默认的
__len__ 函数的返回值正是该序列组成单元的个数。这样的话,len('abcd') == 4 和 len(u'我是中文') == 4 就很
容易理解了。
第三句告诉我们像从文件输入输出的时候是用 str 来表示数据的数组。不止是文件操作,我想在网络传输的时候应该也是这样的。这就是为什么一个
unicode 字符串在写入文件或者在网络上传输的时候要进行编码的原因了。

Python 里面的编码和解码也就是 unicode 和 str 这两种形式的相互转化。编码是 unicode -> str,相反的,解码就
是 str -> unicode。

下面剩下的问题就是确定何时需要进行编码或者解码了,像一些库是 unicode 版的,这样我们在将这些库函数的返回值进行传输或者写入文件的时候就
要考虑将它编码成合适的类型。

关于文件开头的"编码指示",也就是 # -*- coding: -*- 这个语句。Python 默认脚本文件都是 ANSCII 编码的,当文件
中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正。

关于 sys.defaultencoding,这个在解码没有明确指明解码方式的时候使用。比如我有如下代码:

#! /usr/bin/env python
# -*- coding: utf-8 -*-

s = '中文'  # 注意这里的 str 是 str 类型的,而不是 unicode
s.encode('gb18030')

这句代码将 s 重新编码为 gb18030 的格式,即进行 unicode -> str 的转换。因为 s 本身就是 str 类型的,因此
Python 会自动的先将 s 解码为 unicode ,然后再编码成 gb18030。因为解码是python自动进行的,我们没有指明解码方
式,python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是
ANSCII,如果 s 不是这个类型就会出错。
拿上面的情况来说,我的 sys.defaultencoding 是 anscii,而 s 的编码方式和文件的编码方式一致,是 utf8 的,所
以出错了:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position
0: ordinal not in range(128)
对于这种情况,我们有两种方法来改正错误:
一是明确的指示出 s 的编码方式

#! /usr/bin/env python
# -*- coding: utf-8 -*-

s = '中文'
s.decode('utf-8').encode('gb18030')


二是更改 sys.defaultencoding 为文件的编码方式

#! /usr/bin/env python
# -*- coding: utf-8 -*-

import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入
sys.setdefaultencoding('utf-8')

str = '中文'
str.encode('gb18030')

-- 
Jerry Lee
University of Jinan

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月12日 星期六 12:36

Handle.Huang handle.huang0409在gmail.com
星期六 一月 12 12:36:55 HKT 2008

非常好,收藏了

-----邮件原件-----
发件人: python-chinese-bounces在lists.python.cn [mailto:python-chinese-bounces在lists.python.cn] 代表 liwei
发送时间: 2008年1月12日 11:53
收件人: python-chinese在lists.python.cn
主题: [python-chinese] Python 编码问题整理

说实话,直到现在,还时不时的在使用 Python 的过程中遇到编码出错的问题。在这里讨论一下,以后整理一下留作参考。

先说说我目前对 Python 编码的理解:

几个概念性的东西
ANSCII:
标准的 ANSCII 编码只使用7个比特来表示一个字符,因此最多编码128个字符。扩充的 ANSCII 使用8个比特来表示一个字符,最多也只能
编码 256 个字符。

UNICODE:
使用2个甚至4个字节来编码一个字符,因此可以将世界上所有的字符进行统一编码。

UTF:
UNICODE编码转换格式,就是用来指导如何将 unicode 编码成适合文件存储和网络传输的字节序列的形式 (unicode ->
str)。像其他的一些编码方式 gb2312, gb18030, big5 和 UTF 的作用是一样的,只是编码方式不同。

Python 里面有两种数据模型来支持字符串这种数据类型,一种是 str,另外一种是 unicode ,它们都是 sequence 的派生类
型,这个可以参考 Python Language Ref 中的描述:

   Strings
       The items of a string are characters. There is no separate
character type; a character is represented by a string of one item.
Characters represent (at least) 8-bit bytes. The built-in functions
chr() and ord() convert between characters and nonnegative integers
representing the byte values. Bytes with the values 0-127 usually
represent the corresponding ASCII values, but the interpretation of
values is up to the program. The string data type is also used to
represent arrays of bytes, e.g., to hold data read from a file.

       (On systems whose native character set is not ASCII, strings
may use EBCDIC in their internal representation, provided the
functions chr() and ord() implement a mapping between ASCII and
EBCDIC, and string comparison preserves the ASCII order. Or perhaps
someone can propose a better rule?)

   Unicode
       The items of a Unicode object are Unicode code units. A
Unicode code unit is represented by a Unicode object of one item and
can hold either a 16-bit or 32-bit value representing a Unicode
ordinal (the maximum value for the ordinal is given in sys.maxunicode,
and depends on how Python is configured at compile time). Surrogate
pairs may be present in the Unicode object, and will be reported as
two separate items. The built-in functions unichr() and ord() convert
between code units and nonnegative integers representing the Unicode
ordinals as defined in the Unicode Standard 3.0. Conversion from and
to other encodings are possible through the Unicode method encode()
and the built-in function unicode().

这里面是这么几句:
"The items of a string are characters", "The items of a Unicode object
are Unicode code units", "The string data type is also used to
represent arrays of bytes, e.g., to hold data read from a file."
一二句说明 str 和 unicode 的组成单元(item)是什么(因为它们同是 sequence ) 。sequence 默认的
__len__ 函数的返回值正是该序列组成单元的个数。这样的话,len('abcd') == 4 和 len(u'我是中文') == 4 就很
容易理解了。
第三句告诉我们像从文件输入输出的时候是用 str 来表示数据的数组。不止是文件操作,我想在网络传输的时候应该也是这样的。这就是为什么一个
unicode 字符串在写入文件或者在网络上传输的时候要进行编码的原因了。

Python 里面的编码和解码也就是 unicode 和 str 这两种形式的相互转化。编码是 unicode -> str,相反的,解码就
是 str -> unicode。

下面剩下的问题就是确定何时需要进行编码或者解码了,像一些库是 unicode 版的,这样我们在将这些库函数的返回值进行传输或者写入文件的时候就
要考虑将它编码成合适的类型。

关于文件开头的"编码指示",也就是 # -*- coding: -*- 这个语句。Python 默认脚本文件都是 ANSCII 编码的,当文件
中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正。

关于 sys.defaultencoding,这个在解码没有明确指明解码方式的时候使用。比如我有如下代码:

#! /usr/bin/env python
# -*- coding: utf-8 -*-

s = '中文'  # 注意这里的 str 是 str 类型的,而不是 unicode
s.encode('gb18030')

这句代码将 s 重新编码为 gb18030 的格式,即进行 unicode -> str 的转换。因为 s 本身就是 str 类型的,因此
Python 会自动的先将 s 解码为 unicode ,然后再编码成 gb18030。因为解码是python自动进行的,我们没有指明解码方
式,python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是
ANSCII,如果 s 不是这个类型就会出错。
拿上面的情况来说,我的 sys.defaultencoding 是 anscii,而 s 的编码方式和文件的编码方式一致,是 utf8 的,所
以出错了:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position
0: ordinal not in range(128)
对于这种情况,我们有两种方法来改正错误:
一是明确的指示出 s 的编码方式

#! /usr/bin/env python
# -*- coding: utf-8 -*-

s = '中文'
s.decode('utf-8').encode('gb18030')


二是更改 sys.defaultencoding 为文件的编码方式

#! /usr/bin/env python
# -*- coding: utf-8 -*-

import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入
sys.setdefaultencoding('utf-8')

str = '中文'
str.encode('gb18030')

-- 
Jerry Lee
University of Jinan
_______________________________________________
python-chinese
Post: send python-chinese在lists.python.cn
Subscribe: send subscribe to python-chinese-request在lists.python.cn
Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月12日 星期六 13:59

Xian Chen hoganxian在gmail.com
星期六 一月 12 13:59:30 HKT 2008

àÅ£¬pythonÔÚ´¦Àí±àÂëʱ×ÜÊdzöÎÊÌ⣬дµÄ²»´í

2008/1/12 liwei <anbutu在gmail.com>:

> ˵ʵ»°£¬Ö±µ½ÏÖÔÚ£¬»¹Ê±²»Ê±µÄÔÚʹÓà Python µÄ¹ý³ÌÖÐÓöµ½±àÂë³ö´íµÄÎÊÌâ¡£ÔÚÕâÀïÌÖÂÛһϣ¬ÒÔºóÕûÀíÒ»ÏÂÁô×÷²Î¿¼¡£
>
> ÏÈ˵˵ÎÒÄ¿Ç°¶Ô Python ±àÂëµÄÀí½â£º
>
> ¼¸¸ö¸ÅÄîÐԵĶ«Î÷
> ANSCII:
> ±ê×¼µÄ ANSCII ±àÂëֻʹÓÃ7¸ö±ÈÌØÀ´±íʾһ¸ö×Ö·û£¬Òò´Ë×î¶à±àÂë128¸ö×Ö·û¡£À©³äµÄ ANSCII ʹÓÃ8¸ö±ÈÌØÀ´±íʾһ¸ö×Ö·û£¬×î¶àÒ²Ö»ÄÜ
> ±àÂë 256 ¸ö×Ö·û¡£
>
> UNICODE:
> ʹÓÃ2¸öÉõÖÁ4¸ö×Ö½ÚÀ´±àÂëÒ»¸ö×Ö·û£¬Òò´Ë¿ÉÒÔ½«ÊÀ½çÉÏËùÓеÄ×Ö·û½øÐÐͳһ±àÂë¡£
>
> UTF:
> UNICODE±àÂëת»»¸ñʽ£¬¾ÍÊÇÓÃÀ´Ö¸µ¼ÈçºÎ½« unicode ±àÂë³ÉÊʺÏÎļþ´æ´¢ºÍÍøÂç´«ÊäµÄ×Ö½ÚÐòÁеÄÐÎʽ (unicode ->
> str)¡£ÏñÆäËûµÄһЩ±àÂ뷽ʽ gb2312, gb18030, big5 ºÍ UTF µÄ×÷ÓÃÊÇÒ»ÑùµÄ£¬Ö»ÊDZàÂ뷽ʽ²»Í¬¡£
>
> Python ÀïÃæÓÐÁ½ÖÖÊý¾ÝÄ£ÐÍÀ´Ö§³Ö×Ö·û´®ÕâÖÖÊý¾ÝÀàÐÍ£¬Ò»ÖÖÊÇ str£¬ÁíÍâÒ»ÖÖÊÇ unicode £¬ËüÃǶ¼ÊÇ sequence µÄÅÉÉúÀà
> ÐÍ£¬Õâ¸ö¿ÉÒԲο¼ Python Language Ref ÖеÄÃèÊö£º
>
>   Strings
>       The items of a string are characters. There is no separate
> character type; a character is represented by a string of one item.
> Characters represent (at least) 8-bit bytes. The built-in functions
> chr() and ord() convert between characters and nonnegative integers
> representing the byte values. Bytes with the values 0-127 usually
> represent the corresponding ASCII values, but the interpretation of
> values is up to the program. The string data type is also used to
> represent arrays of bytes, e.g., to hold data read from a file.
>
>       (On systems whose native character set is not ASCII, strings
> may use EBCDIC in their internal representation, provided the
> functions chr() and ord() implement a mapping between ASCII and
> EBCDIC, and string comparison preserves the ASCII order. Or perhaps
> someone can propose a better rule?)
>
>   Unicode
>       The items of a Unicode object are Unicode code units. A
> Unicode code unit is represented by a Unicode object of one item and
> can hold either a 16-bit or 32-bit value representing a Unicode
> ordinal (the maximum value for the ordinal is given in sys.maxunicode,
> and depends on how Python is configured at compile time). Surrogate
> pairs may be present in the Unicode object, and will be reported as
> two separate items. The built-in functions unichr() and ord() convert
> between code units and nonnegative integers representing the Unicode
> ordinals as defined in the Unicode Standard 3.0. Conversion from and
> to other encodings are possible through the Unicode method encode()
> and the built-in function unicode().
>
> ÕâÀïÃæÊÇÕâô¼¸¾ä£º
> "The items of a string are characters", "The items of a Unicode object
> are Unicode code units", "The string data type is also used to
> represent arrays of bytes, e.g., to hold data read from a file."
> Ò»¶þ¾ä˵Ã÷ str ºÍ unicode µÄ×é³Éµ¥Ôª(item)ÊÇʲô£¨ÒòΪËüÃÇͬÊÇ sequence ) ¡£sequence ĬÈϵÄ
> __len__ º¯ÊýµÄ·µ»ØÖµÕýÊǸÃÐòÁÐ×é³Éµ¥ÔªµÄ¸öÊý¡£ÕâÑùµÄ»°£¬len('abcd') == 4 ºÍ len(u'ÎÒÊÇÖÐÎÄ') == 4 ¾ÍºÜ
> ÈÝÒ×Àí½âÁË¡£
> µÚÈý¾ä¸æËßÎÒÃÇÏñ´ÓÎļþÊäÈëÊä³öµÄʱºòÊÇÓà str À´±íʾÊý¾ÝµÄÊý×é¡£²»Ö¹ÊÇÎļþ²Ù×÷£¬ÎÒÏëÔÚÍøÂç´«ÊäµÄʱºòÓ¦¸ÃÒ²ÊÇÕâÑùµÄ¡£Õâ¾ÍÊÇΪʲôһ¸ö
> unicode ×Ö·û´®ÔÚдÈëÎļþ»òÕßÔÚÍøÂçÉÏ´«ÊäµÄʱºòÒª½øÐбàÂëµÄÔ­ÒòÁË¡£
>
> Python ÀïÃæµÄ±àÂëºÍ½âÂëÒ²¾ÍÊÇ unicode ºÍ str ÕâÁ½ÖÖÐÎʽµÄÏ໥ת»¯¡£±àÂëÊÇ unicode -> str£¬Ïà·´µÄ£¬½âÂë¾Í
> ÊÇ str -> unicode¡£
>
> ÏÂÃæʣϵÄÎÊÌâ¾ÍÊÇÈ·¶¨ºÎʱÐèÒª½øÐбàÂë»òÕß½âÂëÁË£¬ÏñһЩ¿âÊÇ unicode °æµÄ£¬ÕâÑùÎÒÃÇÔÚ½«ÕâЩ¿âº¯ÊýµÄ·µ»ØÖµ½øÐд«Êä»òÕßдÈëÎļþµÄʱºò¾Í
> Òª¿¼Âǽ«Ëü±àÂë³ÉºÏÊʵÄÀàÐÍ¡£
>
> ¹ØÓÚÎļþ¿ªÍ·µÄ"±àÂëָʾ"£¬Ò²¾ÍÊÇ # -*- coding: -*- Õâ¸öÓï¾ä¡£Python ĬÈϽű¾Îļþ¶¼ÊÇ ANSCII ±àÂëµÄ£¬µ±Îļþ
> ÖÐÓÐ·Ç ANSCII ±àÂ뷶ΧÄÚµÄ×Ö·ûµÄʱºò¾ÍҪʹÓÃ"±àÂëָʾ"À´ÐÞÕý¡£
>
> ¹ØÓÚ sys.defaultencoding£¬Õâ¸öÔÚ½âÂëûÓÐÃ÷È·Ö¸Ã÷½âÂ뷽ʽµÄʱºòʹÓᣱÈÈçÎÒÓÐÈçÏ´úÂ룺
>
> #! /usr/bin/env python
> # -*- coding: utf-8 -*-
>
> s = 'ÖÐÎÄ'  # ×¢ÒâÕâÀïµÄ str ÊÇ str ÀàÐ͵ģ¬¶ø²»ÊÇ unicode
> s.encode('gb18030')
>
> Õâ¾ä´úÂ뽫 s ÖØбàÂëΪ gb18030 µÄ¸ñʽ£¬¼´½øÐÐ unicode -> str µÄת»»¡£ÒòΪ s ±¾Éí¾ÍÊÇ str ÀàÐ͵ģ¬Òò´Ë
> Python »á×Ô¶¯µÄÏȽ« s ½âÂëΪ unicode £¬È»ºóÔÙ±àÂë³É gb18030¡£ÒòΪ½âÂëÊÇpython×Ô¶¯½øÐеģ¬ÎÒÃÇûÓÐÖ¸Ã÷½âÂë·½
> ʽ£¬python ¾Í»áʹÓà sys.defaultencoding Ö¸Ã÷µÄ·½Ê½À´½âÂë¡£ºÜ¶àÇé¿öÏ sys.defaultencoding ÊÇ
> ANSCII£¬Èç¹û s ²»ÊÇÕâ¸öÀàÐ;ͻá³ö´í¡£
> ÄÃÉÏÃæµÄÇé¿öÀ´Ëµ£¬ÎÒµÄ sys.defaultencoding ÊÇ anscii£¬¶ø s µÄ±àÂ뷽ʽºÍÎļþµÄ±àÂ뷽ʽһÖ£¬ÊÇ utf8 µÄ£¬Ëù
> ÒÔ³ö´íÁË:
> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position
> 0: ordinal not in range(128)
> ¶ÔÓÚÕâÖÖÇé¿ö£¬ÎÒÃÇÓÐÁ½ÖÖ·½·¨À´¸ÄÕý´íÎó£º
> Ò»ÊÇÃ÷È·µÄָʾ³ö s µÄ±àÂ뷽ʽ
>
> #! /usr/bin/env python
> # -*- coding: utf-8 -*-
>
> s = 'ÖÐÎÄ'
> s.decode('utf-8').encode('gb18030')
>
>
> ¶þÊǸü¸Ä sys.defaultencoding ΪÎļþµÄ±àÂ뷽ʽ
>
> #! /usr/bin/env python
> # -*- coding: utf-8 -*-
>
> import sys
> reload(sys) # Python2.5 ³õʼ»¯ºó»áɾ³ý sys.setdefaultencoding Õâ¸ö·½·¨£¬ÎÒÃÇÐèÒªÖØÐÂÔØÈë
> sys.setdefaultencoding('utf-8')
>
> str = 'ÖÐÎÄ'
> str.encode('gb18030')
>
> --
> Jerry Lee
> University of Jinan
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20080112/57f0741a/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号