Python论坛  - 讨论区

标题:[python-chinese] 怎么样把一个UTF8的文件编码转换成ASCII的,也就是gb2312的

2008年01月06日 星期日 18:40

hongqing.lv hongqing.lv在gmail.com
星期日 一月 6 18:40:21 HKT 2008

a=open('a.txt').read()
b= a.decode('utf-8').encode('gb2312')
print b

½á¹ûÌáʾ£º
UnicodeEncodeError: 'gb2312' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence
¸ÃÔõôת»»ÄØ£¿



hongqing.lv
2008-01-06
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20080106/97cda800/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月06日 星期日 18:42

Tu Tu tu.tuqiang在gmail.com
星期日 一月 6 18:42:07 HKT 2008

b= a.decode('utf-8').encode('gbk)

On Jan 6, 2008 6:40 PM, hongqing.lv <hongqing.lv在gmail.com> wrote:

>
> a=open('a.txt').read()
> b= a.decode('utf-8').encode('gb2312')
> print b
>
> ½á¹ûÌáʾ£º
> UnicodeEncodeError: 'gb2312' codec can't encode character u'\ufeff' in
> position 0: illegal multibyte sequence
> ¸ÃÔõôת»»ÄØ£¿
>  ------------------------------
>  hongqing.lv
> 2008-01-06
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
---------------------------------------------------
www.douban.com/people/tutuqiang/
---------------------------------------------------
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20080106/4331d3f1/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月06日 星期日 19:26

hongqing.lv hongqing.lv在gmail.com
星期日 一月 6 19:26:44 HKT 2008

gbkÒ²Ìáʾ²»ÐÐѽ
UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence
ÓüÇʱ¾Ð½¨Ò»¸öÎı¾Îļþ£®È»ºóдÈ뼸¸öÖÐÎÄ×Ö£®È»ºó±£´æʱѡutf-8
ÔÙ±£´æ£¬¾Í¿ÉÒÔ²âÊÔÁË£®µ«Êǽá¹ûÔõô¶¼¹ý²»È¥£®



hongqing.lv
2008-01-06



·¢¼þÈË£º Tu Tu
·¢ËÍʱ¼ä£º 2008-01-06 18:43:14
ÊÕ¼þÈË£º python-chinese在lists.python.cn
³­ËÍ£º 
Ö÷Ì⣺ Re: [python-chinese]ÔõôÑù°ÑÒ»¸öUTF8µÄÎļþ±àÂëת»»³ÉASCIIµÄ£¬Ò²¾ÍÊÇgb2312µÄ£¿

b= a.decode('utf-8').encode('gbk)


On Jan 6, 2008 6:40 PM, hongqing.lv <hongqing.lv在gmail.com> wrote: 


a=open('a.txt').read()
b= a.decode('utf-8').encode('gb2312')
print b

½á¹ûÌáʾ£º
UnicodeEncodeError: 'gb2312' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence
¸ÃÔõôת»»ÄØ£¿



hongqing.lv
2008-01-06

_______________________________________________
python-chinese
Post: send python-chinese在lists.python.cn
Subscribe: send subscribe to python-chinese-request在lists.python.cn
Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese




-- 
---------------------------------------------------
www.douban.com/people/tutuqiang/ 
--------------------------------------------------- 
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20080106/2473bddf/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月06日 星期日 21:33

jessinio liang jessinio在gmail.com
星期日 一月 6 21:33:13 HKT 2008

怀疑你的编码本身有问题,推介第三方库:

chardet.feedparser.org 检测文件的编码

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月06日 星期日 21:38

Tu Tu tu.tuqiang在gmail.com
星期日 一月 6 21:38:36 HKT 2008

Ö±½ÓÓüÇʱ¾ºÍultraedit¾ÍÄÜÅжÏÎĵµµÄ±àÂëÀàÐÍÁË£º£©

On Jan 6, 2008 9:33 PM, jessinio liang <jessinio在gmail.com> wrote:

> »³ÒÉÄãµÄ±àÂë±¾ÉíÓÐÎÊÌâ,ÍƽéµÚÈý·½¿â:
>
> chardet.feedparser.org ¼ì²âÎļþµÄ±àÂë
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
---------------------------------------------------
www.douban.com/people/tutuqiang/
---------------------------------------------------
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20080106/81e9abd3/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月07日 星期一 08:49

hongqing.lv hongqing.lv在gmail.com
星期一 一月 7 08:49:07 HKT 2008

·¢ÏÖ½á¹ûÊÇÕâÑùµÄ£®´ó¼Ò¿ÉÒÔÔÚ×Ô¼ºµÄ»úÆ÷ÉÏÊÔһϣ®
ÎÊÌâÔÚÓÚWindowsµÄ¼Çʱ¾£®ÎÒ×òÌìÊÇÓÃWindowsµÄ¼Çʱ¾Ð½¨Ò»¸öÎļþ£®È»ºó´æÈ뼸¸ö×Ö·û£®±£´æʱѡÔñUTF-8ÀàÐÍ£®
ת»»±ØÈ»³ö´í£®È»ºóÎÒÔÚUltraEditÖÐн¨Ò»¸öÎı¾Îļþ£®È»ºó±£´æʱ£¬Ñ¡ÔñUTF-8¾Í»áÓÐÎÊÌ⣮ȻºóÁí´æΪUTF-8ÎÞBOM¡¡ÕâÖÖÀàÐÍ
¾ÍÊǺõģ®
Ô­À´ÊÇwindowsµÄÒ»¸öBUG£®Äܲ»ÄÜËãÊÇPythonµÄÒ»¸öBugÄØ£¿

ÏÂÃæÊÇת»»µÄ´úÂ룮Õâ¶Î´úÂëÊÇûÓÐÎÊÌ⣮
import os,sys
a=open('s.php').read()
b=a.decode('utf-8').encode('gb2312')
open('s1.txt','w').write(b)
print b





hongqing.lv
2008-01-07



·¢¼þÈË£º Tu Tu
·¢ËÍʱ¼ä£º 2008-01-06 21:39:45
ÊÕ¼þÈË£º python-chinese在lists.python.cn
³­ËÍ£º 
Ö÷Ì⣺ Re: [python-chinese]ÔõôÑù°ÑÒ»¸öUTF8µÄÎļþ±àÂëת»»³ÉASCIIµÄ£¬Ò²¾ÍÊÇgb2312µÄ£¿

Ö±½ÓÓüÇʱ¾ºÍultraedit¾ÍÄÜÅжÏÎĵµµÄ±àÂëÀàÐÍÁË£º£©


On Jan 6, 2008 9:33 PM, jessinio liang <jessinio在gmail.com> wrote:

»³ÒÉÄãµÄ±àÂë±¾ÉíÓÐÎÊÌâ,ÍƽéµÚÈý·½¿â:

chardet.feedparser.org ¼ì²âÎļþµÄ±àÂë

_______________________________________________
python-chinese 
Post: send python-chinese在lists.python.cn
Subscribe: send subscribe to python-chinese-request在lists.python.cn 
Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese



-- 
---------------------------------------------------
www.douban.com/people/tutuqiang/ 
--------------------------------------------------- 
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20080107/d1735861/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月07日 星期一 08:58

Jiahua Huang jhuangjiahua在gmail.com
星期一 一月 7 08:58:05 HKT 2008

别折腾了, Windows 那破 notepad.exe 的所谓 UTF-8 根本就不是 UTF-8,
你用 UltraEdit 都比它强。


或者,你一定要那破记事本的话,就编码选 它所谓 "unicode",
python 里用
b = open('a.txt').read().decode('utf16').encode('gb18030')




On Jan 7, 2008 8:49 AM, hongqing.lv <hongqing.lv at gmail.com> wrote:
>
>
> 发现结果是这样的.大家可以在自己的机器上试一下.

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月07日 星期一 09:26

hongqing.lv hongqing.lv在gmail.com
星期一 一月 7 09:26:25 HKT 2008

лл.¸ßÈË.
b = open('a.txt').read().decode('utf16').encode('gb18030') #utf16 Ò²Ìáʾ³ö´í.utf8¾Í¿ÉÒÔ.
ÔÚÎÒµÄϵͳÉÏwindows xp.ÕâÑùд¾Í¿ÉÒÔÉú³ÉAsciiÂëµÄ.
b = open('a.txt').read().decode('utf8').encode('gb18030') #ºóÃæµÄÒ»¶¨²»ÄÜÓÃgb2312,
×òÌìÕÛÌÚÁËÒ»Ìì,Ô­À´ÊǼÇʱ¾ÓÐ벡,ÔÎËÀ.




hongqing.lv
2008-01-07



·¢¼þÈË£º Jiahua Huang
·¢ËÍʱ¼ä£º 2008-01-07 08:59:07
ÊÕ¼þÈË£º python-chinese在lists.python.cn
³­ËÍ£º 
Ö÷Ì⣺ Re: [python-chinese]ÔõôÑù°ÑÒ»¸ö
b = open('a.txt').read().decode('utf16').encode('gb18030')
UTF8µÄÎļþ±àÂëת»»³ÉASCIIµÄ£¬Ò²¾ÍÊÇgb2312µÄ£¿

±ðÕÛÌÚÁË£¬ Windows ÄÇÆÆ notepad.exe µÄËùν UTF-8 ¸ù±¾¾Í²»ÊÇ UTF-8,
ÄãÓà UltraEdit ¶¼±ÈËüÇ¿¡£


»òÕߣ¬ÄãÒ»¶¨ÒªÄÇÆƼÇʱ¾µÄ»°£¬¾Í±àÂëÑ¡ ËüËùν "unicode"£¬
python ÀïÓÃ




On Jan 7, 2008 8:49 AM, hongqing.lv  <hongqing.lv在gmail.com > wrote:
>
>
> ·¢ÏÖ½á¹ûÊÇÕâÑùµÄ£®´ó¼Ò¿ÉÒÔÔÚ×Ô¼ºµÄ»úÆ÷ÉÏÊÔһϣ®
_______________________________________________
python-chinese
Post: send python-chinese在lists.python.cn
Subscribe: send subscribe to python-chinese-request在lists.python.cn
Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20080107/cc3750ff/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月07日 星期一 09:33

wisyou在163.com wisyou在163.com
星期一 一月 7 09:33:51 HKT 2008

在python里,如果没有特别指明,它内部的汉字编码都是unicode(其实可能是utf16), 即使你指明你的程序的编码是UTF-8,实际上在python内部还是当作unicode实现的。  如果希望转码。很简单就实现了。比如读一个文本文件,把它转 成另一个编码可以这样做
tmps=file(filename,"rb").read()
tmps.decode("utf-8").encode("gbk")

这里要说明一样。utf-8, gb2312, gb18030, gbk的编码的汉字范围是不同的。所以不能够完全转化成功。如果有这样的事情发生。

目前gbk和utf-8是最通用的。



在2008-01-07,"hongqing.lv" <hongqing.lv在gmail.com> 写道:
>
>谢谢.高人.
>b = open('a.txt').read().decode('utf16').encode('gb18030') 
>#utf16 也提示出错.utf8就可以.
>在我的系统上windows 
>xp.这样写就可以生成Ascii码的.
>
>b = open('a.txt').read().decode('utf8').encode('gb18030') 
>#后面的一定不能用gb2312,
>
>昨天折腾了一天,原来是记事本有毛病,晕死.
> 
>
>
>
>
>hongqing.lv
>2008-01-07
>
>
>
>发件人: Jiahua 
>Huang
>发送时间: 
>2008-01-07 08:59:07
>收件人: 
>python-chinese在lists.python.cn
>抄送: 
>主题: Re: 
>[python-chinese]怎么样把一个
>b = open('a.txt').read().decode('utf16').encode('gb18030')UTF8的文件编码转换成ASCII的,也就是gb2312的?
> 
>
>别折腾了, Windows 那破 notepad.exe 的所谓 UTF-8 根本就不是 UTF-8,
>你用 UltraEdit 都比它强。
> 
> 
>或者,你一定要那破记事本的话,就编码选 它所谓 "unicode",
>python 里用
> 
> 
> 
> 
>On Jan 7, 2008 8:49 AM, hongqing.lv  
><hongqing.lv在gmail.com > wrote:
>>
>>
>> 发现结果是这样的.大家可以在自己的机器上试一下.
>_______________________________________________
>python-chinese
>Post: send python-chinese在lists.python.cn
>Subscribe: send subscribe to python-chinese-request在lists.python.cn
>Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
>Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 涓嬩竴閮ㄥ垎 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20080107/1f62899d/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月07日 星期一 09:39

东子/hydon hydonlee在gmail.com
星期一 一月 7 09:39:13 HKT 2008

¸øwinÏÂʹÓÃnotepad µÄͬ־ÃÇÍƼöÒ»¸öÌæ´únotepadµÄ±à¼­Æ÷£¬notepad2
µØÖ·£ºhttp://www.flos-freeware.ch/notepad2.html
ÓÐÖÐÎİ棺http://files.myopera.com/danei_archive/files/Notepad2_2.0.18_chs.zip(ԭʼÁ´½Ó²»ÄÜÏÂÔØ£¬ÇëʹÓÃѸÀ×£©

ÍøÕ¾ÉÏ»¹¸ø³öÁËÈçºÎÌæ»»windows×Ô´ønotepadµÄ·½·¨¡£ÎÒÒ»Ö±ÓÃËû£¬²»´íµÄ¡£

ÔÚ08-1-7£¬hongqing.lv <hongqing.lv在gmail.com> дµÀ£º
>
>  лл.¸ßÈË.
> b = open('a.txt').read().decode('utf16').encode('gb18030') #utf16
> Ò²Ìáʾ³ö´í.utf8¾Í¿ÉÒÔ.
> ÔÚÎÒµÄϵͳÉÏwindows xp.ÕâÑùд¾Í¿ÉÒÔÉú³ÉAsciiÂëµÄ.
>  b = open('a.txt').read().decode('utf8').encode('gb18030')
> #ºóÃæµÄÒ»¶¨²»ÄÜÓÃgb2312,
>  ×òÌìÕÛÌÚÁËÒ»Ìì,Ô­À´ÊǼÇʱ¾ÓÐ벡,ÔÎËÀ.
>
>  ------------------------------
>  hongqing.lv
> 2008-01-07
>  ------------------------------
>  *·¢¼þÈË£º* Jiahua Huang
> *·¢ËÍʱ¼ä£º* 2008-01-07 08:59:07
> *ÊÕ¼þÈË£º* python-chinese在lists.python.cn
> *³­ËÍ£º*
> *Ö÷Ì⣺* Re: [python-chinese]ÔõôÑù°ÑÒ»¸ö b = open('a.txt
> ').read().decode('utf16').encode('gb18030')
> UTF8µÄÎļþ±àÂëת»»³ÉASCIIµÄ£¬Ò²¾ÍÊÇgb2312µÄ£¿
>
>  ±ðÕÛÌÚÁË£¬ Windows ÄÇÆÆ notepad.exe µÄËùν UTF-8 ¸ù±¾¾Í²»ÊÇ UTF-8,
> ÄãÓà UltraEdit ¶¼±ÈËüÇ¿¡£
>
>
> »òÕߣ¬ÄãÒ»¶¨ÒªÄÇÆƼÇʱ¾µÄ»°£¬¾Í±àÂëÑ¡ ËüËùν "unicode"£¬
> python ÀïÓÃ
>
>
>
>
> On Jan 7, 2008 8:49 AM, hongqing.lv  <hongqing.lv在gmail.com > wrote:
> >
> >
> > ·¢ÏÖ½á¹ûÊÇÕâÑùµÄ£®´ó¼Ò¿ÉÒÔÔÚ×Ô¼ºµÄ»úÆ÷ÉÏÊÔһϣ®
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
¶«×Ó£¨ÐÂÊÖÉÏ·ÖУ©
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20080107/ce686aec/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月07日 星期一 09:51

limodou limodou在gmail.com
星期一 一月 7 09:51:53 HKT 2008

On Jan 7, 2008 9:33 AM,  <wisyou在163.com> wrote:
> 在python里,如果没有特别指明,它内部的汉字编码都是unicode(其实可能是utf16),
> 即使你指明你的程序的编码是UTF-8,实际上在python内部还是当作unicode实现的。 如果希望转码。很简单就实现了。比如读一个文本文件,把它转
> 成另一个编码可以这样做
> tmps=file(filename,"rb").read()
> tmps.decode("utf-8").encode("gbk")
>
> 这里要说明一样。utf-8, gb2312, gb18030, gbk的编码的汉字范围是不同的。所以不能够完全转化成功。如果有这样的事情发生。
>
> 目前gbk和utf-8是最通用的。
>
在3.0之下,python其实不象java,内部并不是统一的unicode编码的。到了3.0才统一。

-- 
I like python!
UliPad <>: http://code.google.com/p/ulipad/
meide <>: http://code.google.com/p/meide/
My Blog: http://www.donews.net/limodou

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月07日 星期一 10:10

Jiahua Huang jhuangjiahua在gmail.com
星期一 一月 7 10:10:30 HKT 2008

字符集范围大小是
utf8 > gb18030 > gbk >  gb2312

这些人惯用的 gb2312 是非常小的字符集,
要告诉人别乱用  gb2312, 需要 gb 的请改为 gb18030

On Jan 7, 2008 9:33 AM,  <wisyou at 163.com> wrote:
> 目前gbk和utf-8是最通用的。
>
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月07日 星期一 10:13

Jiahua Huang jhuangjiahua在gmail.com
星期一 一月 7 10:13:29 HKT 2008

或说是微软或你的问题,

gb 中文不应该使用 gb2312 ,
要改为 gb18030。

gb2312 是几十年前只有几千个字的小字符集,
只是微软不标准地把 gb2312 映射到 gb18030 欺骗了你

On Jan 7, 2008 9:26 AM, hongqing.lv <hongqing.lv at gmail.com> wrote:
>
> b = open('a.txt').read().decode('utf8').encode('gb18030') #后面的一定不能用gb2312,
>
> 昨天折腾了一天,原来是记事本有毛病,晕死.
>
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2008年01月07日 星期一 11:57

Handle.Huang handle.huang0409在gmail.com
星期一 一月 7 11:57:34 HKT 2008

ÓÃUE²»¾Í¶¼½â¾öÁËÂð£¿

 

·¢¼þÈË: python-chinese-bounces在lists.python.cn
[mailto:python-chinese-bounces在lists.python.cn] ´ú±í ¶«×Ó/hydon
·¢ËÍʱ¼ä: 2008Äê1ÔÂ7ÈÕ 9:39
ÊÕ¼þÈË: python-chinese在lists.python.cn
Ö÷Ìâ: Re: [python-chinese] ÔõôÑù°ÑÒ»¸öUTF8µÄÎļþ±àÂëת»»³ÉASCIIµÄ£¬Ò²¾ÍÊÇ
gb2312µÄ£¿

 

¸øwinÏÂʹÓÃnotepad µÄͬ־ÃÇÍƼöÒ»¸öÌæ´únotepadµÄ±à¼­Æ÷£¬notepad2 
µØÖ·£ºhttp://www.flos-freeware.ch/notepad2.html
ÓÐÖÐÎİ棺 http://files.myopera.com/danei_archive/files/Notepad2_2.0.18_chs.
zip <http://files.myopera.com/danei_archive/files/Notepad2_2.0.18_chs.zip>
(ԭʼÁ´½Ó²»ÄÜÏÂÔØ£¬ÇëʹÓÃѸÀ×£©

ÍøÕ¾ÉÏ»¹¸ø³öÁËÈçºÎÌæ»»windows×Ô´ønotepadµÄ·½·¨¡£ÎÒÒ»Ö±ÓÃËû£¬²»´íµÄ¡£

ÔÚ08-1-7£¬ hongqing.lv <http://hongqing.lv>  <hongqing.lv在gmail.com> дµÀ£º

лл.¸ßÈË.

b = open('a.txt').read().decode('utf16').encode('gb18030') #utf16 Ò²Ìáʾ³ö
´í.utf8¾Í¿ÉÒÔ.

ÔÚÎÒµÄϵͳÉÏwindows xp.ÕâÑùд¾Í¿ÉÒÔÉú³ÉAsciiÂëµÄ.

b = open('a.txt').read().decode('utf8').encode('gb18030') #ºóÃæµÄÒ»¶¨²»ÄÜÓÃ
gb2312,

×òÌìÕÛÌÚÁËÒ»Ìì,Ô­À´ÊǼÇʱ¾ÓÐ벡,ÔÎËÀ.

 

  _____  

hongqing.lv

2008-01-07

  _____  

·¢¼þÈË£º Jiahua Huang

·¢ËÍʱ¼ä£º 2008-01-07 08:59:07

ÊÕ¼þÈË£º python-chinese在lists.python.cn

³­ËÍ£º 

Ö÷Ì⣺ Re: [python-chinese]ÔõôÑù°ÑÒ»¸ö 

b = open('a.txt').read().decode('utf16').encode('gb18030')

UTF8µÄÎļþ±àÂëת»»³ÉASCIIµÄ£¬Ò²¾ÍÊÇgb2312µÄ£¿

 

±ðÕÛÌÚÁË£¬ Windows ÄÇÆÆ notepad.exe µÄËùν UTF-8 ¸ù±¾¾Í²»ÊÇ UTF-8,

ÄãÓà UltraEdit ¶¼±ÈËüÇ¿¡£

 

 

»òÕߣ¬ÄãÒ»¶¨ÒªÄÇÆƼÇʱ¾µÄ»°£¬¾Í±àÂëÑ¡ ËüËùν "unicode"£¬

python ÀïÓÃ

 

 

 

 

On Jan 7, 2008 8:49 AM, hongqing.lv  <hongqing.lv在gmail.com > wrote:

> 

> 

> ·¢ÏÖ½á¹ûÊÇÕâÑùµÄ£®´ó¼Ò¿ÉÒÔÔÚ×Ô¼ºµÄ»úÆ÷ÉÏÊÔһϣ®

_______________________________________________

python-chinese

Post: send python-chinese在lists.python.cn

Subscribe: send subscribe to python-chinese-request在lists.python.cn 

Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn 

Detail Info: http://python.cn/mailman/listinfo/python-chinese 


_______________________________________________
python-chinese
Post: send python-chinese在lists.python.cn 
Subscribe: send subscribe to python-chinese-request在lists.python.cn
Unsubscribe: send unsubscribe to   python-chinese-request在lists.python.cn
Detail Info: http://python.cn/mailman/listinfo/python-chinese




-- 
¶«×Ó£¨ÐÂÊÖÉÏ·ÖУ© 

-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20080107/9d4ce168/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]
cyt

cyt

2008年01月07日 星期一 20:26

yuting cui yutingcui在gmail.com
星期一 一月 7 20:26:09 HKT 2008

第一...楼主的问题是bom弄的
第二...windows默认带的是gbk或者说cp936
第三...gb18030和unicode3.0表示范围几乎一致
第四...gb18030是gbk的超集,理论上gbk的东西都能用gb18030打开;同样gbk也是gb2312的超集,gb2312的东西都能用gbk打开,按需求选字符集就可以了
第五...gb18030处理效率很差(没办法,为了向下兼容)....

在 08-1-7,Jiahua Huang<jhuangjiahua在gmail.com> 写道:
> 或说是微软或你的问题,
>
> gb 中文不应该使用 gb2312 ,
> 要改为 gb18030。
>
> gb2312 是几十年前只有几千个字的小字符集,
> 只是微软不标准地把 gb2312 映射到 gb18030 欺骗了你
>
> On Jan 7, 2008 9:26 AM, hongqing.lv <hongqing.lv在gmail.com> wrote:
> >
> > b = open('a.txt').read().decode('utf8').encode('gb18030') #后面的一定不能用gb2312,
> >
> > 昨天折腾了一天,原来是记事本有毛病,晕死.
> >
> >
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号