Python论坛  - 讨论区

标题:[python-chinese] python 解析 xml中的中文

2005年12月20日 星期二 15:30

zhang sw.zhangxy swzhangxy at gmail.com
Tue Dec 20 15:30:22 HKT 2005

假如有人给我一个 ca.xml文件,我解析的话,提示 unknown encoding,显然gb2312 不行,
如果改成 utf-8 , 又识别不了汉字,因为整个 xml文件不是utf-8的。
除非 整个把 ca.xml 保存成 utf-8的,
但是 如果有很多文件的话。这么改也不可行啊。
请大家指点!

from xml.dom import minidom


if __name__ == '__main__':
    import sys

    xmldoc = minidom.parse('ca.xml')
    print xmldoc.toxml()


###############



    4
    
        Python
        
            测试
        
    
    
        Zope
    


--
今天决定明天!
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20051220/e24f79ce/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年12月27日 星期二 12:40

limodou limodou at gmail.com
Tue Dec 27 12:40:42 HKT 2005

在 05-12-20,zhang sw.zhangxy<swzhangxy at gmail.com> 写道:
> 假如有人给我一个 ca.xml文件,我解析的话,提示 unknown encoding,显然gb2312 不行,
> 如果改成 utf-8 , 又识别不了汉字,因为整个 xml文件不是utf-8的。
> 除非 整个把 ca.xml 保存成 utf-8的,
> 但是 如果有很多文件的话。这么改也不可行啊。
> 请大家指点!
>
> from xml.dom import minidom
>
>
> if __name__ == '__main__':
>     import sys
>
>     xmldoc = minidom.parse('ca.xml')
>     print xmldoc.toxml()
>
>
> ###############
>
> 
> 
>     4
>     
>         Python
>         
>             测试
>         
>     
>     
>         Zope
>     
> 
>

把这种转换自动完成就行了。去掉encoding属性,然后全部转为utf-8,再进行处理。

--
I like python!
My Blog: http://www.donews.net/limodou
NewEdit Maillist: http://groups.google.com/group/NewEdit

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年12月27日 星期二 13:12

Qiangning Hong hongqn at gmail.com
Tue Dec 27 13:12:03 HKT 2005

zhang sw.zhangxy wrote:
> 假如有人给我一个 ca.xml文件,我解析的话,提示 unknown encoding,显然
> gb2312 不行,
> 如果改成 utf-8 , 又识别不了汉字,因为整个 xml文件不是utf-8的。
> 除非 整个把 ca.xml 保存成 utf-8的,
> 但是 如果有很多文件的话。这么改也不可行啊。
> 请大家指点!
>  
> from xml.dom import minidom
[...]

xml.parser的底层expat不支持gb2312编码。你可以写个小脚本把所有文件转成UTF
-8编码,或者使用xmlproc。

参考(google is your friend):
1. http://mail.python.org/pipermail/xml-sig/2003-December/thread.html#10033
2. http://mail.python.org/pipermail/xml-sig/2003-July/thread.html#9614


-- 
Qiangning Hong
http://hongqn.hn.org
Registered Linux User #396996

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年12月29日 星期四 12:10

icekernel icekernel at gmail.com
Thu Dec 29 12:10:47 HKT 2005

scew C下有这样一个库 不知道python有支持的没

在05-12-27,Qiangning Hong <hongqn at gmail.com> 写道:
>
> zhang sw.zhangxy wrote:
> > 假如有人给我一个 ca.xml文件,我解析的话,提示 unknown encoding,显然
> > gb2312 不行,
> > 如果改成 utf-8 , 又识别不了汉字,因为整个 xml文件不是utf-8的。
> > 除非 整个把 ca.xml 保存成 utf-8的,
> > 但是 如果有很多文件的话。这么改也不可行啊。
> > 请大家指点!
> >
> > from xml.dom import minidom
> [...]
>
> xml.parser的底层expat不支持gb2312编码。你可以写个小脚本把所有文件转成UTF
> -8编码,或者使用xmlproc。
>
> 参考(google is your friend):
> 1.
> http://mail.python.org/pipermail/xml-sig/2003-December/thread.html#10033
> 2. http://mail.python.org/pipermail/xml-sig/2003-July/thread.html#9614
>
>
> --
> Qiangning Hong
> http://hongqn.hn.org
> Registered Linux User #396996
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20051229/ace80dfb/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号