Python论坛  - 讨论区

标题:[python-chinese] 如何解析encoding为gbk的文档呢

2006年04月15日 星期六 16:48

Lee DYER lee.dyer at gmail.com
Sat Apr 15 16:48:48 HKT 2006

比如下面这么一个xml文件


python的世界


我使用minidom.parse函数解析的时候总是说unknown encoding,请问应该怎么做呢
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060415/e01dc05c/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年04月16日 星期日 14:08

bird devdoer devdoer at gmail.com
Sun Apr 16 14:08:03 HKT 2006

我是先用字符串处理程序把文档的编码声明换成
然后,把文档转为utf-8的交给minidom处理.


在06-4-15,Lee DYER <lee.dyer at gmail.com> 写道:
>
>  比如下面这么一个xml文件
> 
> 
> python的世界
> 
>
> 我使用minidom.parse函数解析的时候总是说unknown encoding,请问应该怎么做呢
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060416/e7989a18/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年04月16日 星期日 14:12

bird devdoer devdoer at gmail.com
Sun Apr 16 14:12:56 HKT 2006

帖一下我以前的代码,供参考
import re

strRe=r'<\?xml.+?(encoding.+?".+?").+?\?>'
r=re.compile(strRe)
strXML=r.sub(r'',strXML)
strXML=unicode(strXML,encoding='gbk').encode('utf-8')
 doc=minidom.parseString(strXML)

在06-4-16,bird devdoer <devdoer at gmail.com> 写道:
>
>
> 我是先用字符串处理程序把文档的编码声明换成
> 然后,把文档转为utf-8的交给minidom处理.
>
>
> 在06-4-15,Lee DYER <lee.dyer at gmail.com> 写道:
> >
> >  比如下面这么一个xml文件
> 
> 
> python的世界
> 
>
> 我使用minidom.parse函数解析的时候总是说unknown encoding,请问应该怎么做呢
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060416/891221f9/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年04月27日 星期四 18:44

谢小漫 littlecn at gmail.com
Thu Apr 27 18:44:06 HKT 2006

谢谢。我要试一试。看看能用上不。

在06-4-16,bird devdoer <devdoer at gmail.com> 写道:
>
>  帖一下我以前的代码,供参考
> import re
>
> strRe=r'<\?xml.+?(encoding.+?".+?").+?\?>'
> r=re.compile(strRe)
> strXML=r.sub(r'',strXML)
> strXML=unicode(strXML,encoding='gbk').encode('utf-8')
>  doc=minidom.parseString(strXML)
>
> 在06-4-16,bird devdoer <devdoer at gmail.com> 写道:
>
> >
> > 我是先用字符串处理程序把文档的编码声明换成
> > 然后,把文档转为utf-8的交给minidom处理.
> >
> >
> > 在06-4-15,Lee DYER <lee.dyer at gmail.com> 写道:
> > >
> > >  比如下面这么一个xml文件
> > 
> > 
> > python的世界
> > 
> >
> > 我使用minidom.parse函数解析的时候总是说unknown encoding,请问应该怎么做呢
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese at lists.python.cn
> > Subscribe: send subscribe to python-chinese-request at lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
> >
> >
>
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>


--
谢小漫
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20060427/c1648edb/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号