Python论坛  - 讨论区

标题:[python-chinese] 关于python正则表达式的一个问题

2005年05月27日 星期五 10:09

cpunion cpunion at 263.net
Fri May 27 10:09:34 HKT 2005

多字节文字一定要用unicode处理,先遵守这一点,再去做其它的。



a = unicode ("随着信息技术的发展,计算机应用渗透到社会生活的各个领域,特 
别是在电子商务中的应用,使人们对信息的依赖程度越来越大,从而使信息安全技 
术显得格外重要。信息安全技术主要是研究计算机系统信息的机密性、完整性、可 
获取性和真实性,它的核心是加密技术。加密技术根据加密密钥与解密密钥是否相 
同可分为对称加密技术(单密钥加密技术)和非对称加密技术(公开密钥加密技 
术)。加个叹号!加个问号?试试句号加引号。“试试叹号加引号!”。“试试问号 
加引号?” 加点废话", "cp936")

expression = unicode ("。|!|?|。”|!”|?", "cp936")

import re

listSentence = re.split (expression, a)
for i in listSentence:
    print i


dimension wrote:

>python-chinese,您好!
>
>	比如要实现一个句子分割器,
>只有是“。!?”以及
>。”
>!”
>?”
>等几种情况结尾的句子都分割称单独的句子。
>
>我利用正则表达式
>expression = r"。|!|?|。”|!”|?”"
>
>listSentence = re.split(expression, sentence)
>
>但是这样情况下,就会把汉字中某些字分开称乱码,比如:
>
>假如
>
>str1 = "【幸福】的人是很少的。"
>
>这样一个字符串就会被分开,因为“福”的后一半“】”的前一半正好是a3a1是一个“!”。当然,类似的情况肯定还有。
>
>不知道怎么解决。
>
>        致
>礼!
> 				
>
>        dimension
>        dimension at hit.edu.cn
>          2005-05-27
>  
>
>------------------------------------------------------------------------
>
>_______________________________________________
>python-chinese list
>python-chinese at lists.python.cn
>http://python.cn/mailman/listinfo/python-chinese
>  
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年05月27日 星期五 10:25

Zoom Quiet zoom.quiet at gmail.com
Fri May 27 10:25:21 HKT 2005

Yes !!
整理到
http://wiki.woodpecker.org.cn/moin/UnicodeInPython

算是 http://wiki.woodpecker.org.cn/moin/PythonInUnicode 的补充

程序员现在必须懂得 uncode 因为: 
 * It is one of the cornerstones of software internationalization.
  * 这是软件国际化的王道
 * The Web is full of Unicode data.
  * Web 已经充满了 Unicode 的数据
 * XML and HTML are based on Unicode.
  * XML 和 HTML 技术是基于 Unicode 的
 * WinNT-based operating systems use Unicode for all string values internally.
  * WinNT 基础的技术都是 Unicode 来处理所有字串的

This article is a short course on Unicode programming.
本文指出了处理Unicode 的快速途径 Pythonic 式的!

哈哈哈!!

在 05-5-27,cpunion<cpunion at 263.net> 写道:
> 多字节文字一定要用unicode处理,先遵守这一点,再去做其它的。
> 
> a = unicode ("随着信息技术的发展,计算机应用渗透到社会生活的各个领域,特
> 别是在电子商务中的应用,使人们对信息的依赖程度越来越大,从而使信息安全技
> 术显得格外重要。信息安全技术主要是研究计算机系统信息的机密性、完整性、可
> 获取性和真实性,它的核心是加密技术。加密技术根据加密密钥与解密密钥是否相
> 同可分为对称加密技术(单密钥加密技术)和非对称加密技术(公开密钥加密技
> 术)。加个叹号!加个问号?试试句号加引号。"试试叹号加引号!"。"试试问号
> 加引号?" 加点废话", "cp936")
> 
> expression = unicode ("。|!|?|。"|!"|?", "cp936")
> 
> import re
> 
> listSentence = re.split (expression, a)
> for i in listSentence:
>     print i
> 
> 
> dimension wrote:
> 
> >python-chinese,您好!
> >
> >       比如要实现一个句子分割器,
> >只有是"。!?"以及
> >。"
> >!"
> >?"
> >等几种情况结尾的句子都分割称单独的句子。
> >
> >我利用正则表达式
> >expression = r"。|!|?|。"|!"|?""
> >
> >listSentence = re.split(expression, sentence)
> >
> >但是这样情况下,就会把汉字中某些字分开称乱码,比如:
> >
> >假如
> >
> >str1 = "【幸福】的人是很少的。"
> >
> >这样一个字符串就会被分开,因为"福"的后一半"】"的前一半正好是a3a1是一个"!"。当然,类似的情况肯定还有。
> >
> >不知道怎么解决。
> >
> >        致
> >礼!
> >
> >
> >        dimension
> >        dimension at hit.edu.cn
> >          2005-05-27
> >
> >
> >------------------------------------------------------------------------
> >
> >_______________________________________________
> >python-chinese list
> >python-chinese at lists.python.cn
> >http://python.cn/mailman/listinfo/python-chinese
> >
> >
> _______________________________________________
> python-chinese list
> python-chinese at lists.python.cn
> http://python.cn/mailman/listinfo/python-chinese
> 


-- 
[Time is unimportant, only life important!]

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号