Python论坛  - 讨论区

标题:Re: [python-chinese] 关于python正则表达式的一个问题

2005年05月27日 星期五 10:26

Carambo qutr at tjub.com.cn
Fri May 27 10:26:19 HKT 2005

dimension,你好
你的“!”应该是中文标点吧,我觉得一般中文字符是用两个字节来显示的
a = "】"
a
'\xa1\xbf'
b = "!"
b
'\xa3\xa1'
两个是不一样的,应该不会发生你说的那种情况吧!

Carambo , qutr at tjub.com.cn 
2005-5-27 
----- 收到以下来信内容 ----- 
发件人: dimension 
收件人: python-chinese 
时  间: 2005-05-27, 09:54:37
主  题: [python-chinese] 关于python正则表达式的一个问题


python-chinese,您好!

  比如要实现一个句子分割器,
只有是“。!?”以及
。”
!”
?”
等几种情况结尾的句子都分割称单独的句子。

我利用正则表达式
expression = r"。|!|?|。”|!”|?”"

listSentence = re.split(expression, sentence)

但是这样情况下,就会把汉字中某些字分开称乱码,比如:

假如

str1 = "【幸福】的人是很少的。"

这样一个字符串就会被分开,因为“福”的后一半“】”的前一半正好是a3a1是一个“!”。当然,类似的情况肯定还有。

不知道怎么解决。

        致
礼!
         

        dimension
        dimension at hit.edu.cn
          2005-05-27
_______________________________________________
python-chinese list
python-chinese at lists.python.cn
http://python.cn/mailman/listinfo/python-chinese
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20050527/424cb89d/attachment.htm

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年05月27日 星期五 10:41

cuiyl guxinghan1981 at hotmail.com
Fri May 27 10:41:25 HKT 2005

Mail这是一篇关于python正则表达式的文章,希望对大家有帮助
http://cuiyanlong.blogchina.com/1577688.html
  ----- Original Message ----- 
  From: Carambo
  To: python-chinese
  Sent: Friday, May 27, 2005 10:26 AM
  Subject: Re: [python-chinese] 关于python正则表达式的一个问题


  dimension,你好
  你的“!”应该是中文标点吧,我觉得一般中文字符是用两个字节来显示的
  a = "】"
  a
  '\xa1\xbf'
  b = "!"
  b
  '\xa3\xa1'
  两个是不一样的,应该不会发生你说的那种情况吧!

  Carambo, qutr at tjub.com.cn
  2005-5-27
    ----- 收到以下来信内容 ----- 
    发件人: dimension
    收件人: python-chinese
    时  间: 2005-05-27, 09:54:37
    主  题: [python-chinese] 关于python正则表达式的一个问题


    python-chinese,您好!

      比如要实现一个句子分割器,
    只有是“。!?”以及
    。”
    !”
    ?”
    等几种情况结尾的句子都分割称单独的句子。

    我利用正则表达式
    expression = r"。|!|?|。”|!”|?”"

    listSentence = re.split(expression, sentence)

    但是这样情况下,就会把汉字中某些字分开称乱码,比如:

    假如

    str1 = "【幸福】的人是很少的。"

    这样一个字符串就会被分开,因为“福”的后一半“】”的前一半正好是a3a1是一
个“!”。当然,类似的情况肯定还有。

    不知道怎么解决。

            致
    礼!


            dimension
            dimension at hit.edu.cn
              2005-05-27
    _______________________________________________
    python-chinese list
    python-chinese at lists.python.cn
    http://python.cn/mailman/listinfo/python-chinese




----------------------------------------------------------------------------
--


  _______________________________________________
  python-chinese list
  python-chinese at lists.python.cn
  http://python.cn/mailman/listinfo/python-chinese
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20050527/0a24be13/attachment.html

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年05月27日 星期五 11:13

limodou limodou at gmail.com
Fri May 27 11:13:12 HKT 2005

他说的情况是两个汉字,前面的汉字后半个的字节,加上后面汉字的前半个字节组合在一起成了另一个汉字了。使用unicode就不会有这样的情况。

在 05-5-27,Carambo<qutr at tjub.com.cn> 写道:
> dimension,你好
> 你的"!"应该是中文标点吧,我觉得一般中文字符是用两个字节来显示的
> a = "】"
> a
> '\xa1\xbf'
> b = "!"
> b
> '\xa3\xa1'
> 两个是不一样的,应该不会发生你说的那种情况吧!
>  
> Carambo, qutr at tjub.com.cn
> 2005-5-27 
> ----- 收到以下来信内容 ----- 
> 发件人: dimension 
> 收件人: python-chinese 
> 时  间: 2005-05-27, 09:54:37
> 主  题: [python-chinese] 关于python正则表达式的一个问题
> 
> 
> 
> python-chinese,您好!
>  
>    比如要实现一个句子分割器,
>  只有是"。!?"以及 
>  。"
>  !"
>  ?"
>  等几种情况结尾的句子都分割称单独的句子。
>  
>  我利用正则表达式
>  expression = r"。|!|?|。"|!"|?""
>  
>  listSentence = re.split(expression, sentence)
>  
>  但是这样情况下,就会把汉字中某些字分开称乱码,比如:
>  
>  假如
>  
>  str1 = "【幸福】的人是很少的。"
>  
> 这样一个字符串就会被分开,因为"福"的后一半"】"的前一半正好是a3a1是一个"!"。当然,类似的情况肯定还有。
>  
>  不知道怎么解决。
>  
>          致
>  礼!
>           
>  
>          dimension
>          dimension at hit.edu.cn
>            2005-05-27
>  _______________________________________________
>  python-chinese list
>  python-chinese at lists.python.cn
>  http://python.cn/mailman/listinfo/python-chinese
>  
>  
> _______________________________________________
> python-chinese list
> python-chinese at lists.python.cn
> http://python.cn/mailman/listinfo/python-chinese
> 
> 
> 


-- 
I like python! 
My Donews Blog: http://www.donews.net/limodou
New Google Maillist: http://groups-beta.google.com/group/python-cn

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年05月27日 星期五 12:42

Qiangning Hong hongqn at gmail.com
Fri May 27 12:42:02 HKT 2005

On 5/27/05, Carambo <qutr at tjub.com.cn> wrote:
> dimension,你好
> 你的"!"应该是中文标点吧,我觉得一般中文字符是用两个字节来显示的

中文字符的GB系列编码和Big5编码才是用两个字节表示一个汉字的。
UTF-8则是变长的。
python中unicode类型则无所谓几个字节,因为它是以字符为单位表示的。

你可以看看列表archive中以前对unicode和编码的讨论。

[snip]

-- 
Qiangning Hong
Get Firefox! <http://www.spreadfirefox.com/?q=affiliates&id=67907&t=1>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号