2005年05月27日 星期五 10:26
dimension,你好 你的“!”应该是中文标点吧,我觉得一般中文字符是用两个字节来显示的 a = "】" a '\xa1\xbf' b = "!" b '\xa3\xa1' 两个是不一样的,应该不会发生你说的那种情况吧! Carambo , qutr at tjub.com.cn 2005-5-27 ----- 收到以下来信内容 ----- 发件人: dimension 收件人: python-chinese 时 间: 2005-05-27, 09:54:37 主 题: [python-chinese] 关于python正则表达式的一个问题 python-chinese,您好! 比如要实现一个句子分割器, 只有是“。!?”以及 。” !” ?” 等几种情况结尾的句子都分割称单独的句子。 我利用正则表达式 expression = r"。|!|?|。”|!”|?”" listSentence = re.split(expression, sentence) 但是这样情况下,就会把汉字中某些字分开称乱码,比如: 假如 str1 = "【幸福】的人是很少的。" 这样一个字符串就会被分开,因为“福”的后一半“】”的前一半正好是a3a1是一个“!”。当然,类似的情况肯定还有。 不知道怎么解决。 致 礼! dimension dimension at hit.edu.cn 2005-05-27 _______________________________________________ python-chinese list python-chinese at lists.python.cn http://python.cn/mailman/listinfo/python-chinese -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20050527/424cb89d/attachment.htm
2005年05月27日 星期五 10:41
Mail这是一篇关于python正则表达式的文章,希望对大家有帮助 http://cuiyanlong.blogchina.com/1577688.html ----- Original Message ----- From: Carambo To: python-chinese Sent: Friday, May 27, 2005 10:26 AM Subject: Re: [python-chinese] 关于python正则表达式的一个问题 dimension,你好 你的“!”应该是中文标点吧,我觉得一般中文字符是用两个字节来显示的 a = "】" a '\xa1\xbf' b = "!" b '\xa3\xa1' 两个是不一样的,应该不会发生你说的那种情况吧! Carambo, qutr at tjub.com.cn 2005-5-27 ----- 收到以下来信内容 ----- 发件人: dimension 收件人: python-chinese 时 间: 2005-05-27, 09:54:37 主 题: [python-chinese] 关于python正则表达式的一个问题 python-chinese,您好! 比如要实现一个句子分割器, 只有是“。!?”以及 。” !” ?” 等几种情况结尾的句子都分割称单独的句子。 我利用正则表达式 expression = r"。|!|?|。”|!”|?”" listSentence = re.split(expression, sentence) 但是这样情况下,就会把汉字中某些字分开称乱码,比如: 假如 str1 = "【幸福】的人是很少的。" 这样一个字符串就会被分开,因为“福”的后一半“】”的前一半正好是a3a1是一 个“!”。当然,类似的情况肯定还有。 不知道怎么解决。 致 礼! dimension dimension at hit.edu.cn 2005-05-27 _______________________________________________ python-chinese list python-chinese at lists.python.cn http://python.cn/mailman/listinfo/python-chinese ---------------------------------------------------------------------------- -- _______________________________________________ python-chinese list python-chinese at lists.python.cn http://python.cn/mailman/listinfo/python-chinese -------------- next part -------------- An HTML attachment was scrubbed... URL: http://lists.exoweb.net/pipermail/python-chinese/attachments/20050527/0a24be13/attachment.html
2005年05月27日 星期五 11:13
他说的情况是两个汉字,前面的汉字后半个的字节,加上后面汉字的前半个字节组合在一起成了另一个汉字了。使用unicode就不会有这样的情况。 在 05-5-27,Carambo<qutr at tjub.com.cn> 写道: > dimension,你好 > 你的"!"应该是中文标点吧,我觉得一般中文字符是用两个字节来显示的 > a = "】" > a > '\xa1\xbf' > b = "!" > b > '\xa3\xa1' > 两个是不一样的,应该不会发生你说的那种情况吧! > > Carambo, qutr at tjub.com.cn > 2005-5-27 > ----- 收到以下来信内容 ----- > 发件人: dimension > 收件人: python-chinese > 时 间: 2005-05-27, 09:54:37 > 主 题: [python-chinese] 关于python正则表达式的一个问题 > > > > python-chinese,您好! > > 比如要实现一个句子分割器, > 只有是"。!?"以及 > 。" > !" > ?" > 等几种情况结尾的句子都分割称单独的句子。 > > 我利用正则表达式 > expression = r"。|!|?|。"|!"|?"" > > listSentence = re.split(expression, sentence) > > 但是这样情况下,就会把汉字中某些字分开称乱码,比如: > > 假如 > > str1 = "【幸福】的人是很少的。" > > 这样一个字符串就会被分开,因为"福"的后一半"】"的前一半正好是a3a1是一个"!"。当然,类似的情况肯定还有。 > > 不知道怎么解决。 > > 致 > 礼! > > > dimension > dimension at hit.edu.cn > 2005-05-27 > _______________________________________________ > python-chinese list > python-chinese at lists.python.cn > http://python.cn/mailman/listinfo/python-chinese > > > _______________________________________________ > python-chinese list > python-chinese at lists.python.cn > http://python.cn/mailman/listinfo/python-chinese > > > -- I like python! My Donews Blog: http://www.donews.net/limodou New Google Maillist: http://groups-beta.google.com/group/python-cn
2005年05月27日 星期五 12:42
On 5/27/05, Carambo <qutr at tjub.com.cn> wrote: > dimension,你好 > 你的"!"应该是中文标点吧,我觉得一般中文字符是用两个字节来显示的 中文字符的GB系列编码和Big5编码才是用两个字节表示一个汉字的。 UTF-8则是变长的。 python中unicode类型则无所谓几个字节,因为它是以字符为单位表示的。 你可以看看列表archive中以前对unicode和编码的讨论。 [snip] -- Qiangning Hong Get Firefox! <http://www.spreadfirefox.com/?q=affiliates&id=67907&t=1>
Zeuux © 2025
京ICP备05028076号