Python论坛  - 讨论区

标题:RE: [python-chinese]请教一个多模式字符串匹配的问

2005年08月05日 星期五 22:55

Robert Chen - 陈儒 Robert.Chen at zyxel.cn
Fri Aug 5 22:55:20 HKT 2005

呵呵没错,是考虑的是内存中的速度。不过个人感觉,每秒10M的速率应该是比较容易达到的,当然这个还要看机器的配置如何,我的数据是在2年以前比较好的配置上得到的。

实际上我当时做的并不只是简单的匹配,而是多模式的允许错误的匹配,也就是Approximate Matching,算法中还有很大部分是实现容错匹配的。所以如果只是简单的精确匹配的话,速度应该还会有比较显著的提升。所以我觉得每秒10M的速度是没有问题的。

-----Original Message-----
From: python-chinese-bounces at lists.python.cn [mailto:python-chinese-bounces at lists.python.cn] On Behalf Of saddle
Sent: Friday, August 05, 2005 4:09 PM
To: python-chinese at lists.python.cn
Subject: Re: [python-chinese]请教一个多模式字符串匹配的问题

http://www.bio.cam.ac.uk/~mw263/pyagrep.html
http://www.personal.psu.edu/staff/i/u/iua1/python/apse/
两个都是用swig实现的c模块, 看来是用python本身实现的速度要慢的多。

2000个模式每秒接近100M bytes中文匹配是我看到的很优秀的结果了, 不过,这
个主要考虑在内存中的匹配速度吧, 我如果能实现10M左右的速度, 就跟的上硬
盘提供的速度了。

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年08月06日 星期六 02:01

saddle saddle at gmail.com
Sat Aug 6 02:01:42 HKT 2005

恩, 我的想法是这样的, 就是匹配速度当然越快越好, 不过超过硬盘速度很多
之后, 它本身的速度就不在是要考虑的关键了, 考虑编辑距离的匹配问题,或者
其它的改进, 当然, 想要提供更多的功能还能保证处理速度不是瓶颈, 还是需
要匹配越快越好的。
实验室给我弄了一台p4-2.4 scsi硬盘的机器, 好像是02年夏天买的, 到时候能
有10M/S的处理速度,就很开心了。
On Fri, 5 Aug 2005 22:55:20 +0800
Robert Chen - 陈儒 <Robert.Chen at zyxel.cn> 撰写于:

Robert.Chen> 呵呵没错,是考虑的是内存中的速度。不过个人感觉,每秒10M的速率应该是比较容易达到的,当然这个还要看机器的配置如何,我的数据是在2年以前比较好的配置上得到的。
Robert.Chen> 
Robert.Chen> 实际上我当时做的并不只是简单的匹配,而是多模式的允许错误的匹配,也就是Approximate Matching,算法中还有很大部分是实现容错匹配的。所以如果只是简单的精确匹配的话,速度应该还会有比较显著的提升。所以我觉得每秒10M的速度是没有问题的。
Robert.Chen> 
Robert.Chen> -----Original Message-----
Robert.Chen> From: python-chinese-bounces at lists.python.cn [mailto:python-chinese-bounces at lists.python.cn] On Behalf Of saddle
Robert.Chen> Sent: Friday, August 05, 2005 4:09 PM
Robert.Chen> To: python-chinese at lists.python.cn
Robert.Chen> Subject: Re: [python-chinese]请教一个多模式字符串匹配的问题
Robert.Chen> 
Robert.Chen> http://www.bio.cam.ac.uk/~mw263/pyagrep.html
Robert.Chen> http://www.personal.psu.edu/staff/i/u/iua1/python/apse/
Robert.Chen> 两个都是用swig实现的c模块, 看来是用python本身实现的速度要慢的多。
Robert.Chen> 
Robert.Chen> 2000个模式每秒接近100M bytes中文匹配是我看到的很优秀的结果了, 不过,这
Robert.Chen> 个主要考虑在内存中的匹配速度吧, 我如果能实现10M左右的速度, 就跟的上硬
Robert.Chen> 盘提供的速度了。
Robert.Chen> _______________________________________________
Robert.Chen> python-chinese list
Robert.Chen> python-chinese at lists.python.cn
Robert.Chen> http://python.cn/mailman/listinfo/python-chinese



[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号