Python论坛的帖子： - 哲思

Python论坛 - 讨论区

返回群组主页

标题：[python-chinese] 酷讯的原理是什么？

分享

孙君意

楼主 2006年12月09日星期六 22:12

junyi sun ccnusjy在gmail.com
星期六十二月 9 22:12:01 HKT 2006

大家好：
   有上过酷讯网的朋友吗？
   酷讯的信息提取是靠正则表达式还是用了什么高级的算法（神经网络、机器学习）？
   我自己尝试用正则表达式来做，发现几乎不现实，除非针对每个网站都写一个特殊的表达式。

请高手赐教。。。。

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2006年12月09日星期六 22:18

bird devdoer devdoer在gmail.com
星期六十二月 9 22:18:32 HKT 2006

没有什么不可能

2006/12/9, junyi sun <ccnusjy at gmail.com>:
>
> 大家好：
>   有上过酷讯网的朋友吗？
>   酷讯的信息提取是靠正则表达式还是用了什么高级的算法（神经网络、机器学习）？
>   我自己尝试用正则表达式来做，发现几乎不现实，除非针对每个网站都写一个特殊的表达式。
>
> 请高手赐教。。。。
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese




-- 
devdoer
devdoer at gmail.com
http://devdoer.blog.sohu.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20061209/75ff9c97/attachment-0001.htm

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2006年12月09日星期六 22:27

WangXinxi wangxinxi在cs.hit.edu.cn
星期六十二月 9 22:27:46 HKT 2006

Maybe you need a book named "Text.Processing.In.Python".

On Sat, 2006-12-09 at 22:18 +0800, bird devdoer wrote:
> 没有什么不可能
> 
> 2006/12/9, junyi sun <ccnusjy在gmail.com>: 
>         大家好：
>           有上过酷讯网的朋友吗？
>           酷讯的信息提取是靠正则表达式还是用了什么高级的算法（神经网
>         络、机器学习）？
>           我自己尝试用正则表达式来做，发现几乎不现实，除非针对每个网站
>         都写一个特殊的表达式。 
>         
>         请高手赐教。。。。
>         _______________________________________________
>         python-chinese
>         Post: send python-chinese在lists.python.cn
>         Subscribe: send subscribe to
>         python-chinese-request在lists.python.cn
>         Unsubscribe: send unsubscribe
>         to  python-chinese-request在lists.python.cn
>         Detail Info: http://python.cn/mailman/listinfo/python-chinese
> 
> 
> 
> -- 
> devdoer
> devdoer在gmail.com
> http://devdoer.blog.sohu.com/ 
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2006年12月09日星期六 22:47

shhgs shhgs.efhilt在gmail.com
星期六十二月 9 22:47:25 HKT 2006

酷讯，没听说过，所以给个链接

我想文字处理，最多就是一个Parser或者Interpretor吧

这个TPiP里面也没有。它只是告诉你，解决这个问题要用lex & yacc，至于这是什么，你自己去google。

On 12/9/06, WangXinxi <wangxinxi在cs.hit.edu.cn> wrote:
> Maybe you need a book named "Text.Processing.In.Python".
>
> On Sat, 2006-12-09 at 22:18 +0800, bird devdoer wrote:
> > 没有什么不可能
> >
> > 2006/12/9, junyi sun <ccnusjy在gmail.com>:
> >         大家好：
> >           有上过酷讯网的朋友吗？
> >           酷讯的信息提取是靠正则表达式还是用了什么高级的算法（神经网
> >         络、机器学习）？
> >           我自己尝试用正则表达式来做，发现几乎不现实，除非针对每个网站
> >         都写一个特殊的表达式。
> >
> >         请高手赐教。。。。
> >         _______________________________________________
> >         python-chinese
> >         Post: send python-chinese在lists.python.cn
> >         Subscribe: send subscribe to
> >         python-chinese-request在lists.python.cn
> >         Unsubscribe: send unsubscribe
> >         to  python-chinese-request在lists.python.cn
> >         Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
> >
> > --
> > devdoer
> > devdoer在gmail.com
> > http://devdoer.blog.sohu.com/
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2006年12月09日星期六 22:47

Thomas Che qixiangnj在gmail.com
星期六十二月 9 22:47:26 HKT 2006

ÎÊÌâ»òÐí²»ÏñÂ¥ÉÏËùËµµÄÄÇÃ´¼òµ¥£¬
Ò»¸öÍøÕ¾²¶×½»òÐíÈÝÒ×£¬¶à¸öÍøÕ¾£¬ÈçºÎÕÒ³ö¸öÍ¨ÓÃµÄ·½·¨£¬²»ÊÇÄÇÃ´¼òµ¥°É£¿
¹Ø×¢´ËÌâ£¡
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒÆ³ý...
URL: http://python.cn/pipermail/python-chinese/attachments/20061209/75d2703e/attachment.html

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

李迎辉

0楼 2006年12月09日星期六 22:50

limodou limodou在gmail.com
星期六十二月 9 22:50:27 HKT 2006

On 12/9/06, Thomas Che <qixiangnj在gmail.com> wrote:
> 问题或许不像楼上所说的那么简单，
> 一个网站捕捉或许容易，多个网站，如何找出个通用的方法，不是那么简单吧？
> 关注此题！
>
每个网站单独处理即可。又没说程序是一样的啊。

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2006年12月09日星期六 23:10

Thomas Che qixiangnj在gmail.com
星期六十二月 9 23:10:33 HKT 2006

ÀÏ´ó£¬¿áÑ¶µÄÊý¾ÝÀ´Ô´ÍøÕ¾¿É²»ÉÙ£¡Ò»¸öÕ¾µã¶ÔÓ¦Ò»¸ö³ÌÐò£¿
ÄÇÌ«¡¡
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒÆ³ý...
URL: http://python.cn/pipermail/python-chinese/attachments/20061209/e4b449d4/attachment.htm

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2006年12月09日星期六 23:27

bird devdoer devdoer在gmail.com
星期六十二月 9 23:27:12 HKT 2006

酷讯正在招人呢 想知道的可以去应聘啊 呵呵
www.kooxoo.com


在06-12-9，Thomas Che <qixiangnj at gmail.com> 写道：
>
> 老大，酷讯的数据来源网站可不少！一个站点对应一个程序？
> 那太……
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
devdoer
devdoer at gmail.com
http://devdoer.blog.sohu.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20061209/5bd9dc76/attachment.html

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2006年12月09日星期六 23:54

shhgs shhgs.efhilt在gmail.com
星期六十二月 9 23:54:04 HKT 2006

类似搜索网站。



On 12/9/06, bird devdoer <devdoer在gmail.com> wrote:
> 酷讯正在招人呢 想知道的可以去应聘啊 呵呵
> www.kooxoo.com
>
>
> 在06-12-9，Thomas Che <qixiangnj在gmail.com> 写道：
> > 老大，酷讯的数据来源网站可不少！一个站点对应一个程序？
> > 那太……
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> > Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
> >
>
>
>
> --
> devdoer
> devdoer在gmail.com
> http://devdoer.blog.sohu.com/
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2006年12月10日星期日 11:01

brightman fenyon在126.com
星期日十二月 10 11:01:07 HKT 2006

一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20061210/06228f54/attachment.html

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

0楼 2006年12月10日星期日 12:08

yi huang yi.codeplayer在gmail.com
星期日十二月 10 12:08:42 HKT 2006

>
> 一个站点对应一个程序？



不是一个站点一个程序，只是一个站点一个正则而已，正则存在数据库里，供程序统一使用！

-- 
> http://codeplayer.blogspot.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20061210/743207c6/attachment.html

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

孙君意

0楼 2006年12月10日星期日 12:48

junyi sun ccnusjy在gmail.com
星期日十二月 10 12:48:11 HKT 2006

这些正则是手动写进去的，还是"训练"出来的？

On 12/10/06, yi huang <yi.codeplayer在gmail.com> wrote:
> > 一个站点对应一个程序？
>
>
> 不是一个站点一个程序，只是一个站点一个正则而已，正则存在数据库里，供程序统一使用！
> > --
> > http://codeplayer.blogspot.com/
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

李迎辉

0楼 2006年12月10日星期日 12:58

limodou limodou在gmail.com
星期日十二月 10 12:58:21 HKT 2006

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 这些正则是手动写进去的，还是"训练"出来的？
>
正则式又不是很难，还要训练什么，再说怎么训练？

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

0楼 2006年12月10日星期日 13:04

yi huang yi.codeplayer在gmail.com
星期日十二月 10 13:04:11 HKT 2006

>
> 这些正则是手动写进去的，还是"训练"出来的？


你说这个"训练"是指机器学习吗？好像还用不上这种高级的东西。
而且就我对机器学习的了解，寻找正则表达式这个问题根本没法"训练"嘛。

-- 
http://codeplayer.blogspot.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20061210/3daf781a/attachment.html

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

孙君意

0楼 2006年12月10日星期日 13:10

junyi sun ccnusjy在gmail.com
星期日十二月 10 13:10:07 HKT 2006

比如说我给用户做一个针对"商务信息"的信息采集器。
抓取阿里吧吧、淘宝、易趣等网站（200个）上的信息，要求抓取出"产品名"、"联系人"、"电话"、"发布时间"、"有效期"、"产品图片"等等。

假设我经过辛苦劳作，已经写好了针对这200个网站的200个正则式，这时，用户需要再加一个网站，我还要再写吗？

我的设想是：开发一个"正则训练器"，用户来输入应该被提取的正确信息，比如对于某个网页，用户根据情况输入"诺基亚手机、李先生、010-9889877、2006-11-2"等，然后"正则训练器"根据这些信息再结合HTML源代码，反向生成一个"正则表达式"。

整个过程不用程序员再参与了



On 12/10/06, limodou <limodou在gmail.com> wrote:
> On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> > 这些正则是手动写进去的，还是"训练"出来的？
> >
> 正则式又不是很难，还要训练什么，再说怎么训练？
>
> --
> I like python!
> UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
> My Blog: http://www.donews.net/limodou
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

孙君意

0楼 2006年12月10日星期日 13:13

junyi sun ccnusjy在gmail.com
星期日十二月 10 13:13:54 HKT 2006

用公司来表示就是：
原来的模式：html+pattern  ----> Info
现在是：Info + html ----->pattern

得到了这个pattern就可以匹配所有类似的网页信息了

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 比如说我给用户做一个针对"商务信息"的信息采集器。
> 抓取阿里吧吧、淘宝、易趣等网站（200个）上的信息，要求抓取出"产品名"、"联系人"、"电话"、"发布时间"、"有效期"、"产品图片"等等。
>
> 假设我经过辛苦劳作，已经写好了针对这200个网站的200个正则式，这时，用户需要再加一个网站，我还要再写吗？
>
> 我的设想是：开发一个"正则训练器"，用户来输入应该被提取的正确信息，比如对于某个网页，用户根据情况输入"诺基亚手机、李先生、010-9889877、2006-11-2"等，然后"正则训练器"根据这些信息再结合HTML源代码，反向生成一个"正则表达式"。
>
> 整个过程不用程序员再参与了
>
>
>
> On 12/10/06, limodou <limodou在gmail.com> wrote:
> > On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> > > 这些正则是手动写进去的，还是"训练"出来的？
> > >
> > 正则式又不是很难，还要训练什么，再说怎么训练？
> >
> > --
> > I like python!
> > UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
> > My Blog: http://www.donews.net/limodou
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
>

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

李迎辉

0楼 2006年12月10日星期日 13:56

limodou limodou在gmail.com
星期日十二月 10 13:56:27 HKT 2006

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 用公司来表示就是：
> 原来的模式：html+pattern  ----> Info
> 现在是：Info + html ----->pattern
>
> 得到了这个pattern就可以匹配所有类似的网页信息了
>
前面不是有人说了嘛，把正则式做成一个配置不就可以了吗？这样你只要匹配一些规则，如url,
正则式之类的，整个处理过程不用再重新编程了。识别出正则式，这其识是对人的一个训练。减少编码，使过程重用，这是你设计要考虑的。

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

孙君意

0楼 2006年12月10日星期日 14:13

junyi sun ccnusjy在gmail.com
星期日十二月 10 14:13:00 HKT 2006

谢谢limodou老大！

只是我看kooxoo的黑板报上写的东西，他们好像用到了一些高级技术，传统的
模版匹配的方法被他们鄙视了。。



On 12/10/06, limodou <limodou在gmail.com> wrote:
> On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> > 用公司来表示就是：
> > 原来的模式：html+pattern  ----> Info
> > 现在是：Info + html ----->pattern
> >
> > 得到了这个pattern就可以匹配所有类似的网页信息了
> >
> 前面不是有人说了嘛，把正则式做成一个配置不就可以了吗？这样你只要匹配一些规则，如url,
> 正则式之类的，整个处理过程不用再重新编程了。识别出正则式，这其识是对人的一个训练。减少编码，使过程重用，这是你设计要考虑的。
>
> --
> I like python!
> UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
> My Blog: http://www.donews.net/limodou
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

李迎辉

0楼 2006年12月10日星期日 14:18

limodou limodou在gmail.com
星期日十二月 10 14:18:05 HKT 2006

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 谢谢limodou老大！
>
> 只是我看kooxoo的黑板报上写的东西，他们好像用到了一些高级技术，传统的
> 模版匹配的方法被他们鄙视了。。
>
这个我就不懂了。只要你找到合适的方法就可以，别人是否鄙视是别人的事，更何况没有详细的比较结果。而且每种技术有自已的适应范围，有什么可鄙视的。

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

孙君意

0楼 2006年12月10日星期日 14:50

junyi sun ccnusjy在gmail.com
星期日十二月 10 14:50:14 HKT 2006

但陈华他们怎么获得了1000万$的风投？
kooxoo没有技术壁垒吗？

On 12/10/06, limodou <limodou在gmail.com> wrote:
> On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> > 谢谢limodou老大！
> >
> > 只是我看kooxoo的黑板报上写的东西，他们好像用到了一些高级技术，传统的
> > 模版匹配的方法被他们鄙视了。。
> >
> 这个我就不懂了。只要你找到合适的方法就可以，别人是否鄙视是别人的事，更何况没有详细的比较结果。而且每种技术有自已的适应范围，有什么可鄙视的。
>
> --
> I like python!
> UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
> My Blog: http://www.donews.net/limodou
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

李迎辉

0楼 2006年12月10日星期日 15:49

limodou limodou在gmail.com
星期日十二月 10 15:49:34 HKT 2006

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 但陈华他们怎么获得了1000万$的风投？
> kooxoo没有技术壁垒吗？
>
你问我，我问谁去啊。

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

请登录后回复。还没有在Zeuux哲思注册吗？现在注册！

Zeuux © 2025

京ICP备05028076号