Python论坛  - 讨论区

标题:[python-chinese] 酷讯的原理是什么?

2006年12月09日 星期六 22:12

junyi sun ccnusjy在gmail.com
星期六 十二月 9 22:12:01 HKT 2006

大家好:
   有上过酷讯网的朋友吗?
   酷讯的信息提取是靠正则表达式还是用了什么高级的算法(神经网络、机器学习)?
   我自己尝试用正则表达式来做,发现几乎不现实,除非针对每个网站都写一个特殊的表达式。

请高手赐教。。。。

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月09日 星期六 22:18

bird devdoer devdoer在gmail.com
星期六 十二月 9 22:18:32 HKT 2006

没有什么不可能

2006/12/9, junyi sun <ccnusjy at gmail.com>:
>
> 大家好:
>   有上过酷讯网的朋友吗?
>   酷讯的信息提取是靠正则表达式还是用了什么高级的算法(神经网络、机器学习)?
>   我自己尝试用正则表达式来做,发现几乎不现实,除非针对每个网站都写一个特殊的表达式。
>
> 请高手赐教。。。。
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese




-- 
devdoer
devdoer at gmail.com
http://devdoer.blog.sohu.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20061209/75ff9c97/attachment-0001.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月09日 星期六 22:27

WangXinxi wangxinxi在cs.hit.edu.cn
星期六 十二月 9 22:27:46 HKT 2006

Maybe you need a book named "Text.Processing.In.Python".

On Sat, 2006-12-09 at 22:18 +0800, bird devdoer wrote:
> 没有什么不可能
> 
> 2006/12/9, junyi sun <ccnusjy在gmail.com>: 
>         大家好:
>           有上过酷讯网的朋友吗?
>           酷讯的信息提取是靠正则表达式还是用了什么高级的算法(神经网
>         络、机器学习)?
>           我自己尝试用正则表达式来做,发现几乎不现实,除非针对每个网站
>         都写一个特殊的表达式。 
>         
>         请高手赐教。。。。
>         _______________________________________________
>         python-chinese
>         Post: send python-chinese在lists.python.cn
>         Subscribe: send subscribe to
>         python-chinese-request在lists.python.cn
>         Unsubscribe: send unsubscribe
>         to  python-chinese-request在lists.python.cn
>         Detail Info: http://python.cn/mailman/listinfo/python-chinese
> 
> 
> 
> -- 
> devdoer
> devdoer在gmail.com
> http://devdoer.blog.sohu.com/ 
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月09日 星期六 22:47

shhgs shhgs.efhilt在gmail.com
星期六 十二月 9 22:47:25 HKT 2006

酷讯,没听说过,所以给个链接

我想文字处理,最多就是一个Parser或者Interpretor吧

这个TPiP里面也没有。它只是告诉你,解决这个问题要用lex & yacc,至于这是什么,你自己去google。

On 12/9/06, WangXinxi <wangxinxi在cs.hit.edu.cn> wrote:
> Maybe you need a book named "Text.Processing.In.Python".
>
> On Sat, 2006-12-09 at 22:18 +0800, bird devdoer wrote:
> > 没有什么不可能
> >
> > 2006/12/9, junyi sun <ccnusjy在gmail.com>:
> >         大家好:
> >           有上过酷讯网的朋友吗?
> >           酷讯的信息提取是靠正则表达式还是用了什么高级的算法(神经网
> >         络、机器学习)?
> >           我自己尝试用正则表达式来做,发现几乎不现实,除非针对每个网站
> >         都写一个特殊的表达式。
> >
> >         请高手赐教。。。。
> >         _______________________________________________
> >         python-chinese
> >         Post: send python-chinese在lists.python.cn
> >         Subscribe: send subscribe to
> >         python-chinese-request在lists.python.cn
> >         Unsubscribe: send unsubscribe
> >         to  python-chinese-request在lists.python.cn
> >         Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
> >
> > --
> > devdoer
> > devdoer在gmail.com
> > http://devdoer.blog.sohu.com/
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月09日 星期六 22:47

Thomas Che qixiangnj在gmail.com
星期六 十二月 9 22:47:26 HKT 2006

ÎÊÌâ»òÐí²»ÏñÂ¥ÉÏËù˵µÄÄÇô¼òµ¥£¬
Ò»¸öÍøÕ¾²¶×½»òÐíÈÝÒ×£¬¶à¸öÍøÕ¾£¬ÈçºÎÕÒ³ö¸öͨÓõķ½·¨£¬²»ÊÇÄÇô¼òµ¥°É£¿
¹Ø×¢´ËÌ⣡
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20061209/75d2703e/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月09日 星期六 22:50

limodou limodou在gmail.com
星期六 十二月 9 22:50:27 HKT 2006

On 12/9/06, Thomas Che <qixiangnj在gmail.com> wrote:
> 问题或许不像楼上所说的那么简单,
> 一个网站捕捉或许容易,多个网站,如何找出个通用的方法,不是那么简单吧?
> 关注此题!
>
每个网站单独处理即可。又没说程序是一样的啊。

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月09日 星期六 23:10

Thomas Che qixiangnj在gmail.com
星期六 十二月 9 23:10:33 HKT 2006

Àϴ󣬿áѶµÄÊý¾ÝÀ´Ô´ÍøÕ¾¿É²»ÉÙ£¡Ò»¸öÕ¾µã¶ÔÓ¦Ò»¸ö³ÌÐò£¿
ÄÇÌ«¡­¡­
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20061209/e4b449d4/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月09日 星期六 23:27

bird devdoer devdoer在gmail.com
星期六 十二月 9 23:27:12 HKT 2006

酷讯正在招人呢 想知道的可以去应聘啊 呵呵
www.kooxoo.com


在06-12-9,Thomas Che <qixiangnj at gmail.com> 写道:
>
> 老大,酷讯的数据来源网站可不少!一个站点对应一个程序?
> 那太……
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
devdoer
devdoer at gmail.com
http://devdoer.blog.sohu.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20061209/5bd9dc76/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月09日 星期六 23:54

shhgs shhgs.efhilt在gmail.com
星期六 十二月 9 23:54:04 HKT 2006

类似搜索网站。



On 12/9/06, bird devdoer <devdoer在gmail.com> wrote:
> 酷讯正在招人呢 想知道的可以去应聘啊 呵呵
> www.kooxoo.com
>
>
> 在06-12-9,Thomas Che <qixiangnj在gmail.com> 写道:
> > 老大,酷讯的数据来源网站可不少!一个站点对应一个程序?
> > 那太……
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> > Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
> >
>
>
>
> --
> devdoer
> devdoer在gmail.com
> http://devdoer.blog.sohu.com/
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 11:01

brightman fenyon在126.com
星期日 十二月 10 11:01:07 HKT 2006

一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20061210/06228f54/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 12:08

yi huang yi.codeplayer在gmail.com
星期日 十二月 10 12:08:42 HKT 2006

>
> 一个站点对应一个程序?



不是一个站点一个程序,只是一个站点一个正则而已,正则存在数据库里,供程序统一使用!

-- 
> http://codeplayer.blogspot.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20061210/743207c6/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 12:48

junyi sun ccnusjy在gmail.com
星期日 十二月 10 12:48:11 HKT 2006

这些正则是手动写进去的,还是"训练"出来的?

On 12/10/06, yi huang <yi.codeplayer在gmail.com> wrote:
> > 一个站点对应一个程序?
>
>
> 不是一个站点一个程序,只是一个站点一个正则而已,正则存在数据库里,供程序统一使用!
> > --
> > http://codeplayer.blogspot.com/
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 12:58

limodou limodou在gmail.com
星期日 十二月 10 12:58:21 HKT 2006

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 这些正则是手动写进去的,还是"训练"出来的?
>
正则式又不是很难,还要训练什么,再说怎么训练?

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 13:04

yi huang yi.codeplayer在gmail.com
星期日 十二月 10 13:04:11 HKT 2006

>
> 这些正则是手动写进去的,还是"训练"出来的?


你说这个"训练"是指机器学习吗?好像还用不上这种高级的东西。
而且就我对机器学习的了解,寻找正则表达式这个问题根本没法"训练"嘛。

-- 
http://codeplayer.blogspot.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20061210/3daf781a/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 13:10

junyi sun ccnusjy在gmail.com
星期日 十二月 10 13:10:07 HKT 2006

比如说我给用户做一个针对"商务信息"的信息采集器。
抓取阿里吧吧、淘宝、易趣等网站(200个)上的信息,要求抓取出"产品名"、"联系人"、"电话"、"发布时间"、"有效期"、"产品图片"等等。

假设我经过辛苦劳作,已经写好了针对这200个网站的200个正则式,这时,用户需要再加一个网站,我还要再写吗?

我的设想是:开发一个"正则训练器",用户来输入应该被提取的正确信息,比如对于某个网页,用户根据情况输入"诺基亚手机、李先生、010-9889877、2006-11-2"等,然后"正则训练器"根据这些信息再结合HTML源代码,反向生成一个"正则表达式"。

整个过程不用程序员再参与了



On 12/10/06, limodou <limodou在gmail.com> wrote:
> On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> > 这些正则是手动写进去的,还是"训练"出来的?
> >
> 正则式又不是很难,还要训练什么,再说怎么训练?
>
> --
> I like python!
> UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
> My Blog: http://www.donews.net/limodou
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 13:13

junyi sun ccnusjy在gmail.com
星期日 十二月 10 13:13:54 HKT 2006

用公司来表示就是:
原来的模式:html+pattern  ----> Info
现在是:Info + html ----->pattern

得到了这个pattern就可以匹配所有类似的网页信息了

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 比如说我给用户做一个针对"商务信息"的信息采集器。
> 抓取阿里吧吧、淘宝、易趣等网站(200个)上的信息,要求抓取出"产品名"、"联系人"、"电话"、"发布时间"、"有效期"、"产品图片"等等。
>
> 假设我经过辛苦劳作,已经写好了针对这200个网站的200个正则式,这时,用户需要再加一个网站,我还要再写吗?
>
> 我的设想是:开发一个"正则训练器",用户来输入应该被提取的正确信息,比如对于某个网页,用户根据情况输入"诺基亚手机、李先生、010-9889877、2006-11-2"等,然后"正则训练器"根据这些信息再结合HTML源代码,反向生成一个"正则表达式"。
>
> 整个过程不用程序员再参与了
>
>
>
> On 12/10/06, limodou <limodou在gmail.com> wrote:
> > On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> > > 这些正则是手动写进去的,还是"训练"出来的?
> > >
> > 正则式又不是很难,还要训练什么,再说怎么训练?
> >
> > --
> > I like python!
> > UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
> > My Blog: http://www.donews.net/limodou
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 13:56

limodou limodou在gmail.com
星期日 十二月 10 13:56:27 HKT 2006

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 用公司来表示就是:
> 原来的模式:html+pattern  ----> Info
> 现在是:Info + html ----->pattern
>
> 得到了这个pattern就可以匹配所有类似的网页信息了
>
前面不是有人说了嘛,把正则式做成一个配置不就可以了吗?这样你只要匹配一些规则,如url,
正则式之类的,整个处理过程不用再重新编程了。识别出正则式,这其识是对人的一个训练。减少编码,使过程重用,这是你设计要考虑的。

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 14:13

junyi sun ccnusjy在gmail.com
星期日 十二月 10 14:13:00 HKT 2006

谢谢limodou老大!

只是我看kooxoo的黑板报上写的东西,他们好像用到了一些高级技术,传统的
模版匹配的方法被他们鄙视了。。



On 12/10/06, limodou <limodou在gmail.com> wrote:
> On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> > 用公司来表示就是:
> > 原来的模式:html+pattern  ----> Info
> > 现在是:Info + html ----->pattern
> >
> > 得到了这个pattern就可以匹配所有类似的网页信息了
> >
> 前面不是有人说了嘛,把正则式做成一个配置不就可以了吗?这样你只要匹配一些规则,如url,
> 正则式之类的,整个处理过程不用再重新编程了。识别出正则式,这其识是对人的一个训练。减少编码,使过程重用,这是你设计要考虑的。
>
> --
> I like python!
> UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
> My Blog: http://www.donews.net/limodou
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 14:18

limodou limodou在gmail.com
星期日 十二月 10 14:18:05 HKT 2006

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 谢谢limodou老大!
>
> 只是我看kooxoo的黑板报上写的东西,他们好像用到了一些高级技术,传统的
> 模版匹配的方法被他们鄙视了。。
>
这个我就不懂了。只要你找到合适的方法就可以,别人是否鄙视是别人的事,更何况没有详细的比较结果。而且每种技术有自已的适应范围,有什么可鄙视的。

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 14:50

junyi sun ccnusjy在gmail.com
星期日 十二月 10 14:50:14 HKT 2006

但陈华他们怎么获得了1000万$的风投?
kooxoo没有技术壁垒吗?

On 12/10/06, limodou <limodou在gmail.com> wrote:
> On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> > 谢谢limodou老大!
> >
> > 只是我看kooxoo的黑板报上写的东西,他们好像用到了一些高级技术,传统的
> > 模版匹配的方法被他们鄙视了。。
> >
> 这个我就不懂了。只要你找到合适的方法就可以,别人是否鄙视是别人的事,更何况没有详细的比较结果。而且每种技术有自已的适应范围,有什么可鄙视的。
>
> --
> I like python!
> UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
> My Blog: http://www.donews.net/limodou
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2006年12月10日 星期日 15:49

limodou limodou在gmail.com
星期日 十二月 10 15:49:34 HKT 2006

On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote:
> 但陈华他们怎么获得了1000万$的风投?
> kooxoo没有技术壁垒吗?
>
你问我,我问谁去啊。

-- 
I like python!
UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad
My Blog: http://www.donews.net/limodou

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号