2006年12月09日 星期六 22:12
大家好: 有上过酷讯网的朋友吗? 酷讯的信息提取是靠正则表达式还是用了什么高级的算法(神经网络、机器学习)? 我自己尝试用正则表达式来做,发现几乎不现实,除非针对每个网站都写一个特殊的表达式。 请高手赐教。。。。
2006年12月09日 星期六 22:18
没有什么不可能 2006/12/9, junyi sun <ccnusjy at gmail.com>: > > 大家好: > 有上过酷讯网的朋友吗? > 酷讯的信息提取是靠正则表达式还是用了什么高级的算法(神经网络、机器学习)? > 我自己尝试用正则表达式来做,发现几乎不现实,除非针对每个网站都写一个特殊的表达式。 > > 请高手赐教。。。。 > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese -- devdoer devdoer at gmail.com http://devdoer.blog.sohu.com/ -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20061209/75ff9c97/attachment-0001.htm
2006年12月09日 星期六 22:27
Maybe you need a book named "Text.Processing.In.Python". On Sat, 2006-12-09 at 22:18 +0800, bird devdoer wrote: > 没有什么不可能 > > 2006/12/9, junyi sun <ccnusjy在gmail.com>: > 大家好: > 有上过酷讯网的朋友吗? > 酷讯的信息提取是靠正则表达式还是用了什么高级的算法(神经网 > 络、机器学习)? > 我自己尝试用正则表达式来做,发现几乎不现实,除非针对每个网站 > 都写一个特殊的表达式。 > > 请高手赐教。。。。 > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe > to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > -- > devdoer > devdoer在gmail.com > http://devdoer.blog.sohu.com/ > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese
2006年12月09日 星期六 22:47
酷讯,没听说过,所以给个链接 我想文字处理,最多就是一个Parser或者Interpretor吧 这个TPiP里面也没有。它只是告诉你,解决这个问题要用lex & yacc,至于这是什么,你自己去google。 On 12/9/06, WangXinxi <wangxinxi在cs.hit.edu.cn> wrote: > Maybe you need a book named "Text.Processing.In.Python". > > On Sat, 2006-12-09 at 22:18 +0800, bird devdoer wrote: > > 没有什么不可能 > > > > 2006/12/9, junyi sun <ccnusjy在gmail.com>: > > 大家好: > > 有上过酷讯网的朋友吗? > > 酷讯的信息提取是靠正则表达式还是用了什么高级的算法(神经网 > > 络、机器学习)? > > 我自己尝试用正则表达式来做,发现几乎不现实,除非针对每个网站 > > 都写一个特殊的表达式。 > > > > 请高手赐教。。。。 > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to > > python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe > > to python-chinese-request在lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > > > -- > > devdoer > > devdoer在gmail.com > > http://devdoer.blog.sohu.com/ > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese
2006年12月09日 星期六 22:47
ÎÊÌâ»òÐí²»ÏñÂ¥ÉÏËù˵µÄÄÇô¼òµ¥£¬ Ò»¸öÍøÕ¾²¶×½»òÐíÈÝÒ×£¬¶à¸öÍøÕ¾£¬ÈçºÎÕÒ³ö¸öͨÓõķ½·¨£¬²»ÊÇÄÇô¼òµ¥°É£¿ ¹Ø×¢´ËÌ⣡ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20061209/75d2703e/attachment.html
2006年12月09日 星期六 22:50
On 12/9/06, Thomas Che <qixiangnj在gmail.com> wrote: > 问题或许不像楼上所说的那么简单, > 一个网站捕捉或许容易,多个网站,如何找出个通用的方法,不是那么简单吧? > 关注此题! > 每个网站单独处理即可。又没说程序是一样的啊。 -- I like python! UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad My Blog: http://www.donews.net/limodou
2006年12月09日 星期六 23:10
Àϴ󣬿áѶµÄÊý¾ÝÀ´Ô´ÍøÕ¾¿É²»ÉÙ£¡Ò»¸öÕ¾µã¶ÔÓ¦Ò»¸ö³ÌÐò£¿ ÄÇÌ«¡¡ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20061209/e4b449d4/attachment.htm
2006年12月09日 星期六 23:27
酷讯正在招人呢 想知道的可以去应聘啊 呵呵 www.kooxoo.com 在06-12-9,Thomas Che <qixiangnj at gmail.com> 写道: > > 老大,酷讯的数据来源网站可不少!一个站点对应一个程序? > 那太…… > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -- devdoer devdoer at gmail.com http://devdoer.blog.sohu.com/ -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20061209/5bd9dc76/attachment.html
2006年12月09日 星期六 23:54
类似搜索网站。 On 12/9/06, bird devdoer <devdoer在gmail.com> wrote: > 酷讯正在招人呢 想知道的可以去应聘啊 呵呵 > www.kooxoo.com > > > 在06-12-9,Thomas Che <qixiangnj在gmail.com> 写道: > > 老大,酷讯的数据来源网站可不少!一个站点对应一个程序? > > 那太…… > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > > Detail Info: > http://python.cn/mailman/listinfo/python-chinese > > > > > > -- > devdoer > devdoer在gmail.com > http://devdoer.blog.sohu.com/ > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > Detail Info: > http://python.cn/mailman/listinfo/python-chinese >
2006年12月10日 星期日 11:01
一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20061210/06228f54/attachment.html
2006年12月10日 星期日 12:08
> > 一个站点对应一个程序? 不是一个站点一个程序,只是一个站点一个正则而已,正则存在数据库里,供程序统一使用! -- > http://codeplayer.blogspot.com/ -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20061210/743207c6/attachment.html
2006年12月10日 星期日 12:48
这些正则是手动写进去的,还是"训练"出来的? On 12/10/06, yi huang <yi.codeplayer在gmail.com> wrote: > > 一个站点对应一个程序? > > > 不是一个站点一个程序,只是一个站点一个正则而已,正则存在数据库里,供程序统一使用! > > -- > > http://codeplayer.blogspot.com/ > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > Detail Info: > http://python.cn/mailman/listinfo/python-chinese >
2006年12月10日 星期日 12:58
On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote: > 这些正则是手动写进去的,还是"训练"出来的? > 正则式又不是很难,还要训练什么,再说怎么训练? -- I like python! UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad My Blog: http://www.donews.net/limodou
2006年12月10日 星期日 13:04
> > 这些正则是手动写进去的,还是"训练"出来的? 你说这个"训练"是指机器学习吗?好像还用不上这种高级的东西。 而且就我对机器学习的了解,寻找正则表达式这个问题根本没法"训练"嘛。 -- http://codeplayer.blogspot.com/ -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20061210/3daf781a/attachment.html
2006年12月10日 星期日 13:10
比如说我给用户做一个针对"商务信息"的信息采集器。 抓取阿里吧吧、淘宝、易趣等网站(200个)上的信息,要求抓取出"产品名"、"联系人"、"电话"、"发布时间"、"有效期"、"产品图片"等等。 假设我经过辛苦劳作,已经写好了针对这200个网站的200个正则式,这时,用户需要再加一个网站,我还要再写吗? 我的设想是:开发一个"正则训练器",用户来输入应该被提取的正确信息,比如对于某个网页,用户根据情况输入"诺基亚手机、李先生、010-9889877、2006-11-2"等,然后"正则训练器"根据这些信息再结合HTML源代码,反向生成一个"正则表达式"。 整个过程不用程序员再参与了 On 12/10/06, limodou <limodou在gmail.com> wrote: > On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote: > > 这些正则是手动写进去的,还是"训练"出来的? > > > 正则式又不是很难,还要训练什么,再说怎么训练? > > -- > I like python! > UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad > My Blog: http://www.donews.net/limodou > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese
2006年12月10日 星期日 13:13
用公司来表示就是: 原来的模式:html+pattern ----> Info 现在是:Info + html ----->pattern 得到了这个pattern就可以匹配所有类似的网页信息了 On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote: > 比如说我给用户做一个针对"商务信息"的信息采集器。 > 抓取阿里吧吧、淘宝、易趣等网站(200个)上的信息,要求抓取出"产品名"、"联系人"、"电话"、"发布时间"、"有效期"、"产品图片"等等。 > > 假设我经过辛苦劳作,已经写好了针对这200个网站的200个正则式,这时,用户需要再加一个网站,我还要再写吗? > > 我的设想是:开发一个"正则训练器",用户来输入应该被提取的正确信息,比如对于某个网页,用户根据情况输入"诺基亚手机、李先生、010-9889877、2006-11-2"等,然后"正则训练器"根据这些信息再结合HTML源代码,反向生成一个"正则表达式"。 > > 整个过程不用程序员再参与了 > > > > On 12/10/06, limodou <limodou在gmail.com> wrote: > > On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote: > > > 这些正则是手动写进去的,还是"训练"出来的? > > > > > 正则式又不是很难,还要训练什么,再说怎么训练? > > > > -- > > I like python! > > UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad > > My Blog: http://www.donews.net/limodou > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese >
2006年12月10日 星期日 13:56
On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote: > 用公司来表示就是: > 原来的模式:html+pattern ----> Info > 现在是:Info + html ----->pattern > > 得到了这个pattern就可以匹配所有类似的网页信息了 > 前面不是有人说了嘛,把正则式做成一个配置不就可以了吗?这样你只要匹配一些规则,如url, 正则式之类的,整个处理过程不用再重新编程了。识别出正则式,这其识是对人的一个训练。减少编码,使过程重用,这是你设计要考虑的。 -- I like python! UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad My Blog: http://www.donews.net/limodou
2006年12月10日 星期日 14:13
谢谢limodou老大! 只是我看kooxoo的黑板报上写的东西,他们好像用到了一些高级技术,传统的 模版匹配的方法被他们鄙视了。。 On 12/10/06, limodou <limodou在gmail.com> wrote: > On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote: > > 用公司来表示就是: > > 原来的模式:html+pattern ----> Info > > 现在是:Info + html ----->pattern > > > > 得到了这个pattern就可以匹配所有类似的网页信息了 > > > 前面不是有人说了嘛,把正则式做成一个配置不就可以了吗?这样你只要匹配一些规则,如url, > 正则式之类的,整个处理过程不用再重新编程了。识别出正则式,这其识是对人的一个训练。减少编码,使过程重用,这是你设计要考虑的。 > > -- > I like python! > UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad > My Blog: http://www.donews.net/limodou > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese
2006年12月10日 星期日 14:18
On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote: > 谢谢limodou老大! > > 只是我看kooxoo的黑板报上写的东西,他们好像用到了一些高级技术,传统的 > 模版匹配的方法被他们鄙视了。。 > 这个我就不懂了。只要你找到合适的方法就可以,别人是否鄙视是别人的事,更何况没有详细的比较结果。而且每种技术有自已的适应范围,有什么可鄙视的。 -- I like python! UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad My Blog: http://www.donews.net/limodou
2006年12月10日 星期日 14:50
但陈华他们怎么获得了1000万$的风投? kooxoo没有技术壁垒吗? On 12/10/06, limodou <limodou在gmail.com> wrote: > On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote: > > 谢谢limodou老大! > > > > 只是我看kooxoo的黑板报上写的东西,他们好像用到了一些高级技术,传统的 > > 模版匹配的方法被他们鄙视了。。 > > > 这个我就不懂了。只要你找到合适的方法就可以,别人是否鄙视是别人的事,更何况没有详细的比较结果。而且每种技术有自已的适应范围,有什么可鄙视的。 > > -- > I like python! > UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad > My Blog: http://www.donews.net/limodou > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese
2006年12月10日 星期日 15:49
On 12/10/06, junyi sun <ccnusjy在gmail.com> wrote: > 但陈华他们怎么获得了1000万$的风投? > kooxoo没有技术壁垒吗? > 你问我,我问谁去啊。 -- I like python! UliPad <>: http://wiki.woodpecker.org.cn/moin/UliPad My Blog: http://www.donews.net/limodou
Zeuux © 2025
京ICP备05028076号