Python论坛  - 讨论区

标题:[python-chinese] 请教一个关于将任务分到两个PC分别执行的时候,如何提高效率的策略问题

2007年04月09日 星期一 09:38

zongzi honghunter在gmail.com
星期一 四月 9 09:38:05 HKT 2007

现在情况是:
PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。

想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。


请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪?

我的设想是,在PC1上面跑个抓取的脚本,只作抓取。
PC2上面对抓取到的进行分析等等处理。

我现在的两个具体问题是:
1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现?
2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。

-- 
这是一个有钱人的世界,与我的世界截然不同!

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月09日 星期一 09:43

jessinio smith jessinio在gmail.com
星期一 四月 9 09:43:56 HKT 2007

ÕâÊDz»ÊÇÊôÓÚ·Ö²¼Ê½¼ÆËã»úÄØ£¿

On 4/9/07, zongzi <honghunter在gmail.com> wrote:
>
> ÏÖÔÚÇé¿öÊÇ£º
> PC1£¬¿ÉÒÔÉÏÍâÍø£¬µ«ÊÇÒòΪÊDZðÈ˵ķþÎñÆ÷£¬ÔËÐÐÔÚÉÏÃæµÄ½Å±¾²»ÄÜÕ¼ÓÃÌ«¶àCPUºÍÄÚ´æ¡£Ó²ÅÌ¿Õ¼äÎÞËùν¡£
> PC2£¬²»ÄÜÉÏÍâÍø£¬µ«ÊÇÄÜÁ´½Óµ½PC1£¨ÄܶÁPC1µÄ¹²ÏíĿ¼£©£¬CPUÓõ½100£¥Ò²Ã»Ê¡£µ«ÊÇ×îºÃÔÚ´¦ÀíÖÐÄÜÍ£ÏÂÀ´£¬Ï´μÌÐø´¦Àí¡£
>
> ÏëÒª×öµÄÊÂÇé¾ÍÊÇץȡС˵ÍøÕ¾ÉÏÁ¬ÔصÄС˵£¬¹ýÂ˳Étxt£¬Áô×ÅÂýÂý¿´¡£
>
>
> Çë½Ì´ó¼Ò£¬ÔÚÏÖÓеÄÄÜÓõÄÁ½¸öPC£¬ÔõÑùµÄ´¦Àí²ßÂÔ£¬×ÜÌåЧÂÊÄܱȽϸßÄÄ£¿
>
> ÎÒµÄÉèÏëÊÇ£¬ÔÚPC1ÉÏÃæÅܸöץȡµÄ½Å±¾£¬Ö»×÷ץȡ¡£
> PC2ÉÏÃæ¶Ôץȡµ½µÄ½øÐзÖÎöµÈµÈ´¦Àí¡£
>
> ÎÒÏÖÔÚµÄÁ½¸ö¾ßÌåÎÊÌâÊÇ£º
> 1£¬Èç¹ûÏëÒªPC1ץȡºó£¬´«¸øPC2·ÖÎöÖ®ºó£¬ÔÙ´©¸øPC1¼ÌÐøץȡ¡£ÔõÑùÄܱȽϼòµ¥ÓÖÓÐЧÂʵÄʵÏÖ£¿
> 2£¬PC2ÔõôÄÜÍ£ÏÂÀ´£¬¼È²»Ó°ÏìPC1µÄ¼ÌÐøץȡ£¬ÓÐÄÜÔÚÖØÆôÆô¶¯ºó£¬ÓÖÄÜÌø¹ý´¦Àí¹ýµÄ²¿·Ö£¬¼ÌÐø´¦ÀíûÍê³ÉµÄ²¿·Ö¡£
>
> --
> ÕâÊÇÒ»¸öÓÐÇ®È˵ÄÊÀ½ç£¬ÓëÎÒµÄÊÀ½ç½ØÈ»²»Í¬£¡
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese




-- 
×¢ÒâÉíÌ壬ÉíÌåÊǸïÃüµÄ±¾Ç®£¡£¡
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070409/8c18381f/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月09日 星期一 09:47

刘鑫 march.liu在gmail.com
星期一 四月 9 09:47:21 HKT 2007

ÕâÊÇÒ»¸öµäÐ͵ÄË«²ã½á¹¹¡£PC1¾ÍÊÇÒ»¸öÓ¦Ó÷þÎñÆ÷£¬PC2ÊÇËüµÄ¿Í»§»ú£¨PC2ͬʱҲ¿ÉÄÜÊÇÄãµÄ·þÎñÆ÷£©¡£Äã¿ÉÒÔ°ÑPC1×ö³ÉÒ»¸öservice£¬´ò¿ªÒ»¸öÃæÏòPC2µÄ¶Ë¿Ú»òÕß¹ÜÀí£¬¸ù¾ÝPC2µÄÇëÇóȥץȡºÍת·¢¡£PC2µÄÒµÎñ¹æÔòÒªÉè¼ÆºÃ£¬Ìṩ¾¡Á¿¾«È·µÄËÑË÷Ìõ¼þ£¬ÕâÑù¿ÉÒÔÓÐЧ¼õÉÙPC1µÄ²éѯÁ¿£¬±ÜÃâÕ¼ÓÃPC1Ì«¶àµÄ¼ÆËãºÍÍøÂç×ÊÔ´¡£

ÔÚ07-4-9£¬zongzi <honghunter在gmail.com> дµÀ£º
>
> ÏÖÔÚÇé¿öÊÇ£º
> PC1£¬¿ÉÒÔÉÏÍâÍø£¬µ«ÊÇÒòΪÊDZðÈ˵ķþÎñÆ÷£¬ÔËÐÐÔÚÉÏÃæµÄ½Å±¾²»ÄÜÕ¼ÓÃÌ«¶àCPUºÍÄÚ´æ¡£Ó²ÅÌ¿Õ¼äÎÞËùν¡£
> PC2£¬²»ÄÜÉÏÍâÍø£¬µ«ÊÇÄÜÁ´½Óµ½PC1£¨ÄܶÁPC1µÄ¹²ÏíĿ¼£©£¬CPUÓõ½100£¥Ò²Ã»Ê¡£µ«ÊÇ×îºÃÔÚ´¦ÀíÖÐÄÜÍ£ÏÂÀ´£¬Ï´μÌÐø´¦Àí¡£
>
> ÏëÒª×öµÄÊÂÇé¾ÍÊÇץȡС˵ÍøÕ¾ÉÏÁ¬ÔصÄС˵£¬¹ýÂ˳Étxt£¬Áô×ÅÂýÂý¿´¡£
>
>
> Çë½Ì´ó¼Ò£¬ÔÚÏÖÓеÄÄÜÓõÄÁ½¸öPC£¬ÔõÑùµÄ´¦Àí²ßÂÔ£¬×ÜÌåЧÂÊÄܱȽϸßÄÄ£¿
>
> ÎÒµÄÉèÏëÊÇ£¬ÔÚPC1ÉÏÃæÅܸöץȡµÄ½Å±¾£¬Ö»×÷ץȡ¡£
> PC2ÉÏÃæ¶Ôץȡµ½µÄ½øÐзÖÎöµÈµÈ´¦Àí¡£
>
> ÎÒÏÖÔÚµÄÁ½¸ö¾ßÌåÎÊÌâÊÇ£º
> 1£¬Èç¹ûÏëÒªPC1ץȡºó£¬´«¸øPC2·ÖÎöÖ®ºó£¬ÔÙ´©¸øPC1¼ÌÐøץȡ¡£ÔõÑùÄܱȽϼòµ¥ÓÖÓÐЧÂʵÄʵÏÖ£¿
> 2£¬PC2ÔõôÄÜÍ£ÏÂÀ´£¬¼È²»Ó°ÏìPC1µÄ¼ÌÐøץȡ£¬ÓÐÄÜÔÚÖØÆôÆô¶¯ºó£¬ÓÖÄÜÌø¹ý´¦Àí¹ýµÄ²¿·Ö£¬¼ÌÐø´¦ÀíûÍê³ÉµÄ²¿·Ö¡£
>
> --
> ÕâÊÇÒ»¸öÓÐÇ®È˵ÄÊÀ½ç£¬ÓëÎÒµÄÊÀ½ç½ØÈ»²»Í¬£¡
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese




-- 
µÇɽÕßÈ¥µÇɽ£¬ÒòΪɽÔÚÄÇÀï
ÎÒÔÚ˼¿¼£¬ÒòΪÎÊÌâÔÚÄÇÀï

ÁõöÎ
March.Liu
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070409/1dc3b8f7/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月09日 星期一 10:13

马踏飞燕 honeyday.mj在gmail.com
星期一 四月 9 10:13:59 HKT 2007

在PC1上架个代理服务器,控制好带宽,然后直接PC2连过去不就行了?

在 07-4-9,zongzi<honghunter在gmail.com> 写道:
> 现在情况是:
> PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。
>
> 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。
>
>
> 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪?
>
> 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。
> PC2上面对抓取到的进行分析等等处理。
>
> 我现在的两个具体问题是:
> 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现?
> 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。
>
> --
> 这是一个有钱人的世界,与我的世界截然不同!
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月09日 星期一 10:29

黄毅 yi.codeplayer在gmail.com
星期一 四月 9 10:29:19 HKT 2007

>
> 现在情况是:
> PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。
>
> 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。
>
>
> 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪?
>
> 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。
> PC2上面对抓取到的进行分析等等处理。
>
> 我现在的两个具体问题是:
> 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现?
> 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。


抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和 url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出
url列表 写入 url 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。

-- 
http://codeplayer.blogspot.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20070409/d10f9bc1/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月09日 星期一 11:11

zongzi honghunter在gmail.com
星期一 四月 9 11:11:35 HKT 2007

首先谢谢大家的答复。

现在考虑,需要传递的主要是正则表达式、URL列表和抓到的网页。不知道什么方式实现最简单,又有适当的效率。

下面几种极限条件下的实现策略有些什么主要差别哪?
1,效率最大化的设计
2,编码最简便的设计(这个肯定需要装代理服务器吧)
3,最小编码组合常见工具的设计
(其实我不懂python,以前抓小说的时候,是用抄来的几句代码,过滤出html中的链接,然后交给wget.exe来下载,然后再用一段写的很丑陋的perl来从抓取的html中分离出text。)

另,装代理虽然能简化,但是暂不考虑,因为想考虑下分开处理的策略,用代理服务器就等于又是平常的一个机器处理问题了。



在 07-4-9,黄毅<yi.codeplayer在gmail.com> 写道:
>
> > 现在情况是:
> > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> >
> PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。
> >
> > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。
> >
> >
> > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪?
> >
> > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。
> > PC2上面对抓取到的进行分析等等处理。
> >
> > 我现在的两个具体问题是:
> > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现?
> >
> 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。
>
> 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和
> url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url
> 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。
>
> --
> http://codeplayer.blogspot.com/
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>


-- 
这是一个有钱人的世界,与我的世界截然不同!

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月09日 星期一 11:12

shhgs shhgs.efhilt在gmail.com
星期一 四月 9 11:12:57 HKT 2007

针对单个任务的,还凑合。要是非常general的,那就太牛了。HPC的集群就是这个原理。

On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote:
> > 现在情况是:
> > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> >
> PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。
> >
> > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。
> >
> >
> > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪?
> >
> > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。
> > PC2上面对抓取到的进行分析等等处理。
> >
> > 我现在的两个具体问题是:
> > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现?
> >
> 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。
>
>
> 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和
> url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url
> 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。
>
> --
> http://codeplayer.blogspot.com/
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月09日 星期一 11:25

zongzi honghunter在gmail.com
星期一 四月 9 11:25:26 HKT 2007

现在考虑的是单个任务的。
或者说,希望能通过配置,能抓取不同的小说站点的小说。

在 07-4-9,shhgs<shhgs.efhilt在gmail.com> 写道:
> 针对单个任务的,还凑合。要是非常general的,那就太牛了。HPC的集群就是这个原理。
>
> On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote:
> > > 现在情况是:
> > > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> > >
> > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。
> > >
> > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。
> > >
> > >
> > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪?
> > >
> > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。
> > > PC2上面对抓取到的进行分析等等处理。
> > >
> > > 我现在的两个具体问题是:
> > > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现?
> > >
> > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。
> >
> >
> > 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和
> > url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url
> > 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。
> >
> > --
> > http://codeplayer.blogspot.com/
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to
> > python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request在lists.python.cn
> > Detail Info:
> > http://python.cn/mailman/listinfo/python-chinese
> >
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese


-- 
这是一个有钱人的世界,与我的世界截然不同!

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月09日 星期一 12:03

shhgs shhgs.efhilt在gmail.com
星期一 四月 9 12:03:30 HKT 2007

这个其实很简单。

一个master,专门dispatch任务。多个workhorse,到master那里领任务。workhorse发现有新任务的时候,直接交给master。master发现有idle的workhorse,且有待完成的任务时,发给workhorse。

虽说我没有做过这个东西,但是大致的思路就是这样了。有个一天,应该出来了。

On 4/8/07, zongzi <honghunter在gmail.com> wrote:
> 现在考虑的是单个任务的。
> 或者说,希望能通过配置,能抓取不同的小说站点的小说。
>
> 在 07-4-9,shhgs<shhgs.efhilt在gmail.com> 写道:
> > 针对单个任务的,还凑合。要是非常general的,那就太牛了。HPC的集群就是这个原理。
> >
> > On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote:
> > > > 现在情况是:
> > > > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> > > >
> > > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。
> > > >
> > > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。
> > > >
> > > >
> > > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪?
> > > >
> > > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。
> > > > PC2上面对抓取到的进行分析等等处理。
> > > >
> > > > 我现在的两个具体问题是:
> > > > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现?
> > > >
> > > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。
> > >
> > >
> > > 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和
> > > url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url
> > > 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。
> > >
> > > --
> > > http://codeplayer.blogspot.com/
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese在lists.python.cn
> > > Subscribe: send subscribe to
> > > python-chinese-request在lists.python.cn
> > > Unsubscribe: send unsubscribe to
> > > python-chinese-request在lists.python.cn
> > > Detail Info:
> > > http://python.cn/mailman/listinfo/python-chinese
> > >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
> --
> 这是一个有钱人的世界,与我的世界截然不同!
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年04月10日 星期二 13:53

zongzi honghunter在gmail.com
星期二 四月 10 13:53:31 HKT 2007

看来我的基础还是太弱了,有些答复看了还是不懂。

问一个直白点的,可能很傻的问题:
我还不会弄数据库什么的,我的处理过程就是:脚本+txt+批处理+wget。
脚本作些简单的数据提取,例如从一个用wget抓到的html网页中,取出URL,然后生成批处理文件。
TXT是我现在的各种数据的存储方式。
批处理的作用就是调用wget,把URL作为参数去下载网页。

现在的问题是,我希望能处理一部分之后,断了,还能继续接着处理。
该怎么处理这些正在下载、已经下载、等待下载什么的状态哪?
或者说,怎么用文件保存一个列表中处理了一半的位置,下次能从这里开始继续处理?


在 07-4-9,shhgs<shhgs.efhilt在gmail.com> 写道:
> 这个其实很简单。
>
> 一个master,专门dispatch任务。多个workhorse,到master那里领任务。workhorse发现有新任务的时候,直接交给master。master发现有idle的workhorse,且有待完成的任务时,发给workhorse。
>
> 虽说我没有做过这个东西,但是大致的思路就是这样了。有个一天,应该出来了。
>
> On 4/8/07, zongzi <honghunter在gmail.com> wrote:
> > 现在考虑的是单个任务的。
> > 或者说,希望能通过配置,能抓取不同的小说站点的小说。
> >
> > 在 07-4-9,shhgs<shhgs.efhilt在gmail.com> 写道:
> > > 针对单个任务的,还凑合。要是非常general的,那就太牛了。HPC的集群就是这个原理。
> > >
> > > On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote:
> > > > > 现在情况是:
> > > > > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> > > > >
> > > > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。
> > > > >
> > > > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。
> > > > >
> > > > >
> > > > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪?
> > > > >
> > > > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。
> > > > > PC2上面对抓取到的进行分析等等处理。
> > > > >
> > > > > 我现在的两个具体问题是:
> > > > > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现?
> > > > >
> > > > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。
> > > >
> > > >
> > > > 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和
> > > > url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url
> > > > 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。
> > > >
> > > > --
> > > > http://codeplayer.blogspot.com/
> > > > _______________________________________________
> > > > python-chinese
> > > > Post: send python-chinese在lists.python.cn
> > > > Subscribe: send subscribe to
> > > > python-chinese-request在lists.python.cn
> > > > Unsubscribe: send unsubscribe to
> > > > python-chinese-request在lists.python.cn
> > > > Detail Info:
> > > > http://python.cn/mailman/listinfo/python-chinese
> > > >
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese在lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
> > --
> > 这是一个有钱人的世界,与我的世界截然不同!
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese


-- 
这是一个有钱人的世界,与我的世界截然不同!

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号