Python论坛的帖子： - 哲思

Python论坛 - 讨论区

返回群组主页

标题：[python-chinese] 请教一个关于将任务分到两个PC分别执行的时候，如何提高效率的策略问题

分享

徐继哲

楼主 2007年04月09日星期一 09:38

zongzi honghunter在gmail.com
星期一四月 9 09:38:05 HKT 2007

现在情况是：
PC1，可以上外网，但是因为是别人的服务器，运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
PC2，不能上外网，但是能链接到PC1（能读PC1的共享目录），CPU用到100％也没事。但是最好在处理中能停下来，下次继续处理。

想要做的事情就是抓取小说网站上连载的小说，过滤成txt，留着慢慢看。


请教大家，在现有的能用的两个PC，怎样的处理策略，总体效率能比较高哪？

我的设想是，在PC1上面跑个抓取的脚本，只作抓取。
PC2上面对抓取到的进行分析等等处理。

我现在的两个具体问题是：
1，如果想要PC1抓取后，传给PC2分析之后，再穿给PC1继续抓取。怎样能比较简单又有效率的实现？
2，PC2怎么能停下来，既不影响PC1的继续抓取，有能在重启启动后，又能跳过处理过的部分，继续处理没完成的部分。

-- 
这是一个有钱人的世界，与我的世界截然不同！

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

梁庆喜

0楼 2007年04月09日星期一 09:43

jessinio smith jessinio在gmail.com
星期一四月 9 09:43:56 HKT 2007

ÕâÊÇ²»ÊÇÊôÓÚ·Ö²¼Ê½¼ÆËã»úÄØ£¿

On 4/9/07, zongzi <honghunter在gmail.com> wrote:
>
> ÏÖÔÚÇé¿öÊÇ£º
> PC1£¬¿ÉÒÔÉÏÍâÍø£¬µ«ÊÇÒòÎªÊÇ±ðÈËµÄ·þÎñÆ÷£¬ÔËÐÐÔÚÉÏÃæµÄ½Å±¾²»ÄÜÕ¼ÓÃÌ«¶àCPUºÍÄÚ´æ¡£Ó²ÅÌ¿Õ¼äÎÞËùÎ½¡£
> PC2£¬²»ÄÜÉÏÍâÍø£¬µ«ÊÇÄÜÁ´½Óµ½PC1£¨ÄÜ¶ÁPC1µÄ¹²ÏíÄ¿Â¼£©£¬CPUÓÃµ½100£¥Ò²Ã»ÊÂ¡£µ«ÊÇ×îºÃÔÚ´¦ÀíÖÐÄÜÍ£ÏÂÀ´£¬ÏÂ´Î¼ÌÐø´¦Àí¡£
>
> ÏëÒª×öµÄÊÂÇé¾ÍÊÇ×¥È¡Ð¡ËµÍøÕ¾ÉÏÁ¬ÔØµÄÐ¡Ëµ£¬¹ýÂË³Étxt£¬Áô×ÅÂýÂý¿´¡£
>
>
> Çë½Ì´ó¼Ò£¬ÔÚÏÖÓÐµÄÄÜÓÃµÄÁ½¸öPC£¬ÔõÑùµÄ´¦Àí²ßÂÔ£¬×ÜÌåÐ§ÂÊÄÜ±È½Ï¸ßÄÄ£¿
>
> ÎÒµÄÉèÏëÊÇ£¬ÔÚPC1ÉÏÃæÅÜ¸ö×¥È¡µÄ½Å±¾£¬Ö»×÷×¥È¡¡£
> PC2ÉÏÃæ¶Ô×¥È¡µ½µÄ½øÐÐ·ÖÎöµÈµÈ´¦Àí¡£
>
> ÎÒÏÖÔÚµÄÁ½¸ö¾ßÌåÎÊÌâÊÇ£º
> 1£¬Èç¹ûÏëÒªPC1×¥È¡ºó£¬´«¸øPC2·ÖÎöÖ®ºó£¬ÔÙ´©¸øPC1¼ÌÐø×¥È¡¡£ÔõÑùÄÜ±È½Ï¼òµ¥ÓÖÓÐÐ§ÂÊµÄÊµÏÖ£¿
> 2£¬PC2ÔõÃ´ÄÜÍ£ÏÂÀ´£¬¼È²»Ó°ÏìPC1µÄ¼ÌÐø×¥È¡£¬ÓÐÄÜÔÚÖØÆôÆô¶¯ºó£¬ÓÖÄÜÌø¹ý´¦Àí¹ýµÄ²¿·Ö£¬¼ÌÐø´¦ÀíÃ»Íê³ÉµÄ²¿·Ö¡£
>
> --
> ÕâÊÇÒ»¸öÓÐÇ®ÈËµÄÊÀ½ç£¬ÓëÎÒµÄÊÀ½ç½ØÈ»²»Í¬£¡
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese




-- 
×¢ÒâÉíÌå£¬ÉíÌåÊÇ¸ïÃüµÄ±¾Ç®£¡£¡
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒÆ³ý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070409/8c18381f/attachment.htm

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

0楼 2007年04月09日星期一 09:47

刘鑫 march.liu在gmail.com
星期一四月 9 09:47:21 HKT 2007

ÕâÊÇÒ»¸öµäÐÍµÄË«²ã½á¹¹¡£PC1¾ÍÊÇÒ»¸öÓ¦ÓÃ·þÎñÆ÷£¬PC2ÊÇËüµÄ¿Í»§»ú£¨PC2Í¬Ê±Ò²¿ÉÄÜÊÇÄãµÄ·þÎñÆ÷£©¡£Äã¿ÉÒÔ°ÑPC1×ö³ÉÒ»¸öservice£¬´ò¿ªÒ»¸öÃæÏòPC2µÄ¶Ë¿Ú»òÕß¹ÜÀí£¬¸ù¾ÝPC2µÄÇëÇóÈ¥×¥È¡ºÍ×ª·¢¡£PC2µÄÒµÎñ¹æÔòÒªÉè¼ÆºÃ£¬Ìá¹©¾¡Á¿¾«È·µÄËÑË÷Ìõ¼þ£¬ÕâÑù¿ÉÒÔÓÐÐ§¼õÉÙPC1µÄ²éÑ¯Á¿£¬±ÜÃâÕ¼ÓÃPC1Ì«¶àµÄ¼ÆËãºÍÍøÂç×ÊÔ´¡£

ÔÚ07-4-9£¬zongzi <honghunter在gmail.com> Ð´µÀ£º
>
> ÏÖÔÚÇé¿öÊÇ£º
> PC1£¬¿ÉÒÔÉÏÍâÍø£¬µ«ÊÇÒòÎªÊÇ±ðÈËµÄ·þÎñÆ÷£¬ÔËÐÐÔÚÉÏÃæµÄ½Å±¾²»ÄÜÕ¼ÓÃÌ«¶àCPUºÍÄÚ´æ¡£Ó²ÅÌ¿Õ¼äÎÞËùÎ½¡£
> PC2£¬²»ÄÜÉÏÍâÍø£¬µ«ÊÇÄÜÁ´½Óµ½PC1£¨ÄÜ¶ÁPC1µÄ¹²ÏíÄ¿Â¼£©£¬CPUÓÃµ½100£¥Ò²Ã»ÊÂ¡£µ«ÊÇ×îºÃÔÚ´¦ÀíÖÐÄÜÍ£ÏÂÀ´£¬ÏÂ´Î¼ÌÐø´¦Àí¡£
>
> ÏëÒª×öµÄÊÂÇé¾ÍÊÇ×¥È¡Ð¡ËµÍøÕ¾ÉÏÁ¬ÔØµÄÐ¡Ëµ£¬¹ýÂË³Étxt£¬Áô×ÅÂýÂý¿´¡£
>
>
> Çë½Ì´ó¼Ò£¬ÔÚÏÖÓÐµÄÄÜÓÃµÄÁ½¸öPC£¬ÔõÑùµÄ´¦Àí²ßÂÔ£¬×ÜÌåÐ§ÂÊÄÜ±È½Ï¸ßÄÄ£¿
>
> ÎÒµÄÉèÏëÊÇ£¬ÔÚPC1ÉÏÃæÅÜ¸ö×¥È¡µÄ½Å±¾£¬Ö»×÷×¥È¡¡£
> PC2ÉÏÃæ¶Ô×¥È¡µ½µÄ½øÐÐ·ÖÎöµÈµÈ´¦Àí¡£
>
> ÎÒÏÖÔÚµÄÁ½¸ö¾ßÌåÎÊÌâÊÇ£º
> 1£¬Èç¹ûÏëÒªPC1×¥È¡ºó£¬´«¸øPC2·ÖÎöÖ®ºó£¬ÔÙ´©¸øPC1¼ÌÐø×¥È¡¡£ÔõÑùÄÜ±È½Ï¼òµ¥ÓÖÓÐÐ§ÂÊµÄÊµÏÖ£¿
> 2£¬PC2ÔõÃ´ÄÜÍ£ÏÂÀ´£¬¼È²»Ó°ÏìPC1µÄ¼ÌÐø×¥È¡£¬ÓÐÄÜÔÚÖØÆôÆô¶¯ºó£¬ÓÖÄÜÌø¹ý´¦Àí¹ýµÄ²¿·Ö£¬¼ÌÐø´¦ÀíÃ»Íê³ÉµÄ²¿·Ö¡£
>
> --
> ÕâÊÇÒ»¸öÓÐÇ®ÈËµÄÊÀ½ç£¬ÓëÎÒµÄÊÀ½ç½ØÈ»²»Í¬£¡
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese




-- 
µÇÉ½ÕßÈ¥µÇÉ½£¬ÒòÎªÉ½ÔÚÄÇÀï
ÎÒÔÚË¼¿¼£¬ÒòÎªÎÊÌâÔÚÄÇÀï

ÁõöÎ
March.Liu
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒÆ³ý...
URL: http://python.cn/pipermail/python-chinese/attachments/20070409/1dc3b8f7/attachment.html

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

0楼 2007年04月09日星期一 10:13

马踏飞燕 honeyday.mj在gmail.com
星期一四月 9 10:13:59 HKT 2007

在PC1上架个代理服务器，控制好带宽，然后直接PC2连过去不就行了？

在 07-4-9，zongzi<honghunter在gmail.com> 写道：
> 现在情况是：
> PC1，可以上外网，但是因为是别人的服务器，运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> PC2，不能上外网，但是能链接到PC1（能读PC1的共享目录），CPU用到100％也没事。但是最好在处理中能停下来，下次继续处理。
>
> 想要做的事情就是抓取小说网站上连载的小说，过滤成txt，留着慢慢看。
>
>
> 请教大家，在现有的能用的两个PC，怎样的处理策略，总体效率能比较高哪？
>
> 我的设想是，在PC1上面跑个抓取的脚本，只作抓取。
> PC2上面对抓取到的进行分析等等处理。
>
> 我现在的两个具体问题是：
> 1，如果想要PC1抓取后，传给PC2分析之后，再穿给PC1继续抓取。怎样能比较简单又有效率的实现？
> 2，PC2怎么能停下来，既不影响PC1的继续抓取，有能在重启启动后，又能跳过处理过的部分，继续处理没完成的部分。
>
> --
> 这是一个有钱人的世界，与我的世界截然不同！
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

0楼 2007年04月09日星期一 10:29

黄毅 yi.codeplayer在gmail.com
星期一四月 9 10:29:19 HKT 2007

>
> 现在情况是：
> PC1，可以上外网，但是因为是别人的服务器，运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> PC2，不能上外网，但是能链接到PC1（能读PC1的共享目录），CPU用到100％也没事。但是最好在处理中能停下来，下次继续处理。
>
> 想要做的事情就是抓取小说网站上连载的小说，过滤成txt，留着慢慢看。
>
>
> 请教大家，在现有的能用的两个PC，怎样的处理策略，总体效率能比较高哪？
>
> 我的设想是，在PC1上面跑个抓取的脚本，只作抓取。
> PC2上面对抓取到的进行分析等等处理。
>
> 我现在的两个具体问题是：
> 1，如果想要PC1抓取后，传给PC2分析之后，再穿给PC1继续抓取。怎样能比较简单又有效率的实现？
> 2，PC2怎么能停下来，既不影响PC1的继续抓取，有能在重启启动后，又能跳过处理过的部分，继续处理没完成的部分。


抓取与分析两部分之间需要共享的数据主要是两个：抓到的数据 和 url列表，抓取部分读url列表将内容写入抓到的数据，分析部分读抓到的数据分析出
url列表 写入 url 列表。这些共享数据可以放到 PC1 上面，用数据库就不错。

-- 
http://codeplayer.blogspot.com/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20070409/d10f9bc1/attachment.htm

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2007年04月09日星期一 11:11

zongzi honghunter在gmail.com
星期一四月 9 11:11:35 HKT 2007

首先谢谢大家的答复。

现在考虑，需要传递的主要是正则表达式、URL列表和抓到的网页。不知道什么方式实现最简单，又有适当的效率。

下面几种极限条件下的实现策略有些什么主要差别哪？
1，效率最大化的设计
2，编码最简便的设计（这个肯定需要装代理服务器吧）
3，最小编码组合常见工具的设计
（其实我不懂python，以前抓小说的时候，是用抄来的几句代码，过滤出html中的链接，然后交给wget.exe来下载，然后再用一段写的很丑陋的perl来从抓取的html中分离出text。）

另，装代理虽然能简化，但是暂不考虑，因为想考虑下分开处理的策略，用代理服务器就等于又是平常的一个机器处理问题了。



在 07-4-9，黄毅<yi.codeplayer在gmail.com> 写道：
>
> > 现在情况是：
> > PC1，可以上外网，但是因为是别人的服务器，运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> >
> PC2，不能上外网，但是能链接到PC1（能读PC1的共享目录），CPU用到100％也没事。但是最好在处理中能停下来，下次继续处理。
> >
> > 想要做的事情就是抓取小说网站上连载的小说，过滤成txt，留着慢慢看。
> >
> >
> > 请教大家，在现有的能用的两个PC，怎样的处理策略，总体效率能比较高哪？
> >
> > 我的设想是，在PC1上面跑个抓取的脚本，只作抓取。
> > PC2上面对抓取到的进行分析等等处理。
> >
> > 我现在的两个具体问题是：
> > 1，如果想要PC1抓取后，传给PC2分析之后，再穿给PC1继续抓取。怎样能比较简单又有效率的实现？
> >
> 2，PC2怎么能停下来，既不影响PC1的继续抓取，有能在重启启动后，又能跳过处理过的部分，继续处理没完成的部分。
>
> 抓取与分析两部分之间需要共享的数据主要是两个：抓到的数据 和
> url列表，抓取部分读url列表将内容写入抓到的数据，分析部分读抓到的数据分析出 url列表 写入 url
> 列表。这些共享数据可以放到 PC1 上面，用数据库就不错。
>
> --
> http://codeplayer.blogspot.com/
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>


-- 
这是一个有钱人的世界，与我的世界截然不同！

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2007年04月09日星期一 11:12

shhgs shhgs.efhilt在gmail.com
星期一四月 9 11:12:57 HKT 2007

针对单个任务的，还凑合。要是非常general的，那就太牛了。HPC的集群就是这个原理。

On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote:
> > 现在情况是：
> > PC1，可以上外网，但是因为是别人的服务器，运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> >
> PC2，不能上外网，但是能链接到PC1（能读PC1的共享目录），CPU用到100％也没事。但是最好在处理中能停下来，下次继续处理。
> >
> > 想要做的事情就是抓取小说网站上连载的小说，过滤成txt，留着慢慢看。
> >
> >
> > 请教大家，在现有的能用的两个PC，怎样的处理策略，总体效率能比较高哪？
> >
> > 我的设想是，在PC1上面跑个抓取的脚本，只作抓取。
> > PC2上面对抓取到的进行分析等等处理。
> >
> > 我现在的两个具体问题是：
> > 1，如果想要PC1抓取后，传给PC2分析之后，再穿给PC1继续抓取。怎样能比较简单又有效率的实现？
> >
> 2，PC2怎么能停下来，既不影响PC1的继续抓取，有能在重启启动后，又能跳过处理过的部分，继续处理没完成的部分。
>
>
> 抓取与分析两部分之间需要共享的数据主要是两个：抓到的数据 和
> url列表，抓取部分读url列表将内容写入抓到的数据，分析部分读抓到的数据分析出 url列表 写入 url
> 列表。这些共享数据可以放到 PC1 上面，用数据库就不错。
>
> --
> http://codeplayer.blogspot.com/
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2007年04月09日星期一 11:25

zongzi honghunter在gmail.com
星期一四月 9 11:25:26 HKT 2007

现在考虑的是单个任务的。
或者说，希望能通过配置，能抓取不同的小说站点的小说。

在 07-4-9，shhgs<shhgs.efhilt在gmail.com> 写道：
> 针对单个任务的，还凑合。要是非常general的，那就太牛了。HPC的集群就是这个原理。
>
> On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote:
> > > 现在情况是：
> > > PC1，可以上外网，但是因为是别人的服务器，运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> > >
> > PC2，不能上外网，但是能链接到PC1（能读PC1的共享目录），CPU用到100％也没事。但是最好在处理中能停下来，下次继续处理。
> > >
> > > 想要做的事情就是抓取小说网站上连载的小说，过滤成txt，留着慢慢看。
> > >
> > >
> > > 请教大家，在现有的能用的两个PC，怎样的处理策略，总体效率能比较高哪？
> > >
> > > 我的设想是，在PC1上面跑个抓取的脚本，只作抓取。
> > > PC2上面对抓取到的进行分析等等处理。
> > >
> > > 我现在的两个具体问题是：
> > > 1，如果想要PC1抓取后，传给PC2分析之后，再穿给PC1继续抓取。怎样能比较简单又有效率的实现？
> > >
> > 2，PC2怎么能停下来，既不影响PC1的继续抓取，有能在重启启动后，又能跳过处理过的部分，继续处理没完成的部分。
> >
> >
> > 抓取与分析两部分之间需要共享的数据主要是两个：抓到的数据 和
> > url列表，抓取部分读url列表将内容写入抓到的数据，分析部分读抓到的数据分析出 url列表 写入 url
> > 列表。这些共享数据可以放到 PC1 上面，用数据库就不错。
> >
> > --
> > http://codeplayer.blogspot.com/
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to
> > python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request在lists.python.cn
> > Detail Info:
> > http://python.cn/mailman/listinfo/python-chinese
> >
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese


-- 
这是一个有钱人的世界，与我的世界截然不同！

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2007年04月09日星期一 12:03

shhgs shhgs.efhilt在gmail.com
星期一四月 9 12:03:30 HKT 2007

这个其实很简单。

一个master，专门dispatch任务。多个workhorse，到master那里领任务。workhorse发现有新任务的时候，直接交给master。master发现有idle的workhorse，且有待完成的任务时，发给workhorse。

虽说我没有做过这个东西，但是大致的思路就是这样了。有个一天，应该出来了。

On 4/8/07, zongzi <honghunter在gmail.com> wrote:
> 现在考虑的是单个任务的。
> 或者说，希望能通过配置，能抓取不同的小说站点的小说。
>
> 在 07-4-9，shhgs<shhgs.efhilt在gmail.com> 写道：
> > 针对单个任务的，还凑合。要是非常general的，那就太牛了。HPC的集群就是这个原理。
> >
> > On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote:
> > > > 现在情况是：
> > > > PC1，可以上外网，但是因为是别人的服务器，运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> > > >
> > > PC2，不能上外网，但是能链接到PC1（能读PC1的共享目录），CPU用到100％也没事。但是最好在处理中能停下来，下次继续处理。
> > > >
> > > > 想要做的事情就是抓取小说网站上连载的小说，过滤成txt，留着慢慢看。
> > > >
> > > >
> > > > 请教大家，在现有的能用的两个PC，怎样的处理策略，总体效率能比较高哪？
> > > >
> > > > 我的设想是，在PC1上面跑个抓取的脚本，只作抓取。
> > > > PC2上面对抓取到的进行分析等等处理。
> > > >
> > > > 我现在的两个具体问题是：
> > > > 1，如果想要PC1抓取后，传给PC2分析之后，再穿给PC1继续抓取。怎样能比较简单又有效率的实现？
> > > >
> > > 2，PC2怎么能停下来，既不影响PC1的继续抓取，有能在重启启动后，又能跳过处理过的部分，继续处理没完成的部分。
> > >
> > >
> > > 抓取与分析两部分之间需要共享的数据主要是两个：抓到的数据 和
> > > url列表，抓取部分读url列表将内容写入抓到的数据，分析部分读抓到的数据分析出 url列表 写入 url
> > > 列表。这些共享数据可以放到 PC1 上面，用数据库就不错。
> > >
> > > --
> > > http://codeplayer.blogspot.com/
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese在lists.python.cn
> > > Subscribe: send subscribe to
> > > python-chinese-request在lists.python.cn
> > > Unsubscribe: send unsubscribe to
> > > python-chinese-request在lists.python.cn
> > > Detail Info:
> > > http://python.cn/mailman/listinfo/python-chinese
> > >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
>
> --
> 这是一个有钱人的世界，与我的世界截然不同！
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

徐继哲

0楼 2007年04月10日星期二 13:53

zongzi honghunter在gmail.com
星期二四月 10 13:53:31 HKT 2007

看来我的基础还是太弱了，有些答复看了还是不懂。

问一个直白点的，可能很傻的问题：
我还不会弄数据库什么的，我的处理过程就是：脚本+txt+批处理+wget。
脚本作些简单的数据提取，例如从一个用wget抓到的html网页中，取出URL，然后生成批处理文件。
TXT是我现在的各种数据的存储方式。
批处理的作用就是调用wget，把URL作为参数去下载网页。

现在的问题是，我希望能处理一部分之后，断了，还能继续接着处理。
该怎么处理这些正在下载、已经下载、等待下载什么的状态哪？
或者说，怎么用文件保存一个列表中处理了一半的位置，下次能从这里开始继续处理？


在 07-4-9，shhgs<shhgs.efhilt在gmail.com> 写道：
> 这个其实很简单。
>
> 一个master，专门dispatch任务。多个workhorse，到master那里领任务。workhorse发现有新任务的时候，直接交给master。master发现有idle的workhorse，且有待完成的任务时，发给workhorse。
>
> 虽说我没有做过这个东西，但是大致的思路就是这样了。有个一天，应该出来了。
>
> On 4/8/07, zongzi <honghunter在gmail.com> wrote:
> > 现在考虑的是单个任务的。
> > 或者说，希望能通过配置，能抓取不同的小说站点的小说。
> >
> > 在 07-4-9，shhgs<shhgs.efhilt在gmail.com> 写道：
> > > 针对单个任务的，还凑合。要是非常general的，那就太牛了。HPC的集群就是这个原理。
> > >
> > > On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote:
> > > > > 现在情况是：
> > > > > PC1，可以上外网，但是因为是别人的服务器，运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。
> > > > >
> > > > PC2，不能上外网，但是能链接到PC1（能读PC1的共享目录），CPU用到100％也没事。但是最好在处理中能停下来，下次继续处理。
> > > > >
> > > > > 想要做的事情就是抓取小说网站上连载的小说，过滤成txt，留着慢慢看。
> > > > >
> > > > >
> > > > > 请教大家，在现有的能用的两个PC，怎样的处理策略，总体效率能比较高哪？
> > > > >
> > > > > 我的设想是，在PC1上面跑个抓取的脚本，只作抓取。
> > > > > PC2上面对抓取到的进行分析等等处理。
> > > > >
> > > > > 我现在的两个具体问题是：
> > > > > 1，如果想要PC1抓取后，传给PC2分析之后，再穿给PC1继续抓取。怎样能比较简单又有效率的实现？
> > > > >
> > > > 2，PC2怎么能停下来，既不影响PC1的继续抓取，有能在重启启动后，又能跳过处理过的部分，继续处理没完成的部分。
> > > >
> > > >
> > > > 抓取与分析两部分之间需要共享的数据主要是两个：抓到的数据 和
> > > > url列表，抓取部分读url列表将内容写入抓到的数据，分析部分读抓到的数据分析出 url列表 写入 url
> > > > 列表。这些共享数据可以放到 PC1 上面，用数据库就不错。
> > > >
> > > > --
> > > > http://codeplayer.blogspot.com/
> > > > _______________________________________________
> > > > python-chinese
> > > > Post: send python-chinese在lists.python.cn
> > > > Subscribe: send subscribe to
> > > > python-chinese-request在lists.python.cn
> > > > Unsubscribe: send unsubscribe to
> > > > python-chinese-request在lists.python.cn
> > > > Detail Info:
> > > > http://python.cn/mailman/listinfo/python-chinese
> > > >
> > > _______________________________________________
> > > python-chinese
> > > Post: send python-chinese在lists.python.cn
> > > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> >
> >
> > --
> > 这是一个有钱人的世界，与我的世界截然不同！
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> > Detail Info: http://python.cn/mailman/listinfo/python-chinese
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese


-- 
这是一个有钱人的世界，与我的世界截然不同！

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-python]

请登录后回复。还没有在Zeuux哲思注册吗？现在注册！

Zeuux © 2025

京ICP备05028076号