2007年04月09日 星期一 09:38
现在情况是: PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。 PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪? 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。 PC2上面对抓取到的进行分析等等处理。 我现在的两个具体问题是: 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现? 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。 -- 这是一个有钱人的世界,与我的世界截然不同!
2007年04月09日 星期一 09:43
ÕâÊDz»ÊÇÊôÓÚ·Ö²¼Ê½¼ÆËã»úÄØ£¿ On 4/9/07, zongzi <honghunter在gmail.com> wrote: > > ÏÖÔÚÇé¿öÊÇ£º > PC1£¬¿ÉÒÔÉÏÍâÍø£¬µ«ÊÇÒòΪÊDZðÈ˵ķþÎñÆ÷£¬ÔËÐÐÔÚÉÏÃæµÄ½Å±¾²»ÄÜÕ¼ÓÃÌ«¶àCPUºÍÄÚ´æ¡£Ó²ÅÌ¿Õ¼äÎÞËùν¡£ > PC2£¬²»ÄÜÉÏÍâÍø£¬µ«ÊÇÄÜÁ´½Óµ½PC1£¨ÄܶÁPC1µÄ¹²ÏíĿ¼£©£¬CPUÓõ½100£¥Ò²Ã»Ê¡£µ«ÊÇ×îºÃÔÚ´¦ÀíÖÐÄÜÍ£ÏÂÀ´£¬Ï´μÌÐø´¦Àí¡£ > > ÏëÒª×öµÄÊÂÇé¾ÍÊÇץȡС˵ÍøÕ¾ÉÏÁ¬ÔصÄС˵£¬¹ýÂ˳Étxt£¬Áô×ÅÂýÂý¿´¡£ > > > Çë½Ì´ó¼Ò£¬ÔÚÏÖÓеÄÄÜÓõÄÁ½¸öPC£¬ÔõÑùµÄ´¦Àí²ßÂÔ£¬×ÜÌåЧÂÊÄܱȽϸßÄÄ£¿ > > ÎÒµÄÉèÏëÊÇ£¬ÔÚPC1ÉÏÃæÅܸöץȡµÄ½Å±¾£¬Ö»×÷ץȡ¡£ > PC2ÉÏÃæ¶Ôץȡµ½µÄ½øÐзÖÎöµÈµÈ´¦Àí¡£ > > ÎÒÏÖÔÚµÄÁ½¸ö¾ßÌåÎÊÌâÊÇ£º > 1£¬Èç¹ûÏëÒªPC1ץȡºó£¬´«¸øPC2·ÖÎöÖ®ºó£¬ÔÙ´©¸øPC1¼ÌÐøץȡ¡£ÔõÑùÄܱȽϼòµ¥ÓÖÓÐЧÂʵÄʵÏÖ£¿ > 2£¬PC2ÔõôÄÜÍ£ÏÂÀ´£¬¼È²»Ó°ÏìPC1µÄ¼ÌÐøץȡ£¬ÓÐÄÜÔÚÖØÆôÆô¶¯ºó£¬ÓÖÄÜÌø¹ý´¦Àí¹ýµÄ²¿·Ö£¬¼ÌÐø´¦ÀíûÍê³ÉµÄ²¿·Ö¡£ > > -- > ÕâÊÇÒ»¸öÓÐÇ®È˵ÄÊÀ½ç£¬ÓëÎÒµÄÊÀ½ç½ØÈ»²»Í¬£¡ > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese -- ×¢ÒâÉíÌ壬ÉíÌåÊǸïÃüµÄ±¾Ç®£¡£¡ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070409/8c18381f/attachment.htm
2007年04月09日 星期一 09:47
ÕâÊÇÒ»¸öµäÐ͵ÄË«²ã½á¹¹¡£PC1¾ÍÊÇÒ»¸öÓ¦Ó÷þÎñÆ÷£¬PC2ÊÇËüµÄ¿Í»§»ú£¨PC2ͬʱҲ¿ÉÄÜÊÇÄãµÄ·þÎñÆ÷£©¡£Äã¿ÉÒÔ°ÑPC1×ö³ÉÒ»¸öservice£¬´ò¿ªÒ»¸öÃæÏòPC2µÄ¶Ë¿Ú»òÕß¹ÜÀí£¬¸ù¾ÝPC2µÄÇëÇóȥץȡºÍת·¢¡£PC2µÄÒµÎñ¹æÔòÒªÉè¼ÆºÃ£¬Ìṩ¾¡Á¿¾«È·µÄËÑË÷Ìõ¼þ£¬ÕâÑù¿ÉÒÔÓÐЧ¼õÉÙPC1µÄ²éѯÁ¿£¬±ÜÃâÕ¼ÓÃPC1Ì«¶àµÄ¼ÆËãºÍÍøÂç×ÊÔ´¡£ ÔÚ07-4-9£¬zongzi <honghunter在gmail.com> дµÀ£º > > ÏÖÔÚÇé¿öÊÇ£º > PC1£¬¿ÉÒÔÉÏÍâÍø£¬µ«ÊÇÒòΪÊDZðÈ˵ķþÎñÆ÷£¬ÔËÐÐÔÚÉÏÃæµÄ½Å±¾²»ÄÜÕ¼ÓÃÌ«¶àCPUºÍÄÚ´æ¡£Ó²ÅÌ¿Õ¼äÎÞËùν¡£ > PC2£¬²»ÄÜÉÏÍâÍø£¬µ«ÊÇÄÜÁ´½Óµ½PC1£¨ÄܶÁPC1µÄ¹²ÏíĿ¼£©£¬CPUÓõ½100£¥Ò²Ã»Ê¡£µ«ÊÇ×îºÃÔÚ´¦ÀíÖÐÄÜÍ£ÏÂÀ´£¬Ï´μÌÐø´¦Àí¡£ > > ÏëÒª×öµÄÊÂÇé¾ÍÊÇץȡС˵ÍøÕ¾ÉÏÁ¬ÔصÄС˵£¬¹ýÂ˳Étxt£¬Áô×ÅÂýÂý¿´¡£ > > > Çë½Ì´ó¼Ò£¬ÔÚÏÖÓеÄÄÜÓõÄÁ½¸öPC£¬ÔõÑùµÄ´¦Àí²ßÂÔ£¬×ÜÌåЧÂÊÄܱȽϸßÄÄ£¿ > > ÎÒµÄÉèÏëÊÇ£¬ÔÚPC1ÉÏÃæÅܸöץȡµÄ½Å±¾£¬Ö»×÷ץȡ¡£ > PC2ÉÏÃæ¶Ôץȡµ½µÄ½øÐзÖÎöµÈµÈ´¦Àí¡£ > > ÎÒÏÖÔÚµÄÁ½¸ö¾ßÌåÎÊÌâÊÇ£º > 1£¬Èç¹ûÏëÒªPC1ץȡºó£¬´«¸øPC2·ÖÎöÖ®ºó£¬ÔÙ´©¸øPC1¼ÌÐøץȡ¡£ÔõÑùÄܱȽϼòµ¥ÓÖÓÐЧÂʵÄʵÏÖ£¿ > 2£¬PC2ÔõôÄÜÍ£ÏÂÀ´£¬¼È²»Ó°ÏìPC1µÄ¼ÌÐøץȡ£¬ÓÐÄÜÔÚÖØÆôÆô¶¯ºó£¬ÓÖÄÜÌø¹ý´¦Àí¹ýµÄ²¿·Ö£¬¼ÌÐø´¦ÀíûÍê³ÉµÄ²¿·Ö¡£ > > -- > ÕâÊÇÒ»¸öÓÐÇ®È˵ÄÊÀ½ç£¬ÓëÎÒµÄÊÀ½ç½ØÈ»²»Í¬£¡ > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese -- µÇɽÕßÈ¥µÇɽ£¬ÒòΪɽÔÚÄÇÀï ÎÒÔÚ˼¿¼£¬ÒòΪÎÊÌâÔÚÄÇÀï ÁõöÎ March.Liu -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20070409/1dc3b8f7/attachment.html
2007年04月09日 星期一 10:13
在PC1上架个代理服务器,控制好带宽,然后直接PC2连过去不就行了? 在 07-4-9,zongzi<honghunter在gmail.com> 写道: > 现在情况是: > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。 > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。 > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。 > > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪? > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。 > PC2上面对抓取到的进行分析等等处理。 > > 我现在的两个具体问题是: > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现? > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。 > > -- > 这是一个有钱人的世界,与我的世界截然不同! > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese
2007年04月09日 星期一 10:29
> > 现在情况是: > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。 > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。 > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。 > > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪? > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。 > PC2上面对抓取到的进行分析等等处理。 > > 我现在的两个具体问题是: > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现? > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和 url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。 -- http://codeplayer.blogspot.com/ -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20070409/d10f9bc1/attachment.htm
2007年04月09日 星期一 11:11
首先谢谢大家的答复。 现在考虑,需要传递的主要是正则表达式、URL列表和抓到的网页。不知道什么方式实现最简单,又有适当的效率。 下面几种极限条件下的实现策略有些什么主要差别哪? 1,效率最大化的设计 2,编码最简便的设计(这个肯定需要装代理服务器吧) 3,最小编码组合常见工具的设计 (其实我不懂python,以前抓小说的时候,是用抄来的几句代码,过滤出html中的链接,然后交给wget.exe来下载,然后再用一段写的很丑陋的perl来从抓取的html中分离出text。) 另,装代理虽然能简化,但是暂不考虑,因为想考虑下分开处理的策略,用代理服务器就等于又是平常的一个机器处理问题了。 在 07-4-9,黄毅<yi.codeplayer在gmail.com> 写道: > > > 现在情况是: > > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。 > > > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。 > > > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。 > > > > > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪? > > > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。 > > PC2上面对抓取到的进行分析等等处理。 > > > > 我现在的两个具体问题是: > > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现? > > > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。 > > 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和 > url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url > 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。 > > -- > http://codeplayer.blogspot.com/ > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > Detail Info: > http://python.cn/mailman/listinfo/python-chinese > -- 这是一个有钱人的世界,与我的世界截然不同!
2007年04月09日 星期一 11:12
针对单个任务的,还凑合。要是非常general的,那就太牛了。HPC的集群就是这个原理。 On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote: > > 现在情况是: > > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。 > > > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。 > > > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。 > > > > > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪? > > > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。 > > PC2上面对抓取到的进行分析等等处理。 > > > > 我现在的两个具体问题是: > > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现? > > > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。 > > > 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和 > url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url > 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。 > > -- > http://codeplayer.blogspot.com/ > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > Detail Info: > http://python.cn/mailman/listinfo/python-chinese >
2007年04月09日 星期一 11:25
现在考虑的是单个任务的。 或者说,希望能通过配置,能抓取不同的小说站点的小说。 在 07-4-9,shhgs<shhgs.efhilt在gmail.com> 写道: > 针对单个任务的,还凑合。要是非常general的,那就太牛了。HPC的集群就是这个原理。 > > On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote: > > > 现在情况是: > > > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。 > > > > > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。 > > > > > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。 > > > > > > > > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪? > > > > > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。 > > > PC2上面对抓取到的进行分析等等处理。 > > > > > > 我现在的两个具体问题是: > > > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现? > > > > > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。 > > > > > > 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和 > > url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url > > 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。 > > > > -- > > http://codeplayer.blogspot.com/ > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to > > python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request在lists.python.cn > > Detail Info: > > http://python.cn/mailman/listinfo/python-chinese > > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese -- 这是一个有钱人的世界,与我的世界截然不同!
2007年04月09日 星期一 12:03
这个其实很简单。 一个master,专门dispatch任务。多个workhorse,到master那里领任务。workhorse发现有新任务的时候,直接交给master。master发现有idle的workhorse,且有待完成的任务时,发给workhorse。 虽说我没有做过这个东西,但是大致的思路就是这样了。有个一天,应该出来了。 On 4/8/07, zongzi <honghunter在gmail.com> wrote: > 现在考虑的是单个任务的。 > 或者说,希望能通过配置,能抓取不同的小说站点的小说。 > > 在 07-4-9,shhgs<shhgs.efhilt在gmail.com> 写道: > > 针对单个任务的,还凑合。要是非常general的,那就太牛了。HPC的集群就是这个原理。 > > > > On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote: > > > > 现在情况是: > > > > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。 > > > > > > > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。 > > > > > > > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。 > > > > > > > > > > > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪? > > > > > > > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。 > > > > PC2上面对抓取到的进行分析等等处理。 > > > > > > > > 我现在的两个具体问题是: > > > > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现? > > > > > > > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。 > > > > > > > > > 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和 > > > url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url > > > 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。 > > > > > > -- > > > http://codeplayer.blogspot.com/ > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese在lists.python.cn > > > Subscribe: send subscribe to > > > python-chinese-request在lists.python.cn > > > Unsubscribe: send unsubscribe to > > > python-chinese-request在lists.python.cn > > > Detail Info: > > > http://python.cn/mailman/listinfo/python-chinese > > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > -- > 这是一个有钱人的世界,与我的世界截然不同! > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese
2007年04月10日 星期二 13:53
看来我的基础还是太弱了,有些答复看了还是不懂。 问一个直白点的,可能很傻的问题: 我还不会弄数据库什么的,我的处理过程就是:脚本+txt+批处理+wget。 脚本作些简单的数据提取,例如从一个用wget抓到的html网页中,取出URL,然后生成批处理文件。 TXT是我现在的各种数据的存储方式。 批处理的作用就是调用wget,把URL作为参数去下载网页。 现在的问题是,我希望能处理一部分之后,断了,还能继续接着处理。 该怎么处理这些正在下载、已经下载、等待下载什么的状态哪? 或者说,怎么用文件保存一个列表中处理了一半的位置,下次能从这里开始继续处理? 在 07-4-9,shhgs<shhgs.efhilt在gmail.com> 写道: > 这个其实很简单。 > > 一个master,专门dispatch任务。多个workhorse,到master那里领任务。workhorse发现有新任务的时候,直接交给master。master发现有idle的workhorse,且有待完成的任务时,发给workhorse。 > > 虽说我没有做过这个东西,但是大致的思路就是这样了。有个一天,应该出来了。 > > On 4/8/07, zongzi <honghunter在gmail.com> wrote: > > 现在考虑的是单个任务的。 > > 或者说,希望能通过配置,能抓取不同的小说站点的小说。 > > > > 在 07-4-9,shhgs<shhgs.efhilt在gmail.com> 写道: > > > 针对单个任务的,还凑合。要是非常general的,那就太牛了。HPC的集群就是这个原理。 > > > > > > On 4/8/07, 黄毅 <yi.codeplayer在gmail.com> wrote: > > > > > 现在情况是: > > > > > PC1,可以上外网,但是因为是别人的服务器,运行在上面的脚本不能占用太多CPU和内存。硬盘空间无所谓。 > > > > > > > > > PC2,不能上外网,但是能链接到PC1(能读PC1的共享目录),CPU用到100%也没事。但是最好在处理中能停下来,下次继续处理。 > > > > > > > > > > 想要做的事情就是抓取小说网站上连载的小说,过滤成txt,留着慢慢看。 > > > > > > > > > > > > > > > 请教大家,在现有的能用的两个PC,怎样的处理策略,总体效率能比较高哪? > > > > > > > > > > 我的设想是,在PC1上面跑个抓取的脚本,只作抓取。 > > > > > PC2上面对抓取到的进行分析等等处理。 > > > > > > > > > > 我现在的两个具体问题是: > > > > > 1,如果想要PC1抓取后,传给PC2分析之后,再穿给PC1继续抓取。怎样能比较简单又有效率的实现? > > > > > > > > > 2,PC2怎么能停下来,既不影响PC1的继续抓取,有能在重启启动后,又能跳过处理过的部分,继续处理没完成的部分。 > > > > > > > > > > > > 抓取与分析两部分之间需要共享的数据主要是两个:抓到的数据 和 > > > > url列表,抓取部分读url列表将内容写入抓到的数据,分析部分读抓到的数据分析出 url列表 写入 url > > > > 列表。这些共享数据可以放到 PC1 上面,用数据库就不错。 > > > > > > > > -- > > > > http://codeplayer.blogspot.com/ > > > > _______________________________________________ > > > > python-chinese > > > > Post: send python-chinese在lists.python.cn > > > > Subscribe: send subscribe to > > > > python-chinese-request在lists.python.cn > > > > Unsubscribe: send unsubscribe to > > > > python-chinese-request在lists.python.cn > > > > Detail Info: > > > > http://python.cn/mailman/listinfo/python-chinese > > > > > > > _______________________________________________ > > > python-chinese > > > Post: send python-chinese在lists.python.cn > > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > > > > > > -- > > 这是一个有钱人的世界,与我的世界截然不同! > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > > Detail Info: http://python.cn/mailman/listinfo/python-chinese > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese -- 这是一个有钱人的世界,与我的世界截然不同!
Zeuux © 2025
京ICP备05028076号