2007年12月07日 星期五 15:52
ËÓùýfeedparser? ÄÜ·ñ¸ø¸ö˼·£¬¾ÍÊÇ°ÑеÄrss¸üÎÄÕÂÈë¿â£¬²»´¦Àí¾ÉÎÄÕ£¿ ¿´¹ýplannetµÄ´úÂ룬ËüºÃÏñûÓп¼ÂÇÕâ·½ÃæµÄ¶«Î÷£¬Ö±½ÓÖØÐÂÈ«²¿¸üÐÂÒ»´Î¡£ ÎÒÓиö˼·£¬¾ÍÊÇ°Ñ×¥À´µÄÊý¾Ý¸úÒÔÇ°µÄ×ö¶Ô±È£¬°ÑеÄÈë¿â¡£×ܾõµÃ£¬Ó¦¸ÃÓиüºÃµÄ·½·¨¡£ ²»ÖªµÀ¸÷λÊÇ·ñÓÐÕâ·½ÃæµÄ¾Ñé¿ÉÒÔÖ¸µãСµÜÒ»¶þ£¿ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071207/b4781fd8/attachment.html
2007年12月07日 星期五 16:03
On Dec 7, 2007 3:52 PM, Vingel Lai <mail在vingel.com> wrote: > 谁用过feedparser? 能否给个思路,就是把新的rss更文章入库,不处理旧文章? > > 看过plannet的代码,它好像没有考虑这方面的东西,直接重新全部更新一次。 > > 我有个思路,就是把抓来的数据跟以前的做对比,把新的入库。总觉得,应该有更好的方法。 > > 不知道各位是否有这方面的经验可以指点小弟一二? > > planet (具体而言是venus) 有作比较的,Atom的feed entry比较简单,因为每一条都要求有唯一ID RSS的通常是url + 发布时间 作为ID 每一条都比较内容的话,数量大的时候效率很低 -- simple is good http://brucewang.net http://twitter.com/number5 skype: number5 -------------- 下一部分 -------------- 一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20071207/bbcce3ef/attachment.html
2007年12月07日 星期五 16:04
ÓÃ×îºó¸üÐÂʱ¼ä£¿×îеÄItem£¿ ºÜ¾ÃÒÔÇ°µÄ×ö·¨ÊÇÖ±½ÓÄÃÊý¾Ý¸úÒÑ×¥µÄ¶ÔÕÕ¡£ On Dec 7, 2007 3:52 PM, Vingel Lai <mail在vingel.com> wrote: > ËÓùýfeedparser? ÄÜ·ñ¸ø¸ö˼·£¬¾ÍÊÇ°ÑеÄrss¸üÎÄÕÂÈë¿â£¬²»´¦Àí¾ÉÎÄÕ£¿ > > ¿´¹ýplannetµÄ´úÂ룬ËüºÃÏñûÓп¼ÂÇÕâ·½ÃæµÄ¶«Î÷£¬Ö±½ÓÖØÐÂÈ«²¿¸üÐÂÒ»´Î¡£ > > ÎÒÓиö˼·£¬¾ÍÊÇ°Ñ×¥À´µÄÊý¾Ý¸úÒÔÇ°µÄ×ö¶Ô±È£¬°ÑеÄÈë¿â¡£×ܾõµÃ£¬Ó¦¸ÃÓиüºÃµÄ·½·¨¡£ > > ²»ÖªµÀ¸÷λÊÇ·ñÓÐÕâ·½ÃæµÄ¾Ñé¿ÉÒÔÖ¸µãСµÜÒ»¶þ£¿ > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -- site:http://www.fallever.com -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071207/a63540ca/attachment.htm
2007年12月07日 星期五 16:08
On Dec 7, 2007 3:52 PM, Vingel Lai <mail在vingel.com> wrote: > 谁用过feedparser? 能否给个思路,就是把新的rss更文章入库,不处理旧文章? > > 看过plannet的代码,它好像没有考虑这方面的东西,直接重新全部更新一次。 > > 我有个思路,就是把抓来的数据跟以前的做对比,把新的入库。总觉得,应该有更好的方法。 > > 不知道各位是否有这方面的经验可以指点小弟一二? > 没用过feedparser,不过,关于防止数据重复,你可以把数据的md5或sha的结果保存起来,比较的时候只比较md5或sha的值就可以了。 -- Best Regards, Leo Jay
2007年12月07日 星期五 16:28
ÏÈcheck http-header last-modify time,È»ºóÊÇfeedÀïµÄlast-modify time°É£¬ ±È½Ïlength£¬md5, sha > Date: Fri, 7 Dec 2007 16:08:02 +0800> From: python.leojay在gmail.com> To: python-chinese在lists.python.cn> Subject: Re: [python-chinese] feedparser: ¹ØÓÚ°ÑÐÂÊý¾ÝÈë¿âµÄÎÊÌâ¡£> > On Dec 7, 2007 3:52 PM, Vingel Lai <mail在vingel.com> wrote:> > ËÓùýfeedparser? ÄÜ·ñ¸ø¸ö˼·£¬¾ÍÊÇ°ÑеÄrss¸üÎÄÕÂÈë¿â£¬²»´¦Àí¾ÉÎÄÕ£¿> >> > ¿´¹ýplannetµÄ´úÂ룬ËüºÃÏñûÓп¼ÂÇÕâ·½ÃæµÄ¶«Î÷£¬Ö±½ÓÖØÐÂÈ«²¿¸üÐÂÒ»´Î¡£> >> > ÎÒÓиö˼·£¬¾ÍÊÇ°Ñ×¥À´µÄÊý¾Ý¸úÒÔÇ°µÄ×ö¶Ô±È£¬°ÑеÄÈë¿â¡£×ܾõµÃ£¬Ó¦¸ÃÓиüºÃµÄ·½·¨¡£> >> > ²»ÖªµÀ¸÷λÊÇ·ñÓÐÕâ·½ÃæµÄ¾Ñé¿ÉÒÔÖ¸µãСµÜÒ»¶þ£¿> >> > ûÓùýfeedparser£¬²»¹ý£¬¹ØÓÚ·ÀÖ¹Êý¾ÝÖظ´£¬Äã¿ÉÒÔ°ÑÊý¾ÝµÄmd5»òshaµÄ½á¹û±£´æÆðÀ´£¬±È½ÏµÄʱºòÖ»±È½Ïmd5»òshaµÄÖµ¾Í¿ÉÒÔÁË¡£> > -- > Best Regards,> Leo Jay> _______________________________________________> python-chinese> Post: send python-chinese在lists.python.cn> Subscribe: send subscribe to python-chinese-request在lists.python.cn> Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn> Detail Info: http://python.cn/mailman/listinfo/python-chinese _________________________________________________________________ ÊÖ»úÒ²ÄÜÉÏ MSN ÁÄÌìÁË£¬¿ìÀ´ÊÔÊÔ°É£¡ http://mobile.msn.com.cn/ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071207/b4f7e317/attachment.htm
2007年12月07日 星期五 16:39
feedparserÒѾ֧³Ö etag ºÍ modified µÄÐÅÏ¢£¬¿ÉÒÔ¼ì²éfeedÊÇ·ñÓиüйý£¨¼û http://feedparser.org/docs/http-etag.html £© ¶÷£¬¶àл¥Éϸ÷λµÄ°ì·¨£¬¿´À´»¹ÊÇÒªÓëÔÀ´µÄÊý¾Ý×öУÑé :( -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071207/0a86e298/attachment.html
Zeuux © 2024
京ICP备05028076号