Python论坛  - 讨论区

标题:[python-chinese] feedparser: 关于把新数据入库的问题。

2007年12月07日 星期五 15:52

Vingel Lai mail在vingel.com
星期五 十二月 7 15:52:56 HKT 2007

Ë­Óùýfeedparser? ÄÜ·ñ¸ø¸ö˼·£¬¾ÍÊÇ°ÑеÄrss¸üÎÄÕÂÈë¿â£¬²»´¦Àí¾ÉÎÄÕ£¿

¿´¹ýplannetµÄ´úÂ룬ËüºÃÏñûÓп¼ÂÇÕâ·½ÃæµÄ¶«Î÷£¬Ö±½ÓÖØÐÂÈ«²¿¸üÐÂÒ»´Î¡£

ÎÒÓиö˼·£¬¾ÍÊÇ°Ñ×¥À´µÄÊý¾Ý¸úÒÔÇ°µÄ×ö¶Ô±È£¬°ÑеÄÈë¿â¡£×ܾõµÃ£¬Ó¦¸ÃÓиüºÃµÄ·½·¨¡£

²»ÖªµÀ¸÷λÊÇ·ñÓÐÕâ·½ÃæµÄ¾­Ñé¿ÉÒÔÖ¸µãСµÜÒ»¶þ£¿
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071207/b4781fd8/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月07日 星期五 16:03

Bruce Wang number5在gmail.com
星期五 十二月 7 16:03:18 HKT 2007

On Dec 7, 2007 3:52 PM, Vingel Lai <mail在vingel.com> wrote:

> 谁用过feedparser? 能否给个思路,就是把新的rss更文章入库,不处理旧文章?
>
> 看过plannet的代码,它好像没有考虑这方面的东西,直接重新全部更新一次。
>
> 我有个思路,就是把抓来的数据跟以前的做对比,把新的入库。总觉得,应该有更好的方法。
>
> 不知道各位是否有这方面的经验可以指点小弟一二?
>
>
planet (具体而言是venus) 有作比较的,Atom的feed entry比较简单,因为每一条都要求有唯一ID
RSS的通常是url + 发布时间 作为ID

每一条都比较内容的话,数量大的时候效率很低


-- 
simple is good
http://brucewang.net
http://twitter.com/number5
skype: number5
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20071207/bbcce3ef/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月07日 星期五 16:04

jeff jie bbmyth在gmail.com
星期五 十二月 7 16:04:18 HKT 2007

ÓÃ×îºó¸üÐÂʱ¼ä£¿×îеÄItem£¿
ºÜ¾ÃÒÔÇ°µÄ×ö·¨ÊÇÖ±½ÓÄÃÊý¾Ý¸úÒÑ×¥µÄ¶ÔÕÕ¡£

On Dec 7, 2007 3:52 PM, Vingel Lai <mail在vingel.com> wrote:

> Ë­Óùýfeedparser? ÄÜ·ñ¸ø¸ö˼·£¬¾ÍÊÇ°ÑеÄrss¸üÎÄÕÂÈë¿â£¬²»´¦Àí¾ÉÎÄÕ£¿
>
> ¿´¹ýplannetµÄ´úÂ룬ËüºÃÏñûÓп¼ÂÇÕâ·½ÃæµÄ¶«Î÷£¬Ö±½ÓÖØÐÂÈ«²¿¸üÐÂÒ»´Î¡£
>
> ÎÒÓиö˼·£¬¾ÍÊÇ°Ñ×¥À´µÄÊý¾Ý¸úÒÔÇ°µÄ×ö¶Ô±È£¬°ÑеÄÈë¿â¡£×ܾõµÃ£¬Ó¦¸ÃÓиüºÃµÄ·½·¨¡£
>
> ²»ÖªµÀ¸÷λÊÇ·ñÓÐÕâ·½ÃæµÄ¾­Ñé¿ÉÒÔÖ¸µãСµÜÒ»¶þ£¿
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
site:http://www.fallever.com
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071207/a63540ca/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月07日 星期五 16:08

Leo Jay python.leojay在gmail.com
星期五 十二月 7 16:08:02 HKT 2007

On Dec 7, 2007 3:52 PM, Vingel Lai <mail在vingel.com> wrote:
> 谁用过feedparser? 能否给个思路,就是把新的rss更文章入库,不处理旧文章?
>
>  看过plannet的代码,它好像没有考虑这方面的东西,直接重新全部更新一次。
>
> 我有个思路,就是把抓来的数据跟以前的做对比,把新的入库。总觉得,应该有更好的方法。
>
> 不知道各位是否有这方面的经验可以指点小弟一二?
>

没用过feedparser,不过,关于防止数据重复,你可以把数据的md5或sha的结果保存起来,比较的时候只比较md5或sha的值就可以了。

-- 
Best Regards,
Leo Jay

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月07日 星期五 16:28

cunheise cunheise在hotmail.com
星期五 十二月 7 16:28:49 HKT 2007

ÏÈcheck http-header last-modify time,È»ºóÊÇfeedÀïµÄlast-modify time°É£¬
±È½Ïlength£¬md5, sha
 
> Date: Fri, 7 Dec 2007 16:08:02 +0800> From: python.leojay在gmail.com> To: python-chinese在lists.python.cn> Subject: Re: [python-chinese] feedparser: ¹ØÓÚ°ÑÐÂÊý¾ÝÈë¿âµÄÎÊÌâ¡£> > On Dec 7, 2007 3:52 PM, Vingel Lai <mail在vingel.com> wrote:> > Ë­Óùýfeedparser? ÄÜ·ñ¸ø¸ö˼·£¬¾ÍÊÇ°ÑеÄrss¸üÎÄÕÂÈë¿â£¬²»´¦Àí¾ÉÎÄÕ£¿> >> > ¿´¹ýplannetµÄ´úÂ룬ËüºÃÏñûÓп¼ÂÇÕâ·½ÃæµÄ¶«Î÷£¬Ö±½ÓÖØÐÂÈ«²¿¸üÐÂÒ»´Î¡£> >> > ÎÒÓиö˼·£¬¾ÍÊÇ°Ñ×¥À´µÄÊý¾Ý¸úÒÔÇ°µÄ×ö¶Ô±È£¬°ÑеÄÈë¿â¡£×ܾõµÃ£¬Ó¦¸ÃÓиüºÃµÄ·½·¨¡£> >> > ²»ÖªµÀ¸÷λÊÇ·ñÓÐÕâ·½ÃæµÄ¾­Ñé¿ÉÒÔÖ¸µãСµÜÒ»¶þ£¿> >> > ûÓùýfeedparser£¬²»¹ý£¬¹ØÓÚ·ÀÖ¹Êý¾ÝÖظ´£¬Äã¿ÉÒÔ°ÑÊý¾ÝµÄmd5»òshaµÄ½á¹û±£´æÆðÀ´£¬±È½ÏµÄʱºòÖ»±È½Ïmd5»òshaµÄÖµ¾Í¿ÉÒÔÁË¡£> > -- > Best Regards,> Leo Jay> _______________________________________________> python-chinese> Post: send python-chinese在lists.python.cn> Subscribe: send subscribe to python-chinese-request在lists.python.cn> Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn> Detail Info: http://python.cn/mailman/listinfo/python-chinese
_________________________________________________________________
ÊÖ»úÒ²ÄÜÉÏ MSN ÁÄÌìÁË£¬¿ìÀ´ÊÔÊÔ°É£¡
http://mobile.msn.com.cn/
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071207/b4f7e317/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年12月07日 星期五 16:39

Vingel Lai mail在vingel.com
星期五 十二月 7 16:39:07 HKT 2007

feedparserÒѾ­Ö§³Ö etag ºÍ modified µÄÐÅÏ¢£¬¿ÉÒÔ¼ì²éfeedÊÇ·ñÓиüйý£¨¼û
http://feedparser.org/docs/http-etag.html £©

¶÷£¬¶àл¥Éϸ÷λµÄ°ì·¨£¬¿´À´»¹ÊÇÒªÓëÔ­À´µÄÊý¾Ý×öУÑé :(
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071207/0a86e298/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号