2007年10月30日 星期二 21:19
ÏÖÔÚ´óÔ¼ÓÐ2ÒÚ¶àÌõÊý¾Ý£¬³õ²½´òËãÓÃmysqlÀ´´æ´¢£¬Ïë×öÒ»¸öÍøÕ¾£¬¸ù¾ÝÓû§µÄ¹Ø¼ü×ÖÀ´ËÑË÷Êý¾Ý¿â£¬°ÑÓû§ÐèÒªµÄÊý¾ÝÈ«²¿ÏÔʾ³öÀ´¡£ ÏÖÔÚÓÐÁ½¸öÎÊÌâÏò´ó¼ÒÇë½Ìһϣ¬ 1¡¢ÓÃʲôÀ´ÊµÏÖ¿ÉÒÔÈÃÖ´ÐÐЧÂʾ¡¿ÉÄܵĸߣ¨ÕâÀïÏȲ»ÌÖÂÛÊý¾Ý·Ö²¼´æ´¢£¬¸ãºÃ¼¸¸ö·þÎñÆ÷µÈÎÊÌ⣩£¬ÓÃphp×ö»¹ÊÇÓÃpythonÀ´×ö£¬ÄĸöЧÂÊ»áºÃЩ 2¡¢ÔõôÄܹ»·ÀÖ¹ÎÒÕâЩÊý¾Ý±»¾ºÕù¶ÔÊֲɼ¯ ±¾È˲ËÄñ£¬ÃèÊöµÄÎÊÌâÒ²Ðí²»¹»ÏêϸºÍ׼ȷ£¬»¹Çë¸ßÊÖ°ïæ³ö¸öÖ÷Ò⣬ÕâЩÎÊÌâʵÔÚºÜÀ§ÈÅÎÒ¡£ ÏÈÔÚ´Ë°Ýл£¡ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071030/96f4d1d2/attachment.html
2007年10月30日 星期二 21:20
各位大牛,想用 python做一个给定keyword 能自动读取goolge搜索结果的脚本, 不知大家有什么好的主意, 谢谢! > From: python-chinese-request在lists.python.cn> Subject: python-chinese 摘要, 卷 46, 发布 203> To: python-chinese在lists.python.cn> Date: Sun, 28 Oct 2007 16:56:21 +0800> > 想在 python-chinese 邮件列表发言,请写信给:> python-chinese在lists.python.cn> > 要订阅或者退订列表,可以访问万维网地址:> http://python.cn/mailman/listinfo/python-chinese> 或者可以向:> python-chinese-request在lists.python.cn> 发送主题或者正文为'help'的邮件。> > 您可以通过邮件地址:> python-chinese-owner在lists.python.cn> 联系到此列表的管理员。> > 当回信时,请给一个适当的标题,这样会比 "Re:> Contents of python-chinese digest..."更清楚明白。> > > 本日主题:> > 1. Re:> 我想做一个脚本,将任意编码类型的文件读入并转化为unicode,然后根据其中标点,每次取一句话出来。但我有几个问题:> (Jiahua Huang)> 2. [OT] 关于往大文件中间插入文本。 (Fluke)> 3. Re: 回复:> 请教一个问题:在windows下如何读取USB的数据 (Fluke)> 4. 有人用mailman吗? (Xin LI)> 5. Re: 有人用mailman吗? ( 大郎 )> 6. Re: How to detect the OS environment is MS Windows or wxGtk?> (Leo Jay)> 7. Re: 有人用mailman吗? (Xin LI)> 8. Why my mail archive in this mailing list can't not be shown> correctly> (我发的邮件归档里都是乱码,不知道邮件里面是不是)> (Roc Zhou)> > > ----------------------------------------------------------------------> > Message: 1> Date: Sun, 28 Oct 2007 13:20:16 +0800> From: "Jiahua Huang" <jhuangjiahua在gmail.com>> Subject: Re: [python-chinese]> 我想做一个脚本,将任意编码类型的文件读入并转化为unicode,然后根据其中标点,每次取一句话出来。但我有几个问题:> > To: python-chinese在lists.python.cn> Message-ID:> <eac7fba60710272220y7c4801ffwed532102a3e2941c在mail.gmail.com>> Content-Type: text/plain; charset=UTF-8> > 给你提示下> > > #!/usr/bin/python> # -*- coding: UTF-8 -*-> > def zh2unicode(stri):> """Auto converter encodings to unicode> > It will test utf8,gbk,big5,jp,kr to converter"""> global encc> for c in ('utf-8', 'gbk', 'big5', 'jp', 'euc_kr','utf16','utf32'):> encc = c> try:> return stri.decode(c)> except:> pass> encc = 'unk'> return stri> > seps=[" ","\t","\n","\r",",","<",">","?","!",> ";","\#",":",".","'",'"',"(",")","{","}","[","]","|","_","=",> " ",",","?","。","、",""",""","《","》","[","]","!","(",")"]> > seps=map(lambda i:unicode(i,'utf8'), seps)> > ------------------------------> > Message: 2> Date: Sun, 28 Oct 2007 14:04:50 +0800> From: Fluke <fluke.l在gmail.com>> Subject: [python-chinese] [OT] 关于往大文件中间插入文本。> To: python-chinese在lists.python.cn> Message-ID:> <cb8242f80710272304g5534041fw13d8ff2e01637f83在mail.gmail.com>> Content-Type: text/plain; charset="gb2312"> > 我要往大文件里面插入文本。> > 肯定能用的办法:> > 1. 重新写一个临时文件,按照顺序一边读取就文件一边组合到新的文件就行了。> 2. 读取文件末段到内存,中间写入要插入的内容,然后接着把刚才读取的内容写入。> 3. 内存映射。> > 因为文件大,所以不推荐2和3。> > 我尝试了类似1的方法,不过不写新文件,流程如下:> > fseek到插入点pos_ins,往后读取一段比如 buf[BUFSIZE](这里BUFSIZE大于要插入的内容),> > 然后seek回到刚才的地方pos_ins,写入内容.> > 然后fseek到 pos_ins+BUFLEN,再读取 buf[BUFLEN],> > 接着回到 pos_ins = ins_len去,写入buf> > 如此循环。> > 总的来说,就是一边读取后面的部分,一边往前面写。达到生成新文件的目的。(最后可能需要用文件系统的相关调用来修改一下文件大小)。> > 我发现这样做不行。原因好像是因为我一旦读取一次以后,文件的起始指针已经不能再回到文件头了(rewind或者fseek(pos,SEEK_SET)的起始点在刚才读取的内容后面)。> 文件io控制我用的是 "rw" 。> > 是不是开一个文件不能同时读写?> > > -- > Yours,> fluke> fluke在sfcube.net> http://blog.ospattern.net> -------------- 涓���ㄥ� --------------> 一个HTML附件被移除...> URL: http://python.cn/pipermail/python-chinese/attachments/20071028/6a8fddd5/attachment-0001.html > > ------------------------------> > Message: 3> Date: Sun, 28 Oct 2007 14:05:49 +0800> From: Fluke <fluke.l在gmail.com>> Subject: Re: [python-chinese] 回复:> 请教一个问题:在windows下如何读取USB的数据> To: python-chinese在lists.python.cn> Message-ID:> <cb8242f80710272305k483d8c1bn88e46fe4517dd01c在mail.gmail.com>> Content-Type: text/plain; charset="gb2312"> > 之前讨论过的一个pyserial的模块应该能工作吧。> > On 10/28/07, 剑心通明 <jxtm_hwang在qq.com> wrote:> >> > 估计Python本身没有这个功能吧。> >> >> > ------------------> >> > /* -------------------------------------------------------> > 网名: 剑心通明> > QQ: 55025> > 邮箱: Jxtm_Hwang在QQ.Com> > -------------------------------------------------------- */> >> >> > ------------------ 原始邮件 ------------------> > *发件人:* "边 江"<borderj在gmail.com>;> > *发送时间:* 2007年10月28日(星期天) 上午08:15> > *收件人:* "python-cn"<python-cn在googlegroups.com>; "python-chinese" > python-chinese在lists.python.cn>;> > *主题:* [python-chinese] 请教一个问题:在windows下如何读取USB的数据> >> >> > Hi:all> > 想用Python读取USB的数据并保存为一个文件,不知道怎么在windows中读取。> > 不知道那位有这方面的经验。> >> > 谢谢> >> > --> > Blog: www.borderj.cn> >> > Border> >> > _______________________________________________> > python-chinese> > Post: send python-chinese在lists.python.cn> > Subscribe: send subscribe to python-chinese-request在lists.python.cn> > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn> > Detail Info: http://python.cn/mailman/listinfo/python-chinese> >> > > > -- > Yours,> fluke> fluke在sfcube.net> http://blog.ospattern.net> -------------- 涓���ㄥ� --------------> 一个HTML附件被移除...> URL: http://python.cn/pipermail/python-chinese/attachments/20071028/adecefe6/attachment-0001.html > > ------------------------------> > Message: 4> Date: Sat, 27 Oct 2007 23:08:58 -0700> From: Xin LI <delphij在delphij.net>> Subject: [python-chinese] 有人用mailman吗?> To: python-chinese在lists.python.cn> Message-ID: <4724277A.8020304在delphij.net>> Content-Type: text/plain; charset=UTF-8; format=flowed> > 我在想重新翻译一下他的中文界面,把缺的部分补上,不太准确的地方修正一下。> > Cheers,> > > ------------------------------> > Message: 5> Date: Sun, 28 Oct 2007 15:01:16 +0800> From: " 大郎 " <iexper在gmail.com>> Subject: Re: [python-chinese] 有人用mailman吗?> To: d在delphij.net, python-chinese在lists.python.cn> Message-ID:> <41d2cd720710280001w1781aaf1t4e2c9279f6e9ba7a在mail.gmail.com>> Content-Type: text/plain; charset="gb2312"> > *简体中文*网页中,约有 *139,000* 项符合*mailman*的查询结果> :)> > On 10/28/07, Xin LI <delphij在delphij.net> wrote:> >> > 我在想重新翻译一下他的中文界面,把缺的部分补上,不太准确的地方修正一下。> >> > Cheers,> > _______________________________________________> > python-chinese> > Post: send python-chinese在lists.python.cn> > Subscribe: send subscribe to python-chinese-request在lists.python.cn> > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn> > Detail Info: http://python.cn/mailman/listinfo/python-chinese> > > > > -- > 最好的推广便是实际应用, 并加"powered by abc..."> 找python虚拟主机> http://groups.google.com/group/python-cn> http://webpy.org> http://twitter.com/qichangxing> Gtalk: iexper(at)gmail.com> -------------- 涓���ㄥ� --------------> 一个HTML附件被移除...> URL: http://python.cn/pipermail/python-chinese/attachments/20071028/66721877/attachment-0001.htm > > ------------------------------> > Message: 6> Date: Sun, 28 Oct 2007 15:02:09 +0800> From: "Leo Jay" <python.leojay在gmail.com>> Subject: Re: [python-chinese] How to detect the OS environment is MS> Windows or wxGtk?> To: python-chinese在lists.python.cn> Message-ID:> <4e307e0f0710280002s496da1cfp3226e57a1c152b1a在mail.gmail.com>> Content-Type: text/plain; charset=GB2312> > windows跟wxGtk放在一起算是怎么回事?> os.name是你要的吗?> > > -- > Best Regards,> Leo Jay> > ------------------------------> > Message: 7> Date: Sun, 28 Oct 2007 01:05:54 -0700> From: Xin LI <delphij在delphij.net>> Subject: Re: [python-chinese] 有人用mailman吗?> To: 大郎 <iexper在gmail.com>> Cc: python-chinese在lists.python.cn, d在delphij.net> Message-ID: <472442E2.3080101在delphij.net>> Content-Type: text/plain; charset=GB2312> > 大郎 wrote:> > *简体中文*网页中,约有 *139,000* 项符合*mailman*的查询结果> > :)> > 我说的不清楚,我应该问的问题是:有人有兴趣重新翻译一下 mailman 的界面吗?> > > ------------------------------> > Message: 8> Date: Sun, 28 Oct 2007 16:56:15 +0800> From: "Roc Zhou" <chowroc.z+l在gmail.com>> Subject: [python-chinese] Why my mail archive in this mailing list> can't not be shown correctly> (我发的邮件归档里都是乱码,不知道邮件里面是不是)> > To: python-chinese在lists.python.cn> Message-ID:> <7847e5160710280156t593701e5n6b7a7fe003f80193在mail.gmail.com>> Content-Type: text/plain; charset="iso-8859-1"> > I found the mails written in Chinese I posted to this mailing list can't not> be shown> correctly, they are mass code. I tried both UTF-8 and GBK, but no effect.> http://python.cn/pipermail/python-chinese/2007-October/045247.html> > What's wrong? I posted these mails just using gmail. I don't know whether> the they> are shown correctly in the mails.> > Thanks.> > -- > ------------------------------------------------------------------------> My Projects:> http://sourceforge.net/projects/crablfs> http://crablfs.sourceforge.net/> http://crablfs.sourceforge.net/#ru_data_man> http://crablfs.sourceforge.net/tree.html> http://cralbfs.sourceforge.net/sysadm_zh_CN.html> My Blog:> http://chowroc.blogspot.com/> http://hi.baidu.com/chowroc_z/> Looking for a space and platform to exert my originalities (for my> projects)...> -------------- 下一部分 --------------> ??HTML?????...> URL: http://python.cn/pipermail/python-chinese/attachments/20071028/03f7ea73/attachment.html > > ------------------------------> > _______________________________________________> python-chinese mailing list> python-chinese在lists.python.cn> http://python.cn/mailman/listinfo/python-chinese> > 结束python-chinese 摘要, 卷 46, 发布 203> *********************************************** _________________________________________________________________ 用 Live Search 搜尽天下资讯! http://www.live.com/?searchOnly=true -------------- 下一部分 -------------- 一个HTML附件被移除... URL: http://python.cn/pipermail/python-chinese/attachments/20071030/6f197ae9/attachment-0001.html
2007年10月30日 星期二 21:26
请详细点, 什么数据
2007年10月30日 星期二 21:30
ÕâЩÊý¾ÝÖ÷ÒªÊÇһЩÐÕÃû£¬µØÖ·ºÍÁªÏµ·½Ê½£¨°üÀ¨µç»°\QQ\EMAIL\MSNµÈ£©¼°Ò»Ð©¸öÈ˽éÉÜʲôµÄ 2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>: > > ÇëÏêϸµã, > ʲôÊý¾Ý > -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071030/3c0ae17d/attachment.htm
2007年10月30日 星期二 21:42
拜托,不要用 hotmail 订阅摘要,再回复摘要. 实在不愿意用 gmail 的话, 就直接用 web 界面 http://groups.google.com/group/python-cn 吧 这里先贴一段 google.cn 的 http://paste.ubuntu.org.cn/3627 在 07-10-30,WangYong<mr_yongge at hotmail.com> 写道: > > > > 各位大牛,想用 python做一个给定keyword 能自动读取goolge搜索结果的脚本, > 不知大家有什么好的主意, 谢谢! >
2007年10月30日 星期二 21:54
ÎҸоõpython ºÍphpÇø±ðÓ¦¸Ã²»´ó°É¡£ Èç¹ûÄãÈ«¶¼ÏÔʾ³öÀ´ÁËÄDZ»²É¼¯Ò²Ã»°ì·¨°¡¡£ ³ý·ÇÊÇÖ»ÏÔʾ²éѯ½á¹û¡£ On 10/30/07, Hey Key <heykey4u在gmail.com> wrote: > > ÕâЩÊý¾ÝÖ÷ÒªÊÇһЩÐÕÃû£¬µØÖ·ºÍÁªÏµ·½Ê½£¨°üÀ¨µç»°\QQ\EMAIL\MSNµÈ£©¼°Ò»Ð©¸öÈ˽éÉÜʲôµÄ > > 2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>: > > > > ÇëÏêϸµã, > > ʲôÊý¾Ý > > > > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071030/22471b9f/attachment.html
2007年10月30日 星期二 22:02
×ö³Éfalsh±íÏÖ·ÀÖ¹²É¼¯.... :-) ²»¹ýҪǿÁ¦Æƽâ¾ÍËƺõÓÐÎÊÌâ.... On 10/30/07, Hey Key <heykey4u在gmail.com> wrote: > > ÏÖÔÚ´óÔ¼ÓÐ2ÒÚ¶àÌõÊý¾Ý£¬³õ²½´òËãÓÃmysqlÀ´´æ´¢£¬Ïë×öÒ»¸öÍøÕ¾£¬¸ù¾ÝÓû§µÄ¹Ø¼ü×ÖÀ´ËÑË÷Êý¾Ý¿â£¬°ÑÓû§ÐèÒªµÄÊý¾ÝÈ«²¿ÏÔʾ³öÀ´¡£ > ÏÖÔÚÓÐÁ½¸öÎÊÌâÏò´ó¼ÒÇë½Ìһϣ¬ > 1¡¢ÓÃʲôÀ´ÊµÏÖ¿ÉÒÔÈÃÖ´ÐÐЧÂʾ¡¿ÉÄܵĸߣ¨ÕâÀïÏȲ»ÌÖÂÛÊý¾Ý·Ö²¼´æ´¢£¬¸ãºÃ¼¸¸ö·þÎñÆ÷µÈÎÊÌ⣩£¬ÓÃphp×ö»¹ÊÇÓÃpythonÀ´×ö£¬ÄĸöЧÂÊ»áºÃЩ > > 2¡¢ÔõôÄܹ»·ÀÖ¹ÎÒÕâЩÊý¾Ý±»¾ºÕù¶ÔÊֲɼ¯ > > ±¾È˲ËÄñ£¬ÃèÊöµÄÎÊÌâÒ²Ðí²»¹»ÏêϸºÍ׼ȷ£¬»¹Çë¸ßÊÖ°ïæ³ö¸öÖ÷Ò⣬ÕâЩÎÊÌâʵÔÚºÜÀ§ÈÅÎÒ¡£ > ÏÈÔÚ´Ë°Ýл£¡ > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -- ¼á¾öÒªÒÔòȡÈË! ×îºÃµÄÍƹã±ãÊÇʵ¼ÊÓ¦ÓÃ, ²¢¼Ó"powered by abc..." ÕÒpythonÐéÄâÖ÷»ú http://groups.google.com/group/python-cn http://webpy.org http://twitter.com/qichangxing Gtalk: iexper(at)gmail.com -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071030/4f27a573/attachment.htm
2007年10月30日 星期二 22:03
On 10/30/07, Hey Key <heykey4u在gmail.com> wrote: > 这些数据主要是一些姓名,地址和联系方式(包括电话\QQ\EMAIL\MSN等)及一些个人介绍什么的 > 如果这些数据变动不是特别效率,查询也非常简单,没有组合查询的需要的话, 使用 LDAP 比使用DB的效率要高很多的! 而且大量的数据查询 瓶颈在DBu和硬盘 I/O 上,前端的展示几乎没有什么事儿的; 强烈建议优化MySQL 或是使用更加快的DB,或是直接使用针对查询的 LDAP! > > 2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>: > > 请详细点, > > 什么数据 > > > > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > Detail Info: > http://python.cn/mailman/listinfo/python-chinese > -- '''Time is unimportant, only life important! 过程改进乃是开始催生可促生靠谱的人的组织! '''http://zoomquiet.org blog @ http://blog.zoomquiet.org/pyblosxom/ wiki @ http://wiki.woodpecker.org.cn/moin/ZoomQuiet scrap @ http://floss.zoomquiet.org share @ http://share.zoomquiet.org douban@ http://www.douban.com/people/zoomq/ 好看簿 @ http://zoomq.haokanbu.com/ ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Pls. usage OOo to replace M$ Office. http://zh.openoffice.org Pls. usage 7-zip to replace WinRAR/WinZip. http://7-zip.org You can get the truely Freedom 4 software.
2007年10月30日 星期二 22:10
速度和用PHP、python都没多大关系,主要瓶颈还是在数据库部分。 防止被采集,常用的做法是做个访问日志。 如果某个IP访问得过于频繁就当成是恶意爬虫Kill掉(不过似乎Baidu的虫子也很勤劳)。 在 07-10-30,Zoom. Quiet<zoom.quiet在gmail.com> 写道: > On 10/30/07, Hey Key <heykey4u在gmail.com> wrote: > > 这些数据主要是一些姓名,地址和联系方式(包括电话\QQ\EMAIL\MSN等)及一些个人介绍什么的 > > > 如果这些数据变动不是特别效率,查询也非常简单,没有组合查询的需要的话, > 使用 LDAP 比使用DB的效率要高很多的! > > 而且大量的数据查询 瓶颈在DBu和硬盘 I/O 上,前端的展示几乎没有什么事儿的; > > 强烈建议优化MySQL 或是使用更加快的DB,或是直接使用针对查询的 LDAP! > > > > > 2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>: > > > 请详细点, > > > 什么数据 > > > > > > > > > _______________________________________________ > > python-chinese > > Post: send python-chinese在lists.python.cn > > Subscribe: send subscribe to > > python-chinese-request在lists.python.cn > > Unsubscribe: send unsubscribe to > > python-chinese-request在lists.python.cn > > Detail Info: > > http://python.cn/mailman/listinfo/python-chinese > > > > > -- > '''Time is unimportant, only life important! > 过程改进乃是开始催生可促生靠谱的人的组织! > '''http://zoomquiet.org > blog @ http://blog.zoomquiet.org/pyblosxom/ > wiki @ http://wiki.woodpecker.org.cn/moin/ZoomQuiet > scrap @ http://floss.zoomquiet.org > share @ http://share.zoomquiet.org > douban@ http://www.douban.com/people/zoomq/ > 好看簿 @ http://zoomq.haokanbu.com/ > ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ > Pls. usage OOo to replace M$ Office. http://zh.openoffice.org > Pls. usage 7-zip to replace WinRAR/WinZip. http://7-zip.org > You can get the truely Freedom 4 software. > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese -- Blog http://vicalloy.spaces.live.com/ My googlepage http://vicalloy.googlepages.com/ OldPhoto http://www.lzpian.com/
2007年10月30日 星期二 23:20
2 亿也不过是 200M , 并不算多, 搜索用 bsddb 都足够了, web 随便找个啥都行,比如 web.py 给你贴个以前 bsddb 写的 #!/usr/bin/python # -*- coding: UTF-8 -*- '''模块名 @version: $Id$ @author: U{Jiahua Huang} @license: LGPL @see: 参考资料链接等等 ''' import shelve d = shelve.open('peoples.db', writeback=True) class People: name = '' address = '' telephone = '' qq = '' email = '' msn = '' introduction = '' import random def _newid(): while 1: id = str(random.randrange(10000000000)) if not id in d: return id def add(dic=None, **info): 'return new id' info = dic or info people = People() people.__dict__.update(info) id = _newid() people.id = id d[id] = people d.sync() return id def search(dic=None, **info): 'return [people]' info = dic or info rev = [] peoples = d for id, people in peoples.iteritems(): for attr, value in info.items(): if not (value and hasattr(people, attr) and value in getattr(people, attr) ): break rev.append(people) peoples.sync() return rev def _echosearch(dic=None, **info): info = dic or info for i in search(info): print i.__dict__ def _randomword(n=3, m=7): word = '' for i in range(random.randrange(n, m)): word += random.choice('abcdefghijklmnopqrstuvwxyz') return word def _randomadd(s=10000): for i in range(s): add(name=_randomword(), address=_randomword(), telephone = str(random.randint(4000000,9999999)), qq = str(random.randint(4000000,9999999)), email = '%s@%s.com'%(_randomword(),_randomword()), msn = '%s at hotmail.com'%(_randomword()), introduction = _randomword(7,50), ) def main(): import sys print 'randomadd' _randomadd(10000) print 'echosearch' _echosearch(name='ab', address='ab', qq='30') if __name__=="__main__": main() 用随机的 id 防止顺序遍历 id, 其他的可以配置 apache 或 iptables 对付连续频繁连接的 ip 在 07-10-30,vicalloy<zbirder at gmail.com> 写道: > 速度和用PHP、python都没多大关系,主要瓶颈还是在数据库部分。 > 防止被采集,常用的做法是做个访问日志。 > 如果某个IP访问得过于频繁就当成是恶意爬虫Kill掉(不过似乎Baidu的虫子也很勤劳)。 >
2007年10月30日 星期二 23:35
你要做数据库营销? 如果数据量太大的话,只能考虑采用搜索引擎的技术了,普通的数据库查询已经不行了。自己建立索引文件,并在内存中常驻索引。这样可以极大地提高检索的速度。 在 07-10-30,Hey Key<heykey4u在gmail.com> 写道: > 这些数据主要是一些姓名,地址和联系方式(包括电话\QQ\EMAIL\MSN等)及一些个人介绍什么的 > > 2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>: > > 请详细点, > > 什么数据 > > > > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to > python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to > python-chinese-request在lists.python.cn > Detail Info: > http://python.cn/mailman/listinfo/python-chinese >
2007年10月31日 星期三 02:09
²»¹ÜÄãÓò»ÓÃdb, 2ÒÚµÄÊý¾Ý£¬¿Ï¶¨Òª×öË÷Òý¡£qq/msn/µç»°/×ÊÁÏ ÕâÑùµÄÊý¾Ý£¬³ýÁËÏêϸ×ÊÁÏ£¬ÆäËûµÄ¶¼×ö¸öË÷Òý£¬»òÕßÊý×Ö£¬×Ö´®£¬»òÕßhash£¬²éÕÒÄÜÔÚO(log(2ÒÚ))ÄÚÍê³É£¬Ð¡¶ù¿Æ¡£×îºóµÄÏêϸ×ÊÁÏ£¬Òª²»ÒªÔÚÏßÏÂ×öϹؼü×ÖÌáÈ¡£¬ÏßÉÏÖ±½Ó²é±í--¾ÍÊǹؼü×Ö½á¹û»º´æµÄÒâ˼¡£ On 10/30/07, Hey Key <heykey4u在gmail.com> wrote: > > ÏÖÔÚ´óÔ¼ÓÐ2ÒÚ¶àÌõÊý¾Ý£¬³õ²½´òËãÓÃmysqlÀ´´æ´¢£¬Ïë×öÒ»¸öÍøÕ¾£¬¸ù¾ÝÓû§µÄ¹Ø¼ü×ÖÀ´ËÑË÷Êý¾Ý¿â£¬°ÑÓû§ÐèÒªµÄÊý¾ÝÈ«²¿ÏÔʾ³öÀ´¡£ > ÏÖÔÚÓÐÁ½¸öÎÊÌâÏò´ó¼ÒÇë½Ìһϣ¬ > 1¡¢ÓÃʲôÀ´ÊµÏÖ¿ÉÒÔÈÃÖ´ÐÐЧÂʾ¡¿ÉÄܵĸߣ¨ÕâÀïÏȲ»ÌÖÂÛÊý¾Ý·Ö²¼´æ´¢£¬¸ãºÃ¼¸¸ö·þÎñÆ÷µÈÎÊÌ⣩£¬ÓÃphp×ö»¹ÊÇÓÃpythonÀ´×ö£¬ÄĸöЧÂÊ»áºÃЩ > > 2¡¢ÔõôÄܹ»·ÀÖ¹ÎÒÕâЩÊý¾Ý±»¾ºÕù¶ÔÊֲɼ¯ > > ±¾È˲ËÄñ£¬ÃèÊöµÄÎÊÌâÒ²Ðí²»¹»ÏêϸºÍ׼ȷ£¬»¹Çë¸ßÊÖ°ïæ³ö¸öÖ÷Ò⣬ÕâЩÎÊÌâʵÔÚºÜÀ§ÈÅÎÒ¡£ > ÏÈÔÚ´Ë°Ýл£¡ > > _______________________________________________ > python-chinese > Post: send python-chinese在lists.python.cn > Subscribe: send subscribe to python-chinese-request在lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -- Yours, fluke fluke在sfcube.net http://blog.ospattern.net -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071031/ba9b4707/attachment.html
2007年10月31日 星期三 10:07
лл´ó¼ÒµÄÈÈÇé»Ø¸´£¬È·ÊµÈÃÎÒѧµ½Á˲»ÉÙ¶«Î÷£¬Èç¹ûÓÐʲôÎÊÌâÔÙÉÏÀ´ ºÍ´ó¼ÒÇë½Ì re£ºÂí̤·ÉÑ࣬ÎÒ²»ÊÇ×öÊý¾Ý¿âÓªÏú лл´ó¼Ò£¡Ì«¸ÐлÁË£¡ -------------- 下一部分 -------------- Ò»¸öHTML¸½¼þ±»ÒƳý... URL: http://python.cn/pipermail/python-chinese/attachments/20071031/b392b495/attachment.htm
2007年10月31日 星期三 10:15
数据库建议使用postgresql。 在07-10-31,Hey Key <heykey4u at gmail.com> 写道: > > 谢谢大家的热情回复,确实让我学到了不少东西,如果有什么问题再上来 和大家请教 > re:马踏飞燕,我不是做数据库营销 > > 谢谢大家!太感谢了! > > _______________________________________________ > python-chinese > Post: send python-chinese at lists.python.cn > Subscribe: send subscribe to python-chinese-request at lists.python.cn > Unsubscribe: send unsubscribe to python-chinese-request at lists.python.cn > Detail Info: http://python.cn/mailman/listinfo/python-chinese > -------------- next part -------------- An HTML attachment was scrubbed... URL: http://python.cn/pipermail/python-chinese/attachments/20071031/70a00bc3/attachment.htm
Zeuux © 2025
京ICP备05028076号