Python论坛  - 讨论区

标题:[python-chinese] 想做这样一个关于搜索的东西,请大家帮忙出

2007年10月30日 星期二 21:19

Hey Key heykey4u在gmail.com
星期二 十月 30 21:19:23 HKT 2007

ÏÖÔÚ´óÔ¼ÓÐ2ÒÚ¶àÌõÊý¾Ý£¬³õ²½´òËãÓÃmysqlÀ´´æ´¢£¬Ïë×öÒ»¸öÍøÕ¾£¬¸ù¾ÝÓû§µÄ¹Ø¼ü×ÖÀ´ËÑË÷Êý¾Ý¿â£¬°ÑÓû§ÐèÒªµÄÊý¾ÝÈ«²¿ÏÔʾ³öÀ´¡£
ÏÖÔÚÓÐÁ½¸öÎÊÌâÏò´ó¼ÒÇë½Ìһϣ¬
1¡¢ÓÃʲôÀ´ÊµÏÖ¿ÉÒÔÈÃÖ´ÐÐЧÂʾ¡¿ÉÄܵĸߣ¨ÕâÀïÏȲ»ÌÖÂÛÊý¾Ý·Ö²¼´æ´¢£¬¸ãºÃ¼¸¸ö·þÎñÆ÷µÈÎÊÌ⣩£¬ÓÃphp×ö»¹ÊÇÓÃpythonÀ´×ö£¬ÄĸöЧÂÊ»áºÃЩ

2¡¢ÔõôÄܹ»·ÀÖ¹ÎÒÕâЩÊý¾Ý±»¾ºÕù¶ÔÊֲɼ¯

±¾È˲ËÄñ£¬ÃèÊöµÄÎÊÌâÒ²Ðí²»¹»ÏêϸºÍ׼ȷ£¬»¹Çë¸ßÊÖ°ïæ³ö¸öÖ÷Ò⣬ÕâЩÎÊÌâʵÔÚºÜÀ§ÈÅÎÒ¡£
ÏÈÔÚ´Ë°Ýл£¡
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071030/96f4d1d2/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 21:20

WangYong mr_yongge在hotmail.com
星期二 十月 30 21:20:22 HKT 2007

 
各位大牛,想用 python做一个给定keyword 能自动读取goolge搜索结果的脚本,
不知大家有什么好的主意, 谢谢!
 
> From: python-chinese-request在lists.python.cn> Subject: python-chinese 摘要, 卷 46, 发布 203> To: python-chinese在lists.python.cn> Date: Sun, 28 Oct 2007 16:56:21 +0800> > 想在 python-chinese 邮件列表发言,请写信给:> python-chinese在lists.python.cn> > 要订阅或者退订列表,可以访问万维网地址:> http://python.cn/mailman/listinfo/python-chinese> 或者可以向:> python-chinese-request在lists.python.cn> 发送主题或者正文为'help'的邮件。> > 您可以通过邮件地址:> python-chinese-owner在lists.python.cn> 联系到此列表的管理员。> > 当回信时,请给一个适当的标题,这样会比 "Re:> Contents of python-chinese digest..."更清楚明白。> > > 本日主题:> > 1. Re:> 我想做一个脚本,将任意编码类型的文件读入并转化为unicode,然后根据其中标点,每次取一句话出来。但我有几个问题:> (Jiahua Huang)> 2. [OT] 关于往大文件中间插入文本。 (Fluke)> 3. Re: 回复:> 请教一个问题:在windows下如何读取USB的数据 (Fluke)> 4. 有人用mailman吗? (Xin LI)> 5. Re: 有人用mailman吗? ( 大郎 )> 6. Re: How to detect the OS environment is MS Windows or wxGtk?> (Leo Jay)> 7. Re: 有人用mailman吗? (Xin LI)> 8. Why my mail archive in this mailing list can't not be shown> correctly> (我发的邮件归档里都是乱码,不知道邮件里面是不是)> (Roc Zhou)> > > ----------------------------------------------------------------------> > Message: 1> Date: Sun, 28 Oct 2007 13:20:16 +0800> From: "Jiahua Huang" <jhuangjiahua在gmail.com>> Subject: Re: [python-chinese]> 我想做一个脚本,将任意编码类型的文件读入并转化为unicode,然后根据其中标点,每次取一句话出来。但我有几个问题:> > To: python-chinese在lists.python.cn> Message-ID:> <eac7fba60710272220y7c4801ffwed532102a3e2941c在mail.gmail.com>> Content-Type: text/plain; charset=UTF-8> > 给你提示下> > > #!/usr/bin/python> # -*- coding: UTF-8 -*-> > def zh2unicode(stri):> """Auto converter encodings to unicode> > It will test utf8,gbk,big5,jp,kr to converter"""> global encc> for c in ('utf-8', 'gbk', 'big5', 'jp', 'euc_kr','utf16','utf32'):> encc = c> try:> return stri.decode(c)> except:> pass> encc = 'unk'> return stri> > seps=[" ","\t","\n","\r",",","<",">","?","!",> ";","\#",":",".","'",'"',"(",")","{","}","[","]","|","_","=",> " ",",","?","。","、",""",""","《","》","[","]","!","(",")"]> > seps=map(lambda i:unicode(i,'utf8'), seps)> > ------------------------------> > Message: 2> Date: Sun, 28 Oct 2007 14:04:50 +0800> From: Fluke <fluke.l在gmail.com>> Subject: [python-chinese] [OT] 关于往大文件中间插入文本。> To: python-chinese在lists.python.cn> Message-ID:> <cb8242f80710272304g5534041fw13d8ff2e01637f83在mail.gmail.com>> Content-Type: text/plain; charset="gb2312"> > 我要往大文件里面插入文本。> > 肯定能用的办法:> > 1. 重新写一个临时文件,按照顺序一边读取就文件一边组合到新的文件就行了。> 2. 读取文件末段到内存,中间写入要插入的内容,然后接着把刚才读取的内容写入。> 3. 内存映射。> > 因为文件大,所以不推荐2和3。> > 我尝试了类似1的方法,不过不写新文件,流程如下:> > fseek到插入点pos_ins,往后读取一段比如 buf[BUFSIZE](这里BUFSIZE大于要插入的内容),> > 然后seek回到刚才的地方pos_ins,写入内容.> > 然后fseek到 pos_ins+BUFLEN,再读取 buf[BUFLEN],> > 接着回到 pos_ins = ins_len去,写入buf> > 如此循环。> > 总的来说,就是一边读取后面的部分,一边往前面写。达到生成新文件的目的。(最后可能需要用文件系统的相关调用来修改一下文件大小)。> > 我发现这样做不行。原因好像是因为我一旦读取一次以后,文件的起始指针已经不能再回到文件头了(rewind或者fseek(pos,SEEK_SET)的起始点在刚才读取的内容后面)。> 文件io控制我用的是 "rw" 。> > 是不是开一个文件不能同时读写?> > > -- > Yours,> fluke> fluke在sfcube.net> http://blog.ospattern.net> -------------- 涓���ㄥ� --------------> 一个HTML附件被移除...> URL: http://python.cn/pipermail/python-chinese/attachments/20071028/6a8fddd5/attachment-0001.html > > ------------------------------> > Message: 3> Date: Sun, 28 Oct 2007 14:05:49 +0800> From: Fluke <fluke.l在gmail.com>> Subject: Re: [python-chinese] 回复:> 请教一个问题:在windows下如何读取USB的数据> To: python-chinese在lists.python.cn> Message-ID:> <cb8242f80710272305k483d8c1bn88e46fe4517dd01c在mail.gmail.com>> Content-Type: text/plain; charset="gb2312"> > 之前讨论过的一个pyserial的模块应该能工作吧。> > On 10/28/07, 剑心通明 <jxtm_hwang在qq.com> wrote:> >> > 估计Python本身没有这个功能吧。> >> >> > ------------------> >> > /* -------------------------------------------------------> > 网名: 剑心通明> > QQ: 55025> > 邮箱: Jxtm_Hwang在QQ.Com> > -------------------------------------------------------- */> >> >> > ------------------ 原始邮件 ------------------> > *发件人:* "边 江"<borderj在gmail.com>;> > *发送时间:* 2007年10月28日(星期天) 上午08:15> > *收件人:* "python-cn"<python-cn在googlegroups.com>; "python-chinese" > python-chinese在lists.python.cn>;> > *主题:* [python-chinese] 请教一个问题:在windows下如何读取USB的数据> >> >> > Hi:all> > 想用Python读取USB的数据并保存为一个文件,不知道怎么在windows中读取。> > 不知道那位有这方面的经验。> >> > 谢谢> >> > --> > Blog: www.borderj.cn> >> > Border> >> > _______________________________________________> > python-chinese> > Post: send python-chinese在lists.python.cn> > Subscribe: send subscribe to python-chinese-request在lists.python.cn> > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn> > Detail Info: http://python.cn/mailman/listinfo/python-chinese> >> > > > -- > Yours,> fluke> fluke在sfcube.net> http://blog.ospattern.net> -------------- 涓���ㄥ� --------------> 一个HTML附件被移除...> URL: http://python.cn/pipermail/python-chinese/attachments/20071028/adecefe6/attachment-0001.html > > ------------------------------> > Message: 4> Date: Sat, 27 Oct 2007 23:08:58 -0700> From: Xin LI <delphij在delphij.net>> Subject: [python-chinese] 有人用mailman吗?> To: python-chinese在lists.python.cn> Message-ID: <4724277A.8020304在delphij.net>> Content-Type: text/plain; charset=UTF-8; format=flowed> > 我在想重新翻译一下他的中文界面,把缺的部分补上,不太准确的地方修正一下。> > Cheers,> > > ------------------------------> > Message: 5> Date: Sun, 28 Oct 2007 15:01:16 +0800> From: " 大郎 " <iexper在gmail.com>> Subject: Re: [python-chinese] 有人用mailman吗?> To: d在delphij.net, python-chinese在lists.python.cn> Message-ID:> <41d2cd720710280001w1781aaf1t4e2c9279f6e9ba7a在mail.gmail.com>> Content-Type: text/plain; charset="gb2312"> > *简体中文*网页中,约有 *139,000* 项符合*mailman*的查询结果> :)> > On 10/28/07, Xin LI <delphij在delphij.net> wrote:> >> > 我在想重新翻译一下他的中文界面,把缺的部分补上,不太准确的地方修正一下。> >> > Cheers,> > _______________________________________________> > python-chinese> > Post: send python-chinese在lists.python.cn> > Subscribe: send subscribe to python-chinese-request在lists.python.cn> > Unsubscribe: send unsubscribe to python-chinese-request在lists.python.cn> > Detail Info: http://python.cn/mailman/listinfo/python-chinese> > > > > -- > 最好的推广便是实际应用, 并加"powered by abc..."> 找python虚拟主机> http://groups.google.com/group/python-cn> http://webpy.org> http://twitter.com/qichangxing> Gtalk: iexper(at)gmail.com> -------------- 涓���ㄥ� --------------> 一个HTML附件被移除...> URL: http://python.cn/pipermail/python-chinese/attachments/20071028/66721877/attachment-0001.htm > > ------------------------------> > Message: 6> Date: Sun, 28 Oct 2007 15:02:09 +0800> From: "Leo Jay" <python.leojay在gmail.com>> Subject: Re: [python-chinese] How to detect the OS environment is MS> Windows or wxGtk?> To: python-chinese在lists.python.cn> Message-ID:> <4e307e0f0710280002s496da1cfp3226e57a1c152b1a在mail.gmail.com>> Content-Type: text/plain; charset=GB2312> > windows跟wxGtk放在一起算是怎么回事?> os.name是你要的吗?> > > -- > Best Regards,> Leo Jay> > ------------------------------> > Message: 7> Date: Sun, 28 Oct 2007 01:05:54 -0700> From: Xin LI <delphij在delphij.net>> Subject: Re: [python-chinese] 有人用mailman吗?> To: 大郎 <iexper在gmail.com>> Cc: python-chinese在lists.python.cn, d在delphij.net> Message-ID: <472442E2.3080101在delphij.net>> Content-Type: text/plain; charset=GB2312> > 大郎 wrote:> > *简体中文*网页中,约有 *139,000* 项符合*mailman*的查询结果> > :)> > 我说的不清楚,我应该问的问题是:有人有兴趣重新翻译一下 mailman 的界面吗?> > > ------------------------------> > Message: 8> Date: Sun, 28 Oct 2007 16:56:15 +0800> From: "Roc Zhou" <chowroc.z+l在gmail.com>> Subject: [python-chinese] Why my mail archive in this mailing list> can't not be shown correctly> (我发的邮件归档里都是乱码,不知道邮件里面是不是)> > To: python-chinese在lists.python.cn> Message-ID:> <7847e5160710280156t593701e5n6b7a7fe003f80193在mail.gmail.com>> Content-Type: text/plain; charset="iso-8859-1"> > I found the mails written in Chinese I posted to this mailing list can't not> be shown> correctly, they are mass code. I tried both UTF-8 and GBK, but no effect.> http://python.cn/pipermail/python-chinese/2007-October/045247.html> > What's wrong? I posted these mails just using gmail. I don't know whether> the they> are shown correctly in the mails.> > Thanks.> > -- > ------------------------------------------------------------------------> My Projects:> http://sourceforge.net/projects/crablfs> http://crablfs.sourceforge.net/> http://crablfs.sourceforge.net/#ru_data_man> http://crablfs.sourceforge.net/tree.html> http://cralbfs.sourceforge.net/sysadm_zh_CN.html> My Blog:> http://chowroc.blogspot.com/> http://hi.baidu.com/chowroc_z/> Looking for a space and platform to exert my originalities (for my> projects)...> -------------- 下一部分 --------------> ??HTML?????...> URL: http://python.cn/pipermail/python-chinese/attachments/20071028/03f7ea73/attachment.html > > ------------------------------> > _______________________________________________> python-chinese mailing list> python-chinese在lists.python.cn> http://python.cn/mailman/listinfo/python-chinese> > 结束python-chinese 摘要, 卷 46, 发布 203> ***********************************************
_________________________________________________________________
用 Live Search 搜尽天下资讯!
http://www.live.com/?searchOnly=true
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: http://python.cn/pipermail/python-chinese/attachments/20071030/6f197ae9/attachment-0001.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 21:26

Jiahua Huang jhuangjiahua在gmail.com
星期二 十月 30 21:26:28 HKT 2007

请详细点,
什么数据

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 21:30

Hey Key heykey4u在gmail.com
星期二 十月 30 21:30:53 HKT 2007

ÕâЩÊý¾ÝÖ÷ÒªÊÇһЩÐÕÃû£¬µØÖ·ºÍÁªÏµ·½Ê½£¨°üÀ¨µç»°\QQ\EMAIL\MSNµÈ£©¼°Ò»Ð©¸öÈ˽éÉÜʲôµÄ

2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>:
>
> ÇëÏêϸµã,
> ʲôÊý¾Ý
>
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071030/3c0ae17d/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 21:42

Jiahua Huang jhuangjiahua在gmail.com
星期二 十月 30 21:42:02 HKT 2007

拜托,不要用 hotmail 订阅摘要,再回复摘要.
实在不愿意用 gmail 的话,
就直接用 web 界面
http://groups.google.com/group/python-cn 吧


这里先贴一段 google.cn 的
http://paste.ubuntu.org.cn/3627

在 07-10-30,WangYong<mr_yongge at hotmail.com> 写道:
>
>
>
>  各位大牛,想用 python做一个给定keyword 能自动读取goolge搜索结果的脚本,
>  不知大家有什么好的主意, 谢谢!
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 21:54

@@ askfor在gmail.com
星期二 十月 30 21:54:29 HKT 2007

ÎҸоõpython ºÍphpÇø±ðÓ¦¸Ã²»´ó°É¡£

Èç¹ûÄãÈ«¶¼ÏÔʾ³öÀ´ÁËÄDZ»²É¼¯Ò²Ã»°ì·¨°¡¡£ ³ý·ÇÊÇÖ»ÏÔʾ²éѯ½á¹û¡£

On 10/30/07, Hey Key <heykey4u在gmail.com> wrote:
>
> ÕâЩÊý¾ÝÖ÷ÒªÊÇһЩÐÕÃû£¬µØÖ·ºÍÁªÏµ·½Ê½£¨°üÀ¨µç»°\QQ\EMAIL\MSNµÈ£©¼°Ò»Ð©¸öÈ˽éÉÜʲôµÄ
>
> 2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>:
> >
> > ÇëÏêϸµã,
> > ʲôÊý¾Ý
> >
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071030/22471b9f/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 22:02

大郎 iexper在gmail.com
星期二 十月 30 22:02:50 HKT 2007

×ö³Éfalsh±íÏÖ·ÀÖ¹²É¼¯.... :-)
²»¹ýҪǿÁ¦Æƽâ¾ÍËƺõÓÐÎÊÌâ....

On 10/30/07, Hey Key <heykey4u在gmail.com> wrote:
>
> ÏÖÔÚ´óÔ¼ÓÐ2ÒÚ¶àÌõÊý¾Ý£¬³õ²½´òËãÓÃmysqlÀ´´æ´¢£¬Ïë×öÒ»¸öÍøÕ¾£¬¸ù¾ÝÓû§µÄ¹Ø¼ü×ÖÀ´ËÑË÷Êý¾Ý¿â£¬°ÑÓû§ÐèÒªµÄÊý¾ÝÈ«²¿ÏÔʾ³öÀ´¡£
> ÏÖÔÚÓÐÁ½¸öÎÊÌâÏò´ó¼ÒÇë½Ìһϣ¬
> 1¡¢ÓÃʲôÀ´ÊµÏÖ¿ÉÒÔÈÃÖ´ÐÐЧÂʾ¡¿ÉÄܵĸߣ¨ÕâÀïÏȲ»ÌÖÂÛÊý¾Ý·Ö²¼´æ´¢£¬¸ãºÃ¼¸¸ö·þÎñÆ÷µÈÎÊÌ⣩£¬ÓÃphp×ö»¹ÊÇÓÃpythonÀ´×ö£¬ÄĸöЧÂÊ»áºÃЩ
>
> 2¡¢ÔõôÄܹ»·ÀÖ¹ÎÒÕâЩÊý¾Ý±»¾ºÕù¶ÔÊֲɼ¯
>
> ±¾È˲ËÄñ£¬ÃèÊöµÄÎÊÌâÒ²Ðí²»¹»ÏêϸºÍ׼ȷ£¬»¹Çë¸ßÊÖ°ïæ³ö¸öÖ÷Ò⣬ÕâЩÎÊÌâʵÔÚºÜÀ§ÈÅÎÒ¡£
> ÏÈÔÚ´Ë°Ýл£¡
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
¼á¾öÒªÒÔòȡÈË!
×îºÃµÄÍƹã±ãÊÇʵ¼ÊÓ¦ÓÃ, ²¢¼Ó"powered by abc..."
ÕÒpythonÐéÄâÖ÷»ú
http://groups.google.com/group/python-cn
http://webpy.org
http://twitter.com/qichangxing
Gtalk: iexper(at)gmail.com
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071030/4f27a573/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 22:03

Zoom.Quiet zoom.quiet在gmail.com
星期二 十月 30 22:03:15 HKT 2007

On 10/30/07, Hey Key <heykey4u在gmail.com> wrote:
> 这些数据主要是一些姓名,地址和联系方式(包括电话\QQ\EMAIL\MSN等)及一些个人介绍什么的
>
如果这些数据变动不是特别效率,查询也非常简单,没有组合查询的需要的话,
使用 LDAP 比使用DB的效率要高很多的!

而且大量的数据查询 瓶颈在DBu和硬盘 I/O 上,前端的展示几乎没有什么事儿的;

强烈建议优化MySQL 或是使用更加快的DB,或是直接使用针对查询的  LDAP!

>
> 2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>:
> > 请详细点,
> > 什么数据
> >
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>


-- 
'''Time is unimportant, only life important!
过程改进乃是开始催生可促生靠谱的人的组织!
'''http://zoomquiet.org
blog  @ http://blog.zoomquiet.org/pyblosxom/
wiki  @ http://wiki.woodpecker.org.cn/moin/ZoomQuiet
scrap @ http://floss.zoomquiet.org
share @ http://share.zoomquiet.org
douban@ http://www.douban.com/people/zoomq/
好看簿 @ http://zoomq.haokanbu.com/
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
Pls. usage OOo to replace M$ Office. http://zh.openoffice.org
Pls. usage 7-zip to replace WinRAR/WinZip.  http://7-zip.org
You can get the truely Freedom 4 software.

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 22:10

vicalloy zbirder在gmail.com
星期二 十月 30 22:10:23 HKT 2007

速度和用PHP、python都没多大关系,主要瓶颈还是在数据库部分。
防止被采集,常用的做法是做个访问日志。
如果某个IP访问得过于频繁就当成是恶意爬虫Kill掉(不过似乎Baidu的虫子也很勤劳)。

在 07-10-30,Zoom. Quiet<zoom.quiet在gmail.com> 写道:
> On 10/30/07, Hey Key <heykey4u在gmail.com> wrote:
> > 这些数据主要是一些姓名,地址和联系方式(包括电话\QQ\EMAIL\MSN等)及一些个人介绍什么的
> >
> 如果这些数据变动不是特别效率,查询也非常简单,没有组合查询的需要的话,
> 使用 LDAP 比使用DB的效率要高很多的!
>
> 而且大量的数据查询 瓶颈在DBu和硬盘 I/O 上,前端的展示几乎没有什么事儿的;
>
> 强烈建议优化MySQL 或是使用更加快的DB,或是直接使用针对查询的  LDAP!
>
> >
> > 2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>:
> > > 请详细点,
> > > 什么数据
> > >
> >
> >
> > _______________________________________________
> > python-chinese
> > Post: send python-chinese在lists.python.cn
> > Subscribe: send subscribe to
> > python-chinese-request在lists.python.cn
> > Unsubscribe: send unsubscribe to
> > python-chinese-request在lists.python.cn
> > Detail Info:
> > http://python.cn/mailman/listinfo/python-chinese
> >
>
>
> --
> '''Time is unimportant, only life important!
> 过程改进乃是开始催生可促生靠谱的人的组织!
> '''http://zoomquiet.org
> blog  @ http://blog.zoomquiet.org/pyblosxom/
> wiki  @ http://wiki.woodpecker.org.cn/moin/ZoomQuiet
> scrap @ http://floss.zoomquiet.org
> share @ http://share.zoomquiet.org
> douban@ http://www.douban.com/people/zoomq/
> 好看簿 @ http://zoomq.haokanbu.com/
> ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
> Pls. usage OOo to replace M$ Office. http://zh.openoffice.org
> Pls. usage 7-zip to replace WinRAR/WinZip.  http://7-zip.org
> You can get the truely Freedom 4 software.
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese


-- 
Blog http://vicalloy.spaces.live.com/
My googlepage http://vicalloy.googlepages.com/
OldPhoto http://www.lzpian.com/

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 23:20

Jiahua Huang jhuangjiahua在gmail.com
星期二 十月 30 23:20:25 HKT 2007

2 亿也不过是 200M , 并不算多,
搜索用 bsddb 都足够了,
web 随便找个啥都行,比如 web.py


给你贴个以前  bsddb 写的
#!/usr/bin/python
# -*- coding: UTF-8 -*-
'''模块名
@version: $Id$
@author: U{Jiahua Huang }
@license: LGPL
@see: 参考资料链接等等
'''
import shelve
d = shelve.open('peoples.db', writeback=True)

class People:
    name = ''
    address = ''
    telephone = ''
    qq =  ''
    email = ''
    msn = ''
    introduction = ''

import random
def _newid():
    while 1:
        id = str(random.randrange(10000000000))
        if not id in d:
            return id

def add(dic=None, **info):
    'return new id'
    info = dic or info
    people = People()
    people.__dict__.update(info)
    id = _newid()
    people.id = id
    d[id] = people
    d.sync()
    return id

def search(dic=None, **info):
    'return [people]'
    info = dic or info
    rev = []
    peoples = d
    for id, people in peoples.iteritems():
        for attr, value in info.items():
            if not (value
                    and hasattr(people, attr)
                    and value in getattr(people, attr)
                    ):
                break
            rev.append(people)
    peoples.sync()
    return rev

def _echosearch(dic=None, **info):
    info = dic or info
    for i in search(info):
        print i.__dict__

def _randomword(n=3, m=7):
    word = ''
    for i in range(random.randrange(n, m)):
        word += random.choice('abcdefghijklmnopqrstuvwxyz')
    return word

def _randomadd(s=10000):
    for i in range(s):
        add(name=_randomword(),
            address=_randomword(),
            telephone = str(random.randint(4000000,9999999)),
            qq =  str(random.randint(4000000,9999999)),
            email = '%s@%s.com'%(_randomword(),_randomword()),
            msn = '%s at hotmail.com'%(_randomword()),
            introduction = _randomword(7,50),
            )

def main():
    import sys
    print 'randomadd'
    _randomadd(10000)
    print 'echosearch'
    _echosearch(name='ab', address='ab', qq='30')

if __name__=="__main__":
    main()


用随机的 id 防止顺序遍历 id,
其他的可以配置 apache 或 iptables 对付连续频繁连接的 ip

在 07-10-30,vicalloy<zbirder at gmail.com> 写道:
> 速度和用PHP、python都没多大关系,主要瓶颈还是在数据库部分。
> 防止被采集,常用的做法是做个访问日志。
> 如果某个IP访问得过于频繁就当成是恶意爬虫Kill掉(不过似乎Baidu的虫子也很勤劳)。
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月30日 星期二 23:35

马踏飞燕 honeyday.mj在gmail.com
星期二 十月 30 23:35:48 HKT 2007

你要做数据库营销?
如果数据量太大的话,只能考虑采用搜索引擎的技术了,普通的数据库查询已经不行了。自己建立索引文件,并在内存中常驻索引。这样可以极大地提高检索的速度。

在 07-10-30,Hey Key<heykey4u在gmail.com> 写道:
> 这些数据主要是一些姓名,地址和联系方式(包括电话\QQ\EMAIL\MSN等)及一些个人介绍什么的
>
> 2007/10/30, Jiahua Huang <jhuangjiahua在gmail.com>:
> > 请详细点,
> > 什么数据
> >
>
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to
> python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to
> python-chinese-request在lists.python.cn
> Detail Info:
> http://python.cn/mailman/listinfo/python-chinese
>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月31日 星期三 02:09

Fluke fluke.l在gmail.com
星期三 十月 31 02:09:40 HKT 2007

²»¹ÜÄãÓò»ÓÃdb, 2ÒÚµÄÊý¾Ý£¬¿Ï¶¨Òª×öË÷Òý¡£qq/msn/µç»°/×ÊÁÏ
ÕâÑùµÄÊý¾Ý£¬³ýÁËÏêϸ×ÊÁÏ£¬ÆäËûµÄ¶¼×ö¸öË÷Òý£¬»òÕßÊý×Ö£¬×Ö´®£¬»òÕßhash£¬²éÕÒÄÜÔÚO(log(2ÒÚ))ÄÚÍê³É£¬Ð¡¶ù¿Æ¡£×îºóµÄÏêϸ×ÊÁÏ£¬Òª²»ÒªÔÚÏßÏÂ×öϹؼü×ÖÌáÈ¡£¬ÏßÉÏÖ±½Ó²é±í--¾ÍÊǹؼü×Ö½á¹û»º´æµÄÒâ˼¡£

On 10/30/07, Hey Key <heykey4u在gmail.com> wrote:
>
> ÏÖÔÚ´óÔ¼ÓÐ2ÒÚ¶àÌõÊý¾Ý£¬³õ²½´òËãÓÃmysqlÀ´´æ´¢£¬Ïë×öÒ»¸öÍøÕ¾£¬¸ù¾ÝÓû§µÄ¹Ø¼ü×ÖÀ´ËÑË÷Êý¾Ý¿â£¬°ÑÓû§ÐèÒªµÄÊý¾ÝÈ«²¿ÏÔʾ³öÀ´¡£
> ÏÖÔÚÓÐÁ½¸öÎÊÌâÏò´ó¼ÒÇë½Ìһϣ¬
> 1¡¢ÓÃʲôÀ´ÊµÏÖ¿ÉÒÔÈÃÖ´ÐÐЧÂʾ¡¿ÉÄܵĸߣ¨ÕâÀïÏȲ»ÌÖÂÛÊý¾Ý·Ö²¼´æ´¢£¬¸ãºÃ¼¸¸ö·þÎñÆ÷µÈÎÊÌ⣩£¬ÓÃphp×ö»¹ÊÇÓÃpythonÀ´×ö£¬ÄĸöЧÂÊ»áºÃЩ
>
> 2¡¢ÔõôÄܹ»·ÀÖ¹ÎÒÕâЩÊý¾Ý±»¾ºÕù¶ÔÊֲɼ¯
>
> ±¾È˲ËÄñ£¬ÃèÊöµÄÎÊÌâÒ²Ðí²»¹»ÏêϸºÍ׼ȷ£¬»¹Çë¸ßÊÖ°ïæ³ö¸öÖ÷Ò⣬ÕâЩÎÊÌâʵÔÚºÜÀ§ÈÅÎÒ¡£
> ÏÈÔÚ´Ë°Ýл£¡
>
> _______________________________________________
> python-chinese
> Post: send python-chinese在lists.python.cn
> Subscribe: send subscribe to python-chinese-request在lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request在lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>



-- 
Yours,
  fluke
fluke在sfcube.net
http://blog.ospattern.net
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071031/ba9b4707/attachment.html 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月31日 星期三 10:07

Hey Key heykey4u在gmail.com
星期三 十月 31 10:07:04 HKT 2007

лл´ó¼ÒµÄÈÈÇé»Ø¸´£¬È·ÊµÈÃÎÒѧµ½Á˲»ÉÙ¶«Î÷£¬Èç¹ûÓÐʲôÎÊÌâÔÙÉÏÀ´ ºÍ´ó¼ÒÇë½Ì
re£ºÂí̤·ÉÑ࣬ÎÒ²»ÊÇ×öÊý¾Ý¿âÓªÏú

лл´ó¼Ò£¡Ì«¸ÐлÁË£¡
-------------- 下一部分 --------------
Ò»¸öHTML¸½¼þ±»ÒƳý...
URL: http://python.cn/pipermail/python-chinese/attachments/20071031/b392b495/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2007年10月31日 星期三 10:15

jack blackjacksg在gmail.com
星期三 十月 31 10:15:40 HKT 2007

数据库建议使用postgresql。
在07-10-31,Hey Key <heykey4u at gmail.com> 写道:
>
> 谢谢大家的热情回复,确实让我学到了不少东西,如果有什么问题再上来 和大家请教
> re:马踏飞燕,我不是做数据库营销
>
> 谢谢大家!太感谢了!
>
> _______________________________________________
> python-chinese
> Post: send python-chinese at lists.python.cn
> Subscribe: send subscribe to python-chinese-request at lists.python.cn
> Unsubscribe: send unsubscribe to  python-chinese-request at lists.python.cn
> Detail Info: http://python.cn/mailman/listinfo/python-chinese
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20071031/70a00bc3/attachment.htm 

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号