2005年06月09日 星期四 17:42
1. 爬虫和用户自己提交的都有。爬虫建在twisted上。不紧张,你要我也没办法给,除非你来我们这工作 :) 2. 豆瓣的原则是采用从图书扉页直接拷贝下来的那种图书简介,不用别的网站自己写的介绍和编辑推介。图书扉页简介(包括编号作者目录等等)属于公共信息,至 少是出版商愿意分享的。另外,因为提供了购买链接,豆瓣和网上书店之间是合作伙伴关系。 3. 见我这篇blog: http://blog.douban.com/douban/2005/06/06/24/ 4. mysql 顺便提一下,豆瓣跑在gentoo linux 上,而且很早就自做主张把python的东西全部升到2.4. :) 我从内核0.97版的时候就开始用linux,gentoo是我最喜欢的linux dist。 还有针对豆瓣的问题的话请单独给我email, 或者欢迎在豆瓣的python小组讨论,不要在这里打搅大家了。 - 阿北 (http://blog.douban.com) Begin forwarded message: > From: 清风 <paradise.qingfeng at gmail.com> > Date: June 9, 2005 4:55:37 PM CTT > To: python-chinese at lists.python.cn > Subject: [python-chinese] 问豆瓣几个问题:) > Reply-To: 清风 <paradise.qingfeng at gmail.com>, > python-chinese at lists.python.cn > > 1.你们的数据来源?自己写了爬虫程序去其他网站爬?别紧张,不要代码,只是问一下:) > 2.图书的简介的爬取是否有版权问题?最近要帮别人做一爬虫,不知是否有版权问题 > 3.tag的处理完全是平级而没有纵深是吗?那对于分类是否完全用关键字分析来做? > 4.数据库用的是什么?纯属好奇:) > > -- > Blog:http://www.donews.net/changzheng > _______________________________________________ > python-chinese list > python-chinese at lists.python.cn > http://python.cn/mailman/listinfo/python-chinese -------------- next part -------------- A non-text attachment was scrubbed... Name: not available Type: text/enriched Size: 2465 bytes Desc: not available Url : http://lists.exoweb.net/pipermail/python-chinese/attachments/20050609/30dc7a9f/attachment.bin
2005年06月09日 星期四 18:09
我们实验室是做信息检索这一块的, www.mytianwang.cn是我们实验室的ftp文件搜索引擎.里面的资源的介绍也是从网上爬下来的.文件搜索这一块马上就要停了,里面的源代码还有些价值吧, 如果需要源代码的,我可以提供,C++写的. 在 2005-06-09 四 的 17:42, Bo Yang 写道: > 1. >STHeiti爬虫和用户自己提交的都有。爬虫建在twisted上。不紧张,你要我也没办法给,除非你来我们这工作 > :) > > 2. > 豆瓣的原则是采用从图书扉页直接拷贝下来的那种图书简介,不用别的网站自己写的介绍和编辑推介。图书扉页简介(包括编号作者目录等等)属于公共信息,至少是出版商愿意分享的。另外,因为提供了购买链接,豆瓣和网上书店之间是合作伙伴关系。 > > 3. 见我这篇blog: http://blog.douban.com/douban/2005/06/06/24/ > > 4. mysql > > > 顺便提一下,豆瓣跑在gentoo linux 上,而且很早就自做主张把python的东西全部升到2.4. :) > 我从内核0.97版的时候就开始用linux,gentoo是我最喜欢的linux dist。 > > > 还有针对豆瓣的问题的话请单独给我email, 或者欢迎在豆瓣的python小组讨论,不要在这里打搅大家了。 > > > - 阿北 > > (http://blog.douban.com) > > > Begin forwarded message: > > >> 0000,0000,0000From: STHeiti清风 > <<paradise.qingfeng at gmail.com> > >June 9, > 2005 4:55:37 PM CTT > > 0000,0000,0000Date: > python-chinese at lists.python.cn > > 0000,0000,0000To: > [python-chinese] > 0000,0000,0000Subject: STHeiti问豆瓣几个问题 :) > >0000,0000,0000Reply-To: >STHeiti清风 > <<paradise.qingfeng at gmail.com>, python-chinese at lists.python.cn > > > 1.STHeiti你们的数据来源?自己写了爬虫程序去其他网站爬?别紧张,不要代码,只是问一下 :) > > 2.STHeiti图书的简介的爬取是否有版权问题?最近要帮别人做一爬虫,不知是否有版权问题 > > 3.tagSTHeiti的处理完全是平级而没有纵深是吗?那对于分类是否完全用关键字分析来做? > > 4.STHeiti数据库用的是什么?纯属好奇 :) --
2005年06月09日 星期四 18:33
嗯嗯!! 豆瓣是一个使用Python 轻量级 Web workplatform 的最佳体验实例!! 值得好好学习的! 豆瓣本身的讨论组比较简单,建议由豆瓣 创建一个gourp 大家都加入讨论,并永远记录在案是也乎! 2005/6/9, Bo Yang <boyang at mac.com>: > 1. 爬虫和用户自己提交的都有。爬虫建在twisted上。不紧张,你要我也没办法给,除非你来我们这工作 :) > 2. > 豆瓣的原则是采用从图书扉页直接拷贝下来的那种图书简介,不用别的网站自己写的介绍和编辑推介。图书扉页简介(包括编号作者目录等等)属于公共信息,至 > 少是出版商愿意分享的。另外,因为提供了购买链接,豆瓣和网上书店之间是合作伙伴关系。 > 3. 见我这篇blog: http://blog.douban.com/douban/2005/06/06/24/ > 4. mysql > > 顺便提一下,豆瓣跑在gentoo linux 上,而且很早就自做主张把python的东西全部升到2.4. :) > 我从内核0.97版的时候就开始用linux,gentoo是我最喜欢的linux dist。 > > 还有针对豆瓣的问题的话请单独给我email, 或者欢迎在豆瓣的python小组讨论,不要在这里打搅大家了。 > > - 阿北 > (http://blog.douban.com) > > Begin forwarded message: > > > From: 清风 <paradise.qingfeng at gmail.com> > > Date: June 9, 2005 4:55:37 PM CTT > > To: python-chinese at lists.python.cn > > Subject: [python-chinese] 问豆瓣几个问题:) > > Reply-To: 清风 <paradise.qingfeng at gmail.com>, > > python-chinese at lists.python.cn > > > > 1.你们的数据来源?自己写了爬虫程序去其他网站爬?别紧张,不要代码,只是问一下:) > > 2.图书的简介的爬取是否有版权问题?最近要帮别人做一爬虫,不知是否有版权问题 > > 3.tag的处理完全是平级而没有纵深是吗?那对于分类是否完全用关键字分析来做? > > 4.数据库用的是什么?纯属好奇:) > > > > -- > > Blog:http://www.donews.net/changzheng > > _______________________________________________ > > python-chinese list > > python-chinese at lists.python.cn > > http://python.cn/mailman/listinfo/python-chinese > > _______________________________________________ > python-chinese list > python-chinese at lists.python.cn > http://python.cn/mailman/listinfo/python-chinese > > > -- [Time is unimportant, only life important!]
Zeuux © 2025
京ICP备05028076号