Python论坛  - 讨论区

标题:[python-chinese] Re: 问豆瓣几个问题:)

2005年06月09日 星期四 17:42

Bo Yang boyang at mac.com
Thu Jun 9 17:42:36 HKT 2005

1. 爬虫和用户自己提交的都有。爬虫建在twisted上。不紧张,你要我也没办法给,除非你来我们这工作 :)
2.  
豆瓣的原则是采用从图书扉页直接拷贝下来的那种图书简介,不用别的网站自己写的介绍和编辑推介。图书扉页简介(包括编号作者目录等等)属于公共信息,至 
少是出版商愿意分享的。另外,因为提供了购买链接,豆瓣和网上书店之间是合作伙伴关系。
3. 见我这篇blog: http://blog.douban.com/douban/2005/06/06/24/
4. mysql

顺便提一下,豆瓣跑在gentoo linux 上,而且很早就自做主张把python的东西全部升到2.4. :)  
我从内核0.97版的时候就开始用linux,gentoo是我最喜欢的linux dist。

还有针对豆瓣的问题的话请单独给我email, 或者欢迎在豆瓣的python小组讨论,不要在这里打搅大家了。

- 阿北
(http://blog.douban.com)

Begin forwarded message:

> From: 清风 <paradise.qingfeng at gmail.com>
> Date: June 9, 2005 4:55:37 PM CTT
> To: python-chinese at lists.python.cn
> Subject: [python-chinese] 问豆瓣几个问题:)
> Reply-To: 清风 <paradise.qingfeng at gmail.com>,  
> python-chinese at lists.python.cn
>
> 1.你们的数据来源?自己写了爬虫程序去其他网站爬?别紧张,不要代码,只是问一下:)
> 2.图书的简介的爬取是否有版权问题?最近要帮别人做一爬虫,不知是否有版权问题
> 3.tag的处理完全是平级而没有纵深是吗?那对于分类是否完全用关键字分析来做?
> 4.数据库用的是什么?纯属好奇:)
>
> -- 
> Blog:http://www.donews.net/changzheng
> _______________________________________________
> python-chinese list
> python-chinese at lists.python.cn
> http://python.cn/mailman/listinfo/python-chinese
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: text/enriched
Size: 2465 bytes
Desc: not available
Url : http://lists.exoweb.net/pipermail/python-chinese/attachments/20050609/30dc7a9f/attachment.bin

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年06月09日 星期四 18:09

baoyongjun byj at net.pku.edu.cn
Thu Jun 9 18:09:06 HKT 2005

我们实验室是做信息检索这一块的, 
www.mytianwang.cn是我们实验室的ftp文件搜索引擎.里面的资源的介绍也是从网上爬下来的.文件搜索这一块马上就要停了,里面的源代码还有些价值吧,
如果需要源代码的,我可以提供,C++写的.


在 2005-06-09 四 的 17:42, Bo Yang 写道:
> 1.
> STHeiti爬虫和用户自己提交的都有。爬虫建在twisted上。不紧张,你要我也没办法给,除非你来我们这工作
> :)
> 
> 2.
> 豆瓣的原则是采用从图书扉页直接拷贝下来的那种图书简介,不用别的网站自己写的介绍和编辑推介。图书扉页简介(包括编号作者目录等等)属于公共信息,至少是出版商愿意分享的。另外,因为提供了购买链接,豆瓣和网上书店之间是合作伙伴关系。
> 
> 3. 见我这篇blog: http://blog.douban.com/douban/2005/06/06/24/
> 
> 4. mysql 
> 
> 
> 顺便提一下,豆瓣跑在gentoo linux 上,而且很早就自做主张把python的东西全部升到2.4. :)
> 我从内核0.97版的时候就开始用linux,gentoo是我最喜欢的linux dist。
> 
> 
> 还有针对豆瓣的问题的话请单独给我email, 或者欢迎在豆瓣的python小组讨论,不要在这里打搅大家了。
> 
> 
> - 阿北
> 
> (http://blog.douban.com)
> 
> 
> Begin forwarded message:
> 
> 
> 0000,0000,0000From:
> STHeiti清风
> <<paradise.qingfeng at gmail.com>
> 
> 0000,0000,0000Date: June 9,
> 2005 4:55:37 PM CTT
> 
> 0000,0000,0000To:
> python-chinese at lists.python.cn
> 
> 0000,0000,0000Subject:
> [python-chinese]
> STHeiti问豆瓣几个问题:)
> 
> 0000,0000,0000Reply-To:
> STHeiti清风
> <<paradise.qingfeng at gmail.com>, python-chinese at lists.python.cn
> 
> 
> 1.STHeiti你们的数据来源?自己写了爬虫程序去其他网站爬?别紧张,不要代码,只是问一下:)
> 
> 2.STHeiti图书的简介的爬取是否有版权问题?最近要帮别人做一爬虫,不知是否有版权问题
> 
> 3.tagSTHeiti的处理完全是平级而没有纵深是吗?那对于分类是否完全用关键字分析来做?
> 
> 4.STHeiti数据库用的是什么?纯属好奇:)
-- 


[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

2005年06月09日 星期四 18:33

Zoom Quiet zoom.quiet at gmail.com
Thu Jun 9 18:33:38 HKT 2005

嗯嗯!!
豆瓣是一个使用Python 轻量级 Web workplatform 的最佳体验实例!!

值得好好学习的!
豆瓣本身的讨论组比较简单,建议由豆瓣
创建一个gourp 大家都加入讨论,并永远记录在案是也乎!

2005/6/9, Bo Yang <boyang at mac.com>:
> 1. 爬虫和用户自己提交的都有。爬虫建在twisted上。不紧张,你要我也没办法给,除非你来我们这工作 :)
> 2.
> 豆瓣的原则是采用从图书扉页直接拷贝下来的那种图书简介,不用别的网站自己写的介绍和编辑推介。图书扉页简介(包括编号作者目录等等)属于公共信息,至
> 少是出版商愿意分享的。另外,因为提供了购买链接,豆瓣和网上书店之间是合作伙伴关系。
> 3. 见我这篇blog: http://blog.douban.com/douban/2005/06/06/24/
> 4. mysql
> 
> 顺便提一下,豆瓣跑在gentoo linux 上,而且很早就自做主张把python的东西全部升到2.4. :)
> 我从内核0.97版的时候就开始用linux,gentoo是我最喜欢的linux dist。
> 
> 还有针对豆瓣的问题的话请单独给我email, 或者欢迎在豆瓣的python小组讨论,不要在这里打搅大家了。
> 
> - 阿北
> (http://blog.douban.com)
> 
> Begin forwarded message:
> 
> > From: 清风 <paradise.qingfeng at gmail.com>
> > Date: June 9, 2005 4:55:37 PM CTT
> > To: python-chinese at lists.python.cn
> > Subject: [python-chinese] 问豆瓣几个问题:)
> > Reply-To: 清风 <paradise.qingfeng at gmail.com>,
> > python-chinese at lists.python.cn
> >
> > 1.你们的数据来源?自己写了爬虫程序去其他网站爬?别紧张,不要代码,只是问一下:)
> > 2.图书的简介的爬取是否有版权问题?最近要帮别人做一爬虫,不知是否有版权问题
> > 3.tag的处理完全是平级而没有纵深是吗?那对于分类是否完全用关键字分析来做?
> > 4.数据库用的是什么?纯属好奇:)
> >
> > --
> > Blog:http://www.donews.net/changzheng
> > _______________________________________________
> > python-chinese list
> > python-chinese at lists.python.cn
> > http://python.cn/mailman/listinfo/python-chinese
> 
> _______________________________________________
> python-chinese list
> python-chinese at lists.python.cn
> http://python.cn/mailman/listinfo/python-chinese
> 
> 
> 


-- 
[Time is unimportant, only life important!]

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-python]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2025

    京ICP备05028076号