zeuux-universe  - 讨论区

标题:[zeuux-universe] urllib2和urllib1

2012年01月22日 星期日 10:36

项超 cloudaice在163.com
星期日 一月 22 10:36:15 CST 2012

下面这段程序抓取google翻译的网页会返回一个403的错误
import urllib2
reg = urllib2.Request("http://"+raw_input(u"输入网址\n"))
fd = urllib2.urlopen(reg)
data = fd.read()
print data
但是下面这段程序可以成功抓取网页内容
import urllib
fd = urllib.urlopen("http://"+raw_input(u"输入网址\n"))
data = fd.read()
print data


为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。
PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn"

--

项超
哈尔滨工业大学
计算机科学与技术系
邮箱:cloudaice在163.com
gmail邮箱:cloudaice在gmail.com
QQ:1214696737
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/4d9dbb7f/attachment-0001.html>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2012年01月22日 星期日 10:58

Alex Zhang cheungtifan在gmail.com
星期日 一月 22 10:58:55 CST 2012

useragent?抓包看

On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote:
> 下面这段程序抓取google翻译的网页会返回一个403的错误
> import urllib2
> reg = urllib2.Request("http://"+raw_input(u"输入网址\n"))
> fd = urllib2.urlopen(reg)
> data = fd.read()
> print data
> 但是下面这段程序可以成功抓取网页内容
> import urllib
> fd = urllib.urlopen("http://"+raw_input(u"输入网址\n"))
> data = fd.read()
> print data
> 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。
> PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn"
> --
> 项超
> 哈尔滨工业大学
> 计算机科学与技术系
> 邮箱:cloudaice at 163.com
> gmail邮箱:cloudaice at gmail.com
> QQ:1214696737
>
>
>

-- 
Sent from Gmail Mobile
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/106bf492/attachment.html>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2012年01月22日 星期日 10:59

Alex Zhang cheungtifan在gmail.com
星期日 一月 22 10:59:22 CST 2012

这是哲思不是cpyug

On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote:
> 下面这段程序抓取google翻译的网页会返回一个403的错误
> import urllib2
> reg = urllib2.Request("http://"+raw_input(u"输入网址\n"))
> fd = urllib2.urlopen(reg)
> data = fd.read()
> print data
> 但是下面这段程序可以成功抓取网页内容
> import urllib
> fd = urllib.urlopen("http://"+raw_input(u"输入网址\n"))
> data = fd.read()
> print data
> 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。
> PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn"
> --
> 项超
> 哈尔滨工业大学
> 计算机科学与技术系
> 邮箱:cloudaice at 163.com
> gmail邮箱:cloudaice at gmail.com
> QQ:1214696737
>
>
>

-- 
Sent from Gmail Mobile
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/133bb4f4/attachment.html>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

2012年01月22日 星期日 14:25

Alex Zhang cheungtifan在gmail.com
星期日 一月 22 14:25:20 CST 2012

这是哲思不是cpyug

On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote:
> 下面这段程序抓取google翻译的网页会返回一个403的错误
> import urllib2
> reg = urllib2.Request("http://"+raw_input(u"输入网址\n"))
> fd = urllib2.urlopen(reg)
> data = fd.read()
> print data
> 但是下面这段程序可以成功抓取网页内容
> import urllib
> fd = urllib.urlopen("http://"+raw_input(u"输入网址\n"))
> data = fd.read()
> print data
> 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。
> PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn"
> --
> 项超
> 哈尔滨工业大学
> 计算机科学与技术系
> 邮箱:cloudaice at 163.com
> gmail邮箱:cloudaice at gmail.com
> QQ:1214696737
>
>
>

-- 
Sent from Gmail Mobile
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/fe26d9f2/attachment.html>

[导入自Mailman归档:http://www.zeuux.org/pipermail/zeuux-universe]

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号