哲思官方群的帖子：

哲思官方群认证群组 - 讨论区

标题：[zeuux-universe] urllib2和urllib1

楼主 2012年01月22日星期日 10:36

项超 cloudaice在163.com
星期日一月 22 10:36:15 CST 2012

下面这段程序抓取google翻译的网页会返回一个403的错误
import urllib2
reg = urllib2.Request("http://"+raw_input(u"输入网址\n"))
fd = urllib2.urlopen(reg)
data = fd.read()
print data
但是下面这段程序可以成功抓取网页内容
import urllib
fd = urllib.urlopen("http://"+raw_input(u"输入网址\n"))
data = fd.read()
print data


为什么会出现这样的情况？我想知道这里面具体实现方式到哪里可以查到啊，现在只会按照书上说的依样画葫芦，出现问题了就不知道怎么回事了。
PS：两个程序都是在提示符"输入网址"后输入"translate.google.cn"

--

项超
哈尔滨工业大学
计算机科学与技术系
邮箱：cloudaice在163.com
gmail邮箱：cloudaice在gmail.com
QQ：1214696737
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/4d9dbb7f/attachment-0001.html>

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-universe]

张涤凡

0楼 2012年01月22日星期日 10:58

Alex Zhang cheungtifan在gmail.com
星期日一月 22 10:58:55 CST 2012

useragent？抓包看

On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote:
> 下面这段程序抓取google翻译的网页会返回一个403的错误
> import urllib2
> reg = urllib2.Request("http://"+raw_input(u"输入网址\n"))
> fd = urllib2.urlopen(reg)
> data = fd.read()
> print data
> 但是下面这段程序可以成功抓取网页内容
> import urllib
> fd = urllib.urlopen("http://"+raw_input(u"输入网址\n"))
> data = fd.read()
> print data
> 为什么会出现这样的情况？我想知道这里面具体实现方式到哪里可以查到啊，现在只会按照书上说的依样画葫芦，出现问题了就不知道怎么回事了。
> PS：两个程序都是在提示符"输入网址"后输入"translate.google.cn"
> --
> 项超
> 哈尔滨工业大学
> 计算机科学与技术系
> 邮箱：cloudaice at 163.com
> gmail邮箱：cloudaice at gmail.com
> QQ：1214696737
>
>
>

-- 
Sent from Gmail Mobile
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/106bf492/attachment.html>

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-universe]

张涤凡

0楼 2012年01月22日星期日 10:59

Alex Zhang cheungtifan在gmail.com
星期日一月 22 10:59:22 CST 2012

这是哲思不是cpyug

On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote:
> 下面这段程序抓取google翻译的网页会返回一个403的错误
> import urllib2
> reg = urllib2.Request("http://"+raw_input(u"输入网址\n"))
> fd = urllib2.urlopen(reg)
> data = fd.read()
> print data
> 但是下面这段程序可以成功抓取网页内容
> import urllib
> fd = urllib.urlopen("http://"+raw_input(u"输入网址\n"))
> data = fd.read()
> print data
> 为什么会出现这样的情况？我想知道这里面具体实现方式到哪里可以查到啊，现在只会按照书上说的依样画葫芦，出现问题了就不知道怎么回事了。
> PS：两个程序都是在提示符"输入网址"后输入"translate.google.cn"
> --
> 项超
> 哈尔滨工业大学
> 计算机科学与技术系
> 邮箱：cloudaice at 163.com
> gmail邮箱：cloudaice at gmail.com
> QQ：1214696737
>
>
>

-- 
Sent from Gmail Mobile
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/133bb4f4/attachment.html>

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-universe]

张涤凡

0楼 2012年01月22日星期日 14:25

Alex Zhang cheungtifan在gmail.com
星期日一月 22 14:25:20 CST 2012

这是哲思不是cpyug

On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote:
> 下面这段程序抓取google翻译的网页会返回一个403的错误
> import urllib2
> reg = urllib2.Request("http://"+raw_input(u"输入网址\n"))
> fd = urllib2.urlopen(reg)
> data = fd.read()
> print data
> 但是下面这段程序可以成功抓取网页内容
> import urllib
> fd = urllib.urlopen("http://"+raw_input(u"输入网址\n"))
> data = fd.read()
> print data
> 为什么会出现这样的情况？我想知道这里面具体实现方式到哪里可以查到啊，现在只会按照书上说的依样画葫芦，出现问题了就不知道怎么回事了。
> PS：两个程序都是在提示符"输入网址"后输入"translate.google.cn"
> --
> 项超
> 哈尔滨工业大学
> 计算机科学与技术系
> 邮箱：cloudaice at 163.com
> gmail邮箱：cloudaice at gmail.com
> QQ：1214696737
>
>
>

-- 
Sent from Gmail Mobile
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/fe26d9f2/attachment.html>

[导入自Mailman归档：http://www.zeuux.org/pipermail/zeuux-universe]

请登录后回复。还没有在Zeuux哲思注册吗？现在注册！