2012年01月22日 星期日 10:36
下面这段程序抓取google翻译的网页会返回一个403的错误 import urllib2 reg = urllib2.Request("http://"+raw_input(u"输入网址\n")) fd = urllib2.urlopen(reg) data = fd.read() print data 但是下面这段程序可以成功抓取网页内容 import urllib fd = urllib.urlopen("http://"+raw_input(u"输入网址\n")) data = fd.read() print data 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。 PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn" -- 项超 哈尔滨工业大学 计算机科学与技术系 邮箱:cloudaice在163.com gmail邮箱:cloudaice在gmail.com QQ:1214696737 -------------- 下一部分 -------------- 一个HTML附件被移除... URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/4d9dbb7f/attachment-0001.html>
2012年01月22日 星期日 10:58
useragent?抓包看 On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote: > 下面这段程序抓取google翻译的网页会返回一个403的错误 > import urllib2 > reg = urllib2.Request("http://"+raw_input(u"输入网址\n")) > fd = urllib2.urlopen(reg) > data = fd.read() > print data > 但是下面这段程序可以成功抓取网页内容 > import urllib > fd = urllib.urlopen("http://"+raw_input(u"输入网址\n")) > data = fd.read() > print data > 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。 > PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn" > -- > 项超 > 哈尔滨工业大学 > 计算机科学与技术系 > 邮箱:cloudaice at 163.com > gmail邮箱:cloudaice at gmail.com > QQ:1214696737 > > > -- Sent from Gmail Mobile -------------- next part -------------- An HTML attachment was scrubbed... URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/106bf492/attachment.html>
2012年01月22日 星期日 10:59
这是哲思不是cpyug On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote: > 下面这段程序抓取google翻译的网页会返回一个403的错误 > import urllib2 > reg = urllib2.Request("http://"+raw_input(u"输入网址\n")) > fd = urllib2.urlopen(reg) > data = fd.read() > print data > 但是下面这段程序可以成功抓取网页内容 > import urllib > fd = urllib.urlopen("http://"+raw_input(u"输入网址\n")) > data = fd.read() > print data > 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。 > PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn" > -- > 项超 > 哈尔滨工业大学 > 计算机科学与技术系 > 邮箱:cloudaice at 163.com > gmail邮箱:cloudaice at gmail.com > QQ:1214696737 > > > -- Sent from Gmail Mobile -------------- next part -------------- An HTML attachment was scrubbed... URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/133bb4f4/attachment.html>
2012年01月22日 星期日 14:25
这是哲思不是cpyug On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote: > 下面这段程序抓取google翻译的网页会返回一个403的错误 > import urllib2 > reg = urllib2.Request("http://"+raw_input(u"输入网址\n")) > fd = urllib2.urlopen(reg) > data = fd.read() > print data > 但是下面这段程序可以成功抓取网页内容 > import urllib > fd = urllib.urlopen("http://"+raw_input(u"输入网址\n")) > data = fd.read() > print data > 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。 > PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn" > -- > 项超 > 哈尔滨工业大学 > 计算机科学与技术系 > 邮箱:cloudaice at 163.com > gmail邮箱:cloudaice at gmail.com > QQ:1214696737 > > > -- Sent from Gmail Mobile -------------- next part -------------- An HTML attachment was scrubbed... URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/fe26d9f2/attachment.html>
Zeuux © 2024
京ICP备05028076号