前面我们已经讲了header是什么以及怎样用代码伪装header,现在来看看修改后的代码并看看运行结果#!/usr/bin/env python额......又出错了,W T F,妈蛋。爬虫太难写了我要去玩LOL ...... ...... ...... 好了,大家好,我是217小月月坑,我又回来了 先来看看错误提示 TypeError: must be string or buffer, not dict 类型错误:必须是字符串或缓冲数据,不能是字典 好的这又是一种错误类型,这种类型就叫"即使给了你错误信息也很难判断是什么错误" 关于对这种类型的错误我现在还找不出行之有效的方法,我是在百度的时候无意中看到,然后试了一下才成功的。 其实这个错误的原因是,urllib2.Request 中有很多个参数,如果你按照函数原型中的参数一一对应的传入值的话,程序就会自动识别你输入的参数,就比如: 你先定义了url、data、 headers、 origin_req_host、 unverifiable 并赋给他们相应的值,然后依次传入就像这样: urllib2.Request(url, data, headers, origin_req_host, unverifiable)因为你是严格按照函数原型里面的参数来写的,参数的个数和顺序都是和函数原型一一对应的,所以程序可以识别这些参数,程序的运行不会报错,但是,你要是给参数换一下位置, urllib2.Request(url, headers, data, origin_req_host, unverifiable)这样就会报错,第二个参数本来是data参数的,他有自己的数据类型,而现在传入的headers参数的数据类型跟data的不一样,程序运行就会出错 像现在这样,我们只写入两个参数,而且还不是第一个和第二个参数,程序就不能够识别得到你传入的参数对应的是哪一个,现在报的错误是TypeError,是因为程序将headers当成是传给data这个参数的值,所以会报类型错误 解决的方法是:在传入时指明你传入的是哪一个参数的值 request = urllib2.Request(url,headers=headers) 如果按照上面的步骤来的话,你的程序看起来应该是这样子的: #!/usr/bin/env python |
|