Python 爬虫从入门到进阶之路(四)

   日期:2024-12-28    作者:yv2qx 移动:http://oml01z.riyuangf.com/mobile/quote/76396.html

之前的文章我们做了一个简单的例子爬取了百度首页的 html,我们用到的是 urlopen 来打开请求,它是一个特殊的opener(也就是模块帮我们构建好的)。但是基本的 urlopen() 方法不支持代理、cookie等其他的HTTP/HTTPS高级功能,所以我们需要用到 Python 的 opener 来自定义我们的请求内容。

Python 爬虫从入门到进阶之路(四)

具体步骤:

  1. 使用相关的  来创建特定功能的处理器对象;
  2. 然后通过 方法使用这些处理器对象,创建自定义opener对象;
  3. 使用自定义的opener对象,调用方法发送请求。

我们先来回顾一下使用 urlopen 获取百度首页的 html 代码实例:

接下来我们看一下使用 opener 的处理方式:

 

在上面的第一段代码中,我们是通过直接    来导入我们需要的包,这样当我们要使用时需要    来使用,第二段代码我们是通过    来导入我们需要的包,这样当我们使用时直接   来使用就可以了。

第一段代码在前面的文章中我们已经说过了,这里就不多做解释了。

第二段代码中,我们使用了 opener 的方法来处理我们的请求,这样我们就可以对代理,cookie 等做进一步的操作,后续文章会讲到。最终结果如下:

在   中,我们还可以添加一个   参数,会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作。

代码如下:

输出结果如下:

可以看出在响应结果的时候会为我们打印输出一些请求信息。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号