分享好友 最新动态首页 最新动态分类 切换频道
图解爬虫,用几个最简单的例子带你入门Python爬虫
2024-12-28 18:00

爬虫一直是Python的一大应用场景,差不多每门语言都可以写爬虫,但是程序员们却独爱Python。之所以偏爱Python就是因为她简洁的语法,我们使用Python可以很简单的写出一个爬虫程序。本篇博客将以Python语言,用几个非常简单的例子带大家入门Python爬虫。

点此免费领取CSDN大礼包:《python学习路线&全套学习资料》免费分享

如果把我们的因特网比作一张复杂的蜘蛛网的话,那我们的爬虫就是一个蜘,我们可以让这个蜘蛛在网上任意爬行,在网中寻找对我们有价值的“猎物”。

  1. 向服务器发送网络请求
  2. 浏览器接收并处理你的请求
  3. 浏览器返回你需要的数据
  4. 浏览器解析数据,并以网页的形式展现出来

我们可以将上面的过程类比我们的日常购物

  1. 和老板说我要杯珍珠奶茶
  2. 老板在店里看看有没有你要的东西
  3. 老板拿出做奶茶的材料
  4. 老板将材料做成奶茶并给你

简单的爬虫就是单纯的网络请求,也可以对请求的数据进行一些简单的处理。Python提供了原生的网络请求模块urllib,还有封装版的requests模块。相比直线requests要更加方便好用,所以本文使用requests进行网络请求。

 

下面我们看看爬取的网站打开是什么样子的

这就是我们熟悉的百度页面,上面看起来还是比较完整的。我们再以其它网站为例,可以就是不同的效果了,我们以CSDN为例

首先我们需要明确一点,在爬取一些简单的网页时,我们爬取图片或者视频就是匹配出网页中包含的url信息,也就是我们说的网址。然后我们通过这个具体的url进行图片的下载,这样就完成了图片的爬取。我们有如下url:img-blog.csdnimg.cn/20200516143…,我们将这个图片url来演示下载图片的代码

 

可以看到,代码和上面网页爬取是一样的,只是打开的文件后缀为jpg。实际上图片、视频、音频这种文件用二进制写入的方式比较恰当,而对应html代码这种文本信息,我们通常直接获取它的文本,获取方式为,在我们获取文本后就可以匹配其中的图片url了。我们以下列topit.pro为例

 

上面我们就完成了一个网站的爬取。在匹配时我们用到了正则表达式,因为正则的内容比较多,在这里就不展开了,有兴趣的读者可以自己去了解一下,这里只说一个简单的。Python使用正则是通过re模块实现的,可以调用匹配文本中所有符合要求的字符串。该函数传入两个参数,第一个为正则表达式,第二个为要匹配的字符串,对正则不了解的话只需要知道我们使用该正则可以将图片中的src内容拿出来。

BeautifulSoup是一个用来分析XML文件和HTML文件的模块,我们前面使用正则表达式进行模式匹配,但自己写正则表达式是一个比较繁琐的过程,而且容易出错。如果我们把解析工作交给BeautifulSoup会大大减少我们的工作量,在使用之前我们先安装。

我们直接使用pip安装

 

模块的导入如下

 

下面我们就来看看BeautifulSoup的使用,我们用下面HTML文件测试

 

上面是一个非常简答的html页面,body内包含了8个img标签,现在我们需要获取它们的src,代码如下

 

解析结果如下

 

正好就是我们需要的内容。

 

输出结果如下

 

我们只爬取一个就好了,我们进入第一个网址查看源码,发现了这么一句

 

其中srcUrl就包含了视频文件的网站,但是我们肯定不能自己一个网页一个网页自己找,我们可以使用正则表达式

 

结果如下

 

然后我们就可以下载这个视频了

 

完整代码如下


最新文章
餐饮探店又现新玩法,大明星集体涌入餐饮小店
明星,争当起了普通食客的“饭搭子”。本文由红餐网(ID:hongcan18)原创首发,作者:麦泳宜;编辑:李唐。当前,越来越多明星正涌入短视频探店赛道,记录在全国各地街头巷尾小店的就餐视频,为当地美食打Call。明星光环加持下,不少粉丝
最新控制类神兽如何培养?一文拿捏超级白泽玩法!梦幻西游三维版
最近新出的【超级白泽】作为法攻神兽,拥有专属天赋技能【言灵·禁】,控制效果和强度双双爆表!那么到底要培养输出型白泽还是辅助型白泽?打书该如何搭配?皮皮剑特意邀请兜卦少侠和GuanYin音音少侠为大家带来【超级白泽】的培养攻略,一
百度系高管,涌向谷歌微软亚马逊
北京时间12月12日,据雷峰网报道,亚马逊云(AWS)中国区进行了新一轮的人事调整。此次调整主要包括:1、AWS负责人储瑞松原百度下属王博全面负责China Tech业务,直接向储汇报。此前该部分业务由L8(大概可以对标M3B或者M3C)高管代闻管理
进一步部署 Google Authenticator:Apache 模块
Google Authenticator 是个好东西。它不仅可以增强 Google 账户登录的安全性,更因为它开源的特性,被部署到别的地方使用。比如 Linux PAM、WordPress 等,使用户可以借助 Google 的这套 OTP 方案,增强自己的
大量404页面该如何处理,以优化谷歌SEO?
在网站运营的过程中,我们时常会遇到大量404页面的问题,这些页面不仅影响用户体验,还可能对谷歌SEO产生负面影响。作为一名在SEO领域摸爬滚打多年的从业者,我深知处理这些404页面的重要性,也积累了一些实战经验。今天,我将分享一些关于
手机CPU天梯图2024年8月版更新,你的手机排名高吗?
① 由于厂商、测试环境及CPU、GPU、AI、功耗等侧重点存在差异,排名可能会存在一定的差异。天梯图仅供大致参考,不作严格排名比对。② 若您在天梯图中发现有型号遗漏或明显的排名错误,欢迎留言指正。我们一起来完善。③ 天梯图精简版中标
pdf页码怎么自动生成?pdf页码生成方式!
pdf页码怎么自动生成?pdf文档里没有页码,想要给pdf文档加上页码怎么办?当收到一个pdf文档页数太长了,或者出于正式文档要求,必须给pdf文档加上页码,遇到这些情况,我们该怎么办呢?有的朋友,会在文档每一页下方编辑数字来给pdf打上页码
保定SEO优化,高效提升网站流量,助力企业快速腾飞
保定SEO优化服务,专注于提升网站在搜索引擎中的排名,有效增加网站流量,为企业发展注入强劲动力,助力企业快速腾飞。在当今这个的时代,互联网已经成为了人们获取、购物、娱乐的重要渠道,而在这个庞大的网络世界中,企业要想脱颖而出,
探索游戏世界,单机游戏资源大揭秘
亲爱的游戏爱好者们,你是否曾为寻找那些令人心动的单机游戏资源而感到迷茫?我们就来一起探索一下如何轻松找到那些令人欲罢不能的单机游戏资源。一、明确你的游戏喜好在开始寻找之前,要明确自己的游戏喜好,是喜欢动作冒险类、策略类、还
【W708百度网盘下载】网尔W708百度网盘12.18.3免费下载
百度网盘是一款省心、好用的超级云存储产品,已为超过7亿用户提供云服务,空间超大,支持多类型文件的备份、分享、查看和处理,自建多个数据存储中心,更有两项国际安全认证ISO27001&ISO27018为用户数据安全提供护航,如果您想备份文件数
相关文章
推荐文章
发表评论
0评