分享好友 最新动态首页 最新动态分类 切换频道
小白也能学会的Python爬虫通用公式,带你轻松入门Python爬虫!_爬虫python公式
2024-12-25 12:09

最后

🍅 硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
🍅 面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。

小白也能学会的Python爬虫通用公式,带你轻松入门Python爬虫!_爬虫python公式

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导,让我们一起学习成长

1、导入需要用到的库
2、确定URL和请求头
3、编写获取数据的函数
4、调用函数

接下来,我们逐个进行讲解。

一、导入需要用到的库

在这个通用公式里,我们要用到的库只有两个,一个是requests,另一个就是lxml里的etree,并且在通用公式中,第一个步骤的代码不需要进行任何改动,具体代码如下

 

二、确定URL和请求头

url就是我们想要爬取的网站的链接,而请求头是从网站上的源代码处复制过来的,具体方法如下

以虎扑网为例,代码如下

 

三、编写获取数据的函数

首先我们要定义一个函数,因为都是实现获取数据的功能,所以我们将其命名为get_data,然后将设置好的headers传入,目的是为了防止反爬。encoding对应的是编码方式,这是为了防止获取到的网页内容乱码而设置的。

紧接着我们就是要设置selector选择器,然后通过xpath方法来获取内容对应的xpath路径。 xpath路径具体获取方法为 右键点击网页任意空白处,选择检查。然后在弹出的窗口中,点击左上角的箭头符号,将箭头移动到你想要获取的数据位置,点击定位一下,然后再回到网页源代码处,点击右键,选择copy,再选择copy xpath,然后再将复制好的路径粘贴到我们编写的代码中。

具体实现代码如下

 

四、调用函数

函数定义好之后,我们就需要调用它,调用的方法就是将定义好的函数名称复写一遍,然后再将url传入即可。也可理解为这是在给整个代码设置一个开关,只有有了这一个开关,运行代码时程序才能跑起来。
具体代码如下

 

五、完整通用公式

学到此处,我们已经学会了python爬虫通用公式的所有步骤啦,将这些步骤的的代码放到一起,我们就可以得到爬虫通用公式的完整代码啦。

 

运行这个代码,我们就得到了网页中的数据。

六、其他案例分享

但是此刻肯定有很多小伙伴想问,那我想要获取别的网站的数据时该如何修改代码呢?其实使用通用公式来获取别的网站数据时,我们只需要修改两个地方。

1、将步骤二中的url地址改成你想爬取的对应网站地址
2、将步骤三中content对应的xpath路径修改为对应的数据路径(按照我教的方法重新复制一下即可哦

那接下来我就带着大家用两个案例检验一下吧。

案例一:获取网易新闻的网站数据

网易新闻网址

 
 

网易新闻标题内容对应的复制出来的xpath路径

 

那么我们需要修改的两处代码如下

 

因为想要获取标题的文本内容,所以我们在网页中复制的xpath路径后,加上/text(),即

 

完整代码如下

 

运行结果如下

案例二:获取新浪新闻的网站数据

新浪新闻网址

 

新浪新闻标题内容对应的复制出来的xpath路径

 

那么我们需要修改的两处代码如下

 

因为想要获取标题对应的链接内容,而链接内容在标题a标签对应的href属性中,所以我们在网页中复制的xpath路径后,加上/@href,即

最新文章
2025(金牛实验中学招生)金牛实验中学是公立还是私立,
四川初升高升学网小编整理了金牛中学实验班人数,可以点击学校名称查看金牛中学其他相关信息,各位考生也可在我们网站留言板留言或者咨询在线客服。理了学校的其他相关信息,供大家查看参考,有最新资讯我们会第一时间更新,更多最新信息请
2024年辽宁甲级监理公司合作加盟办理分公司的流程+2024top5甲级监理公司合作加盟实力排行榜
2024年辽宁甲级监理公司合作加盟办理分公司的流程+2024top5甲级监理公司合作加盟实力排行榜
AI绘图新风潮:一键生成超逼真美女写真,你试过吗?
在这个数字化迅速发展的时代,对美的追求变得前所未有的轻松。许多人可能有这样的疑问,现在的科技究竟能在多大程度上满足我们对美的渴望?想要拥有一张超逼真的美女写真,可不仅仅是摄影师的工作,也许,一个AI工具就能轻松实现这一梦想。
2024-2029年中国香氛香薰行业深度调研与投资战略规划分析报告
权威数据来源一手调研资料调研方法直接观察法(实地走访、网络观察)访谈调查法(个别面访、集体面访、电话访谈、视频访谈、小组座谈)问券调查法(在线问券、电子邮件问券、入户分发等)会议调查法(参加博览会、展览会、高峰论坛、研修会
iPhone SE 4��������ǰ��������ͷ������LG������֧��Face ID��
���ڣ��й�ƻ��iPhone SEϵ����Ʒ����Ϣ�ٴ�����ҵ���ע���ݹ�����͸¶�������ڴ���iPhone SE 4Ԥ�ƽ��������ϰ����
100 种流氓软件进入窗口:深度揭秘其入侵方式与危害
在当今数字化的时代,我们享受着互联网带来的便捷和丰富资源,但与此也面临着各种网络安全威胁,其中流氓软件的入侵无疑是一大隐患。流氓软件以其隐蔽、多样的入侵方式,给用户的设备和个人信息安全带来了严重的危害。流氓软件的入侵方式可
ai图标制作详细步骤,ai软件图标制作教程
1.创建新文档并设置网格Ctrl-N创建新文档,如图设置。2.创建主形状步骤1选择矩形工具(M)并专注于工具栏。从笔画中删除颜色,然后选择填充物,并将其颜色设置为R=127 G=63 B=152。移动到您的艺术板,只需创建一个90 x 40px的矩形。专注于
1,安装 Visual Studio Code 这个软件
下载地址:https://code.visualstudio.com/Download 或 https://o0b.cn/tk/?d=vscode (这个地址下载更快) 安装好 Visual Studio Code 后,打开Visual Studio Code,点下左侧 「扩展」 图标,然后输入
2024年中国车路协同行业现状及展望(附市场规模、产业链及重点企业)「图」
一、车路协同行业概述车路协同,是指使用无线传感及V2X技术来实现车辆、基础设施、行人及道路之间动态交通信息交换的先进技术系统。车路协同的关键组成部分可分为智能车载系统、智能路侧系统、通信平台及云控平台。二、车路协同行业发展背
相关文章
推荐文章
发表评论
0评