小白也能学会的Python爬虫通用公式，带你轻松入门Python爬虫！_爬虫python公式

日期：2024-12-25 作者：3urjq 移动：http://oml01z.riyuangf.com/mobile/quote/10972.html

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

1、导入需要用到的库
2、确定URL和请求头
3、编写获取数据的函数
4、调用函数

接下来，我们逐个进行讲解。

一、导入需要用到的库

在这个通用公式里，我们要用到的库只有两个，一个是requests，另一个就是lxml里的etree，并且在通用公式中，第一个步骤的代码不需要进行任何改动，具体代码如下：

二、确定URL和请求头

url就是我们想要爬取的网站的链接，而请求头是从网站上的源代码处复制过来的，具体方法如下：

以虎扑网为例，代码如下：

三、编写获取数据的函数

首先我们要定义一个函数，因为都是实现获取数据的功能，所以我们将其命名为：get_data（），然后将设置好的headers传入，目的是为了防止反爬。encoding对应的是编码方式，这是为了防止获取到的网页内容乱码而设置的。

紧接着我们就是要设置selector选择器，然后通过xpath方法来获取内容对应的xpath路径。 xpath路径具体获取方法为： 右键点击网页任意空白处，选择检查。然后在弹出的窗口中，点击左上角的箭头符号，将箭头移动到你想要获取的数据位置，点击定位一下，然后再回到网页源代码处，点击右键，选择copy，再选择copy xpath，然后再将复制好的路径粘贴到我们编写的代码中。

具体实现代码如下：

四、调用函数

函数定义好之后，我们就需要调用它，调用的方法就是将定义好的函数名称复写一遍，然后再将url传入即可。也可理解为这是在给整个代码设置一个开关，只有有了这一个开关，运行代码时程序才能跑起来。
具体代码如下：

五、完整通用公式

学到此处，我们已经学会了python爬虫通用公式的所有步骤啦，将这些步骤的的代码放到一起，我们就可以得到爬虫通用公式的完整代码啦。

运行这个代码，我们就得到了网页中的数据。

六、其他案例分享

但是此刻肯定有很多小伙伴想问，那我想要获取别的网站的数据时该如何修改代码呢？其实使用通用公式来获取别的网站数据时，我们只需要修改两个地方。

1、将步骤二中的url地址改成你想爬取的对应网站地址，
2、将步骤三中content对应的xpath路径修改为对应的数据路径（按照我教的方法重新复制一下即可哦）

那接下来我就带着大家用两个案例检验一下吧。

案例一：获取网易新闻的网站数据

网易新闻网址：

网易新闻标题内容对应的复制出来的xpath路径：

那么我们需要修改的两处代码如下：

因为想要获取标题的文本内容，所以我们在网页中复制的xpath路径后，加上/text(),即：

完整代码如下：

运行结果如下：

案例二：获取新浪新闻的网站数据

新浪新闻网址：

新浪新闻标题内容对应的复制出来的xpath路径：

那么我们需要修改的两处代码如下：

因为想要获取标题对应的链接内容，而链接内容在标题a标签对应的href属性中，所以我们在网页中复制的xpath路径后，加上/@href,即：

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行