分享好友 最新资讯首页 最新资讯分类 切换频道
巨细!Python爬虫详解
2024-12-27 11:53

如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,他们沿着蜘蛛网抓取自己想要的猎物/数据。

巨细!Python爬虫详解

爬虫的基本流程

网页的请求与响应

网页的请求和响应方式是 Request 和 Response

Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server

Response:服务器接收请求,分析用户发来的请求信息,收到请求信息后返回数据(返回的数据中可能包含其他链接,如:image、js、css等

浏览器在接收 Response 后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收 Response 后,是要提取其中的有用数据。

发起请求:Request

请求的发起是使用 http 库向目标站点发起请求,即发送一个Request

Request对象的作用是与客户端交互,收集客户端的 Form、Cookies、超链接,或者收集服务器端的环境变量。

Request 对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息。客户端可通过 HTML 表单或在网页地址后面提供参数的方法提交数据。

然后服务器通过 request 对象的相关方法来获取这些数据。request 的各种方法主要用来处理客户端浏览器提交的请求中的各项参数和选项。

Request 包含:请求 URL、请求头、请求体等

Request 请求方式 GET/POST

请求url: url全称统一资源定位符,一个网页文档、一张图片、 一个视频等都可以用url唯一来确定

请求头 User-agent:请求头中如果没有 user-agent 客户端配置,服务端可能将你当做一个非法用户

cookies cookie 用来保存登录信息

一般做爬虫都会加上请求头 例如:抓取百度网址的数据请求信息如下

获取响应内容

爬虫程序在发送请求后,如果服务器能正常响应,则会得到一个Response,即响应

Response 信息包含:html、json、图片、视频等,如果没报错则能看到网页的基本信息。例如:一个的获取网页响应内容程序如下

 

以上内容输出的就是网页的基本信息,它包含 html、json、图片、视频等,如下图所示

Response 响应后会返回一些响应信息,例下

1、响应状态

  • 200:代表成功
  • 301:代表跳转
  • 404:文件不存在
  • 403:权限
  • 502:服务器错误

2、Respone header

  • set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来

3、preview 是网页源代码

  • 最主要的部分,包含了请求资源的内容,如网页html、图片、二进制数据等

4、解析内容

解析 html 数据:解析 html 数据方法有使用正则表达式、第三方解析库如 Beautifulsoup,pyquery 等

解析 json 数据:解析 json数据可使用 json 模块

解析二进制数据:以 b 的方式写入文件

5、保存数据

爬取的数据以文件的形式保存在本地或者直接将抓取的内容保存在数据库中,数据库可以是 MySQL、Mongdb、Redis、Oracle 等……

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

六、面试宝典

需要这份系统化学习资料的朋友,可以戳这里无偿获取

最新文章
WordPress常用插件及其用途
WP Rocket是一款强大的缓存插件,旨在提升网站加载速度。它通过缓存页面内容、延迟加载图片、压缩CSS和JS文件、启用GZIP压缩等技
如何通过10个步骤建立网站
强大的在线形象可以极大地决定任何企业的成功。但是,并非所有企业都有网站。这可能与实际创建一个曾经令人生畏的过程有关。幸运
怎么把电脑里的文件隐藏,怎么把电脑里的文件隐藏起来不被百度硬盘搜索检索到
1、在需要隐藏操作右键,选择“属性”。2、在弹出的属性界面窗口中,找到并勾选“隐藏”,之后文件就被隐藏了。3、想要查看被隐
【S6812应用宝下载】三星S6812应用宝8.8.6免费下载
(Android)是腾讯应用中心倾力打造的手机应用商店,致力于为用户丰富、优质、个性化的安卓软件资源和一站式的下载管理体验,全
百度只收录首页不收录其它页面的问题
百度只收录一页,百度K站。这两个问题估计已经困扰了很多站长无数脑汁了吧。  百度只收录一页,百度K站。这两个问题估计已经困
【轻薄手机榜】排榜维度及各项目评分比重
创作立场声明:希望通过做轻薄榜,使人们更便捷的挑选适合自己的轻薄手机,让更多人使用轻薄的旗舰手机。没准就被手机厂商看见了
高清美女写真:用AI工具轻松制作你的虚拟女友!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=0
毛岸英牺牲与彭德怀有没有关系?毛主席一句话揭开毛岸英真实死因
让晚年的毛主席深感悲痛的一件事情,莫过于毛岸英同志的牺牲,作为他与结发妻子杨开慧所生的长子,毛主席给予他很大厚望。可谁曾
贪婪洞窟2加载停滞20%终极解决方案:一键重置游戏进程-顺畅体验再启程
一、检查网络连接二、优化设备性能三、检查游戏文件四、其他建议五、一键重置游戏进程(谨慎使用)六、联系客服针对贪婪洞窟2加
让苹果iOS的手机iPhone和电脑Safari浏览器支持油猴脚本
苹果电脑上安装油猴脚本可以参考以下步骤:1. 首先,下载并安装油猴插件(Tampermonkey)。您可以在以下链接中找到插件的下载地