看剧看一半不是VIP就是svip,正当我们看的津津有味的时候,让你冲米弹窗出来了!!!
如果这时候你会Python的话,那就不会有这些烦恼了,只需20行代码,分分钟看全集!
环境使用
Python 3.10 (不一定3.10,只要不是Python2就行)
Pycharm
模块使用
requests >>> pip install requests
一、数据来源分析
1.明确需求
明确采集的网站以及数据内容
- 网址:几大播放器懂的都懂
- 数据: 视频内容 (链接)
2.抓包分析
通过浏览器开发者工具分析对应数据位置
-
打开开发者工具
-
F12 / 右键点击检查选择network(网络)
-
刷新网页
-
让本网页的数据内容重新加载一遍
-
通过关键字搜索找到对应数据位置
-
通过链接中一段进行搜索
-
关键字: 需要什么数据就搜什么数据
项目对于视频网站数据采集
开发者工具 -> 网络 -> 媒体文件 -> 对应视频链接
数据包地址: https://www.kuaishou.com/graphql
二、代码实现步骤
1.发送请求
模拟浏览器对于url地址发送请求
模拟浏览器
请求网址
刚刚通过抓包分析找到链接地址
发送请求
一般情况: 使用第三方模块 requests
-
请求方法: 在对应数据包中 -> 标头 -> 常规 -> 请求方法
-
POST
-
请求参数:
-
POST请求: 需要传递表单数据 (载荷中查看)
2.获取数据
获取服务器返回响应数据
response.text
-
获取响应文本数据 -> 字符串
-
一般情况在获取网页源代码的时候
-
获取响应json数据 -> 字典
response.content
-
获取响应二进制数据 -> 二进制
-
一般用于获取图片/视频/音频/特定格式文件… 数据内容的时候
3.解析数据
提取我们需要的数据内容字典取值
4.保存数据
获取视频内容, 进行本地保存
相对路径: 相当于代码所在文件路径 -> video 代码文件目录video文件夹
绝对路径: c盘->文件夹->那个文件路径
三、批量采集
分析请求链接或者参数变化规律