【0基础学爬虫】爬虫框架之 feapder 的使用

【0基础学爬虫】爬虫框架之 feapder 的使用

2024-12-26 13:45

大数据时代，各行各业对数据采集的需求日益增多，网络爬虫的运用也更为广泛，越来越多的人开始学习网络爬虫这项技术，K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章，为实现从易到难全方位覆盖，特设【0基础学爬虫】专栏，帮助小白快速入门爬虫。

学习爬虫的过程中，一般都会接触到一些框架，常见的比如 Scrapy、Pyspider 等等，不同的框架都有着各自的特点。不过就上述两款爬虫框架而言，Pyspider 久未维护，且安装到使用的过程较为坎坷；Scrapy 生态良好，功能丰富，但是对于初学者来说，学习成本相对较高。feapder 框架近年来较为火热，正好也有群友提到了：

因此，本期将讲解一款上手更为简单，功能同样强大的爬虫框架 —— feapder。

feapder 是一款上手简单，功能强大的 Python 爬虫框架。内置 AirSpider、Spider、TaskSpider、BatchSpider 四种爬虫解决不同场景的需求：

AirSpider：轻量级爬虫，适合简单场景、数据量少的爬虫；
Spider：分布式爬虫，基于 Redis，适用于海量数据，并且支持断点续爬、自动数据入库等功能；
TaskSpider：任务型爬虫，支持对接任务表，如 mysql、redis 等；
BatchSpider：分布式批次爬虫，主要用于需要周期性采集的爬虫。

feapder 支持断点续爬、监控报警、浏览器渲染、海量数据去重等功能。更有功能强大的爬虫管理系统 Feaplat 为其提供方便的部署及调度。

feapder 官方资料：

GitHub：https://github.com/Boris-code/feapder

官方文档：https://feapder.com/

官方公众号：feader爬虫教程

官方框架流程图

模块说明

流程说明

根据上文框架流程图，按流程序号分析功能：

spider 调度 start_request 生产任务；
start_request 下发任务到 request_buffer 中；
spider 调度 request_buffer 批量将任务存储到任务队列数据库中；
spider 调度 collector 从任务队列中批量获取任务到内存队列；
spider 调度 parser_control 从 collector 的内存队列中获取任务；
parser_control 调度 request 请求数据；
request 请求与下载数据；
request 将下载后的数据给 response，进一步封装；
将封装好的 response 返回给 parser_control（图示为多个 parser_control，表示多线程）；
parser_control 调度对应的 parser，解析返回的 response（图示多组 parser 表示不同的网站解析器）；
parser_control 将 parser 解析到的数据 item 及新产生的 request 分发到 item_buffer 与 request_buffer；
spider 调度 item_buffer 与 request_buffer 将数据批量入库。

环境

Python 3.6.0+
Works on Linux，Windows，macOS

安装

① 精简版

不支持浏览器渲染、不支持基于内存去重、不支持入库 mongo。

② 浏览器渲染版

不支持基于内存去重、不支持入库 mongo。

③ 完整版

支持所有功能。

常见安装问题：

https://feapder.com/#/question/%E5%AE%89%E8%A3%85%E9%97%AE%E9%A2%98

安装成功，查看版本及可用命令：

feapder 支持、、及四种命令，查看使用帮助。

详细资料：

https://feapder.com/#/command/cmdline

AirSpider

轻量爬虫，学习成本低，面对一些数据量较少，无需断点续爬，无需分布式采集的需求，可采用此爬虫。

① 创建爬虫项目

命令如下：

和 Scrapy 一样，创建新项目时，会自动生成一系列的文件和目录结构，有助于理解与使用框架：

Spider

Spider 是一款基于 redis 的分布式爬虫，适用于海量数据采集，支持断点续爬、爬虫报警、数据自动入库等功能。

① 创建爬虫项目

与 AirSpider 相同，命令如下：

② 创建爬虫程序

命令如下：

选择需要创建的爬虫模板，按上下键更换模版，这里选择 Spider 模板，回车即可创建成功：

代码样例如下，默认给了 redis 的配置方式，连接信息需按真实情况修改：

配置信息：

REDISDB_IP_PORTS： Redis 服务器的连接地址。若为集群或哨兵模式，多个连接地址用逗号分开，若为哨兵模式，需要加个 REDISDB_SERVICE_NAME 参数；
REDISDB_USER_PASS： Redis 服务器的连接密码；
REDISDB_DB：使用 Redis 的默认数据库，通常是 0。Redis 支持多数据库索引（从 0 到 15），可以通过更改此值来选择不同的数据库。

Spider 支持断点续爬，其利用了 redis 有序集合来存储任务，有序集合有个分数，爬虫取任务时，只取小于当前时间戳分数的任务，同时将任务分数修改为当前时间戳 +10 分钟（可自行配置），（这个取任务与改分数是原子性的操作）。当任务做完时，且数据已入库后，再主动将任务删除。

Spider 任务请求失败或解析函数抛出异常时，会自动重试，默认重试次数为 100 次（可自行配置）。当任务超过最大重试次数时，默认会将失败的任务存储到 redis 的 {redis_key}😒_failed_requsets 里，以供排查。

更详细的功能介绍，建议阅读官方文档：

Spider：https://feapder.com/#/usage/Spider

Spider 进阶：https://feapder.com/#/source_code/Spider%E8%BF%9B%E9%98%B6

TaskSpider、BatchSpider

TaskSpider：一款分布式爬虫，内部封装了取种子任务的逻辑，内置支持从 redis 或者 mysql 获取任务，也可通过自定义实现从其他来源获取任务。

BatchSpider：一款分布式批次爬虫，对于需要周期性采集的数据，优先考虑使用本爬虫。会自动维护个批次信息表，详细的记录了每个批次时间、任务完成情况、批次周期等信息。会维护个批次时间信息，本批次未完成下一批次不会开始。

批次的含义：例如 2024.07.05 开始采集，2024.07.08 才采集完成，此间数据的批次都为 2024.07.05。方便业务做时序数据展示。

四种爬虫模板：AirSpider -> Spider -> TaskSpider -> BatchSpider，后一种都是基于前一种的优化，具体的使用说明，官方文档都写的很清楚了：

TaskSpider：https://feapder.com/#/usage/TaskSpider

BatchSpider：https://feapder.com/#/usage/BatchSpider

数据监控

feapder 还有配套的爬虫管理系统 ------ feaplat（暂时不支持 Apple 芯片），可以通过 docker 安装部署：

https://feapder.com/#/feapder_platform/feaplat

feapder 内置监控打点（feapder 版本大于等于 1.6.6），部署到 feaplat 爬虫管理系统即可实现对请求和数据监控：