Chrome插件 WEB 网页数据采集和爬虫程序_chrome插件爬虫开发(1)

日期：2024-12-27 作者：dh5n5 移动：http://oml01z.riyuangf.com/mobile/quote/58668.html

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

六、面试宝典

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

无边无形的互联网遍地是数据，品类丰富、格式繁多，包罗万象。数据采集，或说抓取，就是把分散各处的内容，通过各种方式汇聚一堂，是个有讲究要思考的体力活。君子爱数，取之有道，得注意遵守相关的法律法规和网站的使用政策😎

21世纪是信息时代，信息就是财富。数据（信息）采集是指从信息使用者的需要出发,通过各种渠道和形式获取相关信息的过程.。采集及时、准确、全面的信息是信息管理的基本前提，同时也是管理者决策的参考依据。

写论文时，从统计局网站粘贴几个数值；不定时将公示结果转存到Excel；批量把在线的高清美图下载到本地。这些都是 WEB 数据采集的日常例子。

信息采集最简单最原始的方式，就是人力直接操作，CTRL+C、CTRL+V一套组合拳下来，数据就到碗里来了👏🏻。不过，这数据量一旦上来，铁打的人都吃不消。于是乎，人们想到了用电脑来代替人工，爬虫程序就这样诞生了。

在此之前，我们应该先简单了解下网页内容渲染机制。

所谓的自动化程序，就是用机器大批量地发起请求，拿到响应后再做处理。专业术语叫做或者。

模拟请求（基于代码或爬虫框架）

此方案需要我们至少熟悉一门编程语言（Python、Node.js、Java等），自行编写代码或者借助优秀的开源爬虫框架，实现数据获取。某些场景，还需要通过抓包分析目标网站的参数规则，然后通过组合式请求方能达到目的。

这里罗列下我用过或收藏且还在不断更新维护的框架：

名称开发语言简介ScrapyPythonA fast high-level web crawling & scraping framework for Python.PyspiderPythonA Powerful Spider(Web Crawler) System in Python.NutchJava一种高度可扩展、可伸缩的开源 Web 爬虫软件项目。功能强大，支持 Hadoop 集群内运行webmagicJava一个简单灵活的Java爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。真的非常简单😄Spiderman2Java开源Web数据抽取工具，我没实际使用过node-crawlerNode.jsWeb Crawler/Spider for NodeJS + server-side jQuery 😉

开发者工具 F12 🛠️

首先访问目标网站，按需进行登录，然后按下键盘 F12（或者 Ctrl+Shift+I）进入开发者工具，可以在中写或贴入 JS 脚本，回车收尾😎。

这是我常用的一种方式，用户验证脚本跟少规模作业。

自动化测试工具（Selenium/Puppeteer/Playwright）

WEB 自动化测试工具，是指通过程序代替人工完成验证 WEB 功能的过程。当然，也能利用它来抓取数据。这类工具通过驱动程序（webdriver、DevTools Protocol），驱使浏览器执行既定的动作/脚本。

Selenium：老牌大哥，我最开始接触的自动化测试工具，支持 Chrome、Edge、Firefox、IE、Safari 等浏览器，对开发语言支持也很广：Java、Python、C#、Ruby、JavaScript
Puppeteer： Chrome 开发团队在 2017 年发布的一个 Node.js 包，用来模拟 Chrome 浏览器的运行。主打对 Chrome 的良好支持，社区有针对 Java、Python 版本。
Playwright：微软大厂出品，浏览器支持 Chrome、Edge、Firefox、Safari，官方提供 Java、Python、Node.js、C# 编程语言的 SDK。

Electron / Traui

这两个软件跟上一节工具基本一致，之所以单独列出来，是因为它们提供了更丰富的接口，既能控制浏览器完成任务，又可以制作 GUI 界面（可用于与爬虫程序交互）。

浏览器扩展（插件）

官方应该叫做浏览器扩展（Extensions），但是我们习惯叫做插件😄，后续文章我将重点以此方式进行实践。

浏览器扩展（插件）是运行在特定浏览器，遵循相关规范的应用程序包，由 JS、CSS、HTML 组成，能够管理标签页、注入代码、操作DOM、监控页面活动等。

插件功能非常强大，具体的文档详见Chrome Extensions Document。不过有一个小遗憾是不能在插件内打开标签页的开发者工具，官方给出的回答是出于安全考虑。

有大佬做的强大插件webscraper插件（本地使用免费）👍。

小结

我们在做数据采集时，可以根据实际情况灵活选择方案。不过，无论是何种方式，都要随着目标网站的更新迭代，做相应的适配，否则会出现程序无效的情况，而这是一个耗时耗力的过程🙂。

另外，部分网站会对自动化测试工具进行检测，可以参考：bot.sannysoft.com/，正常浏览器会看到如下的结果图。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行