大家都知道“网络爬虫”这个词,知道的朋友都听过一句话”爬虫学的好,监狱进的早“,其实任何工具如果合理利用,会大大帮助使用者提高效率,而使用过度了,就会造成负面影响,在这里。本身“网络爬虫”实际意思是“代替人们自动地在互联网中进行数据信息的采集与整理”,说白了“网络爬虫”的核心其实就是“数据收集自动化”技术,如果说我们认识中的“爬虫”是一个不好的词的话,在这里,我希望通过“数据收集自动化”来代替,通过简单的方式实现大家在工作生活中根据自身的需求收集网络公开数据,并实现自动化收集的技术。
今天给大家带来的是我认为全网最简单的爬虫工具——Instant Data Scraper
这是一个浏览器插件,主要运行环境是有Chome内核的浏览器,比如Chrome浏览器、
Edge浏览器、360极速浏览器等,之所以说这个工具是最简单的数据采集自动化工具,它有以下几个优点:
- 不需要任何代码
- 可视化选择想要的数据
- 无需重开窗口,不用登录操作
- 多种分页采集方式选择
- 表格实现显示采集结果
- 后台操作,不影响前台操作其他动作
- 延迟和最大等待时间自定义所需的抓取速度
- 数据导出保存方式可选择XLSX、XLS、CSV格式文档,适用不同场景
- 免费!免费!免费!
以Edge浏览器为例,教大家如何安装Instant Data Scraper
- 打开Microsoft Edge浏览器扩展市场
- 搜索Instant Data Scraper
Edge浏览器扩展搜索Instant Data Scraper结果
3.获取Instant Data Scraper 并添加扩展
通过Instant Data Scraper在Edge扩展市场的网页也可以直接安装,省区上面两个搜索步骤,链接如下:
- 最新版的Instant Data Scraper我已经上传到了蓝奏网盘,大家可以通过获取到
- 打开Edge浏览器管理扩展页面(本地链接edge://extentsions)
- 打开开发人员模式
打开edge浏览器开发人员模式
4.将
Instant_Data_Scraper_v1.0.8.crx文件拖放到Edge浏览器管理扩展页面并进行安装扩展即可
以上方式不仅仅适用于Edge浏览器,Chrome浏览器以及国产其他Chrome内核的浏览器均适用,不过关于扩展应用市场是否能搜索到没有确定,特别是Chrome浏览器需要特殊方式才能访问扩展应用市场,所以建议无法在应用市场安装的通过方式二进行安装。
最终安装后的效果,会在浏览器扩展管理页面看到,有的浏览器默认会显示在扩展栏处,有如下标志显示
Instant Data Scraper扩展栏展示
关于Instant Data Scraper 的使用方法,我会通过几个不同的使用场景来去介绍,不仅仅是教会大家如果使用Instant Data Scraper,同时通过不同场景的使用,可以融会贯通与类似的数据获取方法。
学过python爬虫的小伙伴都知道,初学python爬虫技术,基本上都会拿豆瓣电影 Top250作为实例测试,而python要获取豆瓣电影 Top250的数据可能对于初学者是一个敲门砖,我们看看通过Instant Data Scraper获取豆瓣电影 Top250会有多么的简单。
- 打开豆瓣定影Top250页面
2.点击Instant Data Scraper扩展程序,自动识别并以表格实时展现当前页面的数据,同时可以直接进行相关编辑,比如修改首行标题、删除不想要的数据列等等,由此获取豆瓣电影Top250的第一页内容已经完美得到
Instant Data Scraper获取豆瓣电影250数据
第一次打开Instant Data Scraper页面,由于界面都是英文的,其实页没什么内容,在此我通过一个截图翻译一下整个Instant Data Scraper界面的大致意思和功能。
Instant Data Scraper页面介绍
3.定位“下一页”元素进行分页获取数据操作:点击“Locate 'Next' button", 进入元素选择模式(鼠标所在会显示绿色阴影),鼠标选择“后页”元素(这个网页是选择“后页”,但其他的网站不一定,通过观察看点击那个会自动跳到下一页即可)
Instant Data Scraper选择下一页
4.当选择“下一页”元素之后原来的"Location 'Next' button"会显示成"Start crawling"标志,代表已选择分页选择模式,点击"Start crawling"即可开始爬取。如果“下一页”元素选择错误可以直接再重新点击“下一页”元素标记即可。
Instant Data Scraper开始获取数据
不同网站会设定连续翻页时间间隔限制防爬,Instant Data Scraper默认的时间间隔是1-20秒随机时间延迟,针对于后期使用过程中,可根据需求自定义,没有时间限制的可以减少最大延迟时间,以加快获取数据速度。
5.当出现上面截图显示时代表了爬取数据结束,选择合适的格式下载结果,如没有特殊需求建议下载XLSX的常用office表格格式,方便进行进一步数据筛选编辑等操作。
Instant Data Scraper数据获取结束页面
数据下载完成打开即可看到全部250条影视信息详情列表了,可以进行相关的其他操作,比如设定第一行改为需要的标题,删除不需要的内容等,同时有其他需求的还可以进行数据筛查、数据透视表等操作。
通过实际操作,小伙伴应该会发现,通过Instant Data Scraper 进行数据获取时多么简单的一个事情,拿获取豆瓣250数据为例,及时通过Python写爬虫脚本,也需要不断时间,而通过Instant Data Scraper 获取数据,仅需要点击几下就可以,是不是最简单的数据获取工具呢?
当然,Instant Data Scraper一定不是万能的,面对于有更高要求的用户,或者获取到的内容不一定是自己需要的,Instant Data Scraper暂时就做不到了,最大的局限性应该就在于不可自定义,纯傻瓜式操作,而Instant Data Scraper最大的优点也同样是傻瓜式操作,即可自动化获取数据,基本满足大部分人日常办公生活等场景需要。