很多同学对爬虫比较感兴趣,很想知道什么是爬虫到底是什么,爬虫学起来难不难?从哪里入手开始学习?
这里我想跟大家说,其实你们学完自动化之后,要想学习爬虫,其实非常简单,爬虫里面用到的技术,我们在学习自动化的时候基本上都学过了。
只不过不知道如何使用自动化的技术来实现爬虫,那么接下来我们就来聊聊如何使用自动化的项目技能来实现爬虫。
01
什么是爬虫
学习爬虫之前我们来先了解一下爬虫的概念,什么是爬虫?
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫
——百度百科解释
爬虫和实现自动化实现流程对比:
02
爬虫和实现使用技术分析
发请求,访问页面
▲ requests(接口自动化必备技能)
▲ selenium(web自动化必备技能)
提取页面数据
▲ Xpath(web自动化元素定位的技能)
可以看得出,上述所需要的技能
03
环境安装
首先第一步就是关于环境的安装,环境安装前提:安装好python。然后在这边,我们还需要安装两个第三方库,第一个是requests,是用来发送网络请求的,第二个库是lxml是用来解析页面数据的。
1、requests模块安装
2、lxml模块安装
04
数据爬取实战
目标:获取北京地区自动化测试的所有热门岗位!
目标地址:
https://www.zhipin.com/c101010100/?query=%E8%87%AA%E5%8A%A8%E5%8C%96%E6%B5%8B%E8%AF%95&ka=sel-city-101010100
待获取的目标数据
▲ 职位名称
▲ 薪资范围
▲ 所属公司
爬虫实现的步骤:
1、构造请求数据
在发送请求时,注意请求头要写加上cookie和user-agent,否则无法获取到正确的页面数据(关于cookie和user-agent可以去浏览器上复制过来)
2、发送网络请求
3、提取页面数据
综合整理代码如下:
运行以上代码就能爬取到我们所需要的数据了。
最后: 下方这份完整的软件测试视频学习教程已经整理上传完成,朋友们如果需要可以自行免费领取
这些资料,对于【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴上万个测试工程师们走过最艰难的路程,希望也能帮助到你!