本文爬取网页:https://spa1.scrape.center/
检查网页源代码,查看数据是在网页HTML源代码中还是调用了接口
右键检查页面源代码,未在页面中发现任何页面内容数据
由此得出该网页调用接口:查看网页接口过程如下
- F12调出检查界面,点击Network标签,再点击Fetch/XHR
- 页面加载完成后未出现显示,不过没关系,重新加载页面数据就出来了
- 依次检查即可发现数接口数据,发现第一个数据中有一个跳转
,跳转到第二个数据中,状态码301是跳转 - 在页面点击 下一页 之后,发现offset的数据变为了10
爬取思路已然清晰
Python库: 查看网页数据调取方式:get
调用接口需要headers头:
通常有用的有
Cookies(可有可无),Host,Referer, User-Agent,
所以我们可以将Cookies以下的所有参数复制到Headers中Headers格式化网站:http://www.spidertools.cn/#/formatHeader 可以将我们复制的headers格式化
操作方法如图:粘贴自动生成
代码如下:
结果:
发现结果为Json数据,则按照Json数据来解析
此时我们将代码中的改为
会自动生成一个字典,数据和网页中显示一致,只要我们遍历键results就可以获取到网页关键数据
demo.py代码如下:
爬取思路完善,接下来便可转战Scrapy进行爬取