#首先打开网站,可以看的他的链接 ‘https://maoyan.com/board/4’, 这个就是我们需要请求的链接
#接下来,滑到页面底部,可以看到又一个分页功能,一页只显示10个,如果100那么就是10页
#接下来点击下一页看一下会发生什么
#可以看的连接上带了一个offset=10的参数,然后继续点击
#链接上的参数变成了20,这样我就可以获得他这个规律,offset代表着偏移量,10就是 11-20 20就是21-30 那么99-100 offset=90,点击验证一下果然是这样
#那么这个参数就可以通过一个循环出来
for i in range(10):
offset=i * 10
#接下来我们请求为了不被网站反爬虫机制给检测到所以我们需要伪装一下请求头,这个直接可以打开网站的f12把请求头复制下来即可
#我在使用的时候运行个几次然后就会弹出猫眼的二维码验证就无法爬取了,然后我又换了一个浏览器的伪装每几次又被检测到了,最后我又在请求头里加了cookies,然后又可以爬取了,但是爬全部数据的时候有时候还是会被验证码拦截,这个大家就自己尝试即可,伪装浏览器python有一个第三方库,我在自己这里试着用了一下,没有什么用处大家自己可以尝试使用下
from fake_useragent import UserAgent
print("---以下是随机的请求头--")
for i in range(5):
print(UserAgent().random)
print("---以下是指定的请求头--")
print(UserAgent().chrome)
print(UserAgent().ie)
print(UserAgent().firefox)
print(UserAgent().opera)
print(UserAgent().safari)
#请求这块大概就是这样了,接下来就是,开始分析element里面的数据的存储位置,打开网站,检查页面源代码
# 可以看的每一个电影都在标签<dd></dd>里面,然后通过循环出来所有的表单,接下来就是需要正则匹配获取每一个表单的所有数据,正则这里我就直接写到代码里的大家可以自己看一下很简单
#好了,大概爬取一个页面所需要的东西我们都分析完了,那么接下来就愉快的写起代码吧!!!