【1】首先需要准备好pycharm,并且保证环境能够正常运行
【2】安装request模块
导入request内置模块
【3】安装lxml模块
导入lxml.etree内置模块
如果导入etree失败的话可以尝试
今日的目标是爬取图片信息
网址:[loryx.wiki]([home LoR丨中文百科] (loryx.wiki))
接着点开Headers
可以看到该网页是GET类型,并且状态码是200,URL也和该页面相同
那么接下来就可以用python来模拟request请求了
其实GET方法在这里data不带进去也行,写在这里是为了更方便理解
接下来拿到了request对象后就可以来对元素进行筛选了
首先获取完整的网页源码
可以看见没有问题,那么继续用etree进行解析
继续分析网页内容
在图片链接处右键进入检查
然后我们就得到了标签页信息,我们将要获取的就是td标签中的col15 leftalign元素中的a标签的href链接信息,于此同时我们还需要对应的内容来作为图片的名称,否则你将会看到一堆乱码的哈希值
这里就用卡牌名称作为图片名,取元素的方法也和图片同理
当前所有采集到的内容都存储在,这两个列表中
打开后就可以在浏览器中看到图片
该效果说明我们下载图片的原理还是向这个网页发送请求然后再获取返回的结果
演示只取9张图片,不然的话可以直接
这里需要注意要用,因为写入的是二进制数据
运行程序
OK完工
以上就是python中最基础的爬虫案例,当然实际项目中基本不会有用这种写法,因为效率太低了,本篇文章只是为了以最直观的方式呈现爬虫下载图片的原理
完整代码: