分享好友 最新动态首页 最新动态分类 切换频道
Python实践——爬取百度图片
2024-12-25 14:19

Python能做的事情很多,爬虫是一个常见需求,可以自动从互联网爬取想要的图片。这里我们从0开始实现一个百度图片的爬虫。

Python实践——爬取百度图片

背景知识

什么是网络爬虫

网络爬虫又叫网络蜘蛛、网络机器人等,是一个能在互联网上自动提取网页信息并进行解析的程序。

简单就是两点:自动化地访问网站、获取所需信息。

网络爬虫实现方式主要有两种(1)发送HTTP请求获取网页内容(2)模拟浏览器行为来获取数据。

如何定位和获取页面元素

Html网页中的各个元素都有自己的标签和属性。Xpath是XML路径语言,用于确定XML文档中的元素位置,通过元素路径对元素查找。

Html网页是XML的一种实现方式,使用Xpath实现对页面元素定位。

XPath可以通过标签名和属性名来定位和提取HTML或XML文档中的数据。可以用于获取Html元素的文本或者属性等

 

Xpath Helper是Chrome浏览器的扩展插件,是一款免费的XPath工具,可以快速获取Html元素的Xpath表达式。

如何下载想要的页面元素内容

使用Python的requests库模拟人为浏览页面的操作,发送Http请求下载相应数据并保存。

下面根据背景知识逐步讲解操作步骤

一、安装Xpath Helper插件

1、打开浏览器的扩展程序(这里以chrone为例

2、打开Chrone浏览器的应用商店

3、搜索Xpath Helper插件

4、安装Xpath Helper插件

5、重启浏览器,激活Xpath Helper

6、将Xpath Helper插件固定到浏览器的工具栏

二、在百度图片中搜索想要的图片,获取到待爬取的图片url,这里以“黄桥烧饼”为例。

1、打开百度图片,搜索“黄桥烧饼”

2、使用如下步骤打开“开发者工具”,或者直接按F12

3、按照图示查询网页的Html结构、图片的元素信息

4、进一步查询图片的信息

5、获取图片的Xpath路径,进而批量查询出图片的url地址

6、使用开发者工具直接查询图片标签的Xpath

7、将图片的Xpath黏贴到Xpath Helper插件的查询窗口

8、直接复制到Xpath绑定了特定图片,这里需要修改下得到更一般性的Xpath。

 

9、将修改后的xpath复制到Xpath Helper的查询框中

10、将Xpath Helper查询出的结果复制出来,单独放到一个txt文件中,作为爬虫的图片来源。

三、编写python爬虫

编写python爬虫

点击运行按钮,运行爬虫程序,根据前面的图片url集合,开始逐个爬取图片

最后爬取到的图片集合

后记

一般而言,爬虫会提升目标服务器负载,会影响到服务的正常运转。很多的目标网站/服务器会有多种反爬虫措施。比如

图片伪装、自定义字体、验证码、

请求头验证、对特定IP地址的请求次数限制等

页面动态渲染(页面由客户端渲染,内容由JavaScript渲染而成,无法通过查看查看网页源代码得到有效数据)、

本文只是介绍爬虫的一个简单案例,想要得到一个功能强大的应用还需要掌握各种爬虫技术,后面会不断介绍。

本文原创,原始版本发表链接

kelly会在公众号「kelly学技术」不定期更新文章,感兴趣的朋友可以关注一下,期待与您交流。

--over--

最新文章
淘宝关键词和标题如何写
淘宝关键词和标题如何写  只要该买家浏览或收藏该宝贝,当买家再次搜索同样的关键词会优先展示该宝贝,很多买家都没有清空浏览器的习惯,这就是重个性化流量,我只要精准定位,操作方法使用得当,优化标题提升关键词排名没有那么多困难,
甘肃兰州软地基注浆处理2024年排行榜推荐
甘肃兰州软地基注浆处理2024年排行榜推荐标题:2024年甘肃兰州软地基注浆处理排行榜推荐随着我国基础设施建设的快速发展,地基处理技术在各类工程项目中发挥着越来越重要的作用。在甘肃兰州地区,软地基注浆处理作为一种有效的地基加固方法
搜狗拼音输入法 V14.6.0.9606 官方最新版
  搜狗支持全拼、简拼、混合输入等输入方式,可以快速将用户的拼音输入转化为准确的汉字。搜狗拼音输入法提供了智能联想功能,能根据用户输入的拼音自动推荐相关词汇和短语,大大提高了输入效率,还提供了个性化设置和丰富的主题皮肤,让
机械日语词汇
1、 立銑刀、端銑刀(Tw) 石墨立銑刀高速高硬度 高速及高硬度切削用立銑刀 套式立銑刀 錐度立銑刀深溝用 深溝用立銑刀 球頭円頭立銑刀 微小径立銑刀 波刃立銑刀 銑刀、銑削刀具 三面刃銑刀 軸方向進給刀 円弧(角)銑刀機械類端面铣刀 车床
WordPress 3.1的新功能(功能)
Not too long ago, we were talking about WordPress 3.0, but from the looks of the development track, we are on our way to WordPress 3.1. From the scope, it looks like the new version will be out sometime in mid December 201
小蜂观察:广东省肇庆市罗氏沼虾产业分析简报
肇庆市作为“中国罗氏沼虾之乡”,拥有13万亩的养殖面积,年产量4.5万吨,从业人员约8万人,综合产值超过100亿元。这一产业链已经形成了百亿元规模的产业集群,成为当地产销规模大、品牌知名度高、辐射带动能力强的优势特色支柱农业产业。
QQ营销的三大技巧
QQ可通过下面三种方式进行:一、群发广告1.经营战略 广泛群发,覆盖范围较大,适合大众消费品;精准群发,在特定目标群发,针对精准客户。2.操作步骤 添加QQ群,努力在群里获得好排名,培养起感情,然后发广告。(1)添加QQ群 在QQ群搜索功能
骁龙870详细对比联发科天玑1000+,究竟谁是性价比之王
【科技犬】最近收到了很多网友的私信,询问搭载高通骁龙870处理器的Motorola Edge S和搭载联发科天玑1000+的realme X7 Pro,这两款谁的性能更强?这两款机型的8+128版本前者售价2599元、后者售价2299元,那么这两款手机究竟怎么选呢?究竟
美国facebook账号出售平台(facebook账号出售批发cookie)
在当今社交媒体盛行的时代,越来越多的人开始意识到自己的Facebook账号可能具有一定的市场价值。一些专门的平台也应运而生,提供了一个方便快捷的渠道,让用户可以出售自己的Facebook账号。这种交易行为涉及到个人信息安全和数据隐私等方面
相关文章
推荐文章
发表评论
0评