分享好友 最新资讯首页 最新资讯分类 切换频道
python【系列教程】之网络爬虫
2024-12-28 11:38

爬虫的应用方面

  1. 通过网络技术向指定的url发送请求,获取服务器响应内容
  2. 使用某种技术(如正则表达式,XPath等)提取页面中我们感兴趣的信息
  3. 高效的识别响应页面中的链接信息,顺着这些链接递归

安装scrapy

pip install scrapy

本人在安装的时候并没有报以上错误

成功安装scrapy之后,可以通过doc来查看scrapy的文档 。

python -m pydoc -p 8899

打开浏览器查看localhost:8899的页面,可以在python安装目录的libsite-packages下看到scrapy的文档

 

创建scrapy 项目

scrapy startproject ZhipinSpider

 

 

 下面我们来爬去boss直聘 广州地区的招聘信息https://www.zhipin.com/c101280100/h_101280100

使用scrapy提供的shell调试工具来抓取该页面中的信息,使用如下命令来开启shell调试

 scrapy shell https://www.zhipin.com/c101280100/h_101280100

运行上面命令,将会看到如果所示的提示信息

 

scrapy shell -s USER_AGENT='Mozilla/5.0' https://www.zhipin.com/c101280100/h_101280100

response.xpath('//div[@class="job-primary"]/div/h3/a/div/text()').extract()

 

 response.css('div.job-primary>div.info-primary>h3.name span').extract()

 

  (1)编写items.py文件

(2

 scrapy genspider job_position "zhipin.com"

 

 

 

 

 

(3)编写piplines.py文件,该文件负责将所爬取的数据写入文件或者数据库中

 配置settings.py文件

回顾一下上面的开发过程,使用scrapy开发爬虫的核心工作就是三步。

  1. 定义Item类,由于Item只是一个DTO对象,因此定义Item类很简单
  2. 开发Spider类。这一步是核心,Spider使用XPath从页面中提取项目所需的信息,并用这些信息来封装Item对象
  3. 开发Pipeline。Pipline负责处理Spider获取的Item对象

经过上面的步骤,这个基于Scrapy的spider已经开发完成,在命令行窗口中进入ZhipinSpider项目目录下,执行如下命令启动Spider。

scrapy crawl job_position

这里的job_position就是前面定义 的Spider名称

 

 

 

 

 

scrapy shell https://unsplash.com/

 

 

 

 创建项目

 scrapy startproject UnsplashImageSpider

 

 

 

 

 

 

 (2)常用的反爬虫手段

1.IP地址验证

 2.禁用cookie

 3.违反爬虫规则文件

4.限制访问频率

 

 5.图形验证码

(3)整合Selenium模拟浏览器行为

 1.为python安装 selenium 库

pip  install selenium

 2.下载浏览器驱动

 

3.安装目标浏览器

 

 

 

 

 

 

 一句话,只要技术到位,网络上没有爬取不到的数据,当然,如果有些网站的数据属于机密数据,并且这些网站也已经采取种种措施来防止非法访问,但是你非要越过层层限制去访问这些数据,这就涉嫌触犯法律了,因此,爬虫也要适可而止。

最新文章
重庆市沙坪坝区景阳路智选假日酒店重庆大学城店南侧约260米
重庆市沙坪坝区景阳路智选假日酒店重庆大学城店南侧约260米位于重庆市沙坪坝区,靠近尚贤路、景阳路、大学城南一路和思贤路。周
苹果6s玩家必看,如何给软件加上安全锁
在手游的世界里,我们总是希望自己的游戏进度、账号信息以及个人隐私能够得到充分的保护,对于使用苹果6s的玩家们来说,给手机里
SEO是什么?SEO是什么意思?SEO分为两种
seo是搜索引擎优化。是一种利用搜索引擎的规律提高网站在有关搜索引擎的排名,是一种网络营销方式。 seo包括哪些:站内优化和站外
请查收工业气体概念龙头股票:共三只值得珍藏(2024/12/11)
据南方财富网概念查询工具数据显示,工业气体概念股龙头股票有:华特气体:工业气体龙头近7个交易日,华特气体下跌0.06%,最高价
《毁灭战士4》画面、战斗及单人模式体验评价设计_今日毁灭战士4画面、战斗及单人模式上手体验心得设计教程
摘要:《毁灭战士4》画面、战斗及单人模式体验评价设计,今日毁灭战士4画面、战斗及单人模式上手体验心得设计教程,新片场素材小
psql where里有自定义函数慢_零基础学习SQL-SQL高级功能:窗口函数(七)
INSERT INTO Product VALUES (0002, 打孔器, 办公用品, 500, 320, 2009-09-11);INSERT INTO Product VALUES (0006, 叉子,厨房用
「排列五中奖规则」
一、玩法类型及承销二、玩法说明三、设奖及中奖四、开奖五、玩法特点 一、玩法类型及承销排列五是一种小盘玩法游戏,属数字型彩
seo网络推广品牌 今年Zui新攻略
1995年11月01日今日头条巨量引擎,快-手磁力智投和磁力金牛,小红书,广点通,视频号等等信息流广告投流开户代运营,直-播带货推
金大防盗门全市各售后网点服务中心(故障报修) - 热点 - 百科知识-蓝心网
金大防盗门售后24小时维修服务热线:400-658-8618。金大防盗门全市各区售后服务点热线号码。☎:400-658-8618金大防盗门售后服务
一、ESP(ESC、VSC)电子稳定控制系统
一、ESP(ESC、VSC)电子稳定控制系统 技术介绍:ESP在极限工况下工作示意图 ESP的英文全称是ElectronicStabilityProgram,中文意