分享好友 最新动态首页 最新动态分类 切换频道
爬虫概念、基本使用及一个类型和六个方法(一)
2024-12-29 00:06

目录

爬虫概念、基本使用及一个类型和六个方法(一)

一、爬虫简介

1.什么是爬虫

2.爬虫的核心

3.爬虫的用途

4.爬虫的分类

5.反爬手段

二、Urllib基本使用

1.导入我们需要的包

2.定义一个url

 3.模拟浏览器向服务器发送请求

4.获取响应中的页面的源码

5.打印数据

三、一个类型和六个方法

1.定义url,并向服务器发送请求

2.一个类型

3.六个方法

参考


如果我们把互联网比作一个巨大的网,那一台计算机上的数据就是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的数据。

解释1:通过一个程序进行爬取网页,获取有用信息

解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息。

爬取网页:爬取整个网页,包含了网页中所有的内容

解析数据:将网页中你得到的数据进行解析

难点:爬虫与反爬虫之间的博弈

数据分析/人工数据集

社交软件冷启动

舆情监控

竞争对手监控

通用爬虫

       实例:百度、360、Google等搜索引擎

       功能:访问网页,抓取数据,数据存储,数据处理,提供检索服务

       Robots协议:一个约定俗称的协议,添加robots.txt文件,来说明本网站哪些内容不可以被抓取,起不到限制作用,自己写的爬虫无需遵守。

       网站排名

              以前:根据pagerank算法值进行排名(参考网站流量,点击率等指标

              现在:百度竞价排名

       缺点:抓取的数据大多是无用的;不能根据用户的需求精准的获取数据。

聚焦爬虫:

       功能:根据需求,实现爬虫程序,抓取需要的数据

       设计思路:确定要爬取的url;模拟浏览器通过http协议访问url,获取服务器返回的html代码;解析html字符串(根据一定的规则提取数据

1.user_agent:中文名Wie用户代理,简称UA,他是一个特殊字符串头,是的服务器能够市北客户使用的操作系统及版本,CPU类型,浏览器及版本,浏览器渲染引擎,浏览器语言,浏览器插件等。

2.代理IP(超出人类访问限制就会封IP

  • 西次代理
  • 快代理
  • 什么是高匿名,匿名和透明代理?他们有什么区别

        (1)使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。

        (2)使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。

        (3)使用高匿名代理,对方服务器不知道你使用了代理,也不知道你的真实IP。

3.验证码访问

        打码平台:云打码平台

4.动态加载网页:网站返回的是js数据,并不是网页真实数据;selenium驱动真实的浏览器发送请求。

5.数据加密

        分析js代码

 目标:使用urllib获取百度网站首页的源码

urllib不需要安装,python自带,可直接使用

 
 
 
 

注意发送请求时要确保你的电脑是联网,不然就会报错

使用 urllib.request.urlopen() 方法发送请求

 
 

使用 read() 方法读取数据

这里注意要将获取的数据进行解码 decode(),否则无法解析网页中的中文。

 
 
 
 

完整代码

 
 
 
 
 

服务器返回的响应是HTML格式

 
 

注意:以下读取的content都需要加 decode()进行解码,否则无法解析网页中的中文。

(1)read() 方法 

 
 

(2)读取一行

 

(3)一行一行的读,读所有字节

 

(4)返回状态码

 

(5)返回url地址

 

 (6)返回状态信息

 

完整代码

 

最新文章
华为手机经鼎桥的一番“武装”后......
  第一次听闻鼎桥通信技术有限公司(以下简称“鼎桥”)的双系统安全定制手机之概念并一睹其英姿,还是在去年年底的“2015中国移动全球合作伙伴大会”上,至今犹记当时观者如潮的场景。可见鼎桥联合其母公司华为技术有限公司(以下简称“
web前端开发必会的二十五个知识点
web前端开发培训之前端开发必会的二十五个知识点1. 常用那几种浏览器测试?有哪些内核(Layout Engine)?(Q1) 浏览器:IE,Chrome,FireFox,Safari,Opera。(Q2) 内核:Trident,Blink,Gecko,Webkit,Blink。2. 说下行内元素和块级元素的
重庆长安科技申请控制器测试专利,大大提高了控制器的测试效率和测试准确性
本文源自:金融界金融界2024年12月18日消息,国家知识产权局信息显示,重庆长安科技有限责任公司申请一项名为“控制器测试方法、系统、装置及电子设备”的专利,公开号CN 119126759 A,申请日期为2024年9月。
置顶微信商户号被恶意投诉,给我们经营者带来极大的不便,无法维权,反而处处受到限制!精选热门
我们是做一个商家平台,让商家在我们平台上使用,在使用过程中难免会遇到一些竞争对手,故意作为消费者购买商家的产品,然后恶意投诉你平台的微信商户号,明明商户这里有把产品给对方了,产品和服务都没有问题,关键是这个用户就是要恶意搞
网红游戏推荐哪个 2024网红游戏排行榜
2024网红游戏排行榜新鲜出炉!探索当下的游戏潮流,想知道哪些热门游戏在玩家们的指尖风靡一时?本文带你走进最新最in的游戏世界,无论是创新玩法还是视觉盛宴,不容错过。紧跟潮流玩家的步伐,一睹未来趋势所在,一起沉浸在那些即将引领新
百度山西推广秘籍,让你的广告在百变大放异彩
山西百度推广优化,关键在于精准定位和创意策略。通过深入分析目标受众,定制个性化广告内容,优化关键词布局,提高广告点击率。利用百度大数据分析,实时调整推广策略,确保广告在百度搜索结果中脱颖而出,提升品牌曝光度和率。随着互联网
时尚精致的Mac 为什么开始成为更多企业的选择?
“每次都宣传视频剪辑,Mac就适合拿来剪视频”、“Mac长得好看,它就适合给设计师用”、“Mac就是给iOS开发者准备的”...伴随着社交媒体的普及,我们听到了无数媒体与用户的评价,而这些对Mac的固有印象,也随着时间的推移在不断加深。然而
谷歌浏览器手机版下载
Chrome浏览器是由谷歌开发的一款广受欢迎的网络浏览器。它以其速度快、安全稳定及丰富的功能而受到广大用户的青睐。Chrome浏览器支持跨平台,在windows、Mac、Linux、Android和iOS等操作系统上都有相应的版本。1. 快速浏览:Chrome浏览器采
北京市广告监测报告(2024年11月)
    一、传统媒体广告监测情况  2024年11月,全市共监测电视、广播、平面等传统媒体广告32万余条次。电视、广播、平面广告监测量分别占比66%、32%和2%。      传统媒体涉嫌违法广告量排名前三的商品服务类别分别为:营养食品、
用AI生成逼真美女写真:搜狐简单AI全攻略!
二、测评与优缺点总结 在对比各个工具后,我们可以看出,搜狐简单AI以其丰富的功能和友好的操作体验脱颖而出。虽然Artbreeder和DeepArt.io各有特色,但在生成逼真的美女写真方面,搜狐简单AI明显更占优势。特别是在自由度和简单易用性上,
相关文章
推荐文章
发表评论
0评