分享好友 最新动态首页 最新动态分类 切换频道
(一)python网络爬虫(理论+实战)——爬虫的初步认识
2024-12-27 09:08

(一)python网络爬虫(理论+实战)——爬虫的初步认识

      https://blog.csdn.net/c1007857613/category_12127982.html


      本人从事爬虫相关工作已8年以上,从一个小白到能够熟练使用爬虫,中间也走了些弯路,希望以自身的学习经历,让大家能够轻而易举的,快速的,掌握爬虫的相关知识并熟练的使用它,避免浪费更多的无用时间,甚至走很大的弯路。欢迎大家留言,一起交流讨论


    随着大数据,人工智能等领域的快速发展,数据的重要性日益凸显,那么如何获取数据呢?——网络爬虫。作为获取数据,特别是网络公开数据的重要工具,网络爬虫也逐步渗入到我们工作和生活的方方面面,比如抢票软件,招聘网站等等,这些都给我们的生活带来了极大的便利。因此,不论你是想从事大数据,数据分析等相关行业,还是做科学研究写论文,又或者是想通过程序自动的帮助你收集网络上的一些数据,已完成老板交代的任务,等等,了解并掌握网络爬虫的相关知识对你的工作和发展都有百利而无一害。


【本节学习目标】:了解爬虫的相关基础知识,能说上一二,是后续学习的基础。


       之前对爬虫没有了解过的童鞋可能会觉得爬虫是一个技术层面上的东西,离我们的生活和工作都很遥远,其实不然。试想一下,如有你看上了一些好看的图片或者电影,但由于数据量较多,下载时间较长,人工去一个个下载,是一个工作量很大的事情。又或者,如果你老板交代给你一个任务,收集中国目前所有上市公司的名单信息,那是不是要一个个去找,然后一个个复制到excel中,如果要求的公司信息越多,那不就越复杂了。

        那遇到以上情况,怎么办呢?如果你是土豪,直接去买相关的数据,当然没问题!又或者你就是单纯的想锻炼下自己的手指,就是想手动去获取也无可厚非。但如果又你是普通的打工仔,想保护下我们那纤细的手指,又想白嫖的话,就可以使用爬虫来帮你做这些工作,你只需要喝着咖啡,抖着腿,看着电视,刷着抖音,看看靓仔靓女。

        当然,爬虫的用途或者说应用远不止如此,爬虫的应用其实已经渗入到了我们工作和生活的方方面面,很多应用场景大家都见过,只是不知道它是爬虫而已。比如,最常见的爬虫应用,就是我们使用到的搜索引擎,搜索引擎的本质就是一个爬虫,将网络上各个地方的数据抓取过来,从而我们可以通过一个搜索入口就能搜索到各个网站的信息。

        龙券网,是一个提供搜索各大电商平台优惠券信息的网站,其原理也是通过爬虫将各大电商平台上的商品优惠信息抓取过来。

        历史价格查询,这是一个微信小程序,你可以在该应用中查询某个商品的历史价格信息,这样你知道你当前买的这个商品是比之前贵还是便宜(不是打广告哈,确实挺实用,尤其这些商家喜欢搞些什么双十一,双十二活动,通过它你知道商家到底有没有优惠,还是给你偷偷涨价了呢)。言归正传,这个应用也是爬虫应用的一个充分体现,其商品的价格信息也是通过爬虫不断抓取过来,然后绘制了各个商品的价格走势。

        我已经举了很多个爬虫的栗子了,手都酸了,你能帮我举一下吗?哈哈哈

        ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~举栗子中~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

         各大招聘网站(招聘信息就是从各大公司网址抓取过来的)、抢票软件(车票信息从12306等官方售票网站抓取过来的)、舆情监测、金融投资风险分析等等。

          所以说,爬虫和我们并不遥远,爬虫其中就在我们身边


          爬虫(spider,又称网络爬虫,网络蜘蛛),从字面上来看,爬虫就像是一只蜘蛛,在互联网上不断爬行,不断的抓取数据。

        从爬虫的本质上来看,爬虫就是一段程序,该程序的作用或者说目的就是自动的向网站/网络发送请求,获取并提取有用的数据。

        从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。这段话,可能很多小可爱不是很理解,但如果我们把浏览器怎么显示网络数据的过程理解一下的话就容易懂了。

        你有没有想过,在你的电脑上为何能够看到别的网站的信息,你的浏览器是在你自己的电脑上,要访问的网站是在对方的机器上。我们结合上面这个示意图来理解,当我们打开一个网站或者在浏览器中输入网址访问时,比如百度网,浏览器会自动帮我们向百度网发送一个请求,百度的网站服务器收到这个请求后会做出请求响应,并把数据返回给浏览器,浏览器接收到数据后再显示出来,所以我们打开一个网站能够看到该网站的信息。当然其中返回的数据不是普通的文字,可能是带有格式的文字、链接等(html格式)、可能是json格式,可能是图片、视频(二进制格式)等等。这段加粗的文字请重点理解,理解了这个,对爬虫的理解也就差不多

     所以啊,在回过头来理解爬虫就简单了,爬虫就是通过一段程序,来模拟浏览器向目标网站或网页发送请求的这个过程,来拿到其返回的数据,这样就完成对某个网站数据的抓取。


 总结

     本章主要对网络爬虫做了一个初步的介绍,适合对网络爬虫不是很了解的初学者阅读。   

     如对文章内容有疑问或者需要全套的学习资料(配套PPT和本课程的所有项目源码)的,欢迎大家留言。

最新文章
用网件R6400路由器做家用轻NAS以及双宽带、多拨使用心得
经过漫长的等待之后,如图,再进入路由器配置页面,点击USB相关应用,在Download Master下点击Install。由于Software center应用中心的迅雷下载插件已经下架了,目前我们只能用Download Master进行脱机下载。安装好Download Master之后,点
揭秘SEO平台高效外推秘诀,优质内容助力网站流量飞跃
本内容揭示了高效SEO平台的外推策略,强调通过打造优质内容来提升网站流量。策略涵盖内容创作、关键词优化、社交媒体推广等关键步骤,旨在提高网站在搜索引擎中的排名和用户访问量。随着互联网的飞速发展,搜索引擎优化(SEO)已成为企业提
网站权重对SEO优化的重要性(了解网站权重的概念和作用)
它可以影响一个网站在搜索引擎结果页面(SERP)中的排名,在搜索引擎优化(SEO)的世界里、网站权重是一个重要的概念。本文将深入探讨网站权重对SEO优化的作用和重要性。一、什么是网站权重?是根据搜索引擎算法计算出来的指标,网站权重是
运营中,工具真的不重要吗?
在运营这个日新月异的领域里,我曾与无数挑战交锋,也见证了无数策略的兴衰。每当夜深人静,回顾那些令人振奋的成功案例和令人扼腕的失败教训,我总会深思一个问题:运营中,工具真的不重要吗?答案,显然是否定的。工具,就像是我们运营路
www.xuanpai.com
通过本工具可以快速查询到您站点的谷歌(www.google.com)、百度(www.baidu.com)、必应(cn.bing.com)、雅虎(cn.yahoo.com)、搜搜(www.soso.com)、搜狗(www.sogou.com)、有道(www.youdao.com)等搜索引擎收录情况及反向链接;可以快速查询到谷
至尊码支付源码2.7:引领支付新时代,轻松搭建高效安全的支付系统
点击查看置顶文章了解更多在当今快速发展的数字化时代,支付系统作为支撑线上交易的核心组成部分,正变得愈加重要。无论是传统电商平台,还是新兴的移动支付业务,如何提供一个高效、安全、流畅的支付体验,已经成为企业运营成败的关键。而
第六届国际医用机器人创新发展论坛暨高端医疗器械合作交流会在深圳成功举办
12月13日,第六届国际医用机器人创新发展论坛暨高端医疗器械合作交流会在深圳会展中心成功举办。本次论坛由中国医学装备协会、中国生物医学工程学会、北京市医疗机器人产业创新中心及北京清华工业开发研究院共同主办,中国医学装备协会人工
拼多多退款逾期问题:如何处理避免影响商家流量?
拼多多退款逾期难题是一个比较棘手的难题。要是您是商家您可在平台上实行申诉或联系平台客服实应对。假若您是消费者您可以联系商家实沟通和协商。假若您不及时退款,有可能作用商家的流量和信誉度。 咱们建议您尽快应对退款疑问,以避免对
股票行情快报:迪安诊断(300244)12月12日主力资金净卖出393.44万元
证券之星消息,截至2024年12月12日收盘,迪安诊断(300244)报收于13.48元,上涨0.22%,换手率2.23%,成交量11.21万手,成交额1.51亿元。12月12日的资金流向数据方面,主力资金净流出393.44万元,占总成交额2.61%,游资资金净流入993.1万元,
爆爆打气球,揭秘截图预览中隐藏的欢乐时光与无尽挑战
在这个快节奏的数字时代,游戏已经成为我们生活中不可或缺的一部分,它们不仅是我们放松的方式,更是连接彼此的桥梁,我要和大家分享一款让人眼前一亮、乐趣无穷的小游戏——爆爆打气球,通过一系列精彩纷呈的截图预览,让我们一起揭开这款
相关文章
推荐文章
发表评论
0评