分享好友 最新动态首页 最新动态分类 切换频道
7个经典python爬虫案例代码分享
2024-12-27 02:47

本次的7个python爬虫小案例涉及到了re正则、xpath、beautiful soup、selenium等知识点,非常适合刚入门python爬虫的小伙伴参考学习。注:若涉及到版权或隐私问题,请及时联系我删除即可。

本次选取的是某吧中的NBA吧中的一篇帖子,帖子标题是“克莱和哈登,谁历史地位更高”。爬取的目标是帖子里面的回复内容。

源程序和关键结果截图

 
 
 
 

本次选取的小说网址是某小说网,这里我们选取第一篇小说进行爬取

然后通过分析网页源代码分析每章小说的链接

找到链接的位置后,我们使用Xpath来进行链接和每一章标题的提取

在这里,因为涉及到多次使用requests发送请求,所以这里我们把它封装成一个函数,便于后面的使用

每一章的链接获取后,我们开始进入小说章节内容页面进行分析

通过网页分析,小说内容都在网页源代码中,属于静态数据

这里我们选用re正则表达式进行数据提取,并对最后的结果进行清洗

然后我们需要将数据保存到数据库中,这里我将爬取的数据存储到mysql数据库中,先封住一下数据库的操作

接着将爬取到是数据进行保存

最后一步就是使用多线程来提高爬虫效率,这里我们创建了5个线程的线程池

源代码及结果截图

 
 
 

先分析

首先,来到某瓣Top250页面,首先使用Xpath版本的来抓取数据,先分析下电影列表页的数据结构,发下都在网页源代码中,属于静态数据

接着我们找到数据的规律,使用xpath提取每一个电影的链接及电影名

然后根据链接进入到其详情页

分析详情页的数据,发现也是静态数据,继续使用xpath提取数据

最后我们将爬取的数据进行存储,这里用csv文件进行存储

接着是Beautiful Soup4版的,在这里,我们直接在电影列表页使用bs4中的etree进行数据提取

最后,同样使用csv文件进行数据存储

源代码即结果截图

XPath版

 
 

Beautiful Soup4****版

 
 
 

4.实现某东商城某商品评论数据的爬取(评论数据不少于100条,包括评论内容、时间和评分)。

先分析

本次选取的某东官网的一款联想笔记本电脑,数据为动态加载的,通过开发者工具抓包分析即可。

源代码及结果截图

 

5. 实现多种方法模拟登录某乎,并爬取与一个与江汉大学有关问题和答案。

首先使用selenium打开某乎登录页面,接着使用手机进行二维码扫描登录

进入页面后,打开开发者工具,找到元素,定位输入框,输入汉江大学,然后点击搜索按钮

以第二条帖子为例,进行元素分析 。

源代码及结果截图

 
 

6. 综合利用所学知识,爬取某个某博用户前5页的微博内容。

这里我们选取了人民日报的微博内容进行爬取,具体页面我就不放这了,怕违规。

源代码及结果截图

 

7.自选一个热点或者你感兴趣的主题,爬取数据并进行简要数据分析(例如,通过爬取电影的名称、类型、总票房等数据统计分析不同类型电影的平均票房,十年间每年票房冠军的票房走势等;通过爬取中国各省份地区人口数量,统计分析我国人口分布等)。

本次选取的网址是艺恩娱数,目标是爬取里面的票房榜数据,通过开发者工具抓包分析找到数据接口,然后开始编写代码进行数据抓取。

源代码及结果截图

 
 
 

从年度上榜电影票房占比来看,2019年占比最高,说明2019年这一年的电影质量都很不错,上榜电影多而且票房高。

从趋势来看,从2016年到2019年,上榜电影总票房一直在增长,到2019年达到顶峰,说明这一年电影是非常的火爆,但是从2020年急剧下滑,最大的原因应该是这一年年初开始爆发疫情,导致贺岁档未初期上映,而且由于疫情影响,电影院一直处于关闭状态,所以这一年票房惨淡。

好了,本次案例分享到此结束,希望对刚入手爬虫的小伙伴有所帮助。

最新文章
还有6天,一年一度的云电脑产业嘉年华即将开启
12月18日14:00北京香格里拉饭店2024通信产业大会AI赋能云电脑创新发展论坛一年一度的云电脑产业嘉年华盘点2024云电脑产业发展特征展望2025AI云终端技术趋势发布2024云电脑产业创新调研(第二届)行业领袖纵论AI赋能产业机会和挑战最新云电
网站运营做seo/保定seo推广外包
  在有条件有能力的情况下,可以考的证书还是比较多的,也没有必要全部都考,主要看自己需要,符合需求。 那先了解一下PMP: PMP®的全称是Project Management Professional(项目管理专业人士资格认
武汉范湖万达CBD在线中学生编程培训班
课程单价:240元课时数:80节全部校区:童程童美少儿编程(河西万达中心)课程内容:课程分为3个单元,每个单元都会带领学生用AI工具从0到1完整的开发一个项目。课程特色这个阶段的学习,孩子们将收获35个AI体感游戏开发的知识点、50个程序
刺激的最多人玩的手游排行榜 2023耐玩的多人游戏top5
现在问世了不少多人玩的游戏,在多人游戏中玩家可以随便交友,跟队友一起完成一些困难任务,那么刺激的最多人玩的手游排行榜情况怎么样?现在的联机多人游戏吸引了不少玩家,市面上的多人游戏多不胜数,小编为大家挑选了五个优质的联机类游
百度推广优化攻略,揭秘提升企业品牌影响力的核心策略
百度推广优化的关键在于精准定位、内容优化、数据分析与策略调整。通过优化关键词、提升广告质量、利用数据驱动决策,企业能更有效地触达目标受众,增强品牌曝光度和用户互动,从而显著提升品牌影响力和市场竞争力。随着互联网的快速发展,
血压高和喝酒关系大吗
血压高的患者可以适量喝红酒,但不建议过多饮用。红酒中含有的多酚类物质有助于增强一氧化氮的释放,而一氧化氮能够松弛平滑肌细胞,从而使外周血管扩张,达到一定的降压效果。但是需要注意的是,虽然红酒中的这些成分有一定的好处,但并不
语音助手与chatgpt
语音助手与ChatGPT:为人机交互带来全新体验随着人工智能技术的快速发展,语音助手和自然语言处理技术成为了人机交互领域的热门研究方向。语音助手被广泛应用于智能音箱、智能手机等设备中,通过语音指令实现信息检索、语音识别、语音合成
谷歌每年260亿美元买断搜索入口,法院判为垄断行为,可能重塑互联网市场
以“不做恶”为座右铭的谷歌,终于被判定为在市场上采取了“做恶”的行为。美国联邦法官做出裁决,谷歌非法垄断了搜索市场。根据法院判决,谷歌的行为,违反了反垄断的谢尔曼法的第二条,即在美国市场上通过排他性的分销协议,建立起了一般
驻马店2020高考查分网站入口
河南省2020年高考成绩查询时间7月25日0时   河南省2020年高招各批次最低录取控制分数线7月25日0时公布,考生即可通过多种方式查询高考成绩,全省考生“一分一段表”也将同时发布。  高考查分渠道有:河南省教育厅网站、河南省招生办公
高清美女写真生成!用AI一键打造你的虚拟女友!
第二步:选择生成类型 进入页面后,你将看到多个选项,选择“生成美女写真”,系统会引导你进入相应的界面。第三步:上传或选择图片 你可以选择上传自己的照片,或者系统提供的样板图,随后根据指引进行基础设置,如选择风格或特效等。第四
相关文章
推荐文章
发表评论
0评