Python实战 爬虫抓取猫眼电影排行榜

   日期:2024-12-28     作者:eioeh       评论:0    移动:http://oml01z.riyuangf.com/mobile/news/10103.html
核心提示:本节使用 Python 爬虫抓取猫眼电影网 TOP100 排行榜(https://maoyan.com/board/4)影片信息,包括电影名称、

本节使用 Python 爬虫抓取猫眼电影网 TOP100 排行榜(https://maoyan.com/board/4)影片信息,包括电影名称、上映时间、主演信息。

在开始编写程序之前,首先要确定页面类型(静态页面或动态页面,其次找出页面的 url 规律,最后通过分析网页元素结构来确定正则表达式,从而提取网页信息。

点击右键查看页面源码,确定要抓取的数据是否存在于页面内。通过浏览得知要抓取的信息全部存在于源码内,因此该页面输属于静态页面。如下所示

 
 

想要确定 url 规律,需要您多浏览几个页面,然后才可以总结出 url 规律,如下所示

**

 

确定正则表达式

通过分析网页元素结构来确定正则表达式,如下所示

  1.  
  2.  
  3.  
  4.  

使用 Chrome 开发者调试工具来精准定位要抓取信息的元素结构。之所以这样做,是因为这能避免正则表达式的冗余,提高编写正则表达式的速度。正则表达式如下所示

**

 

编写正则表达式时将需要提取的信息使用代替,而不需要的内容(包括元素标签)使用代替。

下面使用面向对象的方法编写爬虫程序,主要编写四个函数,分别是请求函数、解析函数、保存数据函数、主函数。

  1. from urllib import request
  2. import re
  3. import time
  4. import random
  5. import csv
  6. from ua_info import ua_list
  7. class MaoyanSpider(object):
  8.  
  9.  
  10.  
  11.  
  12.  
  13.  
  14.  
  15.  
  16.  
  17.  
  18.  
  19.  
  20.  
  21.  
  22.  
  23.  
  24.  
  25. #生成文件对象
  26.  
  27. #生成csv操作对象
  28.  
  29. #整理数据
  30.  
  31.  
  32.  
  33.  
  34.  
  35.  
  36.  
  37.  
  38.  
  39. #抓取第一页数据
  40.  
  41.  
  42.  
  43.  
  44.  
  45. if name == ‘main’:
  46.  
  47.  
  48.  
  49.  
  50.  
  51.  

输出结果

我不是药神 2018-07-05 徐峥,周一围,王传君
肖申克的救赎 1994-09-10 蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿
绿皮书 2019-03-01 维果·莫腾森,马赫沙拉·阿里,琳达·卡德里尼
海上钢琴师 2019-11-15 蒂姆·罗斯,比尔·努恩,克兰伦斯·威廉姆斯三世
小偷家族 2018-08-03 中川雅也,安藤樱,松冈茉优
霸王别姬 1993-07-26 张国荣,张丰毅,巩俐
哪吒之魔童降世 2019-07-26 吕艳婷,囧森瑟夫,瀚墨
美丽人生 2020-01-03 罗伯托·贝尼尼,朱斯蒂诺·杜拉诺,赛尔乔·比尼·布斯特里克
这个杀手不太冷 1994-09-14 让·雷诺,加里·奥德曼,娜塔莉·波特曼
盗梦空间 2010-09-01 莱昂纳多·迪卡普里奥,渡边谦,约瑟夫·高登-莱维特

这里给大家分享一份Python全套学习资料,包括学习路线、软件、源码、视频、面试题等等,都是我自己学习时整理的,希望可以对正在学习或者想要学习Python的朋友有帮助

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

👉CSDN大礼包🎁:全网最全《Python学习资料》免费分享(安全链接,放心点击👈

① 学习路线

② 路线对应学习视频

③练习题

① 文档和书籍资料

①Python工具包

②Python实战案例

③Python小游戏源码

👉CSDN大礼包🎁:全网最全《Python学习资料》免费分享(安全链接,放心点击👈

 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号