分享好友 最新资讯首页 最新资讯分类 切换频道
python爬虫---爬取书评并制作词云(The Litter Prince)
2024-12-28 11:44

 一、轻松上手 Python 爬虫,解锁网络数据宝藏
         在信息爆炸的时代,网络如同浩瀚海洋,蕴含海量有价值数据。Python 爬虫宛如精准捕捞的渔夫,能帮我们快速抓取所需信息。下面我们来爬一下《The Litter Prince》这本书的书评

python爬虫---爬取书评并制作词云(The Litter Prince)

 

简单分析一下

1. def getHtmlDoc(url):#从指定的 URL 获取网页内容,并将其保存到一个 HTML 文件(xiaowangzi.html)中,同时提供了简单的错误处理机制。

 其中: headers #这个信息模拟了一个浏览器,目的是为了避免被网站识别为爬虫。

             是  库中用于发送 GET 请求的函数(请求访问url,即书评地址

2. def getComment(html):#主要作用是从传入的 HTML 文档中提取评论内容

      其中: 使用  库解析传入的 HTML 文档。 是一个更快、更强大的解析库。不过使用  需要事先安装相应的库。

3. 主程序

     for p in range(0, 40, 20):# 函数的参数表示从 0 开始,到 39 结束,步长为 20。在这个例子中,它会产生两个值:0 和 20。循环将执行两次,每次将  分别赋值为这两个值。

所以这里是爬取了2页的评论

使用  打开文件,以写入模式)创建或覆盖文件。该文件将用于存储爬取到的评论。使用  从每个评论的 BeautifulSoup 对象中提取纯文本内容,去除前后的空白字符,然后写入文件。

 二、制作词云

        整段代码通过读取文本数据,进行分词、去除停用词统计词频,然后生成和保存词云。

 

简单分析一下: 

1. stopwords=[line.strip() for line in open("停用词.txt","r",encoding="utf-8").readlines()]从文件中读取停用词,并去除每行的空白字符,生成一个包含停用词的列表。(停用词可以从网上下载,也可以自己从得到的分词列表中挑选

2.for m in range(190): 将排序后前 190 个词及其对应的频率写入该文件。 

词云展示

最新文章
快读全本免费小说阅读器
书荒了怎么办?下载《快读全本免费小说阅读器》app,各类小说资源应有尽有,你想看的都能找到。软件内频道分类明确,找书更便捷
自从学会了Word自动排版,我的秀发浓密多了
  文/金金 首发于一周进步  每到期末,都是大作业和报告的高发季,一个“死线”刚过,另一堆“死线”接踵而至。  作为一名
最新高科技产品重塑未来,科技发布引领生活变革
最新高科技产品发布,重塑未来生活。这款新产品引领科技潮流,将改变人们的生活方式。它融合了最新的科技技术,为用户带来前所未
免费微信外链:构建强大外链网络的全面指南316
简介在竞争激烈的数字营销环境中,外链建设是提高网站排名、建立品牌权威和吸引高质量流量的关键策略。对于希望扩大微信影响力的
“碰一碰”还能这么玩?社交达人是我本人没错了!
不夸张的说,我现在可以算得上是社牛了。看见朋友就想和他“碰”一下!以前,我在淘宝上看到什么好东西,想跟朋友分享,总是得截
[HTTPS 外链处理方法:全面的外链建设规划方案]
引言随着网络安全性的日益提高,HTTPS 正在成为网站的标准协议。然而,HTTPS 的实施也给外链建设带来了新的挑战。本规划方案将详
美国消费者报告汽车可靠性榜单:斯巴鲁登顶特斯拉排名靠后
近期,美国权威杂志消费者报告揭晓了汽车可靠性榜单,为汽车市场带来了新的风向标。榜单显示,尽管电动汽车技术日新月异,但混合
用AI技术生成高清美女写真,轻松享受创作乐趣!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=0
【头条】AI政策“大爆发”
1.芯旺微电子KF32A158荣获铃轩奖 领跑国产车规级MCU市场2.国微芯发布多款自研EDA工具,加速国产数字EDA全流程建设3.【芯版图】AI
怎么制作微信小程序?4个要点不可少
点击蓝字/关注我们怎么制作微信小程序呢?有4个要点是必不可少的,今天就和黔源君一起看看吧。基本上只要做好以下几点就行:1、