python爬虫---爬取书评并制作词云（The Litter Prince） - 迅易阁资讯

分享好友最新资讯首页最新资讯分类切换频道

python爬虫---爬取书评并制作词云（The Litter Prince）

2024-12-28 11:44

一、轻松上手 Python 爬虫，解锁网络数据宝藏
在信息爆炸的时代，网络如同浩瀚海洋，蕴含海量有价值数据。Python 爬虫宛如精准捕捞的渔夫，能帮我们快速抓取所需信息。下面我们来爬一下《The Litter Prince》这本书的书评

python爬虫---爬取书评并制作词云（The Litter Prince）

简单分析一下：

1. def getHtmlDoc(url):#从指定的 URL 获取网页内容，并将其保存到一个 HTML 文件（xiaowangzi.html）中，同时提供了简单的错误处理机制。

其中： headers #这个信息模拟了一个浏览器，目的是为了避免被网站识别为爬虫。

是库中用于发送 GET 请求的函数（请求访问url,即书评地址）

2. def getComment(html):#主要作用是从传入的 HTML 文档中提取评论内容

其中：使用库解析传入的 HTML 文档。是一个更快、更强大的解析库。不过使用需要事先安装相应的库。）

3. 主程序

for p in range(0, 40, 20):# 函数的参数表示从 0 开始，到 39 结束，步长为 20。在这个例子中，它会产生两个值：0 和 20。循环将执行两次，每次将分别赋值为这两个值。

所以，这里是爬取了2页的评论

使用打开文件，以写入模式（）创建或覆盖文件。该文件将用于存储爬取到的评论。使用从每个评论的 BeautifulSoup 对象中提取纯文本内容，去除前后的空白字符，然后写入文件。

二、制作词云

整段代码通过读取文本数据，进行分词、去除停用词统计词频，然后生成和保存词云。

简单分析一下：

1. stopwords=[line.strip() for line in open("停用词.txt","r",encoding="utf-8").readlines()]从文件中读取停用词，并去除每行的空白字符，生成一个包含停用词的列表。(停用词可以从网上下载，也可以自己从得到的分词列表中挑选）

2.for m in range(190): 将排序后前 190 个词及其对应的频率写入该文件。

词云展示

最新文章

快读全本免费小说阅读器

书荒了怎么办？下载《快读全本免费小说阅读器》app，各类小说资源应有尽有，你想看的都能找到。软件内频道分类明确，找书更便捷

自从学会了Word自动排版，我的秀发浓密多了

　　文/金金首发于一周进步　　每到期末，都是大作业和报告的高发季，一个“死线”刚过，另一堆“死线”接踵而至。　　作为一名

最新高科技产品重塑未来，科技发布引领生活变革

最新高科技产品发布，重塑未来生活。这款新产品引领科技潮流，将改变人们的生活方式。它融合了最新的科技技术，为用户带来前所未

免费微信外链：构建强大外链网络的全面指南316

简介在竞争激烈的数字营销环境中，外链建设是提高网站排名、建立品牌权威和吸引高质量流量的关键策略。对于希望扩大微信影响力的

“碰一碰”还能这么玩？社交达人是我本人没错了！

不夸张的说，我现在可以算得上是社牛了。看见朋友就想和他“碰”一下！以前，我在淘宝上看到什么好东西，想跟朋友分享，总是得截

[HTTPS 外链处理方法：全面的外链建设规划方案]

引言随着网络安全性的日益提高，HTTPS 正在成为网站的标准协议。然而，HTTPS 的实施也给外链建设带来了新的挑战。本规划方案将详

美国消费者报告汽车可靠性榜单：斯巴鲁登顶特斯拉排名靠后

近期，美国权威杂志消费者报告揭晓了汽车可靠性榜单，为汽车市场带来了新的风向标。榜单显示，尽管电动汽车技术日新月异，但混合

用AI技术生成高清美女写真，轻松享受创作乐趣！

限时免费，点击体验最近超火的AI生图神器，坐拥3000美女的大男主就是你！ https://ai.sohu.com/pc/generate/textToImg?_trans_=0

【头条】AI政策“大爆发”

1.芯旺微电子KF32A158荣获铃轩奖领跑国产车规级MCU市场2.国微芯发布多款自研EDA工具，加速国产数字EDA全流程建设3.【芯版图】AI

怎么制作微信小程序？4个要点不可少

点击蓝字/关注我们怎么制作微信小程序呢？有4个要点是必不可少的，今天就和黔源君一起看看吧。基本上只要做好以下几点就行：1、

推荐文章

武汉出发，探秘云南：自驾游更佳路线全解析

相关文章

硬盘数据恢复工具推荐四：Wise Data Recovery

云虚拟主机有哪些实际用途，到底值不值得购买？

百度推广开户费用是多少钱_成都竞价托管

星火tv海外版最新版下载

直通车考试答案.docVIP

谷歌怎么用：全面指南教你高效利用谷歌搜索

谷歌服务框架官方下载2025最新版

这 8 个专用搜索引擎能帮你找到真正有用的信息

推荐耐玩不氪金的手游2024 受欢迎的免费游戏大全

百度蜘蛛池咨询：高质量蜘蛛池网址，助力网站优化与SEO提升的利器