一、轻松上手 Python 爬虫,解锁网络数据宝藏
在信息爆炸的时代,网络如同浩瀚海洋,蕴含海量有价值数据。Python 爬虫宛如精准捕捞的渔夫,能帮我们快速抓取所需信息。下面我们来爬一下《The Litter Prince》这本书的书评
简单分析一下:
1. def getHtmlDoc(url):#从指定的 URL 获取网页内容,并将其保存到一个 HTML 文件(xiaowangzi.html)中,同时提供了简单的错误处理机制。
其中: headers #这个信息模拟了一个浏览器,目的是为了避免被网站识别为爬虫。
是 库中用于发送 GET 请求的函数(请求访问url,即书评地址)
2. def getComment(html):#主要作用是从传入的 HTML 文档中提取评论内容
其中: 使用 库解析传入的 HTML 文档。 是一个更快、更强大的解析库。不过使用 需要事先安装相应的库。)
3. 主程序
for p in range(0, 40, 20):# 函数的参数表示从 0 开始,到 39 结束,步长为 20。在这个例子中,它会产生两个值:0 和 20。循环将执行两次,每次将 分别赋值为这两个值。
所以,这里是爬取了2页的评论
使用 打开文件,以写入模式()创建或覆盖文件。该文件将用于存储爬取到的评论。使用 从每个评论的 BeautifulSoup 对象中提取纯文本内容,去除前后的空白字符,然后写入文件。
二、制作词云
整段代码通过读取文本数据,进行分词、去除停用词统计词频,然后生成和保存词云。
简单分析一下:
1. stopwords=[line.strip() for line in open("停用词.txt","r",encoding="utf-8").readlines()]从文件中读取停用词,并去除每行的空白字符,生成一个包含停用词的列表。(停用词可以从网上下载,也可以自己从得到的分词列表中挑选)
2.for m in range(190): 将排序后前 190 个词及其对应的频率写入该文件。
词云展示