分享好友 最新动态首页 最新动态分类 切换频道
人生苦短,我用 Python,AI 模型助力高效数据提取
2024-12-26 05:02

一、前言

在网络爬虫和数据挖掘领域,提取网页内容是一项常见且重要的任务。无论是从新闻网站、电商平台还是社交媒体,获取有用的信息都是开展后续分析和应用的前提。然而,传统的网页内容提取需要编写大量的代码来处理和解析 HTML 文档,费时费力且容易出错。幸运的是,随着人工智能技术的发展,我们可以借助 AI 模型来简化这一过程。

在本文中,我将分享如何利用 Python 中的 库和 库从网页中提取电影信息,并利用 AI 模型生成相应的提示信息的实践经验。AI 模型在其中的重要性不言而喻,它能够自动识别并生成文本,帮助我们节省大量的时间和精力。

首先,我们将使用 库发送 HTTP 请求获取网页内容,然后利用 库解析 HTML 文档,提取所需的电影信息。接着,我们将使用 包与 AI 模型进行交互,让模型为我们生成电影信息的提示。通过这个实例,你将了解到如何利用 Python 中强大的工具和现成的 AI 模型,轻松实现网页内容的提取与处理。

二、准备工作

1. 获取API-KEY

阿里云的模型服务灵积DashScope免费获取一个去免费使用大模型,步骤如下

链接:[dashscope.aliyun.com/] ,需要注册登入。

点击立即开通

模型API调用里第二个创建API-KEY

创建新的 API-KEY

2. 会简单使用colab平台

链接:colab.research.google.com/ ,需要谷歌账号

好处:写python代码时能够很轻松的安装一些复杂的库,就一串代码就能搞定。

创建好后就可以开始写代码了

三、代码

每一段代码都需运行

1. 第一段代码
 
  1. 直接安装了 Python 中用于发送 HTTP 请求的 库。
  2. 直接安装了 Python 中用于解析 HTML 文档的 库。这就是colab的一个好处,速度还快

这两个库的安装是为了后续的网络爬虫程序, 库用于发送 HTTP 请求获取网页内容, 库用于解析 HTML 文档,提取所需信息。安装这两个库后,你可以在代码中导入它们并使用它们的功能。

2. 第二段代码
 

功能:这段代码实现了一个函数 ,用于从豆瓣电影排行榜页面获取电影信息,并返回前两部电影的 HTML 内容。

代码解析

  1. 导入了 和 库,用于发送 HTTP 请求和解析 HTML 页面。
  2. 定义了 函数,接收一个参数 ,表示要获取电影信息的页面链接。
  3. 设置了 HTTP 请求头,模拟了浏览器发送请求的行为,避免被目标网站识别为爬虫并阻止访问。
  4. 使用 方法发送 GET 请求,获取页面的 HTML 内容。
  5. 检查响应的状态码,如果状态码为 200,则表示请求成功,继续执行后续操作;否则打印出错信息。
  6. 使用 解析 HTML 内容,将其转换为 BeautifulSoup 对象,方便后续操作。
  7. 使用 CSS 选择器 提取页面中的电影信息,将其存储在 列表中。
  8. 遍历前两部电影的信息,使用 方法美化 HTML 代码,并将其拼接成一个字符串 。
  9. 最后返回前两部电影的 HTML 内容。

最后,通过调用 函数,传入豆瓣电影排行榜的链接,获取电影信息的 HTML 内容,并打印输出。

补充:js和python

 

与 JavaScript 不同,Python 中的 库发送的 HTTP 请求是同步的,意味着代码会等待请求完成后才会继续执行后续的操作。这与 JavaScript 中的异步操作不同,JavaScript 中的网络请求通常是异步的,意味着代码会继续执行,而不会等待请求完成。

异步操作使得 JavaScript 在执行网络请求时不会阻塞其他操作,可以在等待网络请求完成的同时继续执行其他代码。这对于 Web 开发来说非常重要,因为可以在不阻塞用户界面的情况下加载数据和执行其他操作。

 
  • Python 不是完全面向对象的,而更年轻的 JavaScript 则是完全面向对象的。
  • 在 JavaScript 中,几乎所有的事物都是对象,甚至基本的数据类型也是对象。
  • 例如,使用 ‘123’.length 获取字符串的长度,或者使用 2.3123.toFixed(2) 来保留数字的小数位数。 而在 Python 中,基本数据类型不是对象,不能直接调用方法和属性。
  • 这使得在 Python 中使用一些方法和属性显得有些突兀,比如在数字上使用 round() 函数来保留小数位数
3. 第三段代码
 

代码解释 这段代码定义了一个字符串 ,其中包含了电影列表的 HTML 内容,并且提供了一个说明,要求从 HTML 中提取电影名、封面链接、简介、评分和评论人数,并以 JSON 数组的格式返回,属性名使用括号括起来。

在字符串模板中, 是一个占位符,用于插入电影列表的 HTML 内容。

最后,通过 打印输出 字符串,以展示提取电影信息的具体要求。

4. 第四段代码
 

是一个命令,用于在 Colab 环境中安装名为 的 Python 包。 是一个用于与 AI 模型进行交互的 Python 包,它提供了一个简单的接口,可以将文本传递给 AI 模型,并获取模型生成的文本。

 

代码解析

  1. 导入了 包,用于与 AI 模型进行交互。
  2. 设置了 的 API 密钥,以便进行身份验证和使用 服务。
  3. 定义了一个函数 ,用于调用 模型并生成电影信息的提示信息。
  4. 准备了要发送给模型的消息,消息中包含了 变量中定义的电影信息的提示。
  5. 使用 方法调用 模型,并传递消息作为输入。
  6. 将生成的文本结果打印输出。

总之,这段代码利用 包与 AI 模型进行交互,通过给定的提示信息,让 AI 模型生成电影信息的提示。

结果

运行成功后,你就可以看到你的输出结果了。

四、结语

通过本文的实践,我们深入探索了如何利用 Python 和 AI 模型从网页中提取信息。借助 库和 库,我们可以轻松地获取网页内容,并从中提取所需的数据。而使用 AI 模型,我们不仅能够自动化生成相关的提示信息,还能提高提取数据的效率和准确性。

在今天信息爆炸的时代,获取和处理海量数据是一项具有挑战性的任务。然而,Python 的简洁、强大和灵活性,以及 AI 模型的智能化处理能力,为我们提供了强大的工具和支持,使我们能够更加高效地处理和分析数据,从而更好地服务于我们的需求和目标。

在未来,随着人工智能技术的不断发展和普及,我们相信,Python 和 AI 模型将在数据处理和分析领域发挥越来越重要的作用,为我们带来更多的便利和可能性。

让我们继续学习和探索,利用最新的技术和工具,不断提升自己的能力和竞争力,更好地应对未来的挑战和机遇

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等,通过这门课可获得不同能力

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

最新文章
说说抖音福袋怎么抢几率大,在哪可以抢到福袋。
抖音福袋的活动通常由官方账号发布,包括抢福袋的时间、地点以及其他相关信息。因此,首先要多关注这些官方账号,比如抖音官方账号、明星或大V账号等。通过及时获取信息,你就能够第一时间了解到抢福袋的具体细节,提前做好准备。由于抖音
无锡企业在线崛起之道,专业网站优化推广揭秘
无锡专业网站优化推广,凭借精准关键词策略、搜索引擎优化和数据分析,助力企业在线崛起。全方位提升网站流量和率,实现品牌在线曝光和客户精准触达,助力企业实现线上业务增长。随着互联网技术的飞速发展,越来越多的企业开始意识到网络营
飞行影院加盟费
飞行影院加盟费用:飞行影院投资费用在47-107万元。 想要获得更丰厚的利润,就要做好更充足的准备,如今想要加盟飞行影院的投资者人数还在不断增长,如果您也想加盟,一定要做好万全的准备,赶快点击“我要加盟”获取飞行影院加盟的最新政
白酒电商营销策划方案
电商已经成为了消费者购物的主要方式之一。白酒作为中国文化的重要组成部分,在电商平台上也有着巨大的市场需求。因此,白酒品牌需要制定一套有效的电商营销策划方案,以提升品牌知名度、销售量和用户满意度。白酒品牌需要重视电商平台的品
百度地图关怀版 v1.1.5 官网最新版下载 老年人导航地图app
2021年,工信部启动“互联网应用适老化及无障碍改造专项行动”。很多大大小小的APP,都进行了适老化改造,也就是俗称的老年版。如今,备受期待的改造基本已经完成,而这结果,貌似依旧不太理想。部分开发者特别鸡贼,改来改去,就只是加了
荣科科技涨1.25%,目前股价靠近压力位22.00,谨防压力位处回调,若突破压力位则可能会开启一波上涨行情
12月16日,涨1.25%,成交额9.30亿元,换手率6.53%,总市值139.46亿元。根据AI大模型测算荣科科技后市走势。短期趋势看,该股当前无连续增减仓现象,主力趋势不明显。主力没有控盘。中期趋势方面,上方有一定套牢筹码积压。近期该股有吸筹现
谈谈如何让一个SEO新手“快速成长”
现在SEO技术应用越来越广泛了,不用说,学习seo技术的人也越来越多。对于一个新手要学习要掌握的东西很多,那么如何才能更快的学好呢?其实没有更快学好这样的秘诀,我只能教你如何摆好心态,认真学习,这样你肯定比其他人要学的好学的快。
温州螺丝计算机视觉方案设计实时反馈全+境+到+达
  温州螺丝计算机视觉方案设计实时反馈全+境+到+达——苏州希佑科技有限公司!  提供:  计算机视觉|人工智能检测|人工智能视觉检测|CCD 视觉检测|视觉应用|视觉深度学习|AI人工智能检测|AI人工智能图像处理|AI图像处理|视觉检测|不
谷歌优化实操技巧
在海外市场竞争日趋激烈的今天,特别在的影响下,不少外贸企业的老客户也受到了影响。因此通过线上外贸开发海外客户成了企业的重点。而外贸是诸多推广渠道中效果较好且投入较低的一种方式,那么在网站优化时有哪些技巧呢?下面云程网络为大
绘画与影像的美学共生
  作者:陆颖(浙江师范大学艺术学院讲师)   在电影发展历程中,作为传统视觉艺术形式的绘画与之产生了彼此纠缠的关系,二者如同两条蜿蜒前行的轴线,时而交错、时而并进,在形式创新与内容互动等方面,逐渐消弭了门类艺术的边界,催
相关文章
推荐文章
发表评论
0评