分享好友 最新动态首页 最新动态分类 切换频道
什么是生成式AI
2024-12-26 14:21

您的关注是对我最大的支持

『 AI每日快讯 欢迎大家转载、引用、分享,让更多人了解AI,学习AI 』

生成式人工智能无处不在。事实上,像OpenAI的ChatGPT这样的生成式AI,它展示了一种似乎由人类编写的生成文本的惊人能力,使得一些头条新闻可能实际上是由它撰写的。

但当人们谈论“生成式AI”时,他们到底指的是什么?

在过去几年的生成式AI热潮之前,当人们谈论AI时,通常是指能够基于数据进行预测的机器学习模型。例如,这些模型通过数百万例子的训练,可以预测某个X射线是否显示出肿瘤的迹象,或者某个借款人是否可能违约。

生成式AI可以被认为是一种被训练来创建新数据的机器学习模型,而不是对特定数据集进行预测。生成式AI系统是一种学会生成类似于其训练数据的更多对象的系统。

麻省理工学院电气工程与计算机科学副教授、计算机科学与人工智能实验室(CSAIL)成员Phillip Isola说:“在生成式AI和其他类型AI的实际机制方面,区别可能有点模糊。通常,同样的算法可用于两者。”

尽管ChatGPT及其同类产品的发布伴随着炒作,但这项技术本身并不是全新的。这些强大的机器学习模型依赖于超过50年的研究和计算进展。

复杂度的提升

生成式AI的一个早期示例是一种更简单的模型,称为马尔可夫链。这项技术以1906年引入这种统计方法来模拟随机过程的俄罗斯数学家安德烈·马尔可夫的名字命名。在机器学习中,马尔可夫模 型长期用于诸如电子邮件程序中的自动完成功能之类的下一个词预测任务。

麻省理工学院电气工程与计算机科学的Thomas Siebel教授、CSAIL和数据、系统与社会研究所(IDSS)成员Tommi Jaakkola说,在文本预测中,马尔可夫模型通过查看前一个单词或几个前面的单词来生成句子中的下一个单词。但由于这些简单模型只能回溯这么远,它们不擅长生成可信的文本。

他解释道:“我们在过去十年之前就在生成东西,但主要区别在于我们可以生成的对象的复杂性,以及我们可以训练这些模型的规模。”

就在几年前,研究人员还倾向于寻找一种机器学习算法,以最佳利用特定数据集。但这种重点已经有所转变,许多研究人员现在使用更大的数据集——可能包含数亿甚至数十亿数据点——来训练能够取得令人印象深刻结果的模型。

作为马尔可夫模型的基础模型,ChatGPT及类似系统的基础模型工作方式大致相同。但一个很大的区别是,ChatGPT的规模远大且更为复杂,拥有数十亿参数。它接受了大量数据的训练——在这种情况下,是互联网上大部分公开可用的文本。

在这庞大的文本语料库中,单词和句子以某些依赖性出现在序列中。这种重复性帮助模型了解如何将文本切割成具有一定可预测性的统计块。它学习这些文本块的模式,并使用这些知识来提出接下来可能出现的内容。

更强大的架构

虽然更大的数据集是引发生成式AI热潮的一个催化剂,但多项重大研究进展也导致了更复杂的深度学习架构的发展。

2014年,蒙特利尔大学的研究人员提出了一种名为生成对抗网络(GAN)的机器学习架构。GAN使用两个模型协同工作:一个学习生成目标输出(如图像),另一个学习区分真实数据和生成器输出。生成器试图欺骗鉴别器,并在此过程中学会制作更逼真的输出。图像生成器StyleGAN基于这些类型的模型。

斯坦福大学和加州大学伯克利分校的研究人员在一年后引入了扩散模型。通过迭代地完善它们的输出,这些模型学会生成类似于训练数据集中样本的新数据样本,并已被用于创建逼真的图像。文本到图像生成系统Stable Diffusion的核心就是扩散模型。

2017年,谷歌的研究人员引入了变压器架构,用于开发大型语言模型,如ChatGPT的动力。在自然语言处理中,变压器将文本语料库中的每个单词编码为一个标记,然后生成一个注意力图,该图捕获每个标记与所有其他标记的关系。这个注意力图帮助变压器在生成新文本时理解上下文。

这些只是用于生成式AI的众多方法中的几种。

应用范围

所有这些方法的共同点是,它们将输入转换为一组标记,这些标记是数据块的数值表示。只要你的数据可以转换成这种标准的标记格式,那么理论上,你可以应用这些方法来生成看起来类似的新数据。

Isola说:“你的成效可能会有所不同,这取决于你的数据有多嘈杂以及提取信号的难度,但它确实越来越接近通用CPU可以接收任何类型的数据并以统一的方式开始处理的方式。”

这为生成式AI打开了一个巨大的应用阵列。

例如,Isola的小组正在使用生成式AI创建合成图像数据,这些数据可以用于训练另一个智能系统,例如教授计算机视觉模型如何识别对象。

Jaakkola的小组正在使用生成式AI设计新颖的蛋白质结构或指定新材料的有效晶体结构。就像生成模型学习语言的依赖性一样,如果向它展示晶体结构,它可以学习使结构稳定和实现的关系。

但是,尽管生成模型可以取得令人难以置信的结果,它们并不是所有类型数据的最佳选择。麻省理工学院电气工程与计算机科学教授、信息和决策系统实验室成员Devavrat Shah指出,对于涉及对结构化数据(如电子表格中的数据)进行预测的任务,传统的机器学习方法往往比生成人工智能模型表现更佳。

他说:“在我看来,它们最大的价值是成为一个非常好的、对人类友好的机器接口。以前,人们必须用机器语言与机器交流以完成任务。现在,这个接口已经学会了如何同时与人类和机器沟通。”

提出风险

生成人工智能聊天机器人现在被用于呼叫中心处理人类客户的问题,但这一应用强调了实施这些模型的一个潜在风险 —— 工人被取代。

此外,生成人工智能可能会继承并扩散训练数据中存在的偏见,或放大仇恨言论和虚假陈述。这些模型具有剽窃的能力,可以生成看似由特定人类创作者制作的内容,引发潜在的版权问题。

另一方面,Shah提出,生成人工智能可以赋予艺术家权力,他们可以使用生成工具帮助他们制作他们可能无法自己生产的创意内容。

他预见,在未来,生成人工智能将改变许多学科的经济学。

麻省理工学院电子工程与计算机科学副教授、计算机科学与人工智能实验室成员Phillip Isola看到生成人工智能的一个有前途的未来方向是其在制造方面的应用。他提到,与其让模型制作一张椅子的图像,不如生成一张可以生产的椅子的计划。

他还看到生成人工智能系统在开发更普遍智能的人工智能代理中的未来用途。

他说:“这些模型的工作方式与我们认为人类大脑的工作方式之间存在差异,但我认为也有相似之处。我们能够在头脑中思考和梦想,提出有趣的想法或计划,我认为生成人工智能是将使代理能够做到这一点的工具之一。”

关注我,每天领取AI领域最新大事

设置⭐️标不迷路

转发朋友圈为您朋友播报每日AI大事

进交流群请扫下面码







最新文章
除了您在Google搜索中看到的文字广告之外,展示广告网络中的网站还可以展示其他具有视觉吸引力的广告类型:文字广告 图片广告——包含照片或插图的广告富媒体广告—&m
上海天擎结合Google领先的搜索广告优化经验,为广告主定制出一套适合Google推广的解决方案MADA服务模式,通过市场分析策略、广告管理策略、数据分析策略、账户优化策略及服务保障策略全方位、专业、高效的满足企业Google推广的需求,真正
短剧逍遥全集观看_逍遥 电视剧
今天给各位分享短剧逍遥全集观看的知识,其中也会对逍遥 电视剧进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!1、总之,又见逍遥电视剧一共40集,这个集数安排既符合了电视剧制作的一般规律,又满足了观众对于精
十大耐玩平民手游多人下载推荐 耐玩的手机游戏有哪些2024
一些平民玩家很爱玩那种不肝不氪又很耐玩的手游,许多福利超多的联机类游戏都很适合平民体验,多元化内容加上良心福利机制满足了平民小白玩家的需求,那么十大耐玩平民手游多人下载推荐哪个好?本文介绍10个免费耐玩佳作都需要联网运行,平
转载:【AI系统】从 CUDA 对 AI 芯片思考
从技术的角度重新看英伟达生态,有很多值得借鉴的方面。本文将主要从流水编排、SIMT 前端、分支预测和交互方式等方面进行分析,同时对比 DSA 架构,思考可以从英伟达 CUDA 中借鉴的要点。英伟达生态的思考点从软件和硬件架构的角度出发,CU
新奥精准资料免费大全|精选解释解析落实
  在这个信息爆炸的时代,获取高质量的资料变得越来越重要。本文旨在提供一个全面的资料库,涵盖了各个领域的精选资源,从科技、人文到社会科学等,无需付费即可享有。我们将对每个领域的资料进行精选解释和深度解析,确保读者能够真正理
活动回顾 | “心航向”职业生涯规划工作坊
“心航向”职业生涯规划工作坊— 活 动 回 顾 —在职业道路的选择上,明确的方向和明智的规划是成功的关键。2024年12月7日,浙江大学心理与行为科学系在海纳苑3幢417室举办了一场意义深远的“心航向”职业生涯规划工作坊,旨在为心理系学子
看过《被困百万年:弟子遍布诸天万界》的人还看过
感谢您对我方的信任,我们将按照法律法规要求,采取严格的安全保护措施,保护您的个人隐私信息。在此,我们郑重的提醒您:1.在您使用我方提供的服务时,建议您详细阅读本用户隐私政策,详细了解我方收集,存储,使用,披露和保护您的个人信
美甲培训如何助力你在教育行业中脱颖而出?
作为一位教育行业从业者,我们都希望自己能够在竞争激烈的市场中脱颖而出。而美甲培训正是一个能够帮助我们实现这一目标的利器。在本文中,我们将从多个角度来阐述美甲培训如何助力我们在教育行业中取得成功。美甲培训不仅仅是教授学员如何
群辉包管理工具 synopkg
因为想安装docker,使用apt-get发现apt-get: command not found,这个的出现是因为系统的原因。Linux系统分为三种:1.RedHat系列:Redhat、Centos、Fedora等2.Debian系列:Debian、Ubuntu等3.其它。RedHat系列的包管理工具是yumDebian系列
网站迁移主机位置,会影响谷歌SEO吗?
在网站运营的广阔天地里,每一次细微的变动都可能牵动SEO的敏感神经。特别是当我们面临网站迁移主机位置这一重大决策时,其对于谷歌SEO的影响无疑是每位站长都关心的问题。基于我多年的实战经验和对行业动态的敏锐洞察,今天,我们就来深入
相关文章
推荐文章
发表评论
0评