一、AIGC 引入
1.1 AIGC 定义
AIGC 又称生成式 AI (Generative AI) 或人工智能生成内容,是继专业生产内容、用户生产内容 之后的新型内容创作方式,可以在对话、故事、图像、视频和音乐制作等方面,打造新的数字内容生成与交互形式。
与所有人工智能技术一样,AIGC 的能力由机器学习模型提供,这些模型是基于大量数据进行预先训练的大模型,通常被称为基础模型(Foundation Models)。如今以基础模型为驱动的 AIGC 应用迭代速度呈现指数级发展,从由 Stable Diffusion 文生图模型驱动的AI 作画应用,再到以大语言模型(LLM)驱动的智能聊天机器人,深度学习模型不断完善、开源预训练基础模型的推动以及大模型探索商业化的可能,都在成为这场人工智能颠覆性革命的主要驱动力。
摘自:https://aws.amazon.com/cn/campaigns/aigc/
PGC、UGC 和 AIGC 是与内容生成相关的术语,它们的概念和区别如下:
PGC (Professional-generated Content,专业生产内容):PGC 是由专业创作者或专业团队制作和生成的内容,这些创作者具备专业的技能和知识,在特定领域有丰富的经验。PGC 的特点是高质量、精心制作、专业性强,传统的媒体机构、电影制片厂、电视台等通常是 PGC 的主要生产者,PGC 的例子包括电影、电视剧、新闻报道、专业摄影作品等。
UGC (User-generated Content,用户生成内容):UGC 是由用户自主产生和共享的内容,用户可以通过社交媒体平台、博客、论坛等自由发布和传播他们自己创作的内容。UGC 的特点是多样性、大量性和即时性,它可以包括照片、视频、博文、评论等形式的内容。UGC 的好处是能够促进用户参与和互动,丰富了内容的来源和多样性。
AIGC (Artificial Intelligence Generated Content):AIGC 是由人工智能生成内容,即通过机器学习、自然语言处理、计算机视觉等技术,人工智能能够自动地创作和生成各种形式的内容,如文章、音乐、图像等。AIGC 的优点是可以快速生成大量的内容,并且可以适应个性化需求。然而,AIGC 也存在一些挑战,如保护知识产权、确保生成内容的质量和真实性。
1.2 AIGC 历史沿革(了解)
- 早期萌芽阶段 (20 世纪 50 年代至 90 年代中期)
受限于当时的科技水平,AIGC 仅限于小范围实验。
- 1957年,莱杰伦·希勒 (Lejaren Hiller) 和伦纳德·艾萨克森 (Leonard Isaacson) 通过将计算机程序中的控制变量换成音符完成了历史上第一只支由计算机创作的音乐作品―—弦乐四重奏《依利亚克组曲 (Illiac Suite) 》。
- 1966年,约瑟夫·魏岑鲍姆 (Joseph Weizenbaum) 和肯尼斯·科尔比 (Kenneth Colby) 共同开发了世界第一款可人机对话的机器人 “伊莉莎(Eliza)”,其通过关键字扫描和重组完成交互任务。
- 80 年代中期,IBM 基于隐形马尔科夫链模型 (Hidden Markov Model,HMM) 创造了语音控制打字机 “坦戈拉 (Tangora)”,能够处理约 20000 个单词。
- 沉淀积累阶段 (20 世纪 90 年代中期至 21 世纪 10 年代中期)
人工智能发展由于以下原因取得了显著的进步:
- 深度学习算法取得重大突破
- 图形处理器 (Graphics Processing Unit, GPU)、张量处理器 (Tensor Processing Unit, TPU) 等算力设备性能不断提升
- 互联网使数据规模快速膨胀并为各类人工智能算法提供了海量训练数据
AIGC 也从实验性向实用性逐渐转变:
2012 年,微软公开展示了一个全自动同声传译系统,基于深层神经网络 (Deep Neural Network, DNN) 可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
- 快速发展阶段 (21 世纪 10 年代中期至今)
自 2014 年起,随着以生成式对抗网络 (Generative Adversarial Network, GAN) 为代表的深度学习算法的提出和迭代更新,AIGC 迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。
- 2017,微软小冰创作世界首部 100% 由人工智能创作的诗集 《阳光失了玻璃窗》
- 2018,英伟达发布的 StyleGAN 可以自动生成图片,目前第四代模型 StyleGAN-XL 生成的高分辨率图片人眼难以分辨真假
- 2019,DeepMind 发布了 DVD-GAN 用以生成连续视频
- 2021,OpenAI 发布的 DALL-E 及次年发布的升级版本 DALL-E-2 可用于文本与图像的交互生成内容
来源:中国信息通信研究院和京东探索研究院
人工智能生成内容(AIGC)白皮书
1.3 AIGC 技术演进
- 传统基于模板或规则的前深度学习阶段
早期的 AIGC 技术主要依据事先指定的模板或者规则,进行简单的内容制作与输出,与灵活且真实的内容生成有较大的差距。该时期的人工智能算法并不具备强大的学习能力,而是大多依赖于预先定义的统计模型或专家系统执行特定的任务。通过巧妙地规则设计,早期 AIGC 技术可以完成简单线条、文本和旋律的生成。但是由于缺乏对客观世界的深入感知和对人类语言文字等知识的认知能力,早期的 AIGC 技术普遍面临所生成的内容空洞、刻板、文不对题等问题。参考人类的内容创作过程,研究人员们提出,理想的 AIGC 算法需要具备对数据内容的学习能力,在理解数据的基础上进行知识与分布的学习,最终实现高质量的内容创作。
- 深度神经网络快速发展的深度学习阶段
深度神经网络在学习范式 (人工智能的学习范式是指人工智能模型从数据中进行学习的方法) 和网络结构上的不断迭代极大的提升了人工智能算法的学习能力,从而推动了 AIGC 技术的快速发展。
从早期的玻尔兹曼机,多层感知机,卷积神经网络,到深度残差网络和 Transformer 大模型,网络结构进化带来了深度学习模型参数量从几万到数千亿跃升,模型层数也从开始的个位数逐步发展到成百上千。深度学习模型规模上的量变引起了 AIGC 技术能力的质变,在新型网络结构的加持下,相关算法开始能生成超高清晰度的视频,高质量的文本段落和优美灵动的乐曲旋律。
来源:中国信息通信研究院和京东探索研究院
人工智能生成内容(AIGC)白皮书
二、AIGC 大模型
超级深度学习近年来的快速发展带来了深度神经网络技术在大模型和多模态两个方向上的不断突破,并为 AIGC 技术能力的升级提供了强力的支撑和全新的可能性。研究界在大规模深度网络、多模态人工智能方面的探索表明大模型具备易扩展性,能够实现跨模态的知识沉淀,以大模型为基础模型,通过大模型小型化技术使得人工智能在小数据集场景下也能具备优秀的理解、生成和泛化能力,具有超大规模、超多参数量的多模态大型神经网络将引领 AIGC 技术升级正在成为学界、产业界共识。
2.1 视觉大模型提升 AIGC 感知能力
- 视觉数据及其感知
- 以图像、视频为代表的视觉数据是互联网时代信息的主要载体之一,这些视觉信息时刻记录着物理世界的状态,并在不断传播和再创作的过程中,反映人的想法、观念和价值主张。
- 赋以人工智能模型感知并理解这些海量的视觉数据的能力,是实现 人工智能生成数字内容、数字孪生 的基础;感知能力的提升,是实现生成视觉内容语义明确、内涵丰富、效果逼真的前提。
- 视觉 Transformer (Vision Transformer,ViT)
以视觉 Transformer (ViT,一种神经网络模型) 为代表的新型神经网络,因其优异的性能、模型的易扩展性、计算的高并行性,正在成为视觉领域的基础网络架构,并且逐渐发展出来十亿甚至百亿参数规模的模型。在过去的 2-3 年间,视觉感知和理解技术正迎来突飞猛进的发展。
基于 Transformer 衍生出来的一系列网络结构,例如 Swin Transformer、ViTAE Transformer。通过将人类先验知识引入网络结构设计,使得这些模型具有了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力,从而能更好地学习和编码海量数据中蕴含的知识。这些新型的大模型架构,通过无监督预训练和微调学习的范式,在图像分类、目标检测、语义分割、姿态估计、图像编辑以及遥感图像解译等多个感知任务上取得了相比于过去精心设计的多种算法模型更加优异的性能和表现,有望成为基础视觉模型,显著提升场景感知能力,助力 AIGC 领域的发展。
2.2 语言大模型增强 AIGC 认知能力
作为人类文明的重要记录方式,语言和文字记录了人类社会的历史变迁、科学技术和知识文化等。利用人工智能技术对海量语言、文本数据进行信息挖掘和内容理解是 AIGC 技术的关键一环。一方面,语言模型的训练和学习是进行文本生成的核心基础;另一方面,学习并理解人类语言将大幅丰富数字内容的生产能力,创新、丰富数字内容的生产方式,例如构建低门槛创作工具,使用户通过语言描述就能完成例如语言定位、语言编辑等高阶编辑操作。
对于传统自然语言处理技术的普遍问题,基于语言的大模型技术可以充分利用海量无标注文本进行预训练,从而赋予文本大模型在小数据集、零数据集场景下的理解和生成能力。基于大规模预训练的语言模型不仅能够在情感分析、语音识别、信息抽取、阅读理解等文本理解场景中表现出色,而且同样适用于图片描述生成、广告生成、书稿生成、对话生成等文本生成场景。这些复杂的功能往往只需要通过简单的无标注文本数据收集,训练部署一个通用的大规模预训练模型即可实现。例如,谷歌 和 OpenAI 分别提出的大规模预训练模型 BERT 和 GPT,在诸多自然语言理解和生成任务上取得了突破性的性能提升,验证了大模型在零资源、小样本、中低资源场景的优越性。
2.3 多模态大模型升级 AIGC 内容创作能力
在日常生活中,视觉和语言是最常见且重要的两种模态,上述的视觉大模型可以构建出人工智能更加强大的环境感知能力,而语言大模型则可以学习到人类文明的抽象概念以及认知的能力。然而 AIGC 技术如果只能生成单―模态的内容,那么 AIGC 的应用场景将极为有限、不足以推动内容生产方式的革新。
多模态大模型的出现,则让融合性创新成为可能,极大丰富了 AIGC 技术可应用的广度。对于包含多个模态的信息,多模态大模型则致力于处理不同模态、不同来源、不同任务的数据和信息,从而满足 AIGC 场景下新的创作需求和应用场景。
多模态大模型拥有两种能力,一个是寻找到不同模态数据之间的对应关系,例如将一段文本和与之对应的图片联系起来;另一个是实现不同模态数据间的相互转化与生成,比如根据一张图片生成对应的语言描述。为了寻找到不同模态数据之间的对应关系,多模态大模型将不同模态的原始数据映射到统一或相似语义空间当中,从而实现不同模态的信号之间的相互理解与对齐,这一能力最常见的例子就是互联网中 使用文字 搜索与之相关图片 的图文搜索引擎。在此基础上,多模态大模型可以进一步实现不同模态数据间的相互转化与生成,这一能力是进行 AIGC 原生创作的关键。
对于人工智能而言,能够高质量的完成多模态数据的对齐、转换和生成任务意味着模型对物理世界具备了极为深刻的理解。从某种程度而言,基于多模态大模型的 AIGC 是人工智能算法迈向通用人工智能的重要一步。
来源:中国信息通信研究院和京东探索研究院
人工智能生成内容(AIGC)白皮书
三、人工智能生成内容的应用场景
3.1 AIGC + 传媒:人机协同生产,推动媒体融合
- 采编
- 实现采访录音语音转写,提升传媒工作者的工作体验:借助语音识别技术将录音语音转写成文字,有效压缩稿件生产过程中录音整理方面的重复工作,进一步保障了新闻的时效性。
- 实现智能新闻写作,提升新闻资讯的时效:基于算法自动编写新闻,将部分劳动性的采编工作自动化,帮助媒体更快、更准、更智能化地生产内容。
- 实现智能视频剪辑,提升视频内容的价值:通过使用视频字幕生成、视频锦集、视频拆条、视频超分等视频智能化剪辑工具,高效节省人力时间成本,最大化版权内容价值。
- 传播
- 实现 AI 合成主播 (新闻播报、多语种播报、手语播报):AIGC 应用主要集中于以 AI 合成主播为核心的新闻播报等领域;AI 合成主播开创了新闻领域实时语音及人物动画合成的先河,只需要输入所需要播发的文本内容,计算机就会生成相应的 AI 合成主播播报的新闻视频,并确保视频中人物音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。
3.2 AIGC + 电商:推进虚实交融,营造沉浸体验
- AIGC 打造虚拟主播,赋能直播带货
虚拟主播优势:
- 虚拟主播能够填补真人主播的直播间隙,使直播间能不停轮播,既为用户提供更灵活的观看时间和更方便的购物体验,也为合作商家创造更大的生意增量
- 虚拟化的品牌主播更能加速店铺或品牌年轻化进程,拉近与新消费人群的距离,塑造元宇宙时代的店铺形象,未来可通过延展应用到元宇宙中更多元的虚拟场景,实现多圈层传播。
- 虚拟主播人设更稳定可控,在头部主播有限并且可能“人设崩塌”的情况下,虚拟主播人设、言行等由品牌方掌握,比真人明星的可控性、安全性更强。
- AIGC 生成商品 3D 模型用于商品展示和虚拟试用,提升线上购物体验
3.3 AIGC + 影视:拓展创作空间,提升作品质量
- AIGC 实现剧本创作
- AIGC 为剧本创作提供新思路,通过对海量剧本数据进行分析归纳,并按照预设风格快速生产剧本,创作者再进行筛选和二次加工,以此激发创作者的灵感,开阔创作思路,缩短创作周期。
- AIGC 扩展创作空间
- 角色向:通过人工智能合成人脸、声音等相关内容,实现 “数字复活” 已故演员、替换 “劣迹艺人”、多语言译制片音画同步、演员角色年龄的跨越、高难度动作合成等,减少由于演员自身局限对影视作品的影响。
- 场景向:通过人工智能合成虚拟物理场景,将无法实拍或成本过高的场景生成出来,大大拓宽了影视作品想象力的边界,给观众带来更优质的视觉效果和听觉体验。
- AIGC 赋能影视剪辑,升级后期制作
- 实现对影视图像进行修复、还原,提升影像资料的清晰度,保障影视作品的画面质量
- 实现影视预告片生成
- 实现影视内容从 2D 向 3D 自动转制
3.4 AIGC + 娱乐:扩展辐射边界,获得发展动能
- 实现趣味性图像或音视频生成,激发用户参与热情
- 在图像视频方面,以 AI 换脸为代表的 AIGC 应用极大满足用户猎奇的需求,成为破圈利器,如 FaceAPP、ZAO、Avatarify。
- 打造虚拟偶像,释放 IP 价值
- 实现与用户共创合成歌曲,加深粉丝粘性
- 通过 AI 合成音视频动画,支撑虚拟偶像在更多元的场景进行内容变现
- 开发 C 端用户数字化身,布局消费元宇宙
3.5 AIGC + 其他:推进数实融合,加快产业升级
- AIGC + 教育:赋予教育材料新
- AIGC + 医疗:赋能诊疗全过程
- AIGC + 工业:提升产业效率和价值
- 融入计算机辅助设计 CAD,极大缩短工程设计周期:AIGC 支持自动化工程设计中重复的、耗时的和低层次的任务;AIGC 支持生成衍生设计,为工程师或设计师提供灵感;AIGC 支持在设计中引入变化,实现动态模拟。
- 加速数字孪生系统的构建:通过将基于物理环境形成的数字几何图形,快速转化为实时参数化的 3D 建模数据,高效创建现实世界中工厂、工业设备和生产线等的数字孪生系统。
- …
来源:中国信息通信研究院和京东探索研究院
人工智能生成内容(AIGC)白皮书
附A. AIGC & Metaverse & Digital Twin
AIGC、元宇宙和数字孪生都是与数字技术和虚拟世界相关的概念,它们共同构建了一个数字化、互联和虚拟的未来空间。
A.0 AIGC
AIGC 可以为元宇宙提供自动生成的内容,丰富和扩展元宇宙的内容库。
A.1 元宇宙 (Metaverse)
元宇宙是虚拟世界中的一个全息、交互和多维度的数字空间,它由人工智能、虚拟现实、增强现实等技术构建而成。元宇宙允许用户在虚拟世界中进行沉浸式的交互和体验,与其他用户进行社交互动,创造和共享内容,并且可以与现实世界互相连接。元宇宙的理念是构建一个更加开放、互联和可持续发展的数字化空间,它可以应用于娱乐、教育、商业等多个领域。
元宇宙可以是数字孪生的应用场景之一,通过数字孪生技术在虚拟世界中模拟、优化和操作实体和系统。
A.2 数字孪生 (Digital Twin)
数字孪 (luan) 生是指现实世界中的实体、过程或系统通过数字化技术实时建模和仿真的虚拟映射,它是现实世界和数字世界的联系和桥梁。数字孪生可以用来监测、分析和优化实体或系统的性能,从而提供预测、决策和优化的依据。数字孪生有许多可以用领域,如工业生产、城市规划、医疗保健等。
数字孪生可以为元宇宙提供现实世界中实体的虚拟映射,使元宇宙更加真实和逼真。
IBM:什么是数字孪生?