生成式人工智能（AIGC）研究综述：从Google Gemini到OpenAI Q＊

生成式人工智能（AIGC）研究综述：从Google Gemini到OpenAI Q＊

2024-12-25 14:30

本综述探讨了生成人工智能（AIGC）领域的发展趋势，重点关注了Mixture of Experts（MoE）、多模态学习和人工智能通用性（AGI）在生成AI中的应用。文章分析了Google Gemini和OpenAI Q*等最新技术对AI研究的影响，并讨论了这些技术在医疗、金融和教育等领域的应用潜力。同时，文章指出了当前AI研究面临的挑战，如学术偏见、预印稿的普及对同行评审过程的影响等。

最后，文章提出了未来AI研究的策略，强调在生成AI中平衡使用MoE、多模态和AGI。

1 介绍

人工智能的发展源于艾伦·图灵的“模仿游戏”和早期计算理论，通过深度学习和强化学习等关键时刻的推动，形成了复杂的混合专家模型和多模态人工智能系统。大型语言模型如OpenAI的ChatGPT和谷歌的Gemini标志着人工智能的转折点，引发了对人工智能意识和潜在威胁的讨论。Gemini等先进AI系统通过双向学习和关注法，推动了多领域对话模型的发展。Q*项目结合LLM和复杂算法，进一步推动了研究环境的动态发展。

A. 改变人工智能研究的流行度

LLM领域的创新技术如Q*，推动了研究路径的规划，转向多模态能力和对话驱动的学习。预印本的传播加速了知识共享，但也带来了学术审查减少的风险。学术界需要共同努力，完善研究方向，以适应该领域的快速发展。像GPT和ChatGPT等生成模型的发布以及ChatGPT的商业应用，都具有很大的影响力。如图1所示，某些关键词的兴衰似乎与重要的行业里程碑有关。尽管存在波动，人们对人工智能研究中“伦理/道德”的持续关注，反映了人们对人工智能道德维度的持续和根深蒂固的关注。人工智能技术如何重塑行业，改变就业格局，影响社会经济结构，这些都是人工智能进步的标志。如图2所示，在arXiv上计算机科学>人工智能（cs.AI）类别下发布的预印本数量的指数级增长，引发了对信息验证的担忧，学术界需要仔细考虑和批判。

图1 不同年份谷歌学术搜索结果数量

图2 arXiv.org上 cs.AI 类别下发布的年度预印本数量

B. 目标

本综述旨在审查生成式人工智能研究的当前趋势，特别是MoE、多模态和人工智能（AGI）的影响。研究方法包括使用关键词进行结构化文献搜索，定制识别2017年至2023年期间发表的相关文章。调查结果揭示了三个新兴的研究领域——MoE、多模态和AGI，它们将深刻重塑生成式人工智能的研究格局。这项调查采用调查式方法，系统地绘制了一个研究路线图，综合并分析了生成式人工智能的当前和新兴趋势。

2 背景：生成人工智能的演变

生成式人工智能的里程碑式发展，从单用途算法到OpenAI的ChatGPT等多模式系统，推动了人工智能领域的变革，并对众多领域产生了深远影响。

A. 语言模型的演变

语言模型经历了一段变革之旅（图3），从基础统计发展到复杂神经网络，支撑当前LLM，追求更准确地反映人类语言细微差别，推动机器理解和生成界限。然而，能力增强的同时，伦理和安全问题也出现，促使人们重新评估其开发方式和使用目的。

图3 语言模型演化的关键发展时间轴

LLM的进步，包括GPT和BERT等模型的开发，为Q的概念化铺平了道路。具体而言，这些模型所特有的可扩展架构和广泛的训练数据是Q提出的能力的基础。例如，ChatGPT在情境理解和对话人工智能方面的成功为Q的设计原则提供了依据，表明了朝着更复杂、情境感知和自适应语言处理能力发展的轨迹。同样，像Gemini这样的多模式系统的出现，能够整合文本、图像、音频和视频，反映了Q可以扩展的进化路径，将LLM的多功能性与高级学习和路径查找算法相结合，以获得更全面的AI解决方案。

MoE虽然具有优势，但也面临技术挑战，如动态路由复杂性和专家不平衡性。MoE可能提高性能，但不能解决AI伦理对齐问题。MoE的复杂性可能掩盖决策过程，使得伦理合规性和价值观对齐更加复杂。虽然MoE的转变标志着LLM的重大进步，但安全性、伦理对齐和透明度仍是首要关注点。MoE架构先进，但仍需跨学科研究和治理，以确保AI与社会价值观和道德标准的一致性。

B. 多模态人工智能和交互的未来

随着多模态AI的诞生，人工智能发展迎来了变革时代，使机器对多种人类感官输入和情境数据的解读与互动方式发生革命性变化。

C. 推测进展和时间趋势

在AI的快速演进中，Q-star项目的投契能力，通过融合LLM、Q-learning和A（AStar算法），实现了重大突破。本节主要探讨了AI系统从游戏中心化到Q*预期广泛应用的发展路径。

3 当前的生成人工智能研究分类法

生成式人工智能领域快速发展，需要全面分类。表1提供了该领域的综合分类，涵盖了关键研究领域和创新领域，作为理解现状的基础框架，帮助应对模型架构、训练方法、应用领域、伦理影响和新兴技术前沿的复杂性。

表1 当前生成人工智能和LLM的综合分类

A. 模型架构

生成式人工智能模型架构在Transformer、循环神经网络（RNN）、专家混合模型（MoE）和多模态模型四个关键领域取得重大发展。Transformer模型采用注意力机制实现增强的上下文处理，在NLP和计算机视觉领域表现优异。RNN擅长序列建模，在处理语言和时序数据任务中表现突出。MoE模型通过并行性提高效率，能够处理大量参数，处理复杂任务。多模态模型整合多种感官输入，如文本、视觉和音频，全面理解复杂数据集，特别是在医学成像等领域具有变革性。

B. 训练技巧

生成式人工智能模型的训练使用了四种关键技术：监督学习、无监督学习、强化学习和迁移学习。监督学习使用标记数据集进行准确预测，无监督学习发现未标记数据中的模式，强化学习在决策和自治系统中变得越来越重要，迁移学习强调多功能性和效率，允许模型将从一项任务获取的知识应用于不同但相关的任务。

C. 应用领域

人工智能的应用领域广泛，包括自然语言理解（NLU）、自然语言生成（NLG）、对话式人工智能和创意人工智能。NLU涉及语义分析、命名实体识别、情感分析等，对提高人工智能理解和分析语言的能力至关重要。NLG强调生成连贯、上下文相关的和创造性的文本响应，如聊天机器人、虚拟助手和自动内容创建工具。对话式人工智能致力于开发能够平滑、自然和上下文感知人机交互的人工智能系统。创意人工智能跨越文本、艺术、音乐等领域，通过参与艺术内容的生成，突破人工智能创意和创新潜力的界限。

D. 合规和道德考虑

随着人工智能技术发展，道德考虑和法律合规性愈发重要，需开发“道德人工智能框架”，确保系统构建强调道德、公平和透明度。人工智能系统中的偏差缓解是关键，包括平衡数据收集、实施算法调整和正则化技术以减少偏差。数据安全方面，需确保数据机密性、遵守同意规范以及防范漏洞。人工智能伦理关注公平、问责和社会影响，需伦理治理框架、多学科合作和技术解决方案。隐私保护方面，需维护数据机密性和完整性，采用匿名化和联合学习等策略。

E. 进阶学习

自监督学习、元学习和微调等人工智能先进技术增强了模型的自主性、效率和多功能性。自监督学习使用未标记数据训练模型，减少手动标记工作和模型偏差。元学习让模型能快速适应新任务和领域，适用于数据驱动的环境。微调根据特定领域或用户偏好定制预训练模型，提高准确性和相关性。人类价值调整确保人工智能决策和行动符合社会规范和道德标准。

F. 新兴趋势

生成式人工智能的新兴趋势包括多模态学习、交互式和协作式人工智能、AGI开发以及AGI遏制。多模态学习结合语言理解与计算机视觉和音频处理，实现更丰富的多感官上下文感知。交互式和协作式人工智能旨在增强人工智能模型与人类协作的能力，改善用户体验和效率。AGI开发专注于打造具有整体理解和复杂推理能力的人工智能系统，而AGI遏制则关注确保这些系统在道德上符合人类价值观和社会规范。

4 教育部的创新视野

MoE模型架构在Transformer语言模型上实现了突破，展示了卓越的可扩展性和效率（图 4）。Switch Transformer和Mixtra等最新模型证明了基于MoE的设计正在迅速改变跨语言任务的模型规模和性能。

图4 教育部创新概念图

A. 核心概念和结构

MoE模型是一种神经网络设计创新，通过稀疏驱动的架构提高可扩展性和效率。它用多个专家网络的稀疏MoE层替换密集层，每个专家处理特定子集，门控机制动态分配输入。MoE模型在预训练速度上优于密集模型，但在微调上面临挑战，需要大量内存进行推理。MoE模型可以管理大型数据集，将模型容量放大一千倍以上，计算效率仅略有下降。其关键组件是稀疏门控专家混合层，促进每个输入实例的专家的动态和稀疏激活，保持高计算效率。MoE模型的最新进展凸显了智能路由的优势，使它们能够扩大模型大小，同时保持计算时间常数。MoE模型的核心概念和结构在于其动态路由和专业化能力，为扩展神经网络并提高其在各种任务中的效率和适应性提供了有前途的途径。

B. 训练和推理效率

MoE模型，特别是Mixtral 8x7B，预训练速度快，但微调困难，需要大量VRAM。最新技术显著降低训练成本，最高节省五倍。DeepSpeedMoE优化模型大小和推理，降低3.7倍模型大小，提高7.3倍的延迟和成本效率。分布式MoE训练和推理，如Lina，通过增强张量划分优化资源调度，大幅减少训练和推理时间。这些发展标志着从密集到稀疏的MoE模型转变，可扩展AI应用。

C. 负载均衡和路由器优化

MoE模型中，负载平衡对于保证专家计算负载均匀分布至关重要，路由器网络负责选择专家处理令牌，影响模型稳定性和性能。Zloss正则化技术通过微调门控机制，实现专家间更公平负载分配，提高模型性能，减少训练时间和计算量。专家容量管理策略通过设置专家处理代币数量阈值，调节单个专家处理能力，避免瓶颈，确保模型运行高效和精简，改进训练过程并提高复杂计算任务性能。

D. 并行性和服务技术

MoE模型的最新发展提高了大规模神经网络的效率，如DeepSpeed-MoE引入了高级并行模式，优化了延迟和吞吐量，提高了模型效率。MoE模型在多语言任务和编码等应用中具有多种用途，表现出处理复杂任务的能力。Mixtral和Switch Transformer等模型受益于MoE计算与模型大小的次线性缩放，大幅提高精度。DeepSpeed-MoE包括模型压缩技术和端到端MoE训练和推理解决方案，为大规模MoE提供服务。这些创新开辟了人工智能的新方向，用更少的资源训练和部署更高质量的模型变得更广泛。

E. 未来方向和应用

MoE架构的新研究旨在提升性能和效率，优化超参数，突破模型规模限制，保持迁移学习的专业化。自适应稀疏访问协调专家在推理到开放域对话的任务上合作。对路由机制的持续分析旨在平衡专家负载，减少冗余计算。MoE模型有望在语言、代码生成、推理和多模式应用方面取得新突破，对教育、医疗保健、财务分析等领域产生深远影响。

5 Q*的推测功能

在新兴的人工智能领域，令人期待的Q*项目是潜在突破的灯塔，预示着可能重新定义人工智能能力格局的进步（图5）。

图5 推测的 Q* 功能的概念图

A. 增强通用智能

Q*代表了从专业AI到整体AI的转变，类似于人类智能。它集成了多种神经网络和机器学习技术，能处理和合成多方面信息。通用适配器和其他模型让Q*快速学习各领域知识，并适应新数据类型。Q*形成了全面、自适应和多功能的人工智能模型。种智能可能超越人类认知灵活性，对跨学科创新和复杂问题解决有深远影响。然而，Q*的能力也带来了复杂的伦理和治理挑战，需要建立强有力的伦理框架和治理结构来确保负责任和透明的人工智能发展。相应的准数学公式可以表示为：

其中，EGI：“增强通用智能”；NNi：一组多样化的神经网络架构；MLTi：各种机器学习技术；L ：这些组件的集成；⊙：神经网络和机器学习技术之间的功能交互。

B. 高级自学与探索

Q*是一种自学习和探索能力的重大演变，利用复杂的策略神经网络处理语言和推理任务，增强自主学习能力。它采用强化学习技术如近端策略优化（PPO），集成神经网络和尖端搜索算法，实现自主导航和吸收复杂信息。图神经网络增强元学习能力，使Q*快速适应新任务和环境，同时保留已学知识。Q*不仅能理解现有数据，还能主动寻求和综合新知识，有效适应不断变化的场景，无需频繁再训练，实现了前所未有的自主性和效率。相应的准数学公式可以表示为：

其中，ASLE：“高级自学习和探索”；RL：强化学习算法，特别是近端策略优化（PPO）；PNN：策略神经网络，适用于语言和推理任务；SA：复杂的搜索算法，如树或 Graph of Thought；GNN：将图神经网络纳入元学习；×：RL 与 GNN 的跨功能增强。

C. 超凡的人类理解力

Q*期望通过高级集成多个神经网络，如价值神经网络 (VNN)，实现卓越的人类理解水平。它将深入研究人类交流的微妙之处，并通过先进的自然语言处理算法和技术，如 DeBERTa 等，增强其深度理解能力。这些算法使 Q*不仅能解释文本，还能理解微妙的社会情感方面，如意图、情感和潜在含义。结合情感分析和自然语言推理，Q*可以探索社会情感洞察的各个层面，包括同理心、讽刺和态度。这种超越当前语言模型的理解水平将使Q在同理心、上下文感知交互方面表现出色，实现人工智能应用程序中个性化和用户参与的新梯队。相应的准数学公式可以表示为：

其中，SHLU：“高级人类水平的理解”；V NN：价值神经网络，类似于 AlphaGo 等系统中的评估组件；NLP：一组先进的NLP算法；⊕：VNN评估与NLP算法的结合；alg：NLP 集中的各个算法。

D. 高级常识推理

Q*的高级常识推理发展将结合复杂逻辑和决策算法，可能融合符号人工智能和概率推理。目标是使Q*具备人类常识理解，缩小人工智能与自然智能差距。Q*可能利用图形结构世界知识，结合物理和社会引擎。通过大规模知识库和语义网络，Q*可以有效应对复杂社会和实际场景，使决策更接近人类期望。相应的准数学公式可以表示为：

其中，ACSR：“高级常识推理”；LogicAI 和ProbAI：分别是符号AI 和概率推理组件；WorldK：图结构世界知识的整合；⊙：这些要素的综合运算，进行常识推理。

E. 广泛的现实世界知识整合

Q*整合现实世界知识，使用先进形式验证系统，结合复杂神经网络和动态学习算法，深入理解现实复杂性，超越传统AI限制。可能采用数学定理证明技术确保推理准确且有道德基础，通过道德分类器增强与现实世界交互的可靠性和责任感。相应的准数学公式可以表示为：

其中，ERWKI：“广泛的现实世界知识整合”；FVS：形式验证系统；NN：神经网络架构；LTP：数学定理证明逻辑和事实的有效性；EC：道德分类器的合并；⊗：知识综合和道德统一的全面整合。

此外，Q*的推测能力可能重塑就业市场和劳动力动态，其先进功能可自动执行复杂任务，导致工作要求转变和新技能需求。这要求重新评估劳动力战略和教育模式，以适应技术环境，确保劳动力能与先进AI系统互动和补充。

6 AGI 的预计功能

AGI是人工智能的革命性飞跃，旨在软件中体现人类认知能力（图6）。其发展基于先进的自学习能力，使用策略神经网络和复杂强化学习技术进行自主适应。思想树/思维图等算法与这些网络的集成，预示着未来AGI能独立获取和应用跨领域知识。

图6 预计AGI功能的概念图

A. 自主学习的革命

AGI预计将改变自学和探索，通过结合PPO等方法，实现自主学习和解决问题的水平，超越当前AI模型对训练数据的依赖，减少再训练需求，促进动态适应，对不断变化的场景响应。

B. 认知能力的拓展

AGI集成多种架构，复制人类认知，通用适配器方法促进信息同化，使AGI成为跨领域执行任务的系统，具有人类智力的适应性。尽管AGI全部功能尚在推测，但先进医疗保健诊断的潜在应用已显现，人工智能驱动的预测医学模型突破证明了AGI改变医疗诊断和治疗的潜力。

C. 提升理解和互动

AGI预计将利用Transformer架构算法，理解人类语言和社会情感的微妙之处，实现复杂、有同理心、上下文感知的交互，潜在应用包括改变人工智能系统通信方式和相互作用。

D. 高级常识推理

符号AI和概率推理的集成，使AGI系统掌握常识，缩小AI与自然智能的差距，增强AGI在现实世界的导航和响应能力，实现与人类思维过程的紧密结合。

E. 知识的整体整合

AGI在形式验证系统指导下，整合现实世界知识，具有准确、有道德的输出，能与现实世界复杂性进行负责任互动。预计AGI将应对气候变化等全球挑战，通过先进数据分析和预测建模，在环境监测、气候预测和制定可持续解决方案方面发挥关键作用，助力全球生态努力。

F. AGI发展的挑战和机遇

AGI的发展既带来机遇，也面临挑战。虽然AGI有望提高创意生产力和创新跨模式生成技术，但数据偏差、计算效率和道德影响等挑战依然存在。在AGI开发中，需要采取平衡方法，重点关注数据管理、高效系统和社会影响。

在AGI发展的背景下，专家警告不要高估当前AI能力，强调AGI理论与实际差距。AGI设想的自主性和认知能力使其区别于现有模型，未来AI系统可跨领域执行任务。道德和技术突破对AGI成为社会变革力量至关重要。预测实现通用AI的时间表仍不确定，但认识到障碍如计算能力限制和复制类人认知的复杂性至关重要。追求通用AI过程中需要持续研究和伦理考虑，确保负责任和认真的发展。

7 对生成人工智能研究分类的影响分析

随着 MoE、多模态和AGI等先进人工智能发展的出现，生成式人工智能研究的格局正在发生重大转变。本节分析这些发展如何重塑生成人工智能的研究分类。

A. 影响分析的标准

生成式AI的进步引发了研究领域的变革，为此我们建立了一套标准来评估其影响（如表2）。这套标准深深植根于技术进步与研究重点领域之间的动态相互作用。我们的分析框架是在从新兴到过时的梯度尺度上构建的，反映了生成AI研究领域正在重塑的程度。我们将其分为五个不同的类别，进行复杂的评估，同时承认并非所有领域都会受到一致的影响。这种多层次的方法是基于技术颠覆的历史模式和科学探究的适应性。

表2 分析对生成人工智能研究的影响的标准

本文讨论了人工智能发展对科学研究的影响，将研究领域分为五类：新兴方向、需要转变方向的领域、仍然相关、可能变得冗余和本质上无法解决。新兴方向基于人工智能发展历史，揭示新科学之谜和途径。需要转变方向的领域需吸收新兴AI范式，全面改革传统方法。仍然相关领域通过解决持久探究或固有适应性，抵御AI创新浪潮。可能变得冗余领域面临过时，需前瞻性战略和资源重新分配。本质上无法解决挑战提醒我们，AI追求受制于人类伦理和文化多样性的复杂网络。

B. 影响分析概述

本节概述了生成人工智能领域最新进展，如MoE、多模态和AGI，对研究分类的影响。评估了模型架构、学习方法等，揭示了各领域受技术进步影响的程度。考虑了新研究方向、现有领域调整、方法论持续相关性和冗余等因素，概括在表3中。

表3 MoE、多模态和AGI对生成人工智能研究的影响

8 生成人工智能的新兴研究重点

随着我们接近以Q*的出现为标志的新时代，生成式 AI 的研究格局正在经历一场关键的转变。教育部和多模态领域的新兴研究重点主要集中于模型架构中的多模态模型、新兴趋势中的多模态学习、AGI领域的多模态模型以及元学习等方面。随着生成式人工智能的兴起，多模态 AI 技术正成为教育课程和技能发展的关键。同时，人们越来越需要更新学术课程，以纳入全面的人工智能素养，并重点关注多模态人工智能技术。这种教育的演变旨在帮助未来的专业人士做好准备，有效地参与和利用人工智能的进步。AGI的新兴研究重点在于强化学习、自然语言理解和生成、对话式人工智能和创意人工智能、偏见缓解以及类人适应性等方面的研究。与AGI的这些发展相一致，人工智能研究资金和投资模式的显着趋势显而易见。这种趋势反映出人们对通用人工智能日益浓厚的兴趣，同时也指导了未来研究的轨迹。

9 生成人工智能技术的实际意义和局限性

生成式人工智能技术，包括 MoE、多模态和AGI，提出了独特的计算挑战。本节探讨这些高级人工智能模型固有的处理能力要求、内存使用和可扩展性问题。

A. 生成式人工智能技术的计算复杂性和实际应用

1）计算复杂性：生成式人工智能技术，包括 MoE、多模态和AGI，提出了独特的计算挑战。本节探讨这些高级人工智能模型固有的处理能力要求、内存使用和可扩展性问题。

2）生成式人工智能技术的现实应用示例：生成式人工智能模型在现实场景中的应用展示了其在医疗保健、金融、教育的变革潜力和挑战。

B. 生成型人工智能技术的商业可行性和行业解决方案

1) 市场准备情况：评估生成式人工智能技术的市场准备情况涉及分析成本、可访问性、部署挑战和用户采用趋势。

2）现有行业解决方案：生成式人工智能正在通过提供创新解决方案和改变市场动态来重塑各个行业。

C. 生成式人工智能技术的局限性和未来方向

1）技术限制：识别和解决生成人工智能模型的技术限制对于其先进性和可靠性至关重要。

2）增强生成式人工智能实用性的未来研究方向：生成式人工智能的未来研究应侧重于解决当前的局限性并扩展其实际应用。

10 生成人工智能对跨学科预印本的影响

ChatGPT等AI工具的快速商业化和采用，推动了人工智能领域预印本的激增（图 7），带来了学术挑战。这种快速发展导致学术交流出现瓶颈，而由AI工具生成的手稿和预印本已从计算机科学扩展到其他学科，对传统的同行评审过程和预印本生态系统构成挑战。当前研究时代，知识呈指数级增长，学术文献快速扩展，对研究人员进行证据综合提出挑战。学术界面临人工智能研究快速发展带来的“混乱”，需紧急讨论应对策略。需探索新的同行评审和研究传播模式，如社区驱动审查流程、增强可重复性检查、出版后审查和纠正，以及整合自动化工具和人工智能辅助审查流程。在快速发展的科研领域，预印本生态系统与传统同行评审系统相结合是必要的，可以创建一个混合模型（图8），确保学术严谨性和质量保证。

图7 每年向 arXiv.org 上不同类别提交的预印本提交量

图8 传统同行评审与预印本生态系统之间可能的趋同

参考文献：