没有一个BAT老板的世界人工智能大会，看马斯克汤晓鸥姚期智们讲了啥

作者 | 程茜

编辑 | 漠影

马斯克连线上海8分钟，“AI创业教父”汤晓鸥来了，深度学习大佬杨立昆（Yann LeCun）、图灵奖得主姚期智也来了。

7月6日上午，2023世界人工智能大会（WAIC）在上海开幕！作为国内最高规格的人工智能领域行业大会之一，今年WAIC的开幕主论坛上请到了特斯拉创始人、CEO埃隆·马斯克（Elon Musk）、香港中文大学教授汤晓鸥，华为轮值董事长胡厚崑等重磅大咖演讲。

更有图灵奖2018年得主、Meta AI基础人工智能研究（FAIR）团队首席AI科学家杨立昆（Yann LeCun），图灵奖得主、上海期智研究院院长姚期智展开巅峰对话，多位大佬在上午的演讲中抛出了众多精彩观点和干货内容。

开幕式上，马斯克通过连线进行了8分钟演讲，重提他对全面人工智能的安全担忧，并预言未来机器人数量将超过人类，今年年底还将发布完全自动驾驶。

汤晓鸥畅谈了大模型浪潮中，中国学者的原创力量正在崛起。

在国内，AI发展的算力基础一直令众多企业头疼，胡厚崑谈道，华为的算力基础设施构建正在加速，让算力不再成为AI发展的瓶颈，国内有一半大模型由AI昇腾提供算力支持。

微软和OpenAI的强劲组合引领了这一波浪潮，微软全球资深副总裁、微软大中华区董事长兼首席执行官侯阳博士也预言未来每一家公司的每一个应用程序都将由AI驱动，微软将发掘数字化产业在各个领域的发展潜力。

杨立昆（Yann LeCun）和地平线创始人兼CEO余凯进行了线上交流，杨立昆重申ChatGPT不是AGI终局，视频和图像生成革命亟需推动。

更有商汤科技董事长兼CEO徐立与姚期智、清华大学交叉信息研究院助理教授袁洋、清华大学交叉信息研究院助理教授、Moonshot AI创始人杨植麟、DragGAN第一作者、南洋理工大学计算机科学与工程学院助理教授潘新钢，进行了关于大模型发展下一阶段的发展方向，以及应用爆发在哪些垂直行业的探讨。

01.

特斯拉马斯克：

年内发布无人驾驶，预警AGI爆发

这是上海举办的国内最高规格的人工智能行业峰会之一，作为特斯拉的创始人，马斯克这是第三次参加并带来演讲，分享了不少干货信息和观点。

人工智能将会在未来人类的演进中扮演重要的角色，我们看到了数字计算能力的爆炸式增长，其中有一个最关键的指标是数字计算能力、机器计算能力、生物计算能力的比例。

这一比例正在逐年变高，这也意味着机器和生物的算力差距在扩大，也就是说一段时间后，相比于机器智能，人工的智能化在全部的智能中所占的比例越来越低。

这将会带来根本性的变化，现在也是人类历史上最深刻的时期。

当然，这会带来积极和消极的影响，积极方面在于未来世界中，机器人为主导的生产效率会比以人为主导的生产效率高，但我们需要确保其发展有助于人类。

例如特斯拉的人形机器人Optimus，其目标就是帮助人类完成无聊、重复、危险等人类不愿意做的工作。马斯克也谈道，他现在不想过度乐观于，特斯拉人形机器人做的工作未来在社会中扮演的角色一定很重要。

在自动驾驶方面，特斯拉也有兴趣将自己的自动驾驶技术许可给其它汽车厂商。马斯克谈道，全自动驾驶的汽车会使得人们的使用率大大增加。目前，人们一周使用家用车的时间在10-20个小时，而全自动驾驶的汽车使用时间可能是一周50-60小时。

当前，特斯拉的自动驾驶技术已经非常接近没有人类干预的全自动驾驶状态，马斯克称，特斯拉已经在美国的道路上测试了，其自动驾驶已经很少需要人工干预了。

此前，马斯克也做过关于全自动驾驶的预测，但他认为此刻的预测比以往时候都更接近于现实。今年晚些时候，特斯拉就可以实现全自动驾驶。

此外，他还提及到对深度的全面人工智能的担心，尤其是全自动驾驶汽车，不过他认为，特斯拉将很快加以解决。

全面人工智能在任何一个领域都比人类更聪明，因此人们需要一些监管措施对它进行监督。马斯克认为，全面人工智能是几十万甚至几百万台高性能计算机一起在数据中心中协作，组合产生超级智能，比人类更强大。

这可能出现一些负面的影响，但研究人员需要尽可能确保避免负面的未来影响发生。

最后，马斯克谈道，他一直以来非常敬佩中国人民的智慧和干劲，他认为中国（企业、研发人员）一旦下定决心要做一件事，就一定会把这个产业做得很好，包括AI产业，所以他相信中国会有很强的AI能力。

马斯克还感谢了上海的朋友们，感谢陈书记，并希望下次有机会能线下参会。

02.

香港中文大学汤晓鸥：

我的三个学生，正在影响AI世界

听完马斯克的演讲后，香港中文大学教授汤晓鸥就决定完成自己儿子的心愿，给他买一辆特斯拉。

他谈道，Transformer是一种新型网络架构，通过注意力机制的计算方式，目前几乎被AI内所有的大模型所采用。在大模型浪潮中，中国学者也正在贡献很多原创力量。

汤晓鸥三位学生王晓刚、何恺明、林达华为深度学习培育出了一棵大树。他形象地说道，林晓刚在深度学习最初几年洒下了原创种子，何恺明打牢了深度学习的根基，林达华通过开源和大模型让其枝繁叶茂。

2011-2013年深度学习刚刚开始的时候，王晓刚的第一项工作是，CVPR和ICCV这两个计算机视觉领域最重要的会议上，全球共有29篇文章关于深度学习，其中14篇出自汤晓鸥教授的实验室，并第一次将深度学习应用于计算机视觉领域的18个研究方向，包括人脸检测、人脸重建、物体检测、人体姿态等计算机视觉的最核心问题。

第二项工作是，王晓刚在Facebook之前让机器做的人脸识别超过了人的眼睛。

第三项工作是，王晓刚带领香港中文大学在ImageNet竞赛中多次夺冠，并取得第一个ImageNet世界冠军，他当年的对手是谷歌。

第二个学生是何恺明，他本科就读于清华大学，在汤晓鸥教授的实验室发表第一篇文章取得CVPR最佳论文，这也是CVPR 25年历史上从亚洲出来的第一篇最佳论文。

何恺明前往微软和Facebook工作后，第一项工作是ResNet，解决了深度网络的梯度传递问题获得2016年最佳论文，使得深度学习能有效训练超过百层的深度神经网络。

可以说，何恺明将网络做深了，谷歌把网络入口拉大了，才使得今天的大模型诞生。

第二项工作是他在Facebook做的Mask R-CNN，首次提出了真正高性能物体监测算法框架，获得ICCV 2017最佳论文。

第三项工作是他在Facebook做的Masker AutoEncoder，首次把基于掩码的自编码思想用于视觉领域的非监督学习。

第三个学生林华达的OpenMMLab，通过口口相传的形式成为国际上最具影响力的视觉算法开源体系，在GitHub上累计了8万多颗星标。

第二项工作是发布国内首个多语种大语言模型书生·浦语。

第三项是发布LandMark天际，这是全球首个城市级三维实景大模型，该模型有2000亿参数，能覆盖100平方公里。

现在，他们种下的这颗大树也已经开始开花结果，两周前，自动驾驶大模型获得了CVPR 2023最佳论文奖，据谷歌学术统计，这是改革开放40多年来，第一篇全部由中国学者完成的国际计算机视觉三大顶会的最佳论文，这篇文章的牵头作者是王晓刚带出来的博士。新一代的学生已经开始在上海成功起步。

汤晓鸥教授十分感性的在最后说道：“我不是在最好的时光遇见了你们，而是遇见了你们，才有了这段最好的时光。”

当每晚听于谦老师的相声入睡时，他总会想：“机器怎么可能超过这样有趣的灵魂，我不信。”

03.

华为胡厚崑：一手算力一手大模型

让AI落地千行百业

今年的大会与往届相比最大的不同是我们处于新的背景，ChatGPT的出现将人工智能推到了新的风口，通用人工智能已经成为人类最热门的话题。

其中，华为最核心的考虑就是下一个阶段要全力推进人工智能走深向实。一方面深耕算力，打造强有力的算力底座，另一方面，结合大模型从通用大模型到行业大模型的行业创新，真正让人工智能服务好千行百业。

首先，AI的发展中算力是基础，但当前中国算力的可获得性和成本方面面临不小的挑战。华为聚焦于鲲鹏和昇腾的根技术上，并取得了突破，当下，华为正在通过架构创新、生态发展、灵活共建手段让算力不再成为人工智能发展的瓶颈。

通过架构创新提升计算效率，如在计算节点层面，华为推出革命性对等评估架构，突破传统以CPU为中心的异构计算可能带来的性能瓶颈，从而提升计算带宽、降低时延，使得节点性能得到30%提升。

在数据中心层面，华为2019年推出昇腾AI计算集群，把AI的数据中心当做一台超级计算机来设计和管理。当前，华为最大的AI计算集群在深圳“鹏城云脑”二期，算力是1000P规模，2024年三期会达到16000P规模水平。

华为在乌兰察布计算中心实测发现，这种集群方式同等算力情况下可以得到10%以上的效率提升。

此外，4年前，华为围绕整个计算产业的算力发展提出了硬件开放、软件开源、使能伙伴、发展人才战略，现在，硬件方面，华为已经推出更多样化的模组和板卡，拥有30多个硬件伙伴，基于生成式AI推出上百款AI硬件，可以满足不同行业的场景需要。

软件层面，华为提供全流程智能平台支撑相关企业，其生态已经孵化了20多个基础大模型，当前国内有一半大模型由AI昇腾提供算力支持。

并且结合国内实际情况，华为还采用多种模式建设算力。第一种是华为打造了25个城市级的人工智能计算中心，第二种是为了满足头部企业自建人工智能算力中心的诉求，帮助企业建立自己的AI算力中心，如中国移动、科大讯飞、南方电网，第三种是对于算力需求旺盛的中小企业，通过云服务的方式提供算力服务。

胡厚崑还提到，华为一方面要持续提升通用大模型能力，另一方面还要建好行业模型，行业大模型能在通用大模型的基础上给出更精准的答案。

华为推出了三层大模型结构，最底层称之为“读万卷书”，对标的是通用大模型，再上一层是做好海量基础知识学习，最上一层是打造行业模型和场景模型，被称为“行万里路”。

胡厚崑谈道，从读万卷书到行万里路还有很多挑战需要克服，最关键的一点是要把各行各业的知识与大模型进行匹配、融合。

当前，华为盘古大模型围绕金融、电力等10多个行业，支撑400多个场景AI应用业务落地。

在AI服务于科学研究方面，盘古科学计算大模型包括药物分子、海浪、气象大模型，如气象研究领域，盘古大模型可以在几秒内完成全球一个小时到七天的七项情况预报。AI将为科学工作者带来更多新思路、新方法，为人类社会发展带来新动能。

04.

Meta首席AI科学家杨立昆

我不喜欢AGI这个提法

在过去十年里，AI最让人激动的进展是，自主监督运行创造了一场革命。杨立昆认为，自然语言处理如语言模型、语音模型等符号或者本质上和符号序列有关的技术正在创造一场革命。现在要做的就是在图像和视频领域上推动同样的革命。

杨立昆曾发表过ChatGPT不是AGI终局的观点，这次他也谈到了自己的实际判断基准。

他并不喜欢AGI这个词，他认为每一个智能都是专项的，人类的智能也都是非常专业、专项的。

ChatGPT使用文本训练，无法用图像、视频训练，它可以试图预测文本中缺失的单词、长文中最后一个单词，但这样的问题是它不可能准确预测文本中缺少的单词，而是必须预测所有单词的分布。

在视频中，下一帧和上一帧有可能类似，但模型无法耦合视频帧中出现的所有细节，使用不同的非生成式架构，联合构建预测架构，而不是在像素空间中做预测，问题就是你应该怎么训练他。

大模型并不满足于一个目标，它们通过设计提示，使得你训练的统计数据足够优质来达到目标，但基本上这一目标都无法被控制。

大模型一个接一个生成tokens，但它们不理解物理世界，没办法规划、推理就没办法实现目标，这也意味着智能系统缺少非常重要的组件，在律师考试中，大模型可以发挥强大的检索能力获得很好的成绩，但它没有足够智能的系统，去把碗碟放到洗碗机中。

而世界模型就是要让模型像人类了解世界的方式一样了解世界，通过观察和少量交互的方式来训练。

谈及人类对AI安全的干预时，杨立昆谈道，达到人类水平的AI最好办法就是做更大的自回归LLM，而让它变智能也是让它更可控的途径。

人们通过目标驱动人工智能的理念，就可以设置其它目标作为其安全护栏，如让这些系统不会出现欺骗、支配人类的行为、迫使AI诚实的目标、屈从于人类的目标，而需要小心那些让模型好奇的目标等。

杨立昆不同意有些人害怕AI就希望AI受到严格监管，他认为从长远来看，要让AI平台安全、良善、实用的唯一办法就是让它开源。

想象一下，未来每个人都可以通过AI助手和数字世界进行互动，如果技术只被少数公司控制的话并不是好事，未来的AI系统应该保护人类所有知识，其训练的方式也应该基于公开源头。

05.

微软侯阳：大模型的“涌现”爆发绝非偶然

AI作为科研项目，最早出现在1956年，至今已发展将近70年。去年年底ChatGPT一夜爆红，使得生成式AI瞬间爆发，很多科技从业者对其突然涌现感到惊诧不已。

OpenAI的技术突破依托于微软智能云提供的基础架构和算力支持。2019年开始，微软和OpenAI展开深入合作，以海量云计算资源支持OpenAI大型语言模型的研究。微软CEO纳德拉曾提到，AI的黄金时代已经到来，微软智能云由此开启了加速上新的模式。

微软将AI技术与企业云服务全面融合，微软365办公、GitHub开源社区、数字信息安全保护、Windows操作系统等，并推出一系列AI驱动的Copilot（智能副驾）服务，可以帮助用户根据演讲提纲要点设计PPT、演示稿等。

今年5月，微软连续发布了超50项与生成式AI相关的新技术、新服务，其中最重要的一项是向全球开发者开放了Copilot与插件扩展体系。

插件拓展体系可以在第三方应用、客户业务场景之间构建可靠连接，通过插件接入实时更新的信息流以及多样的应用和服务，在其正式发布时，微软预计将提供超1000种开发者插件。

生成式AI展现出的巨大潜力，使得未来每一家公司的每一个应用程序都将由AI驱动，用它来提升企业自身的创造力。

在将研究成果转化为生产力方面，微软总结了六个重点行业，包括优化制造与能源行业的供应链韧性；零售电商行业的智能客服；游戏中NPC角色、剧情和对白设计；金融行业实时行情分析报告；生命科学领域临床实验数据分析能力；交互性、定制化、探索式的学习方式等。

同时，微软在潜在安全风险方面，坚持公平、公正、责任等六大原则，并从自身的资源和技术出发，与各行各业的企业进行技术交流和业务合作，发掘数字化产业在各个领域的发展潜力。

06.

巅峰对话：大模型下一步往哪走？

文书、医疗、视频行业应用被看好

姚期智认为，中国的科学家在AI的发展上做了很多突破性贡献，清华大学交叉信息研究院助理教授高阳在一年多前做出了非常重要的算法突破贡献，使得强化学习加快数百倍。

他认为ChatGPT之后，下一个重要目标就是拥有视觉、听觉多种感知能力的机器人在不同的环境里自主学习各种新技能，但现有的强化学习方法太慢了，对于新的技术要几个月时间才能学好，高阳的技术突破使得其在几个小时就能做到。

交叉学科对大模型发展的帮助方面，袁洋认为，大模型用到交叉，大家想到的多模态是有触觉、能看到、能听到，但在多模态中，例如文本到图片的生成，生成的图片不是用户想要的姿势，他可以用鼠标拖动，这就是用户用一种方式告诉大模型它想要的狗的姿势是什么。

因此，大模型训练中不应该只是把文本、图像喂给模型，而是要找到行业的问题是什么、找到什么信息能解决这一问题，这就是模态补全。在这基础上，再去收集足够数据，做好模态的对齐。

对于大语言模型实际使用中的实际困难和挑战，杨植麟认为，现在最重要的挑战可能就是大模型的安全可控、避免它产生幻觉、无法像科学家一样创造新的知识等。

但这些问题不能单点思考，人们应该系统抽象出来这些问题底层本质的问题是什么，在这些方面能举一反三，如做规模化的高效压缩，更适合分布式训练的框架，支持更长的上下文，更好的分配算力，这些才可以从根本上解决AI存在的局限性。

潘新钢则重点阐述了GAN和扩散模型的区别，他认为这两个模型有三个差异，首先是性能和效率，扩散模型迭代式计算所需要的训练时间都更高，更大的计算开销也带来了更高的图像生成性能，这说明了扩散模型的上限高于GAN，应用前景更广。但对于性能和计算开销有限制的特定场合，GAN是妥协的选择。

第二是GAN和扩散模型的映射，扩散模型对于图像内容的影响表现为较为随机，不具有结构化，GAN可以有效编辑图像中人的表情、动物姿态等，之后拓展到扩展模型是非常值得探索的。

第三是生成空间的连续性，设计时扩散模型的图像空间较为不连续，跳变的情况，GAN表现出来比较流畅，看起来像动画，把这两个模型各自的优势互补是非常有趣的研究话题。

大语言模型被看好的垂直领域在他们眼中各有不同，姚期智认为是文书工作，袁洋认为是医疗，因为大模型基于预训练的范式，能理解到医疗行业中存在的大量关系，杨植麟则看好个人应用，如AI与人有共同的记忆，通过录屏把人看到的东西让AI看到，潘新刚提到了视频和三维视频生成，大模型能帮助艺术家、设计师创造更高质量的内容。

07.

IEEE主席：中国会员数全球第三

看好中国年轻科学家

IEEE在全球有43万会员，中国的会员数量为第三大。IEEE正在开发相关的标准、出版论文、组织会议。拉曼提到，IEEE每年都会举办2000多场会议，200场在中国举行。

并且，他强调说，IEEE是开源的，也希望AI整体的发展都是开放的，IEEE就提供了一个平台和基础让工程师、开发者能共同讨论人力、算力方面的工作。

科学家要做开放的研究，同时需要一定的监管和保障，而IEEE的组织有很大的力量，可以影响相关的公司和国家。同时，IEEE的会议和期刊中发表的文章，能提高研究人员成果的可见度，让他们的想法变得更加实际。

IEEE还将推动专业人士的职业发展，扩充中国IEEE的会员数量。IEEE每年出版的论文作者中有超30万个作者来自中国，此前，他们还建立了一个社区，鼓励更多中国工程师成为IEEE的会员。

并且，其会议形式现在多采用混合形态，可以通过网上会议、全息影像确保研究人员有沉浸感。

最后，拉曼谈道，中国年轻人非常具有好奇心，他们会问很多问题，并希望自己成为知名科学家，与此同时，他们努力实现这些目标的过程更为重要。

08.

结语：生成式AI热潮继续狂飙

ChatGPT掀起的生成式AI热潮至今已半年有余，热度仍然不减，各类大模型、聊天机器人应用层出不穷，成为本届世界人工智能大会的一大亮点。

世界人工智能大会作为科技圈最高规格的行业大会，已经成为全球科技行业的参与者展示前沿技术与最新科研成果的展示舞台。

未来，AGI的到来是科技行业共同期待的目标，ChatGPT的爆红只是一个开始，在世界人工智能大会上，众多前沿科技成果的露出已经让我们看到AI行业突飞猛进的变局。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

原标题：《没有一个BAT老板的世界人工智能大会，看马斯克汤晓鸥姚期智们讲了啥》