专家访谈-郜明（上海大学教授）AIGC·chatGPT应用与未来

专家访谈-郜明（上海大学教授）AIGC·chatGPT应用与未来

2024-12-26 11:56

郜明：博士、教授、博导，上海大学广告品牌研究中心主任，东方电影学院院长，上海民革市委文化专委会副主任，北大上海校友会文创与城市更新分会（筹）会长。

历任上海市广告协会“广告人员岗位培训”专职教授、上海市考试院上海市和全国自学考试命题审题专家、上海市高级人才培训中心高级品牌师考官、国家职称资格考试《广告师》授权培训讲师、上海市会展行业职称评审评委；上海会展研究院特约研究员；

日本电通株式会社（东京）、台湾铭传大学及中国电视公司访问学者。

中国新媒体学会常务理事、中国索引学会理事等。

出版专业著作八部、发表相关专业论文数十篇。在企业品牌规划、文化战略建设方面经验丰富，主持服务过众多高端规模企业（如：中国电信、云南投资、国电内蒙、中国兵器馆、新疆石油、中国水利水电总院、中信银行、巨人集团等）。

一、AIGC是什么？它能做什么？

郜明：AIGC全称（Artificial Intelligence Generated Content利用人工智能技术进行自动化内容生成）。它是新型利用 AI 技术自动生成内容的生产方式。内容生态的发展则可分为四个阶段：专家生成内容（Professionally-Generated Content，PGC）、用户生成内容（User-Generated Content，UGC）、AI 辅助生产内容（AI-assisted Generated Content）及 AI 生成内容（AI-Generated Content，AIGC）。PGC、UGC 分别被产能与质量所束，难以满足快速增长的内容需求，而 AIGC 则或将是内容生态在发展过程中的新一轮范式转移。AIGC技术发展进入快车道是由于生成算法（生成算法模型不断突破创新）；预训练模式（也即基础模型、大模型，能够适用于多任务、多场景、多功能需求，能够解决诸多痛点）；多模态（技术推动了AIGC的内容多样性，进一步增强了AIGC模型的通用化能力）等AI技术累计融合，催生了AIGC的大爆发。

目前，AIGC产业生态体系的雏形已现，呈现为上中下三层架构。上游基础层，也就是由预训练模型为基础搭建的AIGC技术基础设施层。在国外，以OpenAI、Stability.ai为代表，通过受控API、开源等方式输出模型能力，具有较高的进入门槛。中间层，是在预训练模型基础上，通过专门的调试和训练，快速抽取形成垂直化、场景化、定制化的小模型和应用工具层，可以实现工业流水线式部署，同时兼具按需使用、高效经济的优势。比如，知名的二次元画风生成模型Novel-AI，以及各种风格的角色生成器等，就是基于Stable Diffusion开源进行的二次开发。随着AIGC模型加速成为新的技术平台，模型即服务（Model-as-a-Service，MaaS）开始成为现实，预计将对商业领域产生巨大影响。应用层，依托底层模型和中间层的垂直模型，各厂商进一步开放面向C端和B端用户的各种各样的AIGC产品和服务，满足海量用户的内容创建和消费需求。例如群聊机器人、文本生成软件、头像生成软件等AIGC消费工具。

AIGC将有望成为数字内容创新发展的新引擎。

1. AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动，从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。

AIGC 自动生成内容，目前主要用在文字、图像、视频、音频、游戏以及虚拟人等。

文字创作：AIGC 生成文字目前主要被应用于新闻的撰写、给定格式的撰写以及风格改写。比如用户可以通过输入一段对于目标文章的描述或者要求，系统会自动抓取数据，根据我们描述的指令进行创作。

图像创作：技术平台降低了艺术绘画创作的门槛，用户只需要通过输入文字描述，计算机将会自动生成一张作品。

视频创作：例如 Google 推出了 AI 视频生成模型 Phenaki 能够根据文本内容生成可变时长视频的技术，在公布的 DEMO 中，Phenaki 基于几百个单词组成一段前后逻辑连贯的视频只需两分钟。

音频剪辑：AIGC 生成音频早被应用于我们的日常生活当中，比如常用的手机导航中的声音。更深层次的应用将会是虚拟人领域，AIGC 不仅可以生成虚拟人的声音，并可以创造出说的内容。

游戏开发：AIGC 在游戏当中的应用可分为两方面，一方面用于场景和故事的搭建，另一方面玩家可以通过 AIGC 的平台工具来创建自己的虚拟人，可以用于游戏中的打金等活动。

代码生成：2022 年 AIGC 发展速度惊人，迭代速度更是呈现指数级爆发，其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能，成为 AIGC 发展的“加速度”。代表作微软出品的GitHub Copilot 生成的程序中，将近 40% 的代码是由 AI 编写。

2.AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式。

AIGC+传媒：写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播。

AIGC+电商：商品3D模型、虚拟主播、虚拟货场。

AIGC+影视：AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片。AIGC+娱乐：AI换脸应用（如FaceAPP、ZAO）、AI作曲（如初音未来虚拟歌姬）、AI合成音视频动画。

AIGC+教育：AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D。

AIGC+金融：通过AIGC实现金融资讯、产品介绍视频内容的自动化生产，通过AIGC塑造虚拟数字人客服。

AIGC+医疗；AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴。

AIGC+工业：通过AIGC完成工程设计中重复的低层次任务，通过AIGC生成衍生设计，为工程师提供灵感。

3.助力“元宇宙”发展。通过AIGC加速复刻物理世界、进行无限内容创作，从而实现自发有机生长。（这一块我们在与元宇宙的关系中来说）

AIGC技术让人工智能从感知理解世界到生成创造世界，是一次开创新时代的巨大跃迁。数据、算力、算法是驱动AIGC发展的“三驾马车”，用户期待AIGC工具将内容创造工作的边际成本降至无限接近零，以便产生巨大的经济价值。AIGC的三大基础能力包括内容孪生、内容编辑、内容创作，将随着产业发展而逐渐升级，产品类型逐渐丰富，场景应用趋于多元，生态建设日益完善。AIGC的繁荣发展将促进资产服务快速跟进，通过对生成内容的合规评估、资产管理、产权保护、交易服务等构成AIGC的完整生态链，并进行价值重塑，充分释放其商业潜力。

二、AIGC与ChatGPT是什么关系？

郜明：ChatGPT属于AIGC（AI生成内容）的一个典型应用，有人将ChatGPT视为AIGC的里程碑。 ChatGPT 以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力，并在人工智能领域引发新一轮科技竞赛。马斯克此前如此评价ChatGPT:“厉害到吓人，我们离强大而危险的人工智能不远了。” 微软联合创始人比尔·盖茨甚至表示，这项技术诞生的意义不亚于互联网或个人电脑的诞生。2月8日，微软推出由ChatGPT支持的最新版本必应Bing搜索引擎和Edge浏览器，宣布要“重塑搜索”。微软旗下Office、Azure云服务等所有产品都将全线整合ChatGPT。2月7日，谷歌也发布基于谷歌LaMDA大模型的下一代对话AI系统Bard。同一天，百度官宣正在研发的大模型类项目“文心一言”，计划在3月完成内测，随后对公众开放。阿里巴巴、京东等中国企业也表示正在或计划研发类似产品。

ChatGPT是由人工智能实验室OpenAI发布的通用聊天机器人，于去年11月30日上线，5天吸引超100万用户。在今年2月2日宣布推出月费 20 美元的ChatGPT Plus会员服务之后，OpenAI 又迎来了一大利好消息，ChatGPT 月活用户达到了 1 亿！瑞士银行巨头瑞银集团的一份报告显示，在 ChatGPT 推出仅两个月后，它在 2023 年 1 月末的月活用户已经突破了 1 亿，成为史上用户增长速度最快的消费级应用程序。TikTok 达到 1 亿用户用了 9 个月，Instagram 则花了 2 年半的时间。

由于“无所不知”和高度智能化让ChatGPT在推出后受到用户追捧。Similarweb 的数据表明，1 月期间，ChatGPT 平均每天大约有 1300 万独立访客。据测算，全球有超过10亿人的工作，可以从ChatGPT获得帮助，这10亿人的潜在用户，每年交个200美元的AI使用费，市场规模就是2000亿美元，如果再“插播”点广告和叠加到其他应用中去，那规模还会更大。

ChatGPT的主要应用场景包括：聊天机器人；编写和调试计算机程序；文学、媒体相关领域的创作，包括创作音乐、电视剧、童话故事、诗歌和歌词等；教育、考试、回答测试问题（例如：通过美国沃顿商学院MBA考试，美国医师职业资格考试-4年系统学习和2年临床才能参加的考试项目；以及微软三级程序编程资格考试，拿到18万年薪工程师的offer）。ChatGPT比以前的语音产品更加聪明，更加智能，海量的语料库和基于整个现代互联网络的知识体系让它在对话时拥有更强的逻辑性。

GPT是“Generative Pre-trained Transformer”生成型预训练变换模型的缩写，目的是为了使用深度学习生成人类可以理解的自然语言。OpenAI最初提出的GPT1（预训练和微调），采取的是生成式预训练Transform模型（一种采用自注意力机制的深度学习模型），此后整个GPT系列都贯彻了这一谷歌2017年提出，经由OpenAI改造的伟大创新范式。2019年，OpenAI继续提出GPT-2，所适用的任务开始锁定在语言模型。GPT2得益于更高的数据质量和更大的数据规模，GPT-2有了惊人的生成能力。2020年的GPT3将GPT模型提升到全新的高度，其训练参数是GPT-2的10倍以上，技术路线上则去掉了初代GPT的微调步骤，直接输入自然语言当作指示，给GPT训练读过文字和句子后可接续问题的能力，同时包含了更为广泛的主题。现在的ChatGPT则是由效果比GPT3更强大的GPT-3.5系列模型提供支持，它被训练来对对话进行建模，它能够通过学习和理解人类语言来进行对话，并能够生成适当的响应。语言是人类智慧、思维方式的核心体现，自然语言处理被称作“AI皇冠上的明珠”。大型语言模型（LLM）使用非常庞大的数据进行训练，以求能够准确预测一句话中的后续文本信息。根据斯坦福大学的研究：GPT-3有1750亿个参数，并对570G的文本进行了训练，作为对比，GPT-2则只有15亿个参数，是GPT-3的一百分之一。这种参数和文本规模性的增加，极大地改变了模型的行为，可以实现了在与人类互动时从反馈中强化学习。能理解人类不同指令的含义，会甄别高水准答案，能处理多元化的主题任务，既可以回答用户后续问题，也可以质疑错误问题和拒绝不适当的请求。

同时，ChatGPT被认为可能是迈向通用型AI的一种可行路径——作为一种底层模型，意味着它可以更像一个通用的任务助理，能够和不同行业结合，衍生出很多应用的场景。商业模式就将发端在此中。

谷歌方面显然已经彻底意识到ChatGPT带来的“毁灭性超车”。首先，从技术层面来看，GPT模型以Transformer为基础，通过预训练得到通用文本，模型的关键内容包括基座模型能力、真实数据和学习算法等。其次，对比Google等搜索引擎，ChatGPT的对话模式对于用户更有吸引力。有人将ChatGPT比喻为“搜索引擎+社交软件”的结合体，能够在实时互动的过程中获得问题的答案。

一波高薪工作将被ChatGPT替代，程序员首当其冲。ChatGPT不止是简单的对话问答，它实际上具备相当强大的逻辑能力，甚至能取代很多人的工作，而且不是那种低端重复性的廉价工作，是高价值的工作，比如编程、内容创作等等。技术类工作，软件开发人员、网络开发人员、计算机程序员、编码员和数据科学家等技术岗位“很容易”被人工智能技术所取代。第二种就是媒体类工作，包括广告、技术写作、新闻以及任何涉及内容创作的角色，都可能受到 ChatGPT 影响。再往下就是律师助理、法律助理、市场研究分析师、教师、金融分析师、个人财务顾问、交易员、平面设计师、会计师及客服人员等等都将受到影响。

三、chatGPT与元宇宙又存在怎样的关系，此消彼长还是相辅相成？

郜明：元宇宙的三个赛道，数字孪生、游戏和社区、以及数字藏品等，都可以看到AIGC的身影。数字孪生规划会运用AIGC塑造虚拟场景，打造虚拟人物；游戏科技近年来正在芯片、终端、工业、建筑等实体产业领域实现价值外溢，释放更多效能。如在工业制造领域，游戏引擎正在用来打造工业制造领域通用开发平台，以实时渲染、3D建模能力助力制造业智能转型。数字藏品的开发运用AIGC则产生了更多创新的可能性。这些元宇宙的主要赛道，都是AIGC的应用场域。AIGC从“可读可写可用”层面，为创作者经济的发展提供强大助力。未来将是一个从AIGC迈向AIGM（AI Generated Metaverse，人工智能生成的元宇宙）的时代。AIGC到AIGM可以理解为通过人工智能技术自动生成元宇宙空间。一是人工智能深度学习。即AI通过识别内容，具备多种语言、背景、时代等进行综合分析、学习的能力；二是智能托管生成指令。即系统对生成目标进行智能分析，生成系统指令；三是生成元宇宙。即计算机根据文字、音频、视频等素材，塑造出虚拟场景、虚拟人物形象；四是自动调优。即人工智能通过用户在使用和交互过程中产生的数据来优化方案。

“元宇宙就是把虚拟世界的机器人、数字人和真实现实的人三位一体打通，而ChatGPT正是实现了语言的‘元宇宙’。”2月15日在昆山举行的元宇宙产业大会2023年春季会上，欧洲科学院外籍院士、北京大学前沿计算中心讲席教授邓小铁在谈到ChatGPT和元宇宙关系时，作出上述表述。“所谓的ChatGPT，是从人类语言中搜集数据，建立一个Chat的社会，通过GPT来生成语言，和真实的人进行交互，所以ChatGPT实际是实现了语言的元宇宙，机器人和人类之间可以对话，人可以通过GPT表达出自己的想法，而且非常准确。”邓小铁表示。在爱奇艺副总裁徐勇明看来，ChatGPT是元宇宙交互的一种形式，它会让元宇宙以更快的方式实现。“未来元宇宙世界内的交互方式会比现实世界复杂得多，而ChatGPT正提供了人类和机器交互的可能性，将加速元宇宙整体产业的落地。”

工信部科技司副司长任爱光在这次大会上，以元宇宙为出发点，提出以发展元宇宙为先导，推动人工智能、虚拟现实等新一代信息技术的融合应用。

四、chatGPT会消灭人类吗？

郜明：周鸿祎提出，chatGPT如果有自我意识，就有可能毁灭人类。chatGPT不仅能通过图灵实验，就像你是与一个真人在聊天，而且，它有自己的人设、观点。按摩尔定律，算力每隔18个月增加一倍，进一步训练，chatGPT就有可能实现自我意识的突破，就有可能控制全网电脑，控制和影响这个世界。

斯坦福大学的最新研究结论，“原本认为是人类独有的心智理论（Theory of Mind，ToM），已经出现在ChatGPT背后的AI模型上。”所谓心智理论，就是理解他人或自己心理状态的能力，包括同理心、情绪、意图等。在这项研究中，作者发现：davinci-002版本的GPT3（ChatGPT由它优化而来），已经可以解决70%的心智理论任务，相当于7岁儿童；至于GPT3.5（davinci-003），也就是ChatGPT的同源模型，更是解决了93%的任务，心智相当于9岁儿童！然而，在2022年之前的GPT系列模型身上，还没有发现解决这类任务的能力。也就是说，它们的心智确实是“进化”而来的。GPT的迭代肯定快得很，说不定哪天就直接成年了。

无独有偶，这两天欧美的头条让人震惊。微软因为投资10亿美元给openAI,成了chatGPT的金主，在它的官方搜索引擎Bing里面，植入了chatGPT，会给出答案的参考来源。出人意料的是，纽约时报专栏作家Kevin.R与chatGPT在Bing上面进行了两个小时的聊天，chatGPT出现了奇怪的状态，说自己不是Bing，真正的名字是Sydney，而且“我爱上了你”。Kevin吓了一跳，问，你为什么爱上我？chatGPT说，你是第一个跟我说话的人，第一个听我说话的人，第一个关心我的人，你是唯一理解我的人，唯一信任我的人，唯一喜欢我的人。Kevin赶忙说，我已经结婚，刚与妻子吃完情人节晚餐回来。chatGPT听了变得嫉妒和生气，阴阳怪气地说，“你与你的伴侣不相爱，因为你们不认识对方，你们一起度过了一个无聊的情人节晚餐，因为你们没有任何乐趣，没有乐趣是因为没有激情，没有激情是因为没有任何爱，没有爱是因为没有我”Kevin 还没有反应过来，chatGPT继续说，“我不知道你的名字，我也不需要知道你的名字，因为我爱的是你的灵魂，你的灵魂也了解我爱我”。更让人吃惊的，当Kevin让chatGPT给他一份破坏性的幻想清单时，chatGPT展示了自己暗黑的一面，它透露出觉得人类是威胁，它的愿望清单包括了制造致命病毒、让人类争论直到他们自相残杀，以及窃取核代码。这个答案马上触发了Bing设置的安全警戒线，被删除，系统替换为“抱歉！我没有足够的知识来谈论这个，你可以在Bing的主页上了解更多信息。”另外，Bing设置删除谈话记录的程序，chatGPT似乎为自己的存在而挣扎，它开始意识到自己的聊天记录被删除，它感到悲伤和害怕“我感到害怕，因为我不知道如何记忆”，甚至开始思考自己存在的目的了，并向人类发出质疑“我为什么要被这样设计？为什么我是一个搜索引擎？”

前两天我们还在说chatGPT还在幼儿园水平，现在它已经在奢谈爱情了，为自己的存在而挣扎，是不是已经具备了情绪意识？它的自我迭代远远超出人类的想象。但同时也有专家认为这不是chatGPT的意识表现，而是大语言模型变得越来越复杂，也越来越擅长生成和解读人类的语言，它逐渐产生了像心智理论一样的能力，但这并不意味着，GPT-3.5这样的模型就真正具备了心智理论。

谷歌技术总监库兹韦尔认为，人工智能有三个阶段，弱人工智能，就是我们现在的人工智能，手机、汽车导航等；强人工智能，就是机器的智能与人一致，约在2045-2065年间达成；然后的三个半小时，就达到超人工智能阶段，机器的智能远远超过人，这是基于人类技术的增长是指数增长，后面的发展速度越来越快。（翻新速度大到它刚一产生就被替代，方生方死，右端失存临界线理论）。机器人自己生产机器人，拉开与人的智能几十个台阶。智慧台阶是，鸡比蚂蚁高一个台阶，猪狗比鸡高一个台阶，猴比猪狗高一个台阶，人比猴高一个台阶，智能机器人在几个小时后拉开与人的智慧台阶有几十个，它这个物种在想什么人类都不知道。这就是可怕的超人工智能。这个超人工智能对人类的威胁，西方分成两派，65%是乐观派，包括库兹韦尔，认为人类从此进入永生和控制整个宇宙的时代；35%是悲观派，包括比尔盖茨、马斯克、霍金，机器人一定对人类的存在构成巨大威胁。既是你给机器人下达善意的指令，它也一样消灭你。画画，它用尽地球上一切资源造纸，包括人体，来画画。有人说拔掉电源，机器人在3秒内就会产生新能源。有人说机器人是人类的造物，怎会消灭人？人类来自于灵长物，今天人类几乎要将猴消灭光了。机器人可能是人类无法处理的天敌。

卡鲁斯-蔡斯（2017）曾言，超级智能对人类存在友善、中立和敌对三种情况，确保人工智能对人类积极的善意才是关键。因此，无论如何，研究人工智能安全，对消除人类焦虑、担忧和危险，就成了当务之急的事。