分享好友 最新动态首页 最新动态分类 切换频道
GPT、Sora,为什么王炸都来自OpenAI?
2024-12-26 13:22

视频生成模型 Sora 横空出世半个月后,仍在强势刷屏。

GPT、Sora,为什么王炸都来自OpenAI?

这款 AI 可以生成长达 60 秒的高质量视频。最令人恐惧的是,其学习的对象不局限于画面、像素,Sora 还“学会”了一些视频中呈现的物理规律(比如人在雨后走过,水面有倒影)。因此,研发它的 OpenAI 称其为“世界模拟器”。

但很多人的疑问是:几乎所有的科技巨头都在 All in 大模型,为什么这次出圈的模型,又是来自 OpenAI?

真正的伟大,无法被计划

2015 年 OpenAI 成立之初,对如何实现目标毫无头绪。

这种状态持续了很久。OpenAI 成立一年多时,所有的事情都还进展缓慢。大家只是胡乱尝试一通,钻研了解决视频游戏的系统,在机器人技术上花费了大量精力,然后发几篇论文。

奥尔特曼想起当时公司的景象时说:“我们知道我们想做什么,我们知道为什么要这么做,但我们不知道怎么做。”

不过,这个团队一直被一种乐观力量所驱使,大家对于 AGI 的疯狂愿景,让事情在最终迎来了转机。所谓 AGI,即通用人工智能,也就是像人类一样完成复杂任务的 AI。

这个愿景人类期待了很久,奥尔特曼和他的团队也是。

奥尔特曼 8 岁时,父母送给他一台电脑。一次玩至深夜,他的脑海中突然闪现出一个想法:“有一天,这台计算机将会学会思考。” 等奥尔特曼 2003 年进入斯坦福大学就读时,他仍想完成年少时的梦想,为此修了部分人工智能的课程,但他觉得这些“根本没什么用”。

退学后,奥尔特曼进入科技孵化器 Y Combinator 工作,并在 28 岁接任 CEO。那时,计算机已经能通过深度学习和神经网络完成一些任务,比如给照片贴标签、翻译文本等。这些进步第一次让他相信,AGI 是触手可及的。

然而,把 AGI 交到大公司手中让他感到担忧。奥尔特曼认为大公司会过于专注于自己的产品,而无法抓住机会尽快开发出通用人工智能,即使他们真的开发出来,也可能很鲁莽地将其公之于众。

当时,奥尔特曼一直在考虑竞选加州州长,但很快他意识到,自己可以做一件更大的事:“领导一家可能改变人类的公司”。奥尔特曼开始寻找一些同行者,帮他共同创办一家新型人工智能公司。

彼时,埃隆·马斯克(Elon Musk)正因与谷歌联合创始人拉里·佩奇的一场 AI 讨论,而倍感不快。马斯克事后在 CNBC 的一次节目中谈到此事,佩奇认为机器人和人类应当拥有平等的权利,并指责自己是物种歧视者(speciesist)。这种对于 AI 安全的“漠然”态度,让马斯克感到担忧。

一个人是传奇 AI 研究员 Alec Radford。他 2016 年加入 OpenAI 时,最大的兴趣是让神经网络与人类进行清晰的对话

他先是通过 20 亿条 Reddit 评论来训练语言模型。和 OpenAI 的许多早期实验一样,这个实验失败了,但这个 23 岁的年轻人获得了继续前进、再次失败的许可。Alec Radford 继续使用 1 亿条亚马逊评论训练模型,去预测、生成评论中的下一个字符。这一模型能够判断评论是正面还是负面的,如果让模型创建一条正面或负面的评论,它也能做到。“这完全是意外之喜”,辨别评论的情感是一个复杂函数,但不知为何,Alec Radford 的模型找到了一点感觉。

而 OpenAI 等来的技术则诞生自它的竞争对手谷歌。2017 年初,一篇由 8 位谷歌研究人员合著的研究论文预印本出现了,但并未引起人们的注意。这篇论文的正式标题是“Attention Is All You Need”,它后来被称为“Transformer 论文”。Transformer 使神经网络能够更高效地理解和生成语言,通过并行分析语料,找出哪些元素值得关注。这极大地优化了生成连贯文本以响应提示的过程。后来人们意识到,同样的技术也可以生成图像甚至视频。

虽然该论文后来被称为当前 AI 狂潮的催化剂,但在当时,Ilya Sutskever 只是少数几个了解这一突破有多么强大的人之一。Brockman 回忆道,Ilya 看到 Transformer 出现时,惊喜地喊到:“这就是我们一直在等待的”

之后,Alec Radford 开始试验 Transformer 架构。他表示,当时在两周内取得的进展超过了过去两年的进展

Radford 和他的合作者给他们创建的模型起的名字是“generatively pretrained transformer”——这就是今天我们耳熟能详的 GPT 一词缩写的全称。最终,这个模型被通称为“生成式 AI”。该模型包含 1.17 亿个参数或变量,在理解语言和生成答案方面的表现优于之前的所有模型。

仅从事后的叙述来看,OpenAI 的成功仿佛是一步一脚印的,它把握住了所有关键时点,无一遗漏。但是奥尔特曼仍然强调:“我们没有总体规划”,OpenAI 所做的一切就像“穿过迷宫到达终点”,而终点即是安全的 AGI。

即便是对于 GPT 的诞生,奥尔特曼也感到吊诡。他十岁时,对于 AI 的想象遵循这样的路径:有机器人后,先体力再脑力;在初级脑力工作后,再会做复杂脑力工作,比如证明一个数学定理,最后才是拥有创造、写作等深层次能力的 AI。但“事实正朝着完全相反的方向发展”

作者乔尔·雷曼在一次专访中表示 OpenAI 做了很多了不起的事,但 ChatGPT 绝对不是 OpenAI 成立之初的目标。OpenAI 的许多早期探索还与电子游戏、多代理模拟(multi-agent simulations)和机器人有关,许多通往 ChatGPT 的踏脚石都没有把 ChatGPT 当成最终目标

某种意义上,ChatGPT 的紧急推出,也是一种营销策略。

营销踩点,OpenAI 抢走谷歌风头

OpenAI 成立之初,颇有一层与谷歌对抗的意味。奥尔特曼和马斯克都认为:与其让大公司控制少量的 AI 系统,不如让大量独立的 AI 系统同时存在予以制衡,人们可以根据开放的源代码建立各自 AI 系统。

彼时的谷歌确实是 AI 领域的老大哥,ChatGPT 最初依赖的 Transformer 架构即来源于谷歌。但现在的 OpenAI 至少在 AI 领域,已有足够的底气和谷歌掰手腕。

最近一次商战在 2 月 16 日。

当时,谷歌推出了据称性能上超越 GPT-4 Turbo 的 Gemini 1.5 PRO ,而仅仅在两小时后,OpenAI 就推出了 Sora。Sora 推出后,奥尔特曼在社交媒体 X 上在线接单,按照用户给出的提示词一连发布了 8 条视频。此外,OpenAI 官方号还进驻 TikTok 发布 Sora 视频,仅一周时间就收获了超 14 万粉丝。这些方式进一步“炒火”了 Sora。

谷歌在 2023 年 3 月 22 日推出聊天机器人 Bard,当被问及与 ChatGPT 的区别时,Bard 就回复:“我不仅基于文本和代码,并且有互联网上的真实世界的信息作为支撑,因此我能够做到 ChatGPT 做不到的事”。仅仅两天后,OpenAI 就宣布向部分用户开放插件和联网功能。

到了 2023 年 5 月,谷歌和 OpenAI 的擂台仍不休止。前脚是谷歌在开发者大会上宣布一系列 AI 成果——推出据称部分能力超越 GPT4 的 PaLM 2 模型、演示 Bard 联网,后脚 OpenAI 就宣布向会员开放插件和联网功能。

当然 OpenAI 的营销瞄准对象并不仅谷歌一家。

OpenAI 在 2022 年 4 月份小范围内推出了文生图模型 DALL·E2,不过很快风头就被开源的 Stable Diffusion 和另一竞争对手 Midjourney 盖过。数以百万计的用户都在使用文生图产品,一时间呈现出病毒式传播的现象。

那什么样的营销事件能让话题关注度迅速回来?

OpenAI 的答案是聊天机器人。

彼时,OpenAI 在 GPT 4 上已经花了一整年,模型也基本准备就绪。但是来自市场层面的压力迫使 OpenAI 调转车头,迅速发布一个聊天机器人。从计划推出 GPT 4 转到做一款聊天机器人,仅仅十三天后,ChatGPT 就诞生了。

这种策略后来被称为“迭代部署”,构建所谓的“最小可行产品”:先拼凑出一个很酷的演示,吸引一小群喜欢它的用户,并根据用户反馈进行改进,再把产品推向全世界。最终,如果足够幸运并且做得正确的话,这将吸引大量用户,点燃媒体炒作周期的导火索,巨额资金将随之而来。

暴力美学,Scaling Law 信仰

这次出圈爆火的 Sora 可以生成长达 60 秒的高质量视频。令人恐惧的是,其学习的对象不再限于画面和像素,它还“学会”了视频中展示的物理规律。

Sora 使用一种新的 Diffusion Transformer 模型,它融合了扩散模型与自回归模型的双重特性。不过,在 Sora 的技术文档里,OpenAI 并没有展开模型的技术细节,只有透露了诸如“patch(视觉补丁)技术”、“重新字幕技术”等拼图碎片。

这一理念以 Scaling Law(规模法则)的名称为业内熟知。根据 Scaling Law,模型性能会在大算力、大参数、大数据的基础上像摩尔定律一样持续提升,这不仅适用于语言模型,也适用于多模态模型。

OpenAI 是 Scaling Law 的忠实信徒,其将 Scale 列为企业核心价值观之一:“我们相信规模——在我们的模型、系统、自身、过程以及抱负中——具有魔力。如有疑问,扩大规模。”

来自 OpenAI 的科学家乔尔·雷曼在一次专访中对此强调:有一条主线贯穿 OpenAI 研究的始终,即规模——大型神经网络、大数据、大量算力的重要性,很多人迟迟没有意识到这一点。这一表述揭示了 OpenAI 持续领跑的另一原因。

那么,模型一定是越大越好吗?如果数据量足够大、算力足够充沛,是否永远触不到上限?目前的观点仍是莫衷一是的。

支持者认为,超大规模及足够多样性的数据、超大规模的模型、充分的训练过程,是让 AI 智能“涌现”的必由之路。路途之中,可能会出现出人意料的惊喜,也可能是惊吓。

反对者认为,大模型虽好,但其性能有一个上限,虽然这个上限尚不明确

最易被人理解的原因是“数据是有限的”,一篇 2022 年 MIT 的论文给出了这样的估算结论:高质量的语言数据将会在 2026 年左右用光,低质量语言数据会在 2030 到 2050 年用光,低质量图像数据会在 2030 到 2060 年用光。

还有一种观点认为大模型存在方向上的路线错误。这一派观点主要认为:大模型本质上只具有通过观察进行因果归纳的能力,不具备因果演绎的能力。但是,AGI 应该是一个“能够理解世界的模型”,而不仅仅是描述世界。

拼算力,抱紧微软

但问题在于,大模型训练的“暴力美学”法则的可行性已人尽皆知,那为什么这次文生视频最出圈的模型,又是出自 OpenAI ?

一个现实因素是,Scaling Law 需要高昂的算力支出来支撑,而这正是 OpenAI 比较擅长的。视频模型的竞争最终也从拼团队的调参能力,衍变到最后是拼算力。这便是 OpenAI 走在前列的第三个原因:能拼算力,不缺钱。

OpenAI 前期的资金支持基本都来源于马斯克。但在 2018 年,特斯拉开始研究将 AI 技术用于自动驾驶,而刚好 OpenAI 已经有了显著的技术突破。

马斯克在当时提议,不如把整个公司都交给他来打理——直接把 OpenAI 并入特斯拉。但这个提议遭到奥尔特曼和其他高管的拒绝,于是双方分道扬镳,马斯克撤走了他全部的投资,在一次全体会议上宣布自己会离开。会上,他预言 OpenAI 将以失败告终,他还称至少有一名研究人员是“蠢货”。

对 OpenAI 来说,AI 研发是一个夸张的无底洞。创造大型语言模型的 Big Transformer 方法需要大型硬件,GPT 系列的每一次迭代都需要呈指数级增长的算力,只有少数几家公司有负担的能力。

OpenAI 很快锁定了微软。

微软也为自己争取到了一大笔好处。根据财经媒体 Semafor 报道,直到微软收回投资之前,都将获得 OpenAI 75%的利润。在达到这一门槛后,微软将拥有 49% 的股份,OpenAI 的非营利性母公司则持有 2% 的股份。此外,微软还获得了 OpenAI 技术独家商业化授权,并且成功让旗下云计算平台 Azure 成为 OpenAI 的独家云服务商。

当然,根据交易条款,OpenAI 最初的一些理想——为所有人提供平等访问权——被丢进了垃圾桶

在交易的过程里,OpenAI 逐渐有了营利性机构的性质,这让一些员工感到反感,几位高管随之离职,他们认为,OpenAI 已经变得过于商业化,偏离了最初的使命。

“强者,便使它更强”

“凡有的,还要加给他,叫他有余。凡没有的,连他所有的,也要夺去。”马太效应再次在 OpenAI 身上得到应验。

2023 年后,OpenAI 的强势领先从模型本身开始落到了账面上。根据金融媒体 FT 在 2024 年 2 月的最新报道,OpenAI 最新年化收入突破 20 亿美元,这一水平与另一家科技巨头 Meta 相当。而在 2022 年,OpenAI 的年化收入为 0.28 亿美元。不断刷新的年化收入,没人能看到 OpenAI 的营收天花板。

此外,OpenAI 还拿到了当前生成式 AI 领域的最多融资

而 OpenAI 的每次大动作也使得一部分投身生成式 AI 领域的创业小公司感到无穷危机。此次 Sora 的推出,就被认为“吊打”此前爆火的 Pika 和 Runway。

科技孵化器 Y Combinator 一场讨论,直接发出了灵魂提问:“OpenAI 会杀死所有创业公司吗(Will OpenAI Kill All Startups)?”

时间回到 2022 年底,答案似乎是显而易见的。金沙江创业投资基金主管合伙人朱啸虎对此表示,“ChatGPT 太强大了,对创业公司很不友好。”

当时,直接受到冲击的企业大多生产基于 GPT 二次开发的“套壳产品”,明星独角兽公司 Jasper 就是其中之一。其业务是在 GPT-3 的基础上进行高精度的前端提示和交互界面设计,再利用营销经验对模型微调,生成文章。但 ChatGPT 推出后,这一模式完全翻船了。 用户可以使用自然语言与 ChatGPT 对话。“中间商”不需要了。

不仅如此,OpenAI 的发展似乎开始偏离了他们的初心。

马斯克就曾直接开炮,他为 OpenAI 取了这个名字,意图抗衡谷歌,“然而现在它却变成一个不开源、追求最大化利润的公司,并且还由微软控制。”

而 OpenAI 成立营利性子公司,不再开源 GPT 模型的做法,也使得更多人赞同了马斯克的评价。难怪有人认为,OpenAI 已经不再 “Open”。

此前的 OpenAI“宫斗”之争,实质上也是关于 AI 发展的“理念之争”——到底是加速 AI 的商业化进程,还是确保 AI 的安全性再推向全世界。

因此,OpenAI 对人类走向通用人工智能时代到底意味着什么,仍是未知。

最新文章
超级菜菜鸟全程架站攻略(Mysql+Apche+PHP+Phpmyadmin+Zend,含本机安装)
——本文是我5月份刚学PW一个来月时写的攻略,因自己对语言一窍不通,只好自己琢磨+摸索,用了1个通宵研究出来的。今日有朋友问我架设方法,才想起俺写过这么个东西,一直没拿出来发表,今日赶紧补上:)不是超级菜鸟的可以不往下看了哈,
香港资料大全正版资料2024年免费,最佳精选解释落实_LE版6.822
  在这个信息爆炸的时代,数据和知识的获取看似随手可得,但实际上并非所有信息都是准确和权威的。“香港资料大全正版资料2024年免费,最佳精选解释落实_LE版6.822”应运而生,旨在为需要深入了解香港且追求高品质的读者提供一个官方、免
用AI绘画生成超逼真美女写真,零基础也能掌握!
DALL-E:这个工具是由OpenAI推出的强大AI图像生成器,可以将文字描述转化为生动的图片。用户只需通过自然语言描述自己想要的美女形象,DALL-E便能生动还原。优点是能生成非常富有创意和细节的图像,缺点则是对于中文的识别和生成效果相对较
跨境电商独立站没有流量?站外快速引流方法全介绍
现在是互联网时代,很多大佬开始做跨境电商的独立站,毕竟独立站赚钱也多一些,利润高一点。但是苦恼的就是跨境电商独立站建设容易,推广难,很久都没见到任何流量,没有流量意味着没有收入,有什么办法可以快速引流呢?其实跨境电商独立站
炼神丹!御神兽!废材大小姐竟是绝世帝女
简介:  【团宠+双强+驭兽+空间+帝女传承】夜染音,21世纪令人闻风丧胆的第一佣兵“夜神”!一朝穿越,成了边境小城被唾弃的废柴!未婚夫家上门退婚?家族把她当弃子?下一瞬,她被迎回帝都,成了国公府唯一的娇小姐!从此,展露逆天天赋
青春之城
1.请问哪里可以免费在线观看《青春之城》这部国产剧电视剧?星辰影院网友:免vip观看地址:https://m.tvfff.com/v/189894.html天堂电影院网友:你还可以通过以下方式搜索并免费观看,a.百度搜索青春之城b.百度视频搜索青春之城2.《青春之城
达曼清关 沙特专线小包门到门海外仓一手
沙特国家竞争力中心致力于实施多项改革,改善竞争环境,通过确定和分析公私部门面临的阻碍与挑战,借助双方建立的合作互补关系(公私合营模式/PPP),提出解决方案和倡议,在法律法规层面实施改革,改善立法与环境,提升竞争力达曼清关 沙
高清美女写真生成的秘密武器:揭开AI绘画工具的面纱!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个社交媒体横行的时代,照片已然成为我们表达自我的重要工具。想象一下,如果你能仅凭一
邵阳屋顶漏水维修电话〈免费上门〉邵阳屋顶防水补漏师傅
不砸砖、不砸墙;免砸砖防水补漏技术,2小时快速解决漏水问题,超长保修期。漏水维修服务项目:下水管周围渗水、建筑防水、屋顶渗水、洗手间墙面起皮、墙角渗水、卫生间漏水、外墙飘窗渗水、飘窗防水、厨房漏水、屋面防水补漏、屋顶漏水、阳台
烧烤炉通风孔“撞脸”蔚来Logo,户外用品公司被判赔30万,Logo设计的重要性不容忽视!
近日,一则关于“知名车企logo成为烧烤炉的通风孔”的新闻在网络上掀起了轩然大波。上海蔚来汽车有限公司将浙江北山狼户外用品有限公司告上法庭,指控后者生产的便携式烧烤炉上的通风孔设计与蔚来的商标高度相似,误导消费者以为这是蔚来品
相关文章
推荐文章
发表评论
0评