分享好友 最新动态首页 最新动态分类 切换频道
Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了
2024-12-26 13:28

转载自:夕小瑶科技说, 作者:Zicy。

Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了

Sora一经发布,世界再次被AI的力量所震撼。要知道Runway、Pika等明星模型都还在突破几秒内的连贯性的时候,Sora已经可以直接生成长达60s的一镜到底视频。

大家对Sora的更进一步信息和细节都非常好奇,但遗憾的是,OpenAI并未公布它的技术细节,而只有一份简单的技术报告。

今天我们就来扒一扒网上对Sora训练和推理的估算,看看Sora惊艳效果背后的算力究竟是如何的惊人。

▲Sora生成的视频效果

从DiT到Sora

在Sora的技术报告中,作者提到Sora的设计很大程度上受到了《Scalable Diffusion Models with Transformers》论文的影响,这篇论文中提到的模型DiT是用于图像生成的,Sora将这项工作扩展到了视频生成。

我们先来看看DiT模型,最大的DiT模型DiT-XL具有675M参数,需要 次浮点运算进行训练。为了使这个数字更容易理解,这相当于大约一台H100运行12天。

下面是对Sora所需的计算量做一个估算:

1、DiT只对图像进行建模,但Sora是视频模型,我们假设Sora在把图片变成视频的过程中没有额外计算。

Sora可以生成1分钟的视频,如果我们假设视频以24fps编码,则一个视频有1440帧(24fps * 60s)。Sora的像素到潜在映射似乎在空间和时间上都进行了压缩。如果我们假设与DiT论文(8x)的压缩率相同,我们最终在潜在空间中得到180帧(1440/8)。

2、Sora明显大于675M参数,之前有传言GPT3.5的模型大小是20B

所以我们估计Sora为20B是可行的,这需要DiT的30倍计算量。

3、Sora应该是接受了图像和视频的混合训练,OpenAI没有过多谈论他们的数据集,但他们暗示它非常大:“我们从大型语言模型中汲取灵感,这些模型通过对互联网规模数据进行训练来获得通才能力。

假设Sora数据集比DiT使用的数据集大10倍到100倍,但DiT在相同数据上重复训练,若有更大数据集,则此方法并非最佳。因此将计算量增加4-10倍是合理的,取中值7倍作为估算。

所以,把上面的估算结果相乘,训练Sora的总浮点数计算量约为:

这相当于14739张H100运行一个月!

以当前H100市场价约3万美元算,14739张H100约需要4.4亿美元,老黄直接狂喜。

在能耗方面,H100 GPU的最大功耗约为700W,这需要大概 kWh的电力,这相当于一架波音757飞机飞行七百万公里的碳排放,可以绕地球赤道转173圈,环保人士已经要坐不住了。

我们需要更多的显卡

Sora的训练已经消耗这么多了,我们再来估计一下推理所需的资源。

我们再次使用DiT来推断Sora,DiT-XL每步使用 FLOPS,250个扩散步骤总共 FLOPS,同样的方法,乘上30再乘180,我们可以估计:

一个Nvidia H100 GPU大约每小时能生成5分钟的视频。

如果视频作者要依靠Sora来创作,那么他至少需要十张以上的H100,才能十分钟内生成合理时长的视频。这个成本将非常高,肯定不适合普通人来使用。

盈亏平衡

盈亏平衡,即模型达到一个推理的使用量,使得推理和训练期间的花费相同。

我们倾向于关注的另一个重要考虑因素是训练成本与推理成本的比较。众所周知,训练成本非常大,但也是一次性成本。相比之下,推理成本要小得多,但推理是频繁调用的,推理计算会随着用户数量的增加而增加,因此,查看“盈亏平衡点”是有用的。

按照前面的计算,我们得出下面DiT和Sora的训练与推理计算的比较。

我们可以看到,DiT在生成7.6M图像后达到盈亏平衡点,而Sora在生成53.4M分钟的视频后达到盈亏平衡点(约101.53年)

推理成本比GPT4高出几个量级

为了进一步见识Sora所需计算量之巨大,我们可以对比一下不同模型的每单位输出,推理计算所需的计算量。

我们先划定一个标准,对于Sora,每单位输出是一个1分钟长的视频,对于DiT来说,它是一个512x512像素的图像,对于Llama 2和GPT-4,我们将单位输出定义为包含1000个token的单个文档。

下面是这些模型的对比图,横坐标是单位输出的个数,纵坐标是所需计算量,因为相差巨大,我们采用对数形式作图。

对于Sora和DiT,我们使用上面的推理估计。对于Llama 2和 GPT-4,我们使用 FLOPS = 2 的经验法则公式估计,即FLOPS=2×参数数量×生成的令牌数量。对于 GPT-4,我们假设该模型是一个混合专家 (MoE) 模型,具有2个专家,每个专家220B参数,且每次前向传递都处于活动状态。

我们可以进一步看到,Sora在推理工作负载方面甚至比GPT-4贵几个数量级。

未来可期

尽管目前Sora消耗巨大,但它不仅仅是一项技术,还是一个起点,我们相信,未来的视频生成将会形成一套完整的生态,从上游的模型到下游的应用,整个产业将会逐渐被建立。

Sora生成的视频,无论是在细节水平方面,还是在时间一致性方面(例如,当物体被暂时遮挡时,该模型可以正确处理物体的持久性),对于某些类型的场景来说,已经足够使用。目前OpenAI选择和一些艺术和电影工作室合作。

Shy Kids是一家多媒体制作公司,他们利用Sora制作了关于气球人的短片《Air Head》,导演Walter Woodman评论说:

“尽管Sora在创造看似真实的东西方面很出色,但让我们兴奋的是它能够创造出完全超现实的东西”,“来自世界各地的人们已经准备好从他们的胸膛里迸发出故事,终于有机会向世界展示里面的东西”

Don Allen III是一位跨学科的创作者,他说:

“很长一段时间以来,我一直在制作增强现实混合生物,我认为这些生物在我的脑海中会是有趣的组合。现在,我有了一种更简单的方法”,“不受传统物理定律或思维惯例的束缚”,与Sora合作将他的注意力从“技术障碍转移到纯粹的创造力......开启一个即时可视化和快速原型制作的世界”

当我们站在视频内容创作新时代的门槛上时,像Sora这样的模型的影响远远超出了技术领域。我们相信未来随着技术的优化,一个每个人都能拥抱AI,以 前所未有的方式讲述自己的故事。

>End

本文转载自“ ”,原标题《Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了》。

为分享前沿资讯及有价值的观点,太空与网络微信公众号转载此文,并经过编辑。

未按照规范转载及引用者,我们保留追究相应责任的权利

部分图片难以找到原始出处,故文中未加以标注,如若侵犯了您的权益,请第一时间联系我们。

HISTORY/往期推荐

充满激情的新时代,

充满挑战的新疆域,

与踔厉奋发的引领者,

卓尔不群的企业家,

一起开拓,

一起体验,

一起感悟,

共同打造更真品质,

共同实现更高价值,

共同见证商业航天更大的跨越!

——《太空与网络》,观察,记录,传播,引领。

·《卫星与网络》编辑委员会

高级顾问:王国玉、刘程、童旭东、相振华、王志义、杨烈

·《卫星与网络》创始人:刘雨菲

·《卫星与网络》副社长:王俊峰

·微信公众号(ID:satnetdy)团队

编辑:艳玲、哈玫,周泳、邱莉、黄榕

主笔记者:李刚、魏兴、张雪松、霍剑、乐瑜、刀子、赵栋

策划部:杨艳、若㼆、李真子

视觉总监:董泞

专业摄影:冯小京、宋伟

设计部:顾锰、潘希峎、杨小明

行政部:姜河、林紫

业务部:王锦熙、瑾怡

原创文章转载授权、转载文章侵权、投稿等事宜,请加微信:18600881613

商务合作;展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广;企业口碑传播及整体营销传播等,请加微信:13811260603

杂志订阅,请加微信:wangxiaoyu9960

·卫星与网络各分部:

成都分部负责人:沈淮

长沙分部负责人:宾鸿浦

西安分部负责人:郭朝晖

青岛分部负责人:江伟

·卫星与网络总部负责人:农燕

·会议活动部负责人乔颢益、许克新、董今福

· 投融资及战略层面合作:刘雨菲

·本平台签约设计公司:一画开天(北京)文化创意设计有限公司

最新文章
819云计算:美国轻量云20M低至16.1元/月 香港CN2 5M低至10.5元/月 -大带宽独享资源洛杉矶300M CN2 150元 日本CN2 500M 200元/月 卖完为止。
819云计算是海外领先的互联网业务平台服务提供商。专注为用户提供高性能云计算产品,致力于云计算应用的易用性开发,并引导云计算在国内普及。目前平台研发以及运营云服务基础设施服务平台,面向全球客户提供基于云计算的IT解决方案与客户
chatgpt注册成功后无法使用
ChatGPT是一种基于深度学习的自然语言处理模型,能够生成人类般的文本回复,具有广泛的应用前景。有时候在用户注册ChatGPT成功后,可能会遇到无法使用的问题。这篇文章将探讨可能导致ChatGPT无法使用的原因,并提供解决方案。ChatGPT注册成
5分钟分析:“RadeonApp”是诈骗软件吗,四人一个群说我操作失误不给提现怎么追回
1.《→请点击这里进入咨询提现←》2.《→请点击这里进入在线帮助←》3.《→请进入获取团队解决方案←》希望阅读此文的读者能够及时采取措施以减少损失;请及时与团队联系提供解决方案(文章上方点击添加技术员咨询快速追回)若想追回损失资
336期[沐沐]排列五百位杀号推荐
336期沐沐排列五百位杀号推荐:024 开:335期沐沐排列五百位杀号推荐:037 开:49906[百位:0]334期沐沐排列五百位杀号推荐:358 开:74681[百位:8]333期沐沐排列五百位杀号推荐:189 开:84859[百位:5]332期沐沐排列五百位杀号推荐:078 开:67957[百
360清理大师下载
程序写入外部存储读取设备外部存储空间的文件访问账户Gmail列表接收讯息(短信)编辑您的讯息(短信或彩信)读取您的通讯录读取您的讯息(短信或彩信)更新组件使用情况统计运行应用的排定后台工作用户间互动检索正在运行的应用勿扰模式使
2024年济宁网站建设风格如何体现?网站的建设流程
济宁网站建设的风格是多元化的,它不仅反映了本地文化特色,还结合了现代设计趋势和用户需求。无论是企业官网、地方文化宣传网站,还是电商平台,济宁网站的设计都讲求简洁、实用与美观并重。在设计时,济宁的地域特色、文化底蕴与当地市场
AI写作助手个性化设置指南:轻松调整参数与功能
在数字化时代写作助手已成为许多创作者、学生和研究者的得力助手。每个使用者的写作习惯和需求都有所不同这就需要咱们通过个性化设置来优化写作助手的功能,使其更好地服务于我们的写作过程。本文将为您详细介绍怎么样轻松调整写作助手的各
2024年第一季度全球最畅销手机排行榜揭晓,无一国产品牌上榜
高端手机市场国产品牌失色,创新短板亟待补齐,机遇还是挑战面对高端手机市场的激烈竞争,国产品牌不仅需要在创新技术方面持发力,同时也面临着来自苹果、三星等国际巨头的巨大挑战。以5G技术为例,苹果和三星凭借在基带芯片、天线设计等领
ASIC矿机介绍
ASIC 的全称是 Application-Specific Integrated Circuit 指的是专门设计来完成特定计算任务的集成电路。在区块链领域用 ASIC 来进行挖矿是非常常见的,本文来分析一下 ASIC 挖矿的原理以及为何要反 ASIC 。先来聊聊 ASIC 的基本原理,看看
2024年地图导航软件
手机导航软件哪个好1、高德地图高德应该是目前预装率比较高的软件,大多数手机厂商预置的默认地图应用就是高德地图。在操作界面方面,高德地图相对比较简约,不过在初次上手的时候需要一个学习的过程,它的操作可能跟你想的并不一样。高德
相关文章
推荐文章
发表评论
0评