Sora 究竟有多烧钱？Sora的推理与训练的计算成本被扒出来了

分享好友最新动态首页最新动态分类切换频道

Sora 究竟有多烧钱？Sora的推理与训练的计算成本被扒出来了

2024-12-26 13:28

转载自：夕小瑶科技说，作者：Zicy。

Sora一经发布，世界再次被AI的力量所震撼。要知道Runway、Pika等明星模型都还在突破几秒内的连贯性的时候，Sora已经可以直接生成长达60s的一镜到底视频。

大家对Sora的更进一步信息和细节都非常好奇，但遗憾的是，OpenAI并未公布它的技术细节，而只有一份简单的技术报告。

今天我们就来扒一扒网上对Sora训练和推理的估算，看看Sora惊艳效果背后的算力究竟是如何的惊人。

▲Sora生成的视频效果

从DiT到Sora

在Sora的技术报告中，作者提到Sora的设计很大程度上受到了《Scalable Diffusion Models with Transformers》论文的影响，这篇论文中提到的模型DiT是用于图像生成的，Sora将这项工作扩展到了视频生成。

我们先来看看DiT模型，最大的DiT模型DiT-XL具有675M参数，需要次浮点运算进行训练。为了使这个数字更容易理解，这相当于大约一台H100运行12天。

下面是对Sora所需的计算量做一个估算：

1、DiT只对图像进行建模，但Sora是视频模型，我们假设Sora在把图片变成视频的过程中没有额外计算。

Sora可以生成1分钟的视频，如果我们假设视频以24fps编码，则一个视频有1440帧（24fps * 60s）。Sora的像素到潜在映射似乎在空间和时间上都进行了压缩。如果我们假设与DiT论文（8x）的压缩率相同，我们最终在潜在空间中得到180帧(1440/8)。

2、Sora明显大于675M参数，之前有传言GPT3.5的模型大小是20B

所以我们估计Sora为20B是可行的，这需要DiT的30倍计算量。

3、Sora应该是接受了图像和视频的混合训练，OpenAI没有过多谈论他们的数据集，但他们暗示它非常大：“我们从大型语言模型中汲取灵感，这些模型通过对互联网规模数据进行训练来获得通才能力。

假设Sora数据集比DiT使用的数据集大10倍到100倍，但DiT在相同数据上重复训练，若有更大数据集，则此方法并非最佳。因此将计算量增加4-10倍是合理的，取中值7倍作为估算。

所以，把上面的估算结果相乘，训练Sora的总浮点数计算量约为：

这相当于14739张H100运行一个月！

以当前H100市场价约3万美元算，14739张H100约需要4.4亿美元，老黄直接狂喜。

在能耗方面，H100 GPU的最大功耗约为700W，这需要大概 kWh的电力,这相当于一架波音757飞机飞行七百万公里的碳排放，可以绕地球赤道转173圈，环保人士已经要坐不住了。

我们需要更多的显卡

Sora的训练已经消耗这么多了，我们再来估计一下推理所需的资源。

我们再次使用DiT来推断Sora，DiT-XL每步使用 FLOPS，250个扩散步骤总共 FLOPS，同样的方法，乘上30再乘180，我们可以估计：

一个Nvidia H100 GPU大约每小时能生成5分钟的视频。

如果视频作者要依靠Sora来创作，那么他至少需要十张以上的H100，才能十分钟内生成合理时长的视频。这个成本将非常高，肯定不适合普通人来使用。

盈亏平衡

盈亏平衡，即模型达到一个推理的使用量，使得推理和训练期间的花费相同。

我们倾向于关注的另一个重要考虑因素是训练成本与推理成本的比较。众所周知，训练成本非常大，但也是一次性成本。相比之下，推理成本要小得多，但推理是频繁调用的，推理计算会随着用户数量的增加而增加，因此，查看“盈亏平衡点”是有用的。

按照前面的计算，我们得出下面DiT和Sora的训练与推理计算的比较。

我们可以看到，DiT在生成7.6M图像后达到盈亏平衡点，而Sora在生成53.4M分钟的视频后达到盈亏平衡点（约101.53年）

推理成本比GPT4高出几个量级

为了进一步见识Sora所需计算量之巨大，我们可以对比一下不同模型的每单位输出，推理计算所需的计算量。

我们先划定一个标准，对于Sora，每单位输出是一个1分钟长的视频，对于DiT来说，它是一个512x512像素的图像，对于Llama 2和GPT-4，我们将单位输出定义为包含1000个token的单个文档。

下面是这些模型的对比图，横坐标是单位输出的个数，纵坐标是所需计算量，因为相差巨大，我们采用对数形式作图。

对于Sora和DiT，我们使用上面的推理估计。对于Llama 2和 GPT-4，我们使用 FLOPS = 2 的经验法则公式估计，即FLOPS=2×参数数量×生成的令牌数量。对于 GPT-4，我们假设该模型是一个混合专家（MoE）模型，具有2个专家，每个专家220B参数，且每次前向传递都处于活动状态。

我们可以进一步看到，Sora在推理工作负载方面甚至比GPT-4贵几个数量级。

未来可期

尽管目前Sora消耗巨大，但它不仅仅是一项技术，还是一个起点，我们相信，未来的视频生成将会形成一套完整的生态，从上游的模型到下游的应用，整个产业将会逐渐被建立。

Sora生成的视频，无论是在细节水平方面，还是在时间一致性方面（例如，当物体被暂时遮挡时，该模型可以正确处理物体的持久性），对于某些类型的场景来说，已经足够使用。目前OpenAI选择和一些艺术和电影工作室合作。

Shy Kids是一家多媒体制作公司，他们利用Sora制作了关于气球人的短片《Air Head》，导演Walter Woodman评论说：

“尽管Sora在创造看似真实的东西方面很出色，但让我们兴奋的是它能够创造出完全超现实的东西”，“来自世界各地的人们已经准备好从他们的胸膛里迸发出故事，终于有机会向世界展示里面的东西”

Don Allen III是一位跨学科的创作者，他说：

“很长一段时间以来，我一直在制作增强现实混合生物，我认为这些生物在我的脑海中会是有趣的组合。现在，我有了一种更简单的方法”，“不受传统物理定律或思维惯例的束缚”，与Sora合作将他的注意力从“技术障碍转移到纯粹的创造力......开启一个即时可视化和快速原型制作的世界”

当我们站在视频内容创作新时代的门槛上时，像Sora这样的模型的影响远远超出了技术领域。我们相信未来随着技术的优化，一个每个人都能拥抱AI，以前所未有的方式讲述自己的故事。

>End

本文转载自“ ”，原标题《Sora 究竟有多烧钱？Sora的推理与训练的计算成本被扒出来了》。

为分享前沿资讯及有价值的观点，太空与网络微信公众号转载此文，并经过编辑。

未按照规范转载及引用者，我们保留追究相应责任的权利

部分图片难以找到原始出处，故文中未加以标注，如若侵犯了您的权益，请第一时间联系我们。

HISTORY/往期推荐

充满激情的新时代，

充满挑战的新疆域，

与踔厉奋发的引领者，

卓尔不群的企业家，

一起开拓，

一起体验，

一起感悟，

共同打造更真品质，

共同实现更高价值，

共同见证商业航天更大的跨越！

——《太空与网络》，观察，记录，传播，引领。

·《卫星与网络》编辑委员会

高级顾问：王国玉、刘程、童旭东、相振华、王志义、杨烈

·《卫星与网络》创始人：刘雨菲

·《卫星与网络》副社长：王俊峰

·微信公众号（ID：satnetdy）团队

编辑：艳玲、哈玫，周泳、邱莉、黄榕

主笔记者：李刚、魏兴、张雪松、霍剑、乐瑜、刀子、赵栋

策划部：杨艳、若㼆、李真子

视觉总监：董泞

专业摄影：冯小京、宋伟

设计部：顾锰、潘希峎、杨小明

行政部：姜河、林紫

业务部：王锦熙、瑾怡

原创文章转载授权、转载文章侵权、投稿等事宜，请加微信：18600881613

商务合作；展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广；企业口碑传播及整体营销传播等，请加微信：13811260603

杂志订阅，请加微信：wangxiaoyu9960

·卫星与网络各分部：

成都分部负责人：沈淮

长沙分部负责人：宾鸿浦

西安分部负责人：郭朝晖

青岛分部负责人：江伟

·卫星与网络总部负责人：农燕

·会议活动部负责人：乔颢益、许克新、董今福

· 投融资及战略层面合作：刘雨菲

·本平台签约设计公司：一画开天（北京）文化创意设计有限公司