刚刚，OpenAI Sora正式炸裂登场，网页挤爆了！

日期：2024-12-26 作者：maikehg 移动：http://oml01z.riyuangf.com/mobile/quote/36463.html

算起来，距离今年 2 月 16 日 Sora 的发布已经过去了近 10 个月的时间。

视频链接：https://mp.weixin.qq.com/s/_cm8Sw50XF0P2JtHGDAKKA?token=1912244716&lang=zh_CN

让你的想象力栩栩如生

那就先为读者们展示下官方放出的 Sora 的能力吧。

Storyboard：在时间线上组织和编辑视频的独特序列

更多 Sora 生成的惊艳视频，也需要广大网友们的想象力去创造了。

Sora 正式版系统卡

在今年 2 月份，Sora 刚发布时，OpenAI 曾公布了 Sora 的技术报告（参阅：我在模拟世界！OpenAI 刚刚公布 Sora 技术细节：是数据驱动物理引擎）。

OpenAI 认为，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

Sora 是 OpenAI 的视频生成模型，旨在获取文本、图像和视频输入并生成新视频作为输出。用户可以创建各种格式的高达 1080p 分辨率（最长 20 秒）的视频。

Sora 建立在 DALL・E 和 GPT 模型的基础上，旨在为人们提供创意表达的工具。

Sora 是一种扩散模型，它从看起来像静态噪声的基本视频开始生成新视频，通过多个步骤消除噪声来逐渐对其进行转换。通过一次为模型提供多帧预测，Sora 解决了一个具有挑战性的问题，即确保画面主体即使暂时离开视野也能保持不变。与 GPT 模型类似，Sora 使用 transformer 架构，释放出卓越的扩展性能。

Sora 使用 DALL・E 3 中的重描述（recaptioning）技术，该技术涉及为视觉训练数据生成高度描述性的字幕（captions）。因此，Sora 能够更忠实地遵循生成视频中用户的文本指令。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地将图像内容动画化并关注细节。该模型还可以获取现有视频并对其进行扩展或填充缺失帧。Sora 是能够理解和模拟现实世界的模型的基础，OpenAI 认为 Sora 将成为通往 AGI 的重要里程碑。

在数据方面，正如 OpenAI 在 2 月的技术报告中所述，Sora 从大型语言模型中汲取灵感，这些模型通过互联网规模数据的训练来获得通才能力。LLM 得以确立新范式，部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。

在 Sora 中，OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token，而 Sora 有视觉 patch。此前的研究已经证明 patch 是视觉数据模型的有效表征。OpenAI 发现 patch 是训练生成各种类型视频和图像的模型的可扩展且有效的表征。

在更高层面上，OpenAI 首先将视频压缩到较低维的潜在空间，然后将表征分解为时空 patch，从而将视频转换为 patch。

Sora 接受过各种数据集的训练，包括公开数据、通过合作伙伴获取的专有数据以及内部开发自定义数据集：

更多细节，读者们可以查看系统卡介绍。

价格权益

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行