公众号:算法一只狗
春节准备过完,OpenAI发布了震撼科技圈的文生视频模型Sora。它出圈的地方就在于,能够把原来生成的几秒视频硬生生拔高到可以生成1分钟左右的视频。
不仅如此,各种媒体还称其为”世界模型“,因为它能够模拟复杂场景,生成符合人类感官的视频。比如下面这个例子:
在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。
从多个大V的观点来看,这次OpenAI发布的Sora,是一个基于虚幻引擎5做驱动的模型。就连OpenAI官网中,也把Sora称为是构建通向物理世界模拟器的希望路径。
那么,Sora到底有什么惊人的地方,值得大众趋之若鹜?这就先要谈谈之前的文生视频模型的局限性。
我们都知道,在上一年的年末,各种文本视频生成模型突然爆火,让AI技术在文生视频领域也有了一定的用武之地。感兴趣的可以回看我之前详细介绍的文章:
像之前大众所熟知的Runway、Pika软件,由于其简单上手,迅速火遍朋友圈,连我周围很多朋友都尝试过这些好玩有趣的AI视频生成软件。
但是这些软件缺点也很明显,集中在以下几个难以解决的问题:
人脸细节生成效果差,在于AI模型往往会聚焦于整体的图片风格生成,而忽略了各种面部细节。
生成的视频存在闪烁问题,这个主要是因为目前的大部分文生视频模型其实是通过多张图片生成后,在进行合并生成视频的。因此它难以保证每一张图片都符合上下文。
同时,以前的文生视频模型或软件,往往只能生成几秒的视频,这是因为长视频的生成往往容易导致画面不连贯,同时时间过长会耗费大量的算力。因此以前的模型最长只有10几秒的视频。
但是OpenAI发布的Sora模型,从其demo来看,已经克服了上面几个比较突出的问题,因此其优点有以下几个:
狗戴着贝雷帽、穿着黑色高领毛衣
一位戴着尖顶帽,身披绣有白色星星的蓝色长袍的巫师正在施法,他的一只手射出闪电,另一只手中拿着一本旧书。
新春舞龙
世界模型最开始是由图灵奖得主LeCun提出来的。他认为真正的世界模型,是AI能够通过感知外部环境,来理解世界的运作方式。
而这种模型需要会听、会读、会写,同时利用自己先验知识来推理,可以跳脱出本身的训练数据。
回到OpenAI发布的Sora,他已经足够惊艳,在基于Transformers架构下生成出的视频已经能够达到以假乱真。并且可以大量的训练数据,去描述现实世界的物理规律。
比如下图中,Sora生成的怪物毛发特性已经很精细了
但是Sora并不完美,他在设计到复杂场景的时候,还是会出现明显的偏差。并没有真正的学习到现实世界的通用规律。比如,在吃掉一个饼干后,Sora也不能够生成吃掉一口的饼干形状。
从目前来看,Sora距离真正的世界模型还是有一定的距离,但是不妨碍其是一个出色的文生视频模型。要想真正实现通用化的AI模型,需要统一多种模态,来理解世界规律。这样才能真正做到不依赖于训练数据,实现自主推理。