23年9月来自一家创业公司GigaAI和清华大学的论文“DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving”,。主要的特点是扩散模型的引入,让世界模型中的环境表征更强。
世界模型,尤其在自动驾驶,因其理解驾驶环境的能力而受到广泛关注。既定的世界模型在生成高质量驾驶视频和安全机动的驾驶策略方面具有巨大潜力。然而,相关研究的一个关键局限性在于,其主要关注游戏环境或模拟设置,从而缺乏对真实世界驾驶场景的表征。因此,本文推出了DriveDreamer,一个完全源自真实世界驾驶场景的世界模型。考虑到在驾驶场景中对世界进行建模需要搜索空间,建议利用扩散模型来构建复杂环境的综合表示。此外,引入了一个两阶段训练流水线。在初始阶段,DriveDreamer获得对结构化交通限制的深刻理解,而后续阶段,则使其具备预测未来状态的能力。DriveDreamer是一个从真实世界驾驶场景建立的世界模型。在nuScenes基准测试上实例化DriveDreamer,并且进行了广泛的实验验证,DriveDreamer能够实现精确、可控的视频生成,从而忠实地捕获现实世界交通场景的结构约束。此外,DriveDreamer能够产生现实合理的驾驶策略,为交互和实际应用开辟道路。
如图所示,DriveDreamer展示了对自动驾驶场景的全面理解。它擅长可连续驾驶视频生成、与文本提示和结构化交通限制无缝对齐。DriveDreamer还可以与驾驶场景进行交互,并根据输入的驾驶动作预测不同的未来驾驶视频。此外,DriveDreamer扩展了其实用性,以预测未来的驾驶行为。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b9ccqckk-1721152546136)(https://i-blog.csdnimg.cn/direct/f15b35ccf4b94d6b86fcc51911c67d2b.png)]
世界模型在基于模型的模仿学习中得到了广泛的探索,在各种应用中表现出了成功[13-18,33,39,54,65]。这些方法通常利用VAE[35]和LSTM[24]来模拟转换动力学和渲染功能。世界方法旨在建立环境的动态模型,使智体能够预测未来。这一方面在自动驾驶中至关重要,因为对未来的精确预测对于安全机动至关重要。然而,在自动驾驶中构建世界模型提出了独特的挑战,主要是由于实际驾驶任务固有的高样本复杂性[5]。
为了解决这些问题,ISO-Dream [47]解藕视觉动力学为可控和不可控的状态。MILE [27] 在BEV语义分割空间内战略性地进行企业世界建模,通过模拟学习增强世界模型。SEM2 [11] 将Dreamer框架工作扩展到 BEV 分割图,采用强化学习进行训练。
DriveDreamer的整体框架如图所示。该框架从初始参考帧I0及其相应的道路结构信息(即HDMap H0和3D边框B0)开始。在这个上下文中,DriveDreamer利用ActionFormer 来预测潜空间的道路结构特征。这些预测特征作为条件,提供给自动驾驶扩散模型(Auto-DM),后者生成未来的驾驶视频。同时,文本提示对驾驶场景风格(例如,天气和时间)进行动态调整。此外,DriveDreamer结合了历史动作信息和从Auto-DM中提取的多尺度潜特征,这些特征结合起来,可以生成合理的未来驾驶动作。从本质上讲,DriveDreamer提供了一个全面的框架工作,无缝集成了多模式输入,生成未来的驾驶视频和驾驶策略,提升自动驾驶系统的功能。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-79YbSDUe-1721152546138)(https://i-blog.csdnimg.cn/direct/51050b6652bf4e55bd136299bb20a881.png)]
关于在真实驾驶场景中建立世界模型的广泛搜索空间,引入DriveDreamer的两阶段训练策略。该策略旨在显著提高采样效率并加快模型收敛。两阶段训练如图 所示。第一阶段有两个步骤。步骤1涉及单帧结构化条件,引导DriveDreamer生成驾驶场景图像,便于其理解结构交通约束。步骤2将其理解扩展到视频生成。利用连续的交通结构条件,DriveDreamer输出驾驶场景视频,进一步增强其对运动转换的理解。在第二阶段,训练的重点是使DriveDreamer能够与环境互动并有效地预测未来状态。此阶段将初始帧图像及其相应的结构化信息作为输入。同时,提供序贯驾驶动作,该模型有望生成未来的驾驶视频和未来的驾驶动作。这种交互使DriveDreamer能够对未来的驾驶场景预测和导航。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zfUlwxcQ-1721152546140)(https://i-blog.csdnimg.cn/direct/df912c80fdcd44d8869fc1cf9a8266b0.png)]
在DriveDreamer中,引入Auto-DM,从真实世界的驾驶视频中建模和理解驾驶场景。值得注意的是,由于现实世界驾驶场景中的大量搜索空间,仅从像素空间理解驾驶场景存在挑战。为了缓解这种情况,明确地将结构化交通信息作为条件输入。Auto-DM 的整体结构如图所示,其中结构化交通条件投影到图像平面上,生成HDMap条件 {Hi} 和 3D 边框条件 {Bi },以及边框类别 {Ci }。为了实现可控性,空间对齐条件H由卷积层编码,然后与Zt连接,其中{Zt}是由前向扩散过程产生的噪声潜特征[52]。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oc4axMHG-1721152546140)(https://i-blog.csdnimg.cn/direct/c7600780123d44738351818fef4259a6.png)]
为了进一步增强Auto-DM对驾驶动态的理解,引入时间注意层Ft,增强生成的驾驶视频的帧连贯性。此外,交叉注意层[52]用于促进文本输入和视觉信号之间的特征交互,使文本描述能够影响驾驶场景属性,例如天气和时间。
基于第一阶段的训练,DriveDreamer已经获得了对结构化交通信息的理解。但是,所需的世界模型也应该能够预测未来,并且可以与环境相互作用。因此,开始训练的第二阶段,利用视频预测任务来建立驾驶世界模型。具体来说,视频预测任务需要提供初始观察I0,H0,B0以及驾驶动作{Ai},期望的结果是未来的驾驶视频{Ii}和未来的驾驶动作{Ai}。
经过训练的 Auto-DM 可以根据序贯结构化信息 {Hi }, {Bi }生成驾驶视频 {Ii}=0 。但是,在视频预测任务中,超出当前时间戳的未来交通结构条件不可用。为了应对这一挑战,引入ActionFormer,其利用驾驶动作{Ai}来迭代预测未来的结构条件。ActionFormer 的整体架构如图所示。首先将初始结构条件H0和B0编码并展平为一维潜空间;潜特征由自注意和MLP层连接和聚合,生成隐藏状态h0。随后,利用交叉注意层 Fca 构建隐状态和驾驶动作之间的关联。为了预测未来的隐藏状态,用GRU来迭代更新。这些隐状态与动作特征连接起来,解码为未来的交通结构条件。值得注意的是,Actionformer 在特征级预测未来的交通结构状况,减轻了像素级别的噪声干扰,从而产生更可靠的预测。除了 Actionformer 生成的交通结构条件和文本提示条件外,还处理类似Latent Dif fusion的参考图像条件 I0。基于以上条件,扩展Auto-DM共同生成未来的驾驶视频{Ii}和驾驶动作{Ai}。