分享好友 最新动态首页 最新动态分类 切换频道
单图创造虚拟世界只需10秒!斯坦福&MIT联合发布WonderWorld:高质量交互生成
2024-12-26 13:55

文章链接:https://arxiv.org/pdf/2406.09394

项目地址: https://WonderWorld-2024.github.io/

单图创造虚拟世界只需10秒!斯坦福&MIT联合发布WonderWorld:高质量交互生成

在过去的一年中,3D场景生成变得非常热门,许多研究成功地探索了强大的生成图像先验和单目深度估计的改进。这些工作大大提高了生成场景的视觉质量、可能的视角和多样性。然而,所有这些工作都是离线完成的,用户提供单个起始图像或文本提示后,系统在几十分钟到几小时后返回一个固定的3D场景或特定摄像路径的视频。虽然离线生成可能适用于小型、离散的场景或视频,但这种设置对于许多场景生成的使用场景来说是有问题的。例如,在游戏开发中,世界设计师希望逐步构建3D世界,能够控制生成过程,并能够低延迟地查看中间步骤。在虚拟现实和视频游戏中,用户期望可扩展、多样化的内容,这些内容比当前生成的场景更大、更丰富。在未来,用户可能会希望更多:一个系统允许他们自由探索和塑造动态演变的、无限的虚拟世界。所有这些都促使了交互式3D场景生成的问题,在这种情况下,用户可以低延迟地控制场景外推的内容(例如,通过文本提示,并且可以控制场景外推的位置(例如,通过相机控制)。

为了理解阻碍交互性的技术问题,本文检查了几种最先进的3D场景生成方法,并确定了两个主要限制。首先场景生成速度太慢,无法实现交互性。每个生成的场景需要几十分钟进行多次生成图像修补和深度估计。其次生成的场景在场景边界处存在强烈的几何失真,阻碍了从生成场景进行外推

本文提出了一个名为WonderWorld的框架,用于交互式场景生成。输入是一张单一的图像,输出是一组相互连接但多样化的3D场景。为了解决速度问题本文的核心技术涉及快速高斯表面(Fast Gaussian Surfels,其优化由于采用了原理性、基于几何的初始化而需要不到1秒的时间,以及分层场景生成,其中每个场景都解析可能发生遮挡的区域,然后预先生成内容以填充这些特殊区域。为了解决几何失真问题,本文引入了一种引导扩散的深度估计方法,确保外推场景和现有场景之间的几何对齐。

使用本文的框架,外推或生成一个场景在单个A6000 GPU上花费不到10秒的时间。这一突破解锁了交互式场景生成的潜力,使用户能够将单一图像外推成一个广阔而身临其境的虚拟世界。本文的方法为虚拟现实、游戏和创意设计中的应用开启了新的可能性,用户可以快速生成和探索多样化的3D场景。

快速高斯面

基于几何的初始化 本文的快速优化核心思想是,因为从单视图图像生成快速高斯表面,因此可以假设图像中的每个像素揭示了底层 3D 场景中的一个表面。因此,可以利用对应像素的信息来直接求解或近似表面的参数,而不是随机初始化和优化。这样,优化过程得以简化、加速并适当正则化。

分层场景生成

为了填补生成场景中的遮挡空洞,本文引入了一种分层场景生成策略。其主要思想是解析场景的几何层结构,发现可能出现显著遮挡的区域,通过去除遮挡内容来显露这些区域,并生成内容以填补这些区域。本文称这一过程为深度引导的层分解。上图2顶部展示了一个示例。

引导深度扩散

为了生成一个无限的世界,本文需要将现有的场景推广到未探索的空间。一个基本的挑战是在推广过程中的几何扭曲,即新生成的场景内容可能与现有场景内容存在显著的几何差距,因此在从除了外部观点以外的视角看时会显得不连贯。这是由于估计的深度与现有几何之间的不一致造成的。

解决地面平面失真问题 本文注意到引入的导向深度扩散公式非常灵活,可以允许指定不同的深度约束。例如,另一个重要的几何失真是地面平面通常是弯曲的。因此,对于所有生成的场景,本文通过以下方式添加地面平面的深度指导:在公式中,将mask 替换为从语义分割中获得的地面mask ,并用从分析计算出的平坦地面深度 替换可见内容的深度 。

在本节中,本文展示了WonderWorld的结果。由于不知道任何允许交互式场景生成的基准方法,因此本文专注于展示生成大规模3D场景的质量。为此,本文考虑了开源基准方法,并使用它们的官方代码。本文展示了交互式场景生成的示例视频,并强烈建议读者先观看视频。

本文的基准方法包括WonderJourney,这是一种最新的永久视角生成方法,以及LucidDreamer,一种最近的3D场景生成方法。WonderJourney接受单张图像作为输入,并通过绘制图像和反投影像素来生成一系列点云。LucidDreamer接受单张图像作为输入,并从中合成多视角图像来训练3DGS。本文在示例中使用了公开可用的真实和合成图像。

实现细节

在本文的实现中,使用了稳定扩散修复模型作为本文的出画模型。并且还将它用于修复背景和天空层。本文使用 OneFormer 对天空、地面和前景对象进行分割。在初始场景中,本文使用 SyncDiffusion 离线生成整个天空。本文使用 Marigold 法作为深度扩散模型,并估计法线使用 Marigold 法。在本文的引导深度扩散中,设置了引导权重 ,使得引导信号的范数与预测更新的范数成比例。本文使用 Euler 调度器进行深度扩散,共进行 30 步,其中在最后 8 步应用本文的引导。本文使用高效的 SAM 对估计的深度进行后处理,类似于 WonderJourney 。本文还遵循 WonderJourney 的做法,当用户未提供文本时,使用 GPT-4 生成提示,并根据场景名称添加可能的对象和背景文本来丰富提示。本文将发布完整的代码和软件以便复现实验。

定性结果

生成速度

本文介绍了WonderWorld,一个用于互动3D场景生成的系统,具有显著加快生成时间和提升大规模多样场景性能的技术改进。WonderWorld允许用户以互动方式生成和探索他们想要的场景部分,并按其需求生成内容。

限制
WonderWorld的一个局限性是场景密度较低,因为每个场景最多只有 个高斯表面。另一个局限性是处理细节对象(如树木)的困难,这可能导致深度估计不准确,从而在视点改变时出现“空洞”或“浮动物”。本文在视频中展示了一个失败案例。因此,一个令人兴奋的未来方向是利用WonderWorld互动地原型化一个粗略的世界结构,然后通过较慢的单场景多视图扩散模型进行细化,以提高场景密度、填补空洞和去除浮动物。

最新文章
3. 如果误删文件,导致天翼云电脑(政企版)无法运行,数据会丢失吗?
天翼云电脑(政企版)自带系统盘规格:80GB。操作系统安装会占用30GB,剩余可用存储约50GB。如果您使用的是天翼云电脑(政企版),若需要增加存储空间,可对数据盘进行扩容,以100GB步长为单位。数据盘扩容对天翼云电脑(政企版)内已有的
3D31日连号走势图近500期带连线
功能类福彩3D显示遗漏:显示/隐藏遗漏值,遗漏值是指自上期开出到本期间隔的期数。福彩3D遗漏分层:是将当前遗漏值用柱状图形标注。福彩3D分段线:是每五期使用分隔线,使横向导航更加清晰。福彩3D显示断区:在分区走势中使用,将开出0个号
9月份三款新机官宣:索尼、华为、苹果,发布时间已公布!
8月份即将结束,各大手机品牌开始官宣9月份所发布的新机,目前已经有多个手机品牌官宣了9月份的新机,后续还会有新机官宣。9月份作为开学季,必然有一批换机潮,苹果每年的新机发布都是定档在9月份发布,今年也不例外。现在苹果不断开始参
ai做立体字(ai做立体字在线设计教程)
摘要:ai做立体字(ai做立体字在线设计教程),1,打开AI CS6,新建一个空白文档。2,用字体工具敲出需要的文字,调整字体、字号。通常情况下,选择粗体效果最好,这儿选择的是文鼎大黑。3,选中文字,按Ctrl+shift+O将文字转曲,文字转曲是
2024年十大科学突破:革新科技助力人类健康与未来生活
革命性的农药——RNA杀虫剂的推出另外,农业领域的突破同样吸引眼球。今年,美国批准了一种基于RNA的杀虫剂,它通过精准设计可有效针对特定害虫,保证其他生物的安全。这一新型杀虫剂不仅具备较高的效率,还能最大限度减少对生态环境的不良
2025全球黄金外汇交易领域十大专业平台最新排行!
在2025年,随着数字科技的飞速发展,智能手机已经深度融入每个人的日常生活,并改变了传统的投资方式。黄金和外汇作为历史悠久且备受推崇的投资工具,继续以其独特的避险属性和流动性吸引着全球投资者的目光。特别是在移动交易软件的推动下
171期[100%纯真]3d定位精准
171期[九尺钉耙]预测一注今晚3D回顾上期开奖号码:427回顾上期形态:组六形态, 大小形态为小小大,大小比为1:2,奇偶形态为偶偶奇,质合形态为合质质,质合比为:2:1,和值为13点,和尾为3点,跨度为5。独胆看好号码:8双胆看好号码:89三胆看好
2024诺奖得主韩江发表获奖演讲:爱是连接我们心灵的金线
诺奖颁奖周文学奖得主韩江发表演讲12月6日—12日,今年诺奖在斯德哥尔摩和奥斯陆开启为期一周的诺奖周活动。活动期间,获奖者将为诺贝尔奖博物馆捐赠一件有特殊意义的物件,与读者展开多场活动交流,发表获奖演说,并参加颁奖典礼。韩国作
2019混动车型销量排行20位
文章阐述了关于,以及2019混动车型销量排行20位的信息,欢迎批评指正。1、电动新能源汽车销售量是多少2、预算15万,有哪些插电混动车型可以选择?3、比亚迪混动在全球混动汽车之中处于什么水平?跟特斯拉相比怎么样?_百度...4、新能源市场气势
Hexo搭建个人博客(十五)| 酒香也怕巷子深,让百度收录你的站点
俗话说,酒香不怕巷子深,可是对于我们写技术文章的小伙伴,酒香也怕巷子深呀,为什么呢? 技术文章不同于资讯类文章,资讯类文章主要靠第一时间推送给用户,而技术文章不需要主动推送给用户&#x
相关文章
推荐文章
发表评论
0评