AI巨头竞逐数字宇宙构建技术

   日期:2024-12-26    作者:gaoming18888 移动:http://oml01z.riyuangf.com/mobile/quote/49566.html

2024年12月4日,技术界迎来了一项新的里程碑:发布了其名为Genie 2的AI系统,实现了从一张静态图片到一个可交互的3D世界的转变。虽交互时间短暂,但其中的细节精细度与交互流畅性都达到了前所未有的水平。

AI巨头竞逐数字宇宙构建技术

现行构建数字宇宙的主要技术路线包括:追求视觉真实的Sora、注重实时交互的Genie 2,以及专攻空间准确性的World Labs。这些路线都具有一定的优势和暂时无法解决的挑战。

未来目标将在这三条路线中实现技术融合,使AI生成的游戏和数字世界更加成熟,有许多问题仍待解决。

Genie 2具体效果引来了广泛关注:由画面清晰、细节丰富的技术迭代当中,可以看到从一张平面图片到一个3D立体世界的能力。该技术使用了DeepMind的先进图像生成模型Imagen 3,并配合自回归潜在扩散模型来实现。

Genie 2区别于其他技术的点在于:其引入的可控制智能体。为了实现这一控制,引入了无分类器引导技术,提高了动作的可控性,使其能准确识别场景中的可控制对象。

与场景互动能力得益于另一个项目的经验:SIMA项目通过在视频数据集上的训练,使得系统能够区分动态和静态元素,并理解交互规则。

Genie 2在渲染方面接近物理光学的效果:具备处理直接光照、全局光照以及材质反射的能力,并且实现了相对真实的动态阴影。

场景记忆机制让其保持高度的一致性:这对于连续场景的记忆和维持是至关重要的,反映出需解决的技术难点。Genie 2的生成能力虽然有很大进步,但同时也面临着鲜明的挑战,如训练数据限制导致的失误。

如增加场景物理规则的突然改变等现象仍有改善空间。总体而言,虽然Genie 2在生成质量和交互深度上实现了跨越,但在场景的长期叙事连贯性和一致性方面,存在待改进的地方。特别是生成持续时间的限制,目前Genie只有10-20秒的连续场景。

在AI世界模型构建方面,三家技术路线共逐:他们分别强调不同的特点,包括视觉真实性、交互自然性和空间准确性。

Sora通过时空扩散模型处理空间和时间信息:这样的处理既保持了画面的高质量,也保持了时间上的连贯性,但交互能力和准确性不足。

谷歌的Genie 2则在这方面作出了调整:通过自回归模型和游戏数据训练,强化了游戏引擎中的物理规则认知以及实时响应的能力。

World Labs则提供了空间几何精确性的解决方案:通过类似点云技术和几何重建的方法来保证三维结构的稳定性。

构建数字宇宙是一个长远的课题:每条技术都在努力解决视觉真实性、交互自然性和空间准确性的核心挑战。

未来的3A级游戏突破可能来自于这些技术的融合:结合Sora的视觉质量、Genie 2的交互能力以及World Labs的空间准确性的混合系统。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号