分享好友 最新动态首页 最新动态分类 切换频道
10秒图片重建3D模型的开源魔法!昂贵NFT能否3D打印?
2024-12-27 05:08

全文2700字,阅读需4分钟。本文分享腾讯ARC实验室发布的图片三维建模开源技术以及实测后的感悟。
果觉得AM易道文章有价值,请读者朋友帮忙转发点赞在看 评论,支持AM易道创作。
AM 易道本文与文中提到企业(如有)不存在任何形式商业合作、赞助、雇佣等利益关联。
图片视频来自于网络,仅作为辅助阅读之用途,无商业目的。版权归原作者所有,如有任何侵权行为,请权利人及时联系,我们将在第一时间删除。

10秒图片重建3D模型的开源魔法!昂贵NFT能否3D打印?

AM易道导语:一张照片引发的风暴

之前AM易道分享过图像转,今天,AM易道要为大家介绍一项开源方案:

腾讯ARC实验室发布的InstantMesh技术。

这个刚刚在arXiv上发布的研究成果(arXiv:2404.07191v2)展现了丝滑能力:

只需一张2D(带景深明暗关系)图片,短短10秒就能生成3D模型。

突发奇想,AM易道做了一个大胆的尝试:我们选取了曾创下340多万美元天价的Bored Ape NFT之一作为测试对象。

经AM易道尝试,InstantMesh还原了这只百无聊赖的猿猴形象的细节,从标志性的表情到服装,虽然细节还有待优化,但至少转换成了可供3D打印的模型。

把价值连城的数字艺术品通过AI技术+3D打印生产成为触手可及的实体收藏品,是AM易道认为其中一个有趣的小众应用方向。

在深入解析这项技术之前,让我们先了解一下InstantMesh背后的团队。

这项研究来自腾讯PCG的ARC实验室和上海科技大学的联合攻关,汇集了计算机视觉和3D重建领域的专家。

研究团队已经宣布将开源所有代码和模型权重,这无疑将加速3D内容创作的技术革新。

开源项目地址和信息在文末。

请跟随AM易道 一起来揭秘这个能将2D图片变为3D模型的开源黑科技!

深度解析:从2D到3D的魔法

看到图1中展示的效果,相信很多读者都会惊叹:这真的只用了一张2D图片就能重建出如此精细的3D模型吗?

从可爱的卡通人物到精致的家具用品,从复杂的机械结构到充满艺术感的装饰品,InstantMesh展现出令人叹为观止的通用性和精确度。

这个技术的核心创新在于巧妙地结合了两大关键技术。

如果把传统的3D重建比作手工雕刻,那InstantMesh就像是一位既有"慧眼"又有"巧手"的雕塑大师。

首先,它的"慧眼"是多视角扩散模型(Multi-view Diffusion Model),能够从单张图片想象出物体在不同角度下的样子。

就像艺术家看到一件物品的正面,就能在脑海中构思出它的侧面和背面是什么样子。

其次,它的"巧手"则是稀疏视图大型重建模型(Sparse-view Large Reconstruction Model),能够将这些不同角度的视图精准地转换为完整的3D网格模型。

这就像雕塑家能够将脑海中的立体构想完美地呈现在作品中。

通过图2所示的技术流程,我们可以看到这个"魔法般"的转换过程是如何实现的。

对具体算法执行感兴趣的读者,请自行查阅arXiv相关论文。

技术优势:颠覆传统的突破性创新

InstantMesh的核心优势体现在三个关键维度:处理效率、重建质量和通用性能。

从图3的对比结果我们可以清晰地看到,在处理相同的输入图片时,InstantMesh展现出了与其他CRM、LGM、TripoSR等的优势。

在技术层面,InstantMesh引入了两个创新。

首先是差分等值面提取模块(Differentiable iso-surface extraction), 这个模块能够直接在网格表面上应用几何监督信息,如深度图和法向量

传统的3D重建技术就像是在黑暗中摸索物体的形状,只能得到模糊的轮廓。

而InstantMesh的差分等值面提取模块则像是打开了明亮的探照灯,能同时"看到"物体的深度、表面法线等立体信息。

想象一下,当你在捏橡皮泥时,不仅能看到泥块的外形,还能精确感知每一处凹凸的走向,这就是InstantMesh的工作方式。

第二个突破则像是AI的"学习成长"过程。

InstantMesh采用了一种独特的"先粗后细"的学习策略。

这就像学画画,我们总是先打草稿(第一阶段的NeRF预训练),确定了大体轮廓后,再一步步完善细节(第二阶段的网格精调)。

这种渐进式的学习方法不仅让AI"学习"得更快,还确保了最终作品的精致度。

从实验数据来看,这种方法在Google扫描物体数据集上取得了令人瞩目的成绩,无论是图像品质(PSNR)、结构相似度(SSIM)还是视觉感知质量(LPIPS),都达到了领先水平。

NFT的3D重建之旅:从像素到实体(AM易道实测)

其实这个算法最核心的是需要一张好的图片,经过测试,如果纯粹的卡通图片并不能生成3D模型。

比如用下图:

经过处理背景后:

经过算法处理后的多视角图:

可以看到,在这一步时候就已经出问题,多视角试图并未能形成任何三维立体:

前文说过,这个算法是“ 能够直接在网格表面上应用几何监督信息,如深度图和法向量。”

经过我们的测试,其三维重建所需要的是带有深度的图片信息,比如一些阴影表现。

我们从网上找了另一张带阴影信息的无聊猴, 看起来更立体的平面图,可以看到面部和身体都含有不同程度的阴影。

开始处理,祛除不相关背景:

非常关键的一步,形成多视角图:

可以看到,效果非常棒!

这时,直接输出obj文件:

虽然细节还有待提升,可以通过更多的拟合次数来提高效果。

如果丢掉贴图信息,纯看3D模型本身质量如何呢?

另AM失望的是,纯看模型本身,效果不理想,分辨率极低,基本是无法3D打印的。

为了排除是AM易道图片选取的问题,我们用官方推荐的图片再测试了一遍:

输出的带贴图模型和素模效果差距仍然较大:

未来应用浅析

从论文 图4展示效果我们可以看到,作为数字化内容创作还是高效高质的。

但 我 们尝试将无聊猴 NFT转换为3D模型的过程中发现,虽然模型能够基本还原猿猴的特征,但在细节表现上还有提升空间。

AM易道在测试过程中总结以下关键问题:

  1. 表面分辨率问题:当前三平面解码器输出的模型表面细节明显不足,与专业建模的效果还有较大差距。

  2. 计算资源需求:要提升模型分辨率,可能需要更强大的计算资源支持,这增加了实际应用的成本。

  3. 打印适配性:现阶段的输出模型仍需要额外的大量再处理、后处理。

虽然InstantMesh等一种工具用于数字资产3D打印实体化实践还不太行;

跳出实体制造的思维框架,这项技术在数字世界中可能性依旧很多:

  • 游戏开发者能够瞬间将概念草图转化为生动的3D角色;

  • 动画工作室的制作流程将被革新;

  • 社交媒体将充满可交互的3D内容;

  • 教育培训变得更加直观生动;

  • 元宇宙的内容创作门槛将大幅降低;

在数字艺术领域,创作者们可以探索全新的艺术形式,打破维度的界限。

这不仅仅是技术的进步,更是创意表达的一场平权革命。

开源的力量:AM易道最后聊两句

令人兴奋的是,InstantMesh团队已经在GitHub(https://github.com/TencentARC/InstantMesh)开源了完整的代码和预训练模型,已经获得超过3500个星星!

任何对3D内容创作感兴趣的读者都能自由地探索和改进这项技术。

项目包含了详尽的文档说明、模型权重和演示案例。

演示案例链如下,读者可以自行尝试图片转三维模型:https://huggingface.co/spaces/TencentARC/InstantMesh

最新文章
常州到山南琼结县物流公司--货运专线直达往返「-「哪个好」」2025排名一览
常州到山南琼结县物流公司--货运专线直达往返「-「哪个好」」2025排名一览常州到山南琼结县物流公司--货运专线直达往返「-「哪个好」」2025排名一览微信和电话号同步常州物流公司欢迎您==常州到山南琼结县-货运专线直达往返需要走几天公司
羞羞漫画免费观看——热门漫画实时更新,精彩内容看不停
在当今数字化的时代,漫画作为一种受欢迎的娱乐形式,吸引了无数读者的喜爱。而对于喜欢漫画的人来说,能够免费观看最新、最热门的漫画内容是一种极大的享受。今天,我将为大家介绍一款提供免费观看热门漫画的应用程序,让你随时随地都能沉
Vivo手机如何解锁Bootloader
如何解锁vivo手机的bootloader:详细步骤与注意事项在智能手机的世界里,bootloader(bl)解锁是进行定制和深度修改的第一步。对于vivo手机用户来说,解锁bootloader可以带来许多好处,比如刷入第三方rom、获取权限以及解锁更多隐藏功能。
科技早报|微信、速卖通被列入“恶名市场”名单 特斯拉指控美证监会“骚扰”
凤凰网科技讯 北京时间2月18日消息,昨夜今晨,科技圈都发生了哪些故事,以下是要闻回顾:先关注特斯拉:调查个没完 特斯拉、马斯克指控美证监会“无休止”骚扰特斯拉公司及其CEO埃隆马斯克(Elon Musk)周四指控美国证券交易委员会(SEC)为了
福利,非常全的"Python爬虫"学习资料(免费)
Python 火到不行,从数据爬取、数据分析、到 AI ,都有受用的地方,今天更新一波 Python 的爬虫学习资料,都是排行榜上的热门好书。在这里还是要推荐下我自己建的Python开发学习群:301056051,群里都是学Pyt
设备制造新篇章:设备生产ERP系统的关键作用
一、生产计划与排程方面的关键作用需求预测与计划制定在设备制造企业中,准确的需求预测是生产计划的基础。设备生产ERP系统能够整合市场需求信息、销售订单数据以及历史生产数据等多方面的资源。例如,通过分析过往设备的销售情况、市场趋
负压封闭引流术(VSD)的应用
病例分享1病例分享2那么什么是“VSD”呢?用VSD材料+半透膜+三通接管+负压吸引器进行负压吸引的技术。定义:负压封闭引流技术(VSD)是用内含有引流管的聚乙烯酒精水化海藻盐泡沫辅料来覆盖或者填充皮肤、软组织缺损的创面,再用生物半透膜
讶然:济南套花呗信用购当面支持线下真香,2024年必看!
济南当面套VISA境外卡花呗白条分付【微电:166 7513 1138】全天在线欢迎打电话,当面办理安全靠谱!一说起京东白条,脑海里第一条记忆神经就会跳出来东哥,东哥是热搜的常客,是我的偶像,一个站在食物链顶端的男人,在使用京东白条的过程中
通过 API 部署模型(全代码)
模型部署可以为您创建专属的推理服务。本文介绍了模型部署的基本概念、使用方法和配置指南,帮助您为大语言模型配置专属的模型推理服务。简单来说,是指将大模型运行在专属的计算资源上,使模型在独立的运行环境中高效、可靠地运行,并为业
香港搜狗搜索推广怎么做
在数字化时代的浪潮下,香港的商业市场日益依赖多元化的广告推广手段。在这个背景下,搜狗搜索推广逐渐成为企业品牌宣传和用户获取不可或缺的工具。作为一家专注于广告开户及代运营的公司,遵义腾浪科技有限公司为客户提供全面的广告推广服
相关文章
推荐文章
发表评论
0评