单视角三维场景重建一直是计较机视觉鸿沟中的中枢挑战之一,尤其在捕捉高保真室外场景细节时马来西亚#文爱,何如确保结构一致性和几何精度显得尤为艰苦。
昔时的一些先进设施,如 Flash3D,天然已能通过单一深度图像终了较好的后果,但在处理复杂几何结构和细节时仍存在彰着不及(尤其是室外场景下尤为彰着),如边际拖沓、颜色溢出以及几何失真等问题。
为了科罚这一难题,西湖大学王欢西席团队,香港科技大学 Harry Yang 西席团队兼并江西理工大学,Everlyn AI, Lancaster University 和 UCF,冷漠一种名为Niagara的单视角三维重建框架。
该设施初度有用地将深度信息和名义法线信息伙同,冷漠了一种全新的几何仿射场(Geometric Affine Field, GAF)和三维自提神力机制(3D Self-Attention),终显着从单张图像中精准重建复杂室外场景,显耀改善了几何细节的捕捉和视觉果然感。
设施状貌
Niagara 框架的要道孝敬主要有以下几点:
(1)法线集成深度算计:
愚弄预窥伺的法线算计器和深度算计器同期索要图像的法线图和深度图,将两者和会进三维高斯场模子中,显耀提高了模子对图像全局的名义细节的敏锐性和对预测的三维空间举座的几何一致性。
(2)几何拘谨模块:
冷漠一种基于几何拘谨的隐式特征暗示几何仿射场(GAF),通过三个正交平面的仿射投影,伙同显式几何(如点云)与隐式特征,能更准确地状貌复杂的三维结构;3D 自提神力模块,在传统自提神力基础上进行三维空间扩张,有用捕捉全局几何特征之间的长距离依赖关系,提高模子在大视角变化下的几何一致性。
(3)修订的深度高斯解码器:
基于修订的单视角多层高斯模子,通过预测多层高斯参数引入法线图作念弱点以更好地处理讳饰和未知名义区域,自拍街拍使渲染的新视角图像更为准确、果然。
上述模块互相等合,共同终显着高精度的三维场景重建。
践诺分析
本文主要在 RealEstate10K(RE10K)数据集上进行了践诺评估:马来西亚#文爱
1. 定量分析:
Niagara 在 PSNR、SSIM 以及 LPIPS 等各项要道计算上全面优于现时首先进的设施 Flash3D,在单视角重建、插值与外推场景下均推崇出色,值得一提的是在外推法上跳动现存扫数双视角模子成为 SoTA,尤其在复杂室外场景的几何准确性和视觉传神性上推崇彰着提高。
2. 定性分析:
践诺甩手娇傲,Niagara 模子能有用科罚 Flash3D 中出现的几何拖沓和颜色溢出问题,收复出更丰富的细节、更透露的鸿沟以及更果然的材质纹理。通过摒除结构上的失真和颜色溢出伪影,模子生成的室内和室外场景视觉后果彰着更佳。
3. 消融参议:
通过冉冉移除法线信息、几何仿射场、3D 自提神力模块等进行消融参议,明确考证了每个组件对最终重建后果的要道性孝敬,进一步突显了 Niagara 各模块贪图的有用性。
此外,作家还在 KITTI 数据集作念相当的 zero-shot 的践诺来考证。践诺甩手标明 Niagara 雷同具有更好的跨域泛化性能,也再次考证了 Niagara 在室外场景重建具有更好的性能。
回来与量度
本文冷漠的 Niagara 框架初度有用科罚了单视角下复杂室外场景三维重建中的要道挑战,显耀提高了细节捕捉的精度与几何结构的一致性。这种伙同深度与法线的框架贪图、翻新的几何仿射场和三维自提神力机制,为后续单视角重建任务提供了新的参议想路。
将来参议看法包括:探索 Niagara 在更多复杂动态场景和实时重建任务中的应用;进一步优化模子结构,裁汰计较本钱,提高模子服从;引入更多几何或语义信息,继续提高重建的准确性与鲁棒性。
综上,Niagara 不仅在设施论上赢得了遑急进展,也为本色应用提供了更高性能的三维重建科罚决策,具有凡俗的应用远景。
论文标题:Niagara: Normal-Integrated Geometric Affine Field for Scene Reconstruction from a Single View
论文聚会:https://arxiv.org/abs/2503.12553
模子聚会:https://huggingface.co/Xianzu/Niagara
花样聚会:https://github.com/xianzuwu/Niagara
网站聚会:https://ai-kunkun.github.io/Niagara_page/
一键三连「点赞」「转发」「防卫心」
宽饶在指摘区留住你的想法!
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 花样主页聚会,以及联系神气哦
咱们会(尽量)实时修起你
� � 点亮星标 � �
科技前沿进展逐日见马来西亚#文爱