还原度太高。
在开始今天的介绍之前,我们先来看看以下几个场景。


请注意,以上动图完全是多张照片渲染的3D场景。人类很难发现自己的缺陷。
那么我们来看看这个场景是如何实现的。
网格和点是3D场景最常见的表示方式,因为它们是显式的,非常适合基于GPU/CUDA的快速栅格化。相比之下,最新的神经辐射场(NeRF)方法是基于连续的场景表示,通常使用体光线渲染来优化多层感知器(MLP)以从新的角度合成捕捉到的场景。虽然这些方法的连续性有助于优化,但渲染所需的随机采样开销很大,并且会产生噪声。
来自蓝色海岸大学的研究人员介绍了一种新方法,它可以结合两种方法的优势:3D高斯表示具有SOAT视觉质量,训练时间也得到优化,而基于瓦片的滚雪球算法在几个数据集上实现了1080p分辨率的SOTA实时渲染。

地址:https://huggingface.co/papers/2308.04079.

研究团队设定了一个目标:实时渲染多张照片拍摄的场景,在典型真实场景中实现时间优化。此前,虽然Fridovich-Kei等人提出的方法已经实现了快速训练,但很难达到当前SOTA NeRF方法获得的视觉质量,该方法需要长达48小时的训练时间。也有研究提出了一种快速但低质量的辐射场方法,可以根据场景实现交互式渲染(每秒10-15帧),但这种方法无法实现高分辨率的实时渲染。
接下来,我们看看这篇文章是如何实现的。
方法
研究团队的解决方案主要由三部分组成。
首先,介绍了三维高斯作为一种灵活和富有表现力的场景表示。输入类似于NeRF方法,即通过结构-运动(SfM)对摄像机进行标定,通过稀疏点云初始化3D高斯集,稀疏点云来自于SfM过程。此外,本研究仅使用SfM点作为输入就可以获得高质量的结果。需要注意的是,对于NeRF合成数据集,即使是随机初始化,这种方法也能获得高质量的结果。研究表明,三维高斯是一个很好的选择。
其次,优化3D高斯属性,即3D位置、不透明度、各向异性协方差和球谐(SH)系数。优化过程产生了一个相当紧凑,非结构化和准确的场景表示。
第三,实时渲染解决方案,本研究采用快速GPU排序算法。然而,由于3D高斯表示,各向异性拼接可以在可见性排序的情况下进行,这要归功于排序和混合——通过尽可能跟踪排序拼接的遍历,可以实现快速准确的反向传输。

综上所述,本文做出了以下贡献:
引入各向异性3D高斯作为辐射场的高质量和非结构化表示。
3D高斯属性的优化方法与自适应密度控制交织在一起,为捕获的场景创建高质量的表示。
针对GPU的快速差分渲染方法,该方法具有可视性感知功能,允许各向异性拼接和快速反向传播,实现高质量的新视图合成。

实验
下图显示了本文中的方法与以前的方法之间的比较。


场景从上到下分别是来自Mip-NeRF360数据集的自行车、花园、柜台、房间。来自深度混合数据集的游戏室(更多对比请阅读原文)。图中已经标注出了不同方法产生的明显差异,比如自行车的辐条,远离花园的房屋的玻璃,铁筐的杆子,玩具熊。
可以看出,本文的方法在细节上比以往的方法更有优势。

此外,从图6中可以看出,即使迭代7K次(5分钟),本文的方法也能很好地捕捉到列车的细节。迭代30K次(35分钟)时,背景伪影明显减少。对于花园场景来说,差别几乎可以忽略不计,7K迭代(8分钟)已经是非常高的质量了。

研究团队采用了Mip-NeRF360建议的方法,将数据集分为训练和测试两部分,每8张照片测试一次,进行一致且有意义的比较,从而生成误差指标,并使用了文献中最常用的标准PSNR、L-PIPS和SSIM指标。详细数据见表1。

表1显示了与以前的工作相比,通过三个数据集计算的新方法的定量评价。标有“”的结果直接采用原论文,其他结果为实验组实验结果。

合成神经营养因子的PSNR评分。可以看出,这种方法的评分在大多数情况下是不错的,甚至达到了最好。
烧蚀实验
研究小组将不同的贡献和算法选择分开,并建立了一组实验来衡量它们的效果。该算法的以下方面被测试:SfM初始化、致密化策略、各向异性协方差、允许无限数量的面片具有梯度以及球谐函数的使用。下表总结了每个选项的量化效果。

我们来看一个更直观的效果。



更多详情请阅读原文。

剧终
授权请联系本微信官方账号。
投稿或寻求报道:content@jiqizhixin.com。
微信扫码
QQ扫码
您的IP:10.1.228.218,2025-12-28 07:31:26,Processed in 0.26046 second(s).