高清视频竟不是真的几张照片渲染的场景让你难辨真伪

版块：科技头条类型：普通作者：科技资讯查看：47 回复：0 获赞：0 时间：2023-08-28 03:06:41

还原度太高。

在开始今天的介绍之前，我们先来看看以下几个场景。

请注意，以上动图完全是多张照片渲染的3D场景。人类很难发现自己的缺陷。

那么我们来看看这个场景是如何实现的。

网格和点是3D场景最常见的表示方式，因为它们是显式的，非常适合基于GPU/CUDA的快速栅格化。相比之下，最新的神经辐射场(NeRF)方法是基于连续的场景表示，通常使用体光线渲染来优化多层感知器(MLP)以从新的角度合成捕捉到的场景。虽然这些方法的连续性有助于优化，但渲染所需的随机采样开销很大，并且会产生噪声。

来自蓝色海岸大学的研究人员介绍了一种新方法，它可以结合两种方法的优势:3D高斯表示具有SOAT视觉质量，训练时间也得到优化，而基于瓦片的滚雪球算法在几个数据集上实现了1080p分辨率的SOTA实时渲染。

地址:https://huggingface.co/papers/2308.04079.

研究团队设定了一个目标:实时渲染多张照片拍摄的场景，在典型真实场景中实现时间优化。此前，虽然Fridovich-Kei等人提出的方法已经实现了快速训练，但很难达到当前SOTA NeRF方法获得的视觉质量，该方法需要长达48小时的训练时间。也有研究提出了一种快速但低质量的辐射场方法，可以根据场景实现交互式渲染(每秒10-15帧)，但这种方法无法实现高分辨率的实时渲染。

接下来，我们看看这篇文章是如何实现的。

方法

研究团队的解决方案主要由三部分组成。

首先，介绍了三维高斯作为一种灵活和富有表现力的场景表示。输入类似于NeRF方法，即通过结构-运动(SfM)对摄像机进行标定，通过稀疏点云初始化3D高斯集，稀疏点云来自于SfM过程。此外，本研究仅使用SfM点作为输入就可以获得高质量的结果。需要注意的是，对于NeRF合成数据集，即使是随机初始化，这种方法也能获得高质量的结果。研究表明，三维高斯是一个很好的选择。

其次，优化3D高斯属性，即3D位置、不透明度、各向异性协方差和球谐(SH)系数。优化过程产生了一个相当紧凑，非结构化和准确的场景表示。

第三，实时渲染解决方案，本研究采用快速GPU排序算法。然而，由于3D高斯表示，各向异性拼接可以在可见性排序的情况下进行，这要归功于排序和混合——通过尽可能跟踪排序拼接的遍历，可以实现快速准确的反向传输。

高清视频竟不是真的几张照片渲染的场景让你难辨真伪