75年前,宝丽来相机拍摄出第一张即时照片,是人类第一次以逼真的二维图像快速捕捉三维世界,具有划时代的意义。今天,人工智能的研究人员正在进行相反的工作,力求在几秒钟的时间内将静止图像的集合变成数字3D场景。
事实上,在2D转3D的相关领域,Nvidia一直在尝试技术突破,致力于推出更强大的工具来完成这一过程。但即使是Nvidia这样的行业领先公司,即时渲染3D也是一项极为艰难的技术挑战。
这更凸显出InstantNeRF的来之不易。关于这一成就,谷歌科学家JonBarron在推特上表示:18个月前,训练NeRF还需要5小时;2个月前,训练NeRF最快也需要5分钟;就在近日,基于英伟达的最新技术,训练NeRF最快也需要5秒!
01InstantNeRF的技术原理
据了解,Nvidia能够取得这一成绩的主要原因是采用了一种被称作多分辨率哈希编码(MultiresolutionHashEncoding)的技术。在一篇论文《基于多分辨率哈希编码的即时神经图形基元》中,Nvidia对这一新技术做了详细说明。
Nvidia表示:“计算机图形基元基本上由有关外观的各项参数的数学函数表示。参数的数学计算结果对于视觉保真度至关重要。”言下之意是,Nvidia希望在保持速度和数学函数紧凑度的同时,还能捕获高频、局部的图形细节。
为了达到上述要求,Nvidia采用了多分辨率哈希编码技术。据Nvidia称,该技术有着自适应性和高效性两大特性。函数内部只有两个值需要进行配置,分别为参数的数量T和所需的最佳分辨率Nmax。
几年来,研究人员一直在改进这种从2D到3D的技术,旨在为渲染出的成品增加更多画面细节,并提高渲染速度。Nvidia表示,新一代InstantNeRF模型是迄今为止最快的技术之一,将渲染时间从几分钟缩短到“几乎瞬间”就能完成。
02NeRF的应用范围
IshaSalian进一步阐释说,这种方法可以应用于广泛的领域。它可用于为虚拟世界创建头像或场景,以3D形式捕获视频会议参与者及其环境,甚至重建3D数字地图的场景。
在上述领域,使用传统方法创建3D场景可能需要数小时或更长时间,具体取决于可视化的复杂性和分辨率。而NeRF使用神经网络系统,效率和准确度大幅度提升。
关于这一点,Nvidia图形研究副总裁DavidLuebke在一份声明中点出:“InstantNeRF对3D来说可能与数码相机对2D一样重要。因为在2D摄影中,JPEG压缩一直是关键的步骤,它大大提高了3D捕获和共享的速度、易用性和覆盖范围。”
“这项技术可用于训练机器人和自动驾驶汽车,通过捕捉现实世界物体的二维图像或视频片段来了解它们的大小和形状。它还可以用于建筑和娱乐业,通过快速生成真实环境的数字函数,创作者可以在此基础上进行修改和构建。”
除了NeRF之外,Nvidia的研究人员还在探索如何利用这种输入编码技术来加速多种人工智能挑战,包括强化学习、语言翻译和通用的深度学习算法。