一文了解可通过文本提示编辑 3D 场景的 AI 模型 DreamEditor
撰文:Ekrem Çetinkaya
来源:MarkTechpost
图片来源:由无界 AI工具生成
近年来,3D 计算机视觉领域充斥着 NeRF 技术。作为该领域的一项突破,NeRF 能够重建并合成场景的新颖视图。它可以从多视图图像集合中捕获底层几何和外观信息并对其进行建模。
通过神经网络,NeRF 提供了一种超越传统的数据驱动方法。NeRF 中的神经网络学会了表示场景几何、照明和视线相关的外观之间的复杂关系,可以实现高度详细和真实的场景重建。NeRF 的关键优势在于它们能够从场景中的任何所需视角生成逼真的图像,甚至原始图像集未捕捉到的区域也是如此。
NeRF 的成功为计算机图形学、虚拟现实和增强现实提供了新的可能性,使人们能够创造出与现实世界场景非常相似的沉浸式和互动式虚拟环境。因此,人们对进一步推进 NeRF 领域非常感兴趣。
但 NeRF 的一些缺点也限制了它们在现实世界场景中的应用。例如,由于高维神经网络特征中形状和纹理信息的隐性编码,编辑神经场是一项重大挑战。虽然有些方法试图用探索性的编辑技术来解决这个问题,但它们往往需要大量的用户输入,并且很难实现精确且高质量的结果。
编辑 NeRF 的能力可以为现实世界的应用打开可能性。然而,到目前为止,所有的尝试都不足以解决这些问题。但现在,该领域中出现了一个新的游戏参与者——DreamEditor。
DreamEditor 允许编辑 3D NeRF。资料来源:https://arxiv.org/pdf/2306.13455.pdf
DreamEditor 是一个用户友好的框架,允许使用文本提示对神经场进行直观便捷的修改。通过使用基于网格的神经场表示场景,并采用分步编辑框架,DreamEditor 可以实现多种的编辑效果,包括重新贴图、对象替换和对象插入。
网格表示法通过将 2D 编辑蒙版转换为 3D 编辑区域来促进精确的本地编辑,同时也将几何体和纹理分离开来,以防止过度变形。分步式框架将预训练的扩散模型与 SDS(score distillation sampling)相结合,允许根据简单的文本提示进行高效、准确的编辑。
DreamEditor 遵循三个关键阶段,以促进直观和精确的文本引导的 3D 场景编辑。在初始阶段,原始神经辐射场被转化为基于网格的神经场。这种网格表示法可以实现空间选择性编辑。在转换之后,它将采用定制的文本 - 图像(T2I)模型(该模型是在特定场景上训练出来的),以捕捉文本提示中的关键词和场景的视觉内容之间的语义关系。最后,使用 T2I 扩散模式将编辑好的修改应用于神经场内的目标对象。
DreamEditor 可以准确地、逐步地编辑 3D 场景,同时保持高水平的保真度和真实感。这种循序渐进的方法,从基于网格的表示到精确的定位和通过扩散模式的控制编辑,使得 DreamEditor 能够实现高度逼真的编辑效果,同时最大限度地减少在不相关区域的不必要的修改。