GenZI-3D场景AI生成

来自慕尼黑工业大学的GenZI,可以零样本 3D 人物与场景交互生成

在任何一个 3D 场景中,只需简单的文字描述,GenZI 就能在指定位置创造虚拟人物与环境的互动,而这一过程不需要任何 3D 人物与场景互动的训练数据,也无需复杂的 3D 学习过程。

论文摘要:

不借助任何 3D 人物与场景互动的数据,我们能创造出 3D 人物与场景的交互吗?为此,我们提出了 GenZI,这是一个开创性的零样本方法,用来生成 3D 人物与场景的互动。GenZI 的核心在于我们从大型视觉-语言模型(VLMs)中提取的互动先验知识,这些模型已经学习并掌握了丰富的二维人物与场景组合的语义。

我们首先根据自然语言的描述和在 3D 场景中预期互动的大致位置,利用 VLMs 构想并填充多个场景视角中可能的 2D 人物互动。接着,我们采用一种稳健的迭代优化方法,来模拟并优化场景中 3D 人物模型的姿态和形态,确保其与二维互动的设想保持一致。

GenZI 的方法与传统的基于学习的方法不同,它避免了对已捕获的 3D 互动数据的依赖,使得用户可以通过简单的文本提示,灵活地控制 3D 互动的生成。广泛的实验显示,我们的零样本方法具备高度的灵活性和普适性,适用于各种类型的场景,包括室内和室外环境。

为此项目打分吧
[总分: 0 平均分: 0]

Leave a comment

Your email address will not be published. Required fields are marked *

en_USEnglish