斯坦福最新算法（斯坦福联合普林斯顿提出通过学习联合嵌入实现文本到3D形状的生成）

小君 2023-07-06 01:33:50 209

斯坦福最新算法（斯坦福联合普林斯顿提出通过学习联合嵌入实现文本到3D形状的生成）为了做到这一点，我们从近期关于关联学习的工作中收集灵感，在相似描述和形状实例之间建立了隐式的跨模态连接，并将其与每种模态中加强相似实例之间联系的度量学习方案相结合（参见图1-b）。我们的方法仅利用文本描述和3D形状之间的实例级对应来聚类相似的描述，并归纳出相似3D形状的基于属性的聚类。因此，我们不需要昂贵的细粒度类别或属性注释。在本文中，我们首先提出了一种直接从3D形状实例的自然语言描述中学习联合文本和形状表示空间的方法，然后给出了从文本到形状的生成框架。与文本到图像合成中的相关研究不同，我们不依赖于细粒度的类别级标签或大型数据集上的预训练。此外，我们以端到端的方式对文本和形状编码组件进行联合训练，将数据中的相似点在一种模式（文本到文本或图形到图形）和两种模式（文本到图形）之间进行关联。图1：通过利用配对自然语言描述和彩色3D形状的新数据集（a），我们的方法通过关联和度量学习对学习进行了扩

斯坦福最新算法（斯坦福联合普林斯顿提出通过学习联合嵌入实现文本到3D形状的生成）(1)

原文来源：arXiv、stanford

作者：Kevin Chen、Christopher B. Choy、Manolis Savva、Angel X. Chang、Thomas Funkhouser、Silvio Savarese

「雷克世界」编译：嗯~是阿童木呀、KABUDA

最近，我们提出了一种用于从自然语言中生成彩色3D形状的方法。为了实现这一点，首先，我们需要学习自由文本描述和彩色3D形状的联合嵌入（joint embeddings）。我们的模型通过关联和度量学习方法对学习进行了结合并扩展，以学习隐式的跨模态连接（cross-modal connections），并产生了一个联合表示，用于捕捉语言和3D形状的物理属性（如颜色和形状）之间的多对多关系。为了对我们的方法进行评估，我们收集了ShapeNet数据集中，有关物理3D对象的自然语言描述的大型数据集。通过这种已学习的联合嵌入，我们展示了文本到形状的检索（text-to-shape retrieval），其性能表现要优于基线方法。使用我们的带有一个全新的条件性Wasserstein GAN框架的嵌入，我们从文本中生成了彩色3D形状。可以说，我们的方法是首次将自然语言文本与真实的3D对象连接起来，而这些3D对象在颜色、纹理和形状细节方面表现出丰富的变化。

图1：通过利用配对自然语言描述和彩色3D形状的新数据集（a），我们的方法通过关联和度量学习对学习进行了扩展，以联合学习文本和3D形状嵌入，以聚类相似的形状和描述，建立隐式语义连接（虚线）（b）。我们将学习到的嵌入应用于两个任务：文本到形状检索（c1），其中，从数据集中检索出与描述相匹配的3D形状，以及文本到形状生成（c2），这一具有挑战性的新任务，其中，从文本生成全新的形状。

为了实现这个目标，我们需要一个能够理解自然语言和3D形状的系统。将语言与形状连接起来的一种方法是对文本和形状使用联合嵌入空间。虽然以往在文本到图像的嵌入和图像到形状的嵌入方面已经有了相关的探索探究，但是据我们所知，还没有关于文本到3D形状嵌入方面的研究。此外，以往用于学习文本到图像表示的方法依赖于细粒度、类别级的类（category-level class）或属性标签。这些注释不仅价格昂贵，而且定义还不明确：我们是否应该根据颜色、材料或风格对对象进行分类？理想情况下，我们希望直接从自然语言描述中学习文本和3D形状的联合嵌入，而不依赖于细粒度类别或属性注释。然而，将自然语言与3D形状连接起来是具有一定的挑战性的，因为在文本和3D形状之间不存在简单的一对一映射（例如，”round table”和“circular table”都可以用来描述相似的真实对象）。给定一个可以有很多种方式来对其进行描述的形状，并且给定一个自然语言描述，且存在许多可能的形状能够与该描述相匹配。

斯坦福最新算法（斯坦福联合普林斯顿提出通过学习联合嵌入实现文本到3D形状的生成）(2)

图2：我们提出的3D体素文本数据集。左：程序化地生成具有关联性生成文本描述的原语数据集。右图：带有自然语言描述的ShapeNet 3D CAD模型的体素化。

在本文中，我们首先提出了一种直接从3D形状实例的自然语言描述中学习联合文本和形状表示空间的方法，然后给出了从文本到形状的生成框架。与文本到图像合成中的相关研究不同，我们不依赖于细粒度的类别级标签或大型数据集上的预训练。此外，我们以端到端的方式对文本和形状编码组件进行联合训练，将数据中的相似点在一种模式（文本到文本或图形到图形）和两种模式（文本到图形）之间进行关联。

为了做到这一点，我们从近期关于关联学习的工作中收集灵感，在相似描述和形状实例之间建立了隐式的跨模态连接，并将其与每种模态中加强相似实例之间联系的度量学习方案相结合（参见图1-b）。我们的方法仅利用文本描述和3D形状之间的实例级对应来聚类相似的描述，并归纳出相似3D形状的基于属性的聚类。因此，我们不需要昂贵的细粒度类别或属性注释。

斯坦福最新算法（斯坦福联合普林斯顿提出通过学习联合嵌入实现文本到3D形状的生成）(3)

图3：我们的联合表征学习方法的概述。

我们将我们的方法应用于文本到形状的检索和文本到形状的生成（参见图1-c）。检索任务使我们能够根据以往的工作基线来评估我们的联合已学习文本到形状嵌入的质量。文本到形状的生成任务是我们提出的一个具有挑战性的任务。我们专注于彩色图形的生成，因为大多数对形状的描述都涉及到颜色或材料属性。为了完成这一任务，我们将我们的联合嵌入模型与新的条件Wasserstein GAN框架相结合，这样一来提供了比条件GAN更好的输出质量和多样性。

为了进行真实且富有挑战性的评估，我们收集了ShapeNet数据集中15000张椅子和桌子图形的75000张自然语言描述。为了便于控制评估，我们还引入了一个程序生成的带有合成文本字幕的彩色原语（球体、金字塔、方框等）数据集。我们在这些数据集上的实验结果表明，我们的模型在检索和生成任务方面的表现都优于基线。总之，我们的贡献有以下几个方面：

•我们为跨模态关联（文本和三维图形）提出了一个端到端实例级关联学习框架。

•我们证实，我们的文本和三维形状的联合嵌入可用于本文到形状的检索，且优于基线方法。

•我们将文本的任务引入到彩色图形的生成中，并使用我们学习的联合嵌入和全新的条件Wasserstein GAN来解决这一问题。

•我们使用自然语言描述创建了两个新的3D形状颜色体素化数据集和相应的文本：（1）用自然语言描述的ShapeNet对象，（2）以及程序化生成具有合成文本描述的几何原语。

斯坦福最新算法（斯坦福联合普林斯顿提出通过学习联合嵌入实现文本到3D形状的生成）(4)

图4：文字到形状的检索。每行显示了我们的已学习嵌入中文本的五个最近邻居，它们在类别、颜色和形状上相匹配。

我们提出了一种用于学习文本和3D形状的联合嵌入的方法，该方法仅使用3D形状的实例级自然语言描述进行端到端的训练。我们证实了所学的嵌入技术能够在文本和形状模态之间进行检索，这一点优于原有的工作方法。然后，我们将嵌入与条件Wasserstein GAN公式相结合，用于文本到形状成的新任务。这是一个具有挑战性的问题，我们的方法只是迈出了第一步。为了提高生成图像的质量，我们可以使用更强的先验来对真实世界的颜色分布或物理对象中常见的双边对称性进行建模。我们希望我们的工作能够促进更多的研究，将自然语言同真实的3D对象联系起来，从而展现出更丰富的色彩、纹理以及形状等细节的变化。

数据集

斯坦福最新算法（斯坦福联合普林斯顿提出通过学习联合嵌入实现文本到3D形状的生成）(5)