哑变量如何影响数据集特征的(相异数据的等距高斯过程潜在变量模型)
哑变量如何影响数据集特征的(相异数据的等距高斯过程潜在变量模型)其中 dij 是两个数据点 xi 与 xj 的差异(或距离),Z = {zi}Ni=1 代表了在 Rq 中的低维表示。距离保持。设计用于寻找与观测数据相似的成对距离低维表示的方法通常可以被视为多维标度(MDS)的变体。通常,这是通过直接最小化压力来实现的,压力定义为:1.介绍降维是指将数据压缩到较低的维度表示,同时保留底层信号并抑制噪声。当代非线性方法大多依赖于统一假设,即观测数据分布在嵌入观测空间的低维流形附近。除了这个统一假设之外,方法通常因关注三个关键属性之一而不同(表 1)。拓扑保持。拓扑空间是一组对连续变形保持连通性不变的点。对于有限的数据,连通性通常被解释为一种聚类结构,这样拓扑保持方法就不会形成新的聚类或分解现有的聚类。出于可视化目的,统一流形近似投影(UMAP)似乎是该领域的最新技术。
引用
Jorgensen M. & Hauberg S. (2021). Isometric Gaussian Process Latent Variable Model for Dissimilarity Data. In Proceedings of the 38th International Conference on Machine Learning (Vol. 139). International Machine Learning Society (IMLS). Proceedings of Machine Learning Research Vol. 139
摘要
我们提出了一个概率模型,其中潜在变量考虑了模型数据的距离和拓扑结构。该模型利用生成流形的黎曼几何赋予潜在空间一个定义明确的随机距离测度,该测度被局部建模为 Nakagami 分布。通过审查过程,这些随机距离被寻求尽可能类似于沿着邻域图的观察距离。该模型是通过基于成对距离观测的变分推理来推断的。我们演示了新模型如何在学习流形中编码不变量。
1.介绍
降维是指将数据压缩到较低的维度表示,同时保留底层信号并抑制噪声。当代非线性方法大多依赖于统一假设,即观测数据分布在嵌入观测空间的低维流形附近。除了这个统一假设之外,方法通常因关注三个关键属性之一而不同(表 1)。
拓扑保持。拓扑空间是一组对连续变形保持连通性不变的点。对于有限的数据,连通性通常被解释为一种聚类结构,这样拓扑保持方法就不会形成新的聚类或分解现有的聚类。出于可视化目的,统一流形近似投影(UMAP)似乎是该领域的最新技术。
距离保持。设计用于寻找与观测数据相似的成对距离低维表示的方法通常可以被视为多维标度(MDS)的变体。通常,这是通过直接最小化压力来实现的,压力定义为:
其中 dij 是两个数据点 xi 与 xj 的差异(或距离),Z = {zi}Ni=1 代表了在 Rq 中的低维表示。
概率模型。上述方法的一个共同特点是,它们在从高维到低维的映射中学习特征,而不是由低维到高维学习。这使得这些方法对于可视化非常有用。生成模型允许我们在高维空间中制作新样本。与我们特别相关的是高斯过程潜变量模型(GP-LVM),GP-LVM 学习了一个随机映射 f: Rq→RD 以及潜在表示 z,这是通过在高斯过程之前将映射边缘化来实现的。生成手段允许这些方法扩展到可视化之外,例如缺失数据插补、数据扩充和半监督任务。
在本文中,我们使用高斯过程来学习一个黎曼流形,在这个过程中,流形上的距离与黎曼假设所指的局部距离相匹配。假设观测数据位于具有无限内射半径的 RD 的黎曼 q-子流形上,那么我们的方法可以学习到与原始流形等距的 q 维表示。类似的表述只适用于原始流形为平面情况下嵌入到 Rq 的传统流形学习方法。我们通过生存分析中的通用技术,结合基于高斯过程弧长理论的似然模型,学习全局和局部结构。最后,我们展示了高斯过程方法边缘化潜在的表示,并产生一个完全贝叶斯非参数模型。
本文处理的数据是实例之间的成对距离。这自然给该方法增添了几何色彩,因为距离属于几何范畴。请注意,这并不排除表格数据——我们只需要点之间的可计算距离。此外,许多现代数据集以成对距离的形式出现:基于进化树上距离的蛋白质、用于位置识别的简单全球定位系统数据、来自心理学的感知数据等。
2.背景材料
2.1 高斯过程
高斯过程(GP)是函数上的分布,f: Rq→R 满足对域 Rq 中任何有限的点集ziNi=1,输出 f = (f(z1) ... f(zN))具有联合高斯分布。该高斯分布完全由平均函数 μ:Rq→R 以及一个协方差函数 k: Rq×Rq→R 决定,如此:
其中 μ=(μ(z1) ... μ(zN)),K 是一个 N×N 矩阵,第(i j)个元素为 k(zi zj)。
2.2 黎曼几何
流形是一种拓扑空间,其上的每个点都有一个与欧氏空间同胚的邻域;也就是说,流形是局部线性空间。这种流形可以嵌入到比相关欧几里得空间维数更高维的空间中;流形本身具有与局部欧氏空间相同的维数。因此,q 维流形 M 可以看作是嵌入在 RD 中的曲面。为了沿着流形进行定量陈述,我们要求流形是黎曼的。
定义 1. 一个黎曼流形 M 是一个带有内积的平滑 q-流形:
,
内积在 x 中是平滑的,其中 TxM 代表在 x 上评估的 M 的切线空间。
曲线长可以从黎曼内积中很容易地定义出。如果 c:[0 1]→M 是一条光滑曲线,它的长由
给出。在一个嵌入的流形 f(M)上,变成:
然后,对于 x y∈M,M 上的度量可以定义为:
2.3 Nakagami分布
我们考虑被高斯过程浸入的随机流形,这种流形上的曲线(7)的长度也必然是随机的。幸运的是,由于该流形是高斯场,因此曲线长度与 Nakagami 分布非常接近。Nakagami 有密度函数:
参数 m ≥ 1/2 且 Ω> 0;Γ 代表伽马函数。这些参数可以用方程来解释:
3.模型与变分推理
先决条件确定后,我们建立了一个局部距离保持和全局拓扑保持的高斯过程潜在变量模型。注意:我们用 Z 表示数据集 Χ= {xi}Ni=1,xi∈RD 的潜在表示,用 f: z→x 表示生成映射。
3.1距离拓扑保持
我们建立了一个高斯过程潜在变量模型(GP-LVM),为距离和拓扑保持而明确设计。普通的 GP-LVM 采用高斯似然,其中当以高斯过程 f 为条件时,我们假设观测值为 Χ。相反,我们考虑观测值之间成对距离的可能性。
邻域图。为了对局部性建模,我们将模型限制在嵌入观测数据 Χ 的图上,顶点 V=Χ 且边 E= {eij}的无向图。相当于,G=(V E)可以用其带有条目的邻接矩阵 AG 来表示:
流形距离。为了得到成对距离的似然度,我们首先回顾潜在空间中的 zi 和 zj 之间的线性插值具有曲线长度:
其中 J 代表 f 的雅可比行列式,是我们的生成流形近似。
由于流形距离 dM 是最短连接曲线的长度,因此根据定义,sij 是一个 dM 上的上限。然而,由于流形与欧氏空间是局部同胚的,那么我们可以期望 sij 是到邻近点距离的一个很好的近似,即
审查。为了将这种行为编码为似然度,我们在目标函数中引入了审查。这种方法通常应用于生存分析中的缺失数据,即已知某个事件的发生晚于某个时间点。我们可以把审查看作是对数据不平等的建模。对于具有密度函数 gθ,服从分布函数 Gθ 的数据 ti,审查似然函数定义为:
其中 θ 是分布 G 的参数,T 这是实验结束的某个“时间点”。CarreiraPerpian 指出,大多数邻域嵌入方法都有两个损失函数:一个吸引近点,一个散射远点。审查为类似的术语提供了似然度,它可以被视为最大方差展开思想的概率版本。
局部距离似然度。从前面我们知道,如果流形 f(M)是高斯场,那么距离 sij 近似为 Nakagami 分布。因此,我们把似然度表示为:
其中 Gθ 是带有参数 θ={m Ω}的 Nakagami 函数分布,得到的对数似然在图 2 中的等式 16 中给出。
3.2边缘化表示
我们有一个损失函数(16),它将 eij 与参数 θij={mij Ωij}相匹配。我们现在寻求首先拟合这些参数,并将其边缘化,以获得完整的贝叶斯方法。首先,我们假设条件为 θ,我们得到独立的观测值,即
从方程 3.1 可知,我们通过引入一个潜在的高斯场 J 和一个潜在的表示 z 来推断 Nakagami 的这些参数。这允许我们定义曲线长度(12),我们假设它也是 Nakagami 分布的。实际上,我们从等式 12 中抽取 m 个 sij 样本,并估计它们的二阶矩的均值和方差,这通过公式 10 给出了 mij 和 Ωij 的估计值。
本质上,我们将流形 J 上的距离与观察到的距离 ε 相匹配。我们忽略了该流形
此外,我们可以在等式 19 中提出一个先验并将其边缘化。我们通过变量推断一切,并在边缘化变量上选择一个变量分布。我们用下列公式近似后验 p(θ J z u|ε):
其中 u 是一个诱导变量,且有:
其中 μz 是大小为 N 的向量,Az 是 N×N 对角矩阵,q(u)=N(μu S)是一个全 M 维高斯,这使我们将对数似然度(16)与证据下界(ELBO)绑定在一起:
总之,我们有一个潜在的代表 Z 和一个被浸入为 GPJ 的黎曼流形。这意味着在任意两点 zi 与 zj 之间,我们可以计算出近似 Nakagami 的值 sij。有了审查,如果 eij<ϵ,我们就可以把 sij 与观察值 eij 相匹配;否则我们就把 sij 所有值都放在[ϵ ∞)。通过最大化等式 26,用变分推理对其进行优化。
3.3不变性与几何约束
为什么值得用无坐标的方法学习流形?通过引入等价类,不变量很容易通过相异对进行编码,即如果 xi 与 xj 在同一等价类中,那么 d(xi xj)=0。这种等价类的流行选择是旋转、平移和缩放。人们希望对模型施加的许多约束可以表述为几何约束,这也适用于基于 GPLVM 的模型。几何约束也可以用高斯过程编码,高斯过程直接输出到黎曼流形上。
3.4. ϵ的拓扑数据分析及其影响
模型自然会受到超参数的影响。我们认为,可以使用拓扑数据分析以几何基础的方式选择它,通过构建一个 Rips 图可以找到 ϵ,从而 ϵ-NN 图可以捕获正确的数据拓扑。要理解 ϵ 从更广的角度来看意味着什么,我们可以研究边界用例。如果 ϵ=∞ 我们会匹配所有观测到的距离,这类似于 MDS。如果边缘化的 J 的协方差函数是常数,潜空间也被服从欧几里得,因此 Iso-GPLVM 在这种情况下可以被视为概率 MDS。
4.实验
我们首先在一个经典的玩具数据集 COIL20 和图像数据集 MNIST 上进行实验。我们将所提出的模型称为等距高斯过程潜变量模型。为了进行比较,我们还基于不同的数据评估其他模型。在所有情况下,我们用 IsoMap 初始化 Iso-GPLVM,因为众所周知,基于 GP 的方法对初始化很敏感。
4.1 Swiss roll
Tenenbaum 等人引入了“Swiss roll”来强调非线性流形学习的困难 点云位于嵌入在 R3 中的二维流形上,可以被认为是一张卷在自身周围的纸(见图 3A)。我们通过 MDS、t-SNE、IsoMap 和 Iso-GPLVM 四种方法发现了二维潜在嵌入。从图 3 中,我们观察到线性 MDS 无法捕捉高度非线性的流形。t-SNE 捕捉到了一些局部结构,但全局状况并不理想。由于数据集是为 Isomap 的“geodesic”方法构建的,因此它既能捕捉全局结构,又能捕捉局部结构。
4.2 COIL20
COIL20 由 20 个物体的灰度图像组成,这些图像是从 72 个不同的角度拍摄的,横跨一个完整的旋转(见图 4 的一些例子)。这意味着总共有 1440 幅图像——我们使用的版本大小为 128×128 像素,因此原始数据位于 R16384。
首先,我们只关注一个对象——旋转的橡皮鸭——来突出 geodesic 行为。图 4 显示了潜空间中学习流形上的二维嵌入和 geodesic。我们清楚地从旋转的鸭子上观察到所期望的的环形结构。除此之外,geodesic 显示了潜空间的黎曼几何:它们沿着数据流形移动,避开没有观察到数据的空间。背景色是测度
,它提供了潜空间的黎曼几何视图。IsoMap、t-SNE、UMAP 等也能推断出循环嵌入,但 Iso-GPLVM 是唯一能推断潜空间的几何学的模型。
当同时考虑所有 20 个对象时,分离不同对象的全局元素是推断拓扑结构的关键任务。图 5 中可以看到 IsoMap 和 IsoGPLVM 的嵌入。由于 IsoMap 隐含了一个连通流形的假设,因此它很难清晰地分离对象。Iso-GPLVM 找到了全局拓扑结构,但在任何情况下都没有找到局部结构。
4.3 MNIST
指标。我们在来自 MNIST 的 5000 张图像上评估我们的模型,我们首先希望强调不变量如何用相异数据编码。我们考虑将我们的模型拟合到三种不同距离度量下的数据。我们考虑经典的欧几里得距离度量:
此外,我们考虑在图像旋转下不变的度量:
其中 Rθ 对一个图像旋转 θ 度。我们注意到总是有 dROT(xi xj) ≤ d(xi xj)。最后
我们介绍一个字典指标:
其在审查阶段强制携带不同标签的图像相互排斥。当离散变量可用时,这是一种基于离散变量对拓扑或聚类进行编码的简便方法。
结果。图 6(A-C)显示了这三个指标的潜在嵌入。面板 A、D 和 E 的潜在嵌入基于欧几里得度量。我们观察到 IsoMap (D)和 Iso-GPLVM (A)在形状上看起来相似,这并不奇怪,因为我们用 IsoMap 初始化,但 IsoGPLVM 的数字分离更清晰。总的来说,从聚类的角度来看,t-SNE 在视觉上表现更好;但是(A)中簇间距离会大于连接它们的直线。在聚类方面,字典方法比其他度量方法更为突出。这是预料之中的,因为度量使用标签信息,但是清楚地说明了特定领域的度量是如何从弱信息或部分信息发展而来的。除了图中间的一个区域外,大多数类都被很好地分开了。潜在空间的黎曼几何意味着 geodesic (最短路径)可以在我们的模型中计算。图 6F 显示了字典度量下的 geodesic 示例,它们高度非线性的外观强调了学习流形的曲率。
5.讨论
我们引入了一个从相异数据进行非线性降维的模型,它是第一个基于高斯过程的该类模型。该方法的非线性既源于高斯过程,也源于似然性的审查。它统一了来自高斯过程、黎曼几何和邻域图嵌入的思想,与传统的嵌入到 Rq 中的流形学习方法不同,我们通过学习的度量嵌入到一个 q 维的黎曼流形中。这允许我们学习与真实潜在流形等距的潜在表示。
我们的实验突出表明,Iso-GPLVM 可以学习数据的几何形状,并且通过学习一个流形来进行高斯过程回归,几何约束更容易编码。与高斯过程相关的不确定性量化贯穿始终,并进一步强调了不确定性、几何和拓扑之间的联系。据我们所知,我们的模型是同类模型中的第一个,局部来说它可以通过相关的黎曼测度来评估流形近似的质量。
致谢
本文由南京大学软件学院 2021 级硕士研究生杨灵权翻译转述,博士生肖媛审核。