量化学习机器人：从Bengio演讲发散开来探讨逻辑推理与机器学习

小君 2022-11-05 12:58:10 344

量化学习机器人：从Bengio演讲发散开来探讨逻辑推理与机器学习4）双向长短期记忆网络（Bidirectional Long Short-Term Memory Network，BiLSTM），这是目前应用最广泛的序列数据学习的神经网络。为了处理图像输入，BiLSTM、DNC 和 Transformer 网络也使用与 ABLs 相同结构的 CNN 作为它们的输入层。所有的神经网络都是用一个从训练数据中随机抽取的验证集来调整的。3）Transformer 网络，这是一个经过关注增强的深层神经网络，已经被证实在许多自然语言处理任务中是有效的。本文实验中所使用的对比方法包括：1）ABL，机器学习模型由两层 CNN、一个两层多层感知器（MLP）和一个 softmax 层组成，逻辑诱因将 50 个位操作的计算规则集作为关系特征，决策模型为两层 MLP。实验中尝试了两种不同的设置：使用所有训练数据的 ABL-all 和仅使用长度为 5-8 的训练方程的 ABL-s

原始数据集 D={}可以转换为新的数据集 D’={}，从中可以学习一个决策模型来处理子抽样带来的噪声问题。

2.1.4 实验分析

作者构造了两个符号的图像集来建立如图 6 所示的方程。数字二进制加法（Digital Binary Additive，DBA）方程是用基准手写字符数据集中的图像创建的，而随机符号二进制加法（Random Symbol Binary Additive，RBA）方程则是从 Omniglot 数据集中随机选择字符集构建的，并与 DBA 任务中的方程具有相同结构。为了评价实验中各种对比方法的感知泛化能力，用于训练方程和测试方程的生成图像是不相交的。每一个方程都作为数字和运算符的原始图像序列输入。训练和测试数据包含长度为 5 到 26 的方程。对于每个长度，它包含 300 个随机生成的方程，总共 6600 个训练样本。

量化学习机器人：从Bengio演讲发散开来探讨逻辑推理与机器学习(1)

图 6. 手写方程解译任务的数据实例

本文实验中所使用的对比方法包括：

1）ABL，机器学习模型由两层 CNN、一个两层多层感知器（MLP）和一个 softmax 层组成，逻辑诱因将 50 个位操作的计算规则集作为关系特征，决策模型为两层 MLP。实验中尝试了两种不同的设置：使用所有训练数据的 ABL-all 和仅使用长度为 5-8 的训练方程的 ABL-short。

2）可微神经计算机（Differentiable Neural Computer，DNC），这是一个与记忆有关的深层神经网络。

3）Transformer 网络，这是一个经过关注增强的深层神经网络，已经被证实在许多自然语言处理任务中是有效的。

4）双向长短期记忆网络（Bidirectional Long Short-Term Memory Network，BiLSTM），这是目前应用最广泛的序列数据学习的神经网络。为了处理图像输入，BiLSTM、DNC 和 Transformer 网络也使用与 ABLs 相同结构的 CNN 作为它们的输入层。所有的神经网络都是用一个从训练数据中随机抽取的验证集来调整的。

除上述对比方法外，作者还进行了人类实验（human）。40 名志愿者被要求对从相同数据集中取样的方程图像进行分类。在参加测试之前，向各位志愿者提供了有关位操作的领域知识作为提示，但是具体的计算规则并不可知。作者没有使用与机器学习实验完全相同的设置，而是给了志愿者一个简化版本，其中只有 5 个正方程和 5 个负方程，长度在 5-14 之间。

量化学习机器人：从Bengio演讲发散开来探讨逻辑推理与机器学习(2)

图 7. DBA（左）和 RBA（右）任务的实验结果

图 7 中的实验结果表明，在这两个任务中，基于 ABL 的方法明显优于其它进行比较的方法，并且 ABL 正确地学习了定义未知操作的符号规则。所有这些方法在 DBA 任务上的性能都比 RBA 好，这是因为 DBA 任务中的符号图像更容易区分。ABL-all 和 ABL-short 的性能没有显著差异。随着测试方程长度的增加，实验中用于比较的其它方法的性能迅速退化到随机猜测的准确度水平，而基于 ABL 的方法对未知数据的推导预测效果更好。一个有趣的结果是，人在这两个任务上的表现非常接近而且都比 ABL 差。根据志愿者的说法，他们并不需要区分不同的符号，在这种任务中人们非常容易出错，而机器在检查逻辑理论一致性方面是很擅长的。因此，应该更好的利用机器学习系统在逻辑推理方面的优势。

2.1.5 文章小结

作为心理学中一种重要的认知模型，诱因已经引起人工智能领域的关注。现有的工作大多数是在符号域中将诱因性（Abduction）与归纳（Induction）结合起来。也有一些工作使用诱因性学习改进机器学习的效果，这些方法一般需要将逻辑背景知识调整为函数约束，或者在学习和推理过程中使用特别设计的算子来支持梯度下降，从而将逻辑推理简化为不同的连续优化问题。

另一方面，ABL 利用逻辑推理和试错搜索（Trial-and-Error Search），在不使用梯度的情况下将机器学习与原始的一阶逻辑连接起来。ABL 继承了一阶逻辑推理的全部能力，例如，它有可能放弃不在背景知识中的新的一阶逻辑理论。因此，可以直接向本文介绍的 ABL 框架中引入许多现有的符号人工智能技术。

最后，ABL 框架具有通用性和灵活性。例如，感知机器学习模型可以是一个预先训练好的模型，而不必须是从头开始学习的。机器学习的任务可以是半监督的，而不必须是完全没有标签的。逻辑推理可以包括二阶逻辑子句，从而可能能够实现递归从句和谓词自动发明。作者希望其对诱因性学习的探索能够推动构建统一的学习和推理框架。

2.2 SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver [6]

量化学习机器人：从Bengio演讲发散开来探讨逻辑推理与机器学习(3)

本文是 ICML 2019 中获得最佳论文提名的一篇文章。由于上一篇文章《Bridging Machine Learning and Logical Reasoning by Abductive Learning》在 2018 年已经在 arXiv 上进行了发布，所以本文有参考引用并对比分析了与上一篇文章的不同。上一篇文章所介绍的方法是从现有的一组已知关系中创建一个模块（逻辑诱因模块），以便深层网络能够学习到这些关系的参数。因此，该方法需要植入变量之间关系的先验信息。本文所提出的方法则是端到端学习这些关系及其相关参数，即，本文引入了一个可微（平滑）最大可满足性（maximum satisfiability，MAXSAT）求解器，并将其直接集成到深度学习系统的回路中，而不是作为一个单独的分离模块所考虑。该求解器基于快速坐标下降法来解决与 MAXSAT 问题相关的半定程序（semidefinite program，SDP）。具体见第一篇文章中的「图 3. ABL 完整框架」。ABL 框架包括了两个独立的模块「Machine Learning」和「Logical Abduction」。逻辑诱因性分析是一个与机器学习 ML 完全分离的单独模块。而在这篇文章中，作者考虑，不将逻辑推理和 ML/DL 完全分离开，而是将逻辑推理作为深度学习系统完整回路中的一个部分，实现端到端的学习。

2.2.1 方法介绍

MAXSAT 问题是著名的可满足性（satisfiability，SAT）问题的优化模拟，其目标是使满足的子句数最大化。作者提出了一个可微的平滑的近似 MAXSAT 解算器，可以集成到目前的深度学习网络体系结构中。该解算器使用快速坐标下降法来求解 MAXSAT 的 SDP 松弛。考虑一个包含 n 个变量和 m 子句的 MAXSAT 实例。令 v 表示问题变量的二进制赋值，v_i 是变量 i 的真值，定义 s_i，其中 s_ij 表述子句 j 中 v_i 的符号。MAXSAT 问题定义为：

量化学习机器人：从Bengio演讲发散开来探讨逻辑推理与机器学习(4)

（1）

为了形成（1）的半定松弛约束，作者首先将离散变量 v_i 松弛为相关的连续变量且满足 ||v_i||=1，相对于某个「真值方向」v_T 满足 ||v_T||=1。此外，定义一个对应于 v_T 的系数 s_T。MAXSAT 的 SDP 松弛为：

量化学习机器人：从Bengio演讲发散开来探讨逻辑推理与机器学习(5)

网站首页

返回栏目

量化学习机器人：从Bengio演讲发散开来 探讨逻辑推理与机器学习

猜您喜欢：

相关文章

量化学习机器人：从Bengio演讲发散开来探讨逻辑推理与机器学习