快捷搜索:  汽车  科技

量化学习机器人:从Bengio演讲发散开来 探讨逻辑推理与机器学习

量化学习机器人:从Bengio演讲发散开来 探讨逻辑推理与机器学习与深度学习方法不同,预训练方法将段落、问题和每个候选答案视为一个连接句子,使用预先训练的上下文嵌入模型对句子进行编码以计算其得分。给出四个候选答案,将每个候选答案与段落和问题配对,然后构造四个连接句子,并选择模型得分最高的一个作为答案。这一类方法包括 BERT、RoBERTa 等。【预训练方法】作者采用了两种基于规则的方法,通过简单的词汇匹配给出答案。单词匹配 [10] 是基于规则的基线方法,它选择与给定段落问题对的单字格重叠程度最高的候选答案。滑动窗口 [11] 通过从给定段落问题对中的 n 个单词中提取 TF-IDF 类型特征来计算每个候选答案的匹配分数。【深度学习方法】深度学习方法通过文本匹配技术计算给定段落、问题和每个候选答案之间的相似度,从而找到阅读理解的答案。例如,可以使用 LSTM 编码和双线性注意力函数计算段落问题对和候选答案之间的相似性。门控注意力阅读器采用多跳结构,具有

图 2. LogiQA 中每种逻辑推理的例子(红色对勾表示正确答案)

3.1.2 验证的深度学习方法介绍

作者评估了典型的应用于阅读理解任务的各类模型的性能,包括基于规则的方法、深度学习方法以及基于预先训练的上下文嵌入的方法。此外,还对人类直接进行阅读理解的完成情况进行了评估,并报告了最佳性能。

【基于规则的方法】

作者采用了两种基于规则的方法,通过简单的词汇匹配给出答案。单词匹配 [10] 是基于规则的基线方法,它选择与给定段落问题对的单字格重叠程度最高的候选答案。滑动窗口 [11] 通过从给定段落问题对中的 n 个单词中提取 TF-IDF 类型特征来计算每个候选答案的匹配分数。

【深度学习方法】

深度学习方法通过文本匹配技术计算给定段落、问题和每个候选答案之间的相似度,从而找到阅读理解的答案。例如,可以使用 LSTM 编码和双线性注意力函数计算段落问题对和候选答案之间的相似性。门控注意力阅读器采用多跳结构,具有更细粒度的机制来匹配候选答案与段落问题对。协同匹配网络通过对每段文本进行编码并计算每对文本之间的匹配分数,进一步提升段落 - 问题对和段落 - 候选答案对的匹配效果。

【预训练方法】

与深度学习方法不同,预训练方法将段落、问题和每个候选答案视为一个连接句子,使用预先训练的上下文嵌入模型对句子进行编码以计算其得分。给出四个候选答案,将每个候选答案与段落和问题配对,然后构造四个连接句子,并选择模型得分最高的一个作为答案。这一类方法包括 BERT、RoBERTa 等。

【人工方法】

本文研究团队雇佣了三名研究生进行人工方法的评估,并给出了从测试集中随机选取的 500 个样本的平均分数。在计算最优性能时,如果其中一个学生给出了正确的答案,就认为人工方法针对这个问题能够给出正确答案。

3.1.3 实验分析

随机分割数据集,将其中的 80% 用于训练,10% 用于开发,其余 10% 用于测试。表 2 给出了节 3.1.2 中所讨论的模型的结果。人工方法的测试结果达到了 86.00%,最高的结果达到 95.00%,这说明对于人类测试者而言,LogiQA 的难度并不大。相比之下,其它所有算法模型的性能都比人类差得多,这表明这些方法在逻辑推理阅读理解方面相对较弱。此外,中文数据集的结果与英文数据集的结果处于同一水平。

两种基于规则的方法的准确率分别为 28.37% 和 22.51%,后者甚至低于随机猜测的基线水平。这说明单靠词汇匹配很难解决 LogiQA 中的这些问题。深度学习方法的准确率在 30% 左右,效果要优于随机猜测的方法,但远远落后于人类的表现。一个可能的原因是这些方法都是经过端到端的训练,结果发现基于注意力的文本匹配很难学习潜在的逻辑推理规则。预先训练的模型具有一定的常识性和逻辑能力,与没有上下文嵌入的方法相比,这种模型具有更好的性能。然而,RoBERTa 的最佳结果是 35.31%,仍然远远低于人类的表现。这表明预先训练的模型中的知识对于逻辑推理来说是相当薄弱的。

量化学习机器人:从Bengio演讲发散开来 探讨逻辑推理与机器学习(1)

表 2. LogiQA 的主要结果(准确率 %)

3.1.4 文章小结

本文提出了一个大型逻辑推理阅读理解数据库 LogiQA。除了测试机器阅读的推理能力外,LogiQA 还可以作为重新审视在深度学习 NLP 时代长期追求的逻辑人工智能研究的基准水平。本文的实验结果表明,最先进的机器阅读器(各类算法、模型)仍然远远落后于人类的阅读能力。本文所提出的数据集可以作为后续测试阅读理解能力的测试基础。

4. 小结

本文在回顾什么是「逻辑」的基础上,讨论了构建有逻辑的(Logical)和可推理的(Reasoning)系统问题。其中,重点关注了两篇逻辑推理与深度神经网络相结合的文章。这两篇文章的题目很类似,所做的工作也具有一定的延续性和对比性。第一篇文章是将诱因性学习作为一个模块引入到经典的深度学习网络架构中,第二篇文章则是引入了一个可微(平滑)最大可满足性(MAXSAT)求解器,并将其直接集成到深度学习系统的回路中,而不是作为一个单独的模块所考虑。

最后一篇文章重点是结合 NLP 中的阅读理解任务构建了一个需要通过逻辑推理才能得到答案的 LogiQA 数据库。在这篇文章中作者只是使用了经典的基于规则、深度学习和预训练的方法进行实验,且效果都不好,都远低于人类直接进行阅读理解的水平,经典深度学习方法的效果甚至低于预训练的方法。但是作者并未对这种差距进行深入分析,尚无法判断是否在 NLP 这一专门领域的逻辑推理任务中预训练一定优于深度学习方法。

由我们分析的几篇文章可以看出,很显然,在强逻辑任务中机器还无法和人类相比拟。如何使深度学习 / 机器学习的方法或模型具备强大的推理能力,似乎仍然是一个悬而未决的问题。

参考文献

[1] King R.D. Rowland J. Oliver S.G. Young M. Aubrey W. Byrne E. Liakata M. Markham M. Pir P. Soldatova L.N. and Sparkes A. 2009. The Automation of Science. Science 324(5923) pp.85–89.

[2] Raza M. and Gulwani S. 2017 February. Automated data extraction using predictive program synthesis. In Thirty-First AAAI Conference on Artificial Intelligence.

[3] https://stripe.com/radar/guide#rules-and-manual-reviews

[4] https://medium.com/abacus-ai/an-overview-of-logic-in-ai-and-machine-learning-2f41ccb2a335

[5] Bridging Machine Learning and Logical Reasoning by Abductive Learning 2019 NeurIPS 2019 https://papers.nips.cc/paper/8548-bridging-machine-learning-and-logical-reasoning-by-abductive-learning.pdf

[6] SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver ICML 2019 http://proceedings.mlr.press/v97/wang19e/wang19e.pdf

[7] Liu J Cui L Liu H et al. LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning[C]// Twenty-Ninth International Joint Conference on Artificial Intelligence and Seventeenth Pacific Rim International Conference on Artificial Intelligence {IJCAI-PRICAI-20. 2020.

[8] A. C. Kakas R. A. Kowalski and F. Toni. Abductive logic programming. Journal of Logic Computation 2(6):719–770 1992.

[9] Patrick J. Hurley. A concise introduction to logic. Nelson Education 2014.

[10] Wen-tau Yih Ming-Wei Chang C. Meek and A. Pastusiak. Question answering using enhanced lexical semantic models. In ACL 2013.

[11] M. Richardson C.J.C. Burges and E. Renshaw. MCTest: A challenge dataset for the opendomain machine comprehension of text. In EMNLP 2013.

分析师介绍:

本文作者为仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。

猜您喜欢: