深度学习markai(周志华发表首届IJCLR开场Keynote)
深度学习markai(周志华发表首届IJCLR开场Keynote)IJCLR 旨在将从事学习和推理各个方面的研究人员和从业者聚集在一起,探讨未来发展和挑战,促进不同方法之间的协作和交叉融合:ILP 大会一直是基于逻辑学习方法研究的首要论坛,最初该会议专注于逻辑程序归纳,多年来已将其研究范围扩展到其他形式的关系学习和概率方法;NeSy 是展示和讨论与神经符号计算相关的系列研讨会,例如神经和基于逻辑的学习和推理方法的组合;StarAI 研讨会系列主要是研究逻辑与概率论组合,重点是统计推理和学习关系以及一阶逻辑表示;AAIP 研讨会系列侧重于从不完整的规范中学习任意编程语言的可执行程序。IJCLR 大会主页:http://lr2020.iit.demokritos.gr/index.html人工智能领域的大会可以说是不胜枚举,但还没有专门关注学习与推理结合的重量级会议。现在终于有这样一个会议,可以满足研究者这方面的需求——国际学习与推理联合大会(Interna
机器之心报道
机器之心编辑部
首届国际学习与推理联合大会(IJCLR)已于 10 月 25-27 日在线上举行,该会议代表了国际推理与学习相融合方面的重大趋势,多位国内外领域学者发表演讲,其中,周志华教授作了大会的开场主旨报告,分享了题为《利用无标签数据:从「纯学习」到「学习 推理」》的主旨演讲。
学习和推理一直是人工智能中的核心研究内容,诸多学者都认为,两者的结合将具有解决当代人工智能方法缺点的潜力,包括深度学习的黑箱性质等,然而这方面的工作极为困难,需要将人工智能中逻辑推理、知识表示、机器学习等多个领域打通。
人工智能领域的大会可以说是不胜枚举,但还没有专门关注学习与推理结合的重量级会议。现在终于有这样一个会议,可以满足研究者这方面的需求——国际学习与推理联合大会(International Joint Conference on Learning & Reasoning,IJCLR)。
首届国际学习与推理联合大会已于 10 月 25-27 日在线上举行。该会议代表了国际推理与学习相融合方面的重大趋势,可以说是 2021 年国际人工智能界的一件大事。
该会议由四个有十年、甚至三十年历史的会议联合形成:第 30 届国际归纳逻辑程序设计大会 (ILP20-21)、第 15 届国际神经符号学习与推理研讨会(NeSy20-21)、第 10 届国际统计关系人工智能研讨会(StarAI 20-21)、第 10 届国际归纳程序方法及应用研讨会(AAIP 20-21)。这意味着国际人工智能领域关于「学习 推理」 的几个研究社区终于整合到了一起,携手探索「学习 推理」 的未来。
IJCLR 大会主页:http://lr2020.iit.demokritos.gr/index.html
IJCLR 旨在将从事学习和推理各个方面的研究人员和从业者聚集在一起,探讨未来发展和挑战,促进不同方法之间的协作和交叉融合:ILP 大会一直是基于逻辑学习方法研究的首要论坛,最初该会议专注于逻辑程序归纳,多年来已将其研究范围扩展到其他形式的关系学习和概率方法;NeSy 是展示和讨论与神经符号计算相关的系列研讨会,例如神经和基于逻辑的学习和推理方法的组合;StarAI 研讨会系列主要是研究逻辑与概率论组合,重点是统计推理和学习关系以及一阶逻辑表示;AAIP 研讨会系列侧重于从不完整的规范中学习任意编程语言的可执行程序。
本次大会邀请了多位领域大咖发表演讲。其中,我国南京大学计算机系主任兼人工智能学院院长周志华教授作了大会的开场主旨报告,分享了题为《利用无标签数据:从 「纯学习」 到「学习 推理」》的主旨演讲。
在会议最后的 Panel 环节,周志华教授还与流形学习与贝叶斯程序学习创始人、MIT 脑与认知科学系教授 Josh Tenenbaum, Robust.AI 创始人、认知科学专家 Gary Marcus,缺省推理创始人、瑞典林雪平大学知识表示与推理教授 Hector Geffner,英国皇家工程院交互可解释人工智能研究主席、帝国理工教授 Francesca Toni,曾担任国际人工智能联合会主席和《人工智能研究杂志》主编的 IBM Fellow Francesca Rossi 等五位大咖共同讨论了《学习和推理的未来挑战》。这意味着我国学者在机器学习与逻辑推理融合方面已经达到了国际同行公认的引领性和前瞻性,能与国际顶尖专家平等对话讨论整个领域的未来。
在本次大会的开场主旨报告演讲中,周志华教授先简要介绍了机器学习中利用无标签数据的重要性,以及过去利用无标签数据主要依赖的「纯学习」解决方案,然后重点介绍了他最近提出的「反绎学习」。这是一种全新的「学习 推理」方案,与以往的「学习 推理」方案重点依赖学习、获得的结果牺牲了推理能力,或重点依赖推理、获得的结果牺牲了学习能力不同,反绎学习提供了一种以平衡和互利方式利用机器学习和逻辑推理的「学习 推理」解决方案。通过逻辑推理对领域知识进行利用,从而可以显著缓解对有标签数据的需求;而通过机器学习可以利用数据对领域知识进行精化和改善,甚至可能发现新知识。
以下为机器之心根据周志华教授的现场演讲内容进行的整理。
周志华教授演讲内容概要
自训练方法(Self-training)
机器学习通常依赖大量的有标签数据,而现实中很容易获得大量无标签数据,如何利用无标签数据辅助少量有标签数据进行学习,是一个重大挑战问题。很容易想到的办法有自训练 / 自学习,用有标签数据训练一个模型,然后用模型来对无标签数据提供伪标签,然后基于伪标签数据来更新模型。但这样做不太“靠谱”,因为当初始有标签数据很少时,训练出的初始模型性能差,伪标签中会有大量错误,导致学习性能越来越差。
这样的做法在很久以前就有所改进,例如对伪标签数据进行数据编辑,对数据净化之后再用于学习。编辑过程可以采用一些统计假设检验方法。然而总体上这样的方法仍然是启发式的,人们希望有一些有理论支撑的方法。
主动学习(Active learning)
主动学习(Active learning)是机器学习的一个分支,其主要思路是,从大量无标签样本中挑选少量样本给人类专家进行标注,从而让人类专家的力气用在 「最有价值」的地方。其目标是通过尽量少地选择样本给人类专家标注,能够大幅度提升学习性能。
典型的两大类代表性方法是有选择最 informative 的示例进行标注,和选择最有代表性的示例进行标注。新的发展是同时兼顾 informative 和代表性。
然而,主动学习假设了「人在环中」(human-in-the-loop),如果没有人类专家的帮助,则必须考虑其他的办法来利用无标签数据,例如半监督学习。
半监督学习
半监督学习具有代表性的方法包括生成式方法、半监督 SVM、基于图的方法、基于分歧的方法。
基于分歧的半监督学习是该领域的主流范型之一 通过训练多个学习器,利用它们之间的分歧来对无标签数据进行利用。协同训练(Co-training)是基于分歧方法的代表,它最初是针对 「多视图」 数据提出,多视图数据是指一个样本同时由多个属性集合描述,每个属性集合称为一个「视图」。协同训练首先基于两个视图分别训练一个分类器,然后每个分类器挑选一些可信度高的无标签样本,标注后提供给另一个分类器作为有标签数据进行使用。由于这些分类器从不同角度训练出来,可以形成一种互补,从而提高分类精度;就如同从不同角度可以更好地理解事物一样。
这个简单的算法被广泛应用,在应用中有令人惊讶的优越性能。研究者们努力理解它为什么有效、在什么时候有效。机器学习领域奠基人、CMU 的 Tom Mitchell 教授等人证明,如果数据具有两个满足条件独立性的视图、且每个视图都包含足够产生最优学习器的信息,则协同训练能够通过利用无标签数据任意提升弱学习器的性能。
然而这个理论条件在现实中并不成立,因为关联到同一个样本的两个视图通常并不满足条件独立性。此后有许多著名学者,如计算学习理论大会主席 Balcan 等人做了重要工作,最后周志华教授课题组在理论上最终给出了协同训练能够奏效的充分条件和充分必要条件。其理论揭示出只要两个学习器有较大差异,就能通过协同训练利用无标签数据提升性能。该理论说明,「两个视图」并非必须,只要想办法让学习器之间具有较大差异即可。
该理论结果导致了一系列 「单视图方法」,例如 tri-training 方法等,最近在深度学习领域也有基于 tri-training 的半监督深度神经网络模型。
然而,半监督学习仍然需要一批有标签数据,例如在半监督 SVM 或基于分歧的方法中训练初始分类器。如果既没有 「人在环中」 的人类专家帮助、也没有充分的有标签数据,还有没有办法利用无标签数据呢?周志华课题组提出,如果有「领域知识」,那么可以通过机器学习和逻辑推理的结合来做。
机器学习和逻辑推理
逻辑推理容易利用规则知识,机器学习容易利用数据事实,从人类决策来看,通常需要结合知识和事实以解决问题。研究一个能够融合机器学习和逻辑推理并使其协同工作的统一框架,被视为人工智能界的圣杯挑战。
在人工智能研究的历史中,机器学习和逻辑推理两者基本是独立发展起来的,1956~1990 年是逻辑推理 知识工程作为人工智能主流的发展时期,但此时关心机器学习的人很少;1990 年之后是机器学习作为人工智能主流的发展时期,但此时逻辑推理已经相对冷门。
目前流行的逻辑推理技术通常基于一阶逻辑表示,而流行的机器学习一般基于特征表示。这两者几乎是基于完全不同的表示方式,难以相互转化,使得两者的结合极为困难。
为了融合机器学习和逻辑推理,历史上已经有很多研究者在做努力。他们通常采用扩展其中一种技术来适应另一种技术的方法。例如,概率逻辑程序(PLP)尝试扩展一阶逻辑以引入概率推理。而统计关系学习(SRL)基于领域知识构建、初始化概率模型。
前者「重推理、轻学习」,开头引进了一点机器学习的成分,然后几乎完全依赖逻辑推理解决问题;后者「重学习、轻推理」,开头引进了一点逻辑推理的成分,然后几乎完全依赖机器学习解决问题。总是「一头重、一头轻」,意味着总有一端的能力没有完全发挥出来。
这就面临一个问题,能不能有一个新的机制帮助我们把这两大类技术的优势都充分地发挥起来、相对均衡地「互利式地」结合逻辑推理和机器学习呢?反绎学习的提出就是为了解决这个问题。
反绎学习(abductive learning)
反绎学习,是一种将机器学习和逻辑推理联系起来的新框架。在理解反绎学习之前,我们先来理解这个反绎的含义。
在人类对现实问题的分析抽象上,通常有两种典型方法论:演绎,从一个普遍的规则开始,到一个有保证的特定结论,这就是一个从一般到特殊的过程;归纳,从一些特定事实开始,然后我们从特定的事实中总结出一般的规律,这就是从特殊到一般。定理证明可以说是演绎的典型代表,而机器学习是归纳的典型代表。反绎则与两者有所区别,其标准定义是首先从一个不完备的观察出发,然后希望得到一个关于某一个我们特别关心的集合的最可能的解释。
周志华说他提出的反绎学习可大致理解为将演绎过程反过来嵌入到归纳过程中去,所以他提出 「反绎」 这个中文名字,而不是直接翻译为 「诱导」或「溯因」。
现在返回来看传统的监督学习。监督学习首先需要有很多示例以及标签,将它们结合起来进行监督学习,训练出一个分类器。
反绎学习的设置不太一样,反绎学习中假设有一个知识库,以及一个初始分类器。
在这个学习中,我们先把所有的数据提供给这个初始分类器,初始分类器猜测一个结果,得到结果之后就会把它转化成一个知识推理系统能够接受的符号表示。
那么接下来这一步,我们就要根据知识库里面的知识来发现有没有什么东西是不一致的?如果有不一致,我们能不能找到某一个东西,一旦修改之后它就能变成一致?或者修改之后使得不一致程度大幅度降低?这就需要我们去找最小的不一致。如下图所示:假设我们现在找到,只要把这个非 C 改成 C,那么你得到的事实就和知识都一致了。我们就把它改过来,这就是红色的这个部分,这就是一个反绎的结果。而反绎出来的这个 C,我们现在会回到原来的标签中,把标签改掉,接下来我们就用修改过的标签和原来的数据一起来训练一个新分类器。这个分类器可以代替掉旧的分类器。这个过程可以不断地迭代下去。这个过程一直到分类器不发生变化,或者我们得到的伪事实和知识库完全一致,这时候就停止了。
从上图可以看到,左半部在进行机器学习,而右半部在进行逻辑推理。机器学习和逻辑推理这两者互相依赖,循环处理往复,直到分类器与知识库一致(此时相当于分类器已经 「学到」了知识库中的内容)或者分类器连续数轮不再提升;如果允许对知识库进行修改,还可以使得知识库中的内容可以被精化或更新(这是利用数据经验来改善知识的过程)。
反绎学习不依赖于真实标签,但如果存在有标签数据,它也可以充分利用,例如可以生成更可靠的伪标签等,从这个意义上说,反绎学习可以被视为一种更具一般性的弱监督学习,其监督信息不仅限于标签,还可以是领域知识。
初始分类器可以是预训练好的深度模型或者迁移学习模型,甚至可以很简单,例如基于聚类或最近邻分类的预处理;其基本作用是让整个过程 「启动」 起来。在领域知识丰富可靠时,通过知识的利用可以使得整个过程并不依赖于初始分类器的强度。
知识库目前仍需要人工总结人类经验并写成一阶逻辑规则。今后可能通过学习来对知识库进行改善和提炼。对数据事实与符号知识的联合优化不再能依靠常规的梯度方法,使用了周教授团队自己开发的不依赖梯度计算的零阶优化方法。
周教授还简要介绍了反绎学习应用于司法案件辅助量刑的初步情况。
最后,如果将反绎学习示意图旋转一下,上半部是逻辑推理对应了认知过程,下半部是机器学习对应了感知过程,则反绎学习也为探索认知和感知交互提供了一个框架。
想要了解更多关于「学习 推理」内容的你,不妨深入了解一下这个大会,相信你能从中收获满满。