高新区数据策略咨询方案:开放域的BERT并不鲁棒
高新区数据策略咨询方案:开放域的BERT并不鲁棒不太关注特征,因为深度学习模型(尤其是预训练语言模型)可以自动抽取语义特征。这样就可以将更多精力放在建模文本、设计预训练语言任务上,来让模型具备更完备的语义知识。传统的机器学习,需要人工去构建特征,之后在使用HMM/CRF等机器学习算法对文本进行相应的分类。而特征信息,需要人为构建或相关专业的专家提供,例如单词大小写、前后缀等信息。特征构建得越好,模型的能力也就越强。信息抽取是自动从海量非结构化的自然语言文本中抽取出实体、实体属性、实体关系等事实信息,并形成结构化数据输出,从而有效地支撑下游任务。命名实体识别及关系抽取是信息抽取的两大主要子任务。2. 实体识别的主要框架
导读:本次分享的题目是低资源信息抽取鲁棒性问题发现与提升。信息抽取是构建知识图谱的基础技术,也是面向应用落地的关键技术。在应用落地的过程中,讨论其鲁棒性问题是很有意义的。今天的分享主要会围绕以下几点展开。
- 信息抽取任务介绍
- 信息抽取鲁棒性问题
- NER任务鲁棒性问题解决
- 关系抽取任务鲁棒性问题方案讨论
- 其他通用信息抽取任务鲁棒性方案讨论
01
信息抽取任务介绍
1. 信息抽取概念介绍
信息抽取是自动从海量非结构化的自然语言文本中抽取出实体、实体属性、实体关系等事实信息,并形成结构化数据输出,从而有效地支撑下游任务。
命名实体识别及关系抽取是信息抽取的两大主要子任务。
- 命名实体识别任务目的是从非结构化文本中抽取出人名、地名、机构名等实体。
- 关系抽取则是在命名实体的基础上,进一步抽取实体之间的内在关系。
2. 实体识别的主要框架
- 传统机器学习
传统的机器学习,需要人工去构建特征,之后在使用HMM/CRF等机器学习算法对文本进行相应的分类。而特征信息,需要人为构建或相关专业的专家提供,例如单词大小写、前后缀等信息。特征构建得越好,模型的能力也就越强。
- 深度学习模型
不太关注特征,因为深度学习模型(尤其是预训练语言模型)可以自动抽取语义特征。这样就可以将更多精力放在建模文本、设计预训练语言任务上,来让模型具备更完备的语义知识。
3. 一个隐患
虽然可以自动抽取语义特征,但是深度学习模型往往存在一个问题,就是通过深度学习模型抽取到的特征可能不是我们想要的特征——深度学习模型容易走捷径。模型往往会基于最容易抽取的特征去完成任务,并且往往在测试集上表现很好,但是在实际中表现往往不好,也就是存在鲁棒性问题。
那么在信息抽取任务中,深度学习模型是否也有同样的问题呢?这就是我们第二个主题。
--
02
信息抽取任务的鲁棒性问题探究
1. 实体覆盖率评测指标
为了测试信息抽取任务是否具有鲁棒性问题,我们定义了一个评测指标Entity Coverage Ratio(ECR) 也可以叫它实体覆盖率(ρ):
- ρ=1时:目标实体训练集和测试集中均出现过,并且训练集和测试集中标签一致。
- ρ ∈ (0 1)时: 目标实体在训练集和测试集中均出现过,但具有多种标签,例如实体“华盛顿”,其标签既可能为“Location”,也有可能为“Person”。
- ρ=0,且C≠0时:目标实体在测试集中的标签为k,其在训练集中虽出现过,但标签并不为k。例子和第二种情况类似(C为实体在训练集出现次数)。
- ρ=0,且C=0时:目标实体在测试集出现,但在训练集中未出现过,也就是OOV问题(C为实体在训练集出现次数)。
下图,是ρ的计算公式具体说明,以及在不同的数据集上,不同的ρ和C的值时,具体的评测表现。
2. 深度学习模型存在的“走捷径”问题
通过对实体覆盖率评测指标进行分析可以看出,如果在训练集和测试集中,实体均出现且标签一致,其准确率是非常高的。但是,一旦出现实体在训练集和测试集标签不一致的情况,或者出现OOV问题,模型的准确率会有大幅度下降。
由此我们可以得出结论,在信息抽取任务中,深度学习模型也存在“走捷径”问题。也就是说,模型往往只是记住了实体的名字,通过名字去预测实体的类别,而并非我们所希望的,通过上下文信息,对语义进行推断,进而预测实体类别。
我们如何全方位地去检测模型,尤其是目前表现很好的预训练语言模型Bert的鲁棒性问题呢?
3. Bert is Robust?
为了检测模型的鲁棒性,我们对单词进行基于语言模型的启发式替换,生成一些对抗样本,来验证模型准确率的变化。但是通过这些启发式替换,可以产生的符合真实情况的替换效率很低,并不能生成大量有效替换。
在这种情况下得出的Bert 是具有鲁棒性的结论,可信度高么?
4. 统一多语言鲁棒性评估工具
所以我们提出了一种新的统一多语言鲁棒性评估工具——TextFlint。
该工具具有以下特点:
- 高可用性。20个通用任务,60个特定任务,均可进行评估。
- 可接受性。产生的变换是人类可接受的,已经通过合理性及句法正确性评测。
- 可分析性。对模型鲁棒性可进行分析。
--
03
NER任务的鲁棒性提升方法
1. Bert is not robust
基于语言学进行了合理性、符合语法的替换后,再次进行评测,模型准确率下降是非常严重的。所以我们得出结论,Bert是不鲁棒的。
2. 学术领域与开放领域的不同之处
在学术界,目前的benchmark 所存在的问题:具有很强的规律性,高提及率,上下文的多样性。这个与开放领域有很大差别,而开放领域这些特性往往并不存在。
所以为了测试实际情况如何,定义了一些扰动:
- NP:对同一个实体进行相同替换。
- MP:对同一个实体进行不同替换。
- CR/MR:减少上下文的复杂性/减少实体变化。
基于这些扰动,提供一些新的文本变换,进行测试,我们发现对于NP/MP的扰动,其准确率下降非常严重,而CR/MR扰动,准确率下降则没那么严重。说明模型更多的是记住实体,而非关注到上下文信息。
3. 改进方法
引入互信息概念。
它可以看成是一个随机变量中包含的关于另一个随机变量的信息量。
其中,I(X;Z)是X与Z 的互信息。I(X;Z|Y)是X与Z,但是不包含Y的互信息。具体计算可以参考下图。
对一个输入文本x(文本中包括上下文信息/拼写噪音信息等),我们希望通过模型得到的向量z中,可以包括更多的上下文信息,以及更少的噪音信息。我们用y表示上下文信息,目标是使Z和Y的互信息量,也就是I(Z Y)尽可能大,噪音信息 也就是I(X;Z|Y)尽可能小。
但是,各种信息都是融合在一起的,我们如何衡量或者区分上下文信息和噪音信息呢?
对于文本X1 = context entity1 而对X1的有效替换文本X2,也有X2 = context entity2,两个文本包含了相同的上下文信息和不同的文本信息。那么对于我们的目标I(Z;Y),就可以转换为最大化I(Z;X2),从而进行计算。
有了新的方法。我们构建新的数据集,人工提高OOV比例,对与使用了新方法构建的模型,相较之前,鲁棒性可以得到有效提升。
--
04
关系抽取任务的鲁棒性提升方法
1. 远程监督的关系抽取任务目前的问题
远程监督的关系抽取基于的假设:如果一对实体之间具有某种关系,那么所有包含这对实体的句子都将表达这个关系的含义。但是实际情况中其实包含了很多噪音,例如,我们已有的关系中,定义Steve Jobs 与Apple 的关系是Founder,但是遇到的文本是 Steve Jobs left Apple on September 17 1985。这时,就会得到错误的结论。
2. 远程监督的去噪各种方法
- 去噪方式1:基于假设。当一对实体之间存在某个关系,那么包含这对实体的句子中至少有一个能够表达这个关系。抽取置信度最高的实体进行预测。虽然可以去除噪音,但是会降低数据量。
- 去噪方式2:Attention。基于注意力机制的去噪方式。
- 去噪方式3:Reinforcement Learning。基于强化学习的动态负例识别。
但是之前的方式都是基于正例训练的方式,模型难以区分哪些是正例/哪些是噪音。
3. 训练方式转换:正例训练 -> 负例训练
将正例学习训练方式转换为负例训练方式。正例训练的含义是说,例如,描述一张小狗的照片,正例训练的方法是说,只有在描述为 It is a dog 时,才会算作正确的标签,而负例训练中,图片的描述为 It is not a cat/It is not a bird/It is not an elephant 都算作正确标签,仅仅 It is not a dog 才算作错误标签。
使用negative training 可以区分噪音数据,也不会大大降低样本数据量。
- 构建负例训练框架
- 通过负例训练方式,构建一个基本分类器。区分噪音数据及训练数据。
- 使用分类器从训练数据中过滤噪音数据及重新打标签。
- 迭代训练分类器,提升性能。
通过这种负例训练 迭代训练,我们可以给难分样本以更好的置信度,同时也可以大幅增加噪音数据和样本数据的区分能力。
--
05
其他通用性鲁棒性提升方法
1. 对抗训练方式
使用对抗训练,其效率较低。因其需要迭代来产生对抗样本,能否不产生对抗样本,同时也能够达到对抗训练的能力?
2. Flooding方法
借助CV领域的flooding方法。在正常情况下,随着训练的迭代,其损失会越来越小,而flooding方法,会让loss先像往常一样梯度下降到“flooding level”(一个超参,是训练损失的底线,下图中的b)附近, 但当训练损失低于这个值时,就进行梯度上升。这个方法实现简单,且在NLP领域也已经被证明有效。
参数b通过找到模型即将过拟合时的loss来确认。通过Flooding方法,可以简单且快速地达到提升模型鲁棒性的目标。
今天的分享就到这里,谢谢大家。
阅读更多技术干货文章、下载讲师PPT,请关注微信公众号“DataFunTalk”。
分享嘉宾:桂韬 复旦大学 副研究员
编辑整理:赵泽明 零氪科技
出品平台:DataFunTalk
分享嘉宾:
活动推荐:
关于我们:
DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100 线下和100 线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700 ,百万 阅读,14万 精准粉丝。
欢迎转载分享评论,转载请私信。