ai知识笔记分享(AI分享低成本)
ai知识笔记分享(AI分享低成本)大多数现代人工智能模型的训练高度依赖于人工数据标注。然而,这些非结构化数据的规模十分庞大,并且在不断积累。对于金融、医学等知识壁垒较高的领域,我们需要雇佣受过专业训练的专家标注数据。因此,通过人力标注这些数据的成本是难以承受的。目前,数据挖掘研究社区针对结构化数据(网络、图表)提出了许多挖掘知识的方法。然而,针对以文本为代表的非结构化数据(例如,新闻报道、商业报表、论文、医疗记录)的知识挖掘还有待进一步探索。01研究背景在大数据时代,自动地将不断产生的海量数据组织成知识是一个重要的课题。
导读:大数据时代,我们每天都沉浸在海量的自然语言数据中,比如新闻、社交网络、学术论文等等。如何根据用户需求高效地、自动地消化这些海量文本数据、将其结构化,并最终能被人理解、让机器可以运算,自然而然地成为了文本挖掘和自然语言处理领域里的最大难题。
加州大学圣地亚哥分校计算机系和数据科学学院助理教授商静波在第 24 期青源 Talk 上发表了题为「如何通过极弱监督来完成海量文本结构化」的报告,介绍了在人工标注成本最低的情况下,从海量文本中挖掘出结构化知识的相关工作。
商静波2014年本科毕业于上海交通大学ACM班(期间带领交大ACM队先后赢得6站亚洲区冠军,并于2013年斩获全球总决赛亚军),随后赴伊利诺伊大学厄巴纳香槟分校(UIUC)师从韩家炜教授进行博士研究。2019年获得博士学位后,加入加州大学圣地亚哥分校计算机系和数据科学学院,担任助理教授至今。他的研究主要致力于将训练AI模型所需要的人工标注量降到最低,使得人人都可以训练属于自己的AI模型。
整理:熊宇轩
01
研究背景
在大数据时代,自动地将不断产生的海量数据组织成知识是一个重要的课题。
目前,数据挖掘研究社区针对结构化数据(网络、图表)提出了许多挖掘知识的方法。然而,针对以文本为代表的非结构化数据(例如,新闻报道、商业报表、论文、医疗记录)的知识挖掘还有待进一步探索。
大多数现代人工智能模型的训练高度依赖于人工数据标注。然而,这些非结构化数据的规模十分庞大,并且在不断积累。对于金融、医学等知识壁垒较高的领域,我们需要雇佣受过专业训练的专家标注数据。因此,通过人力标注这些数据的成本是难以承受的。
为此,研究者们希望通过自动化的模型将纯文本转化为机器可以操作的结构,例如:层次化的文本分类、词组挖掘、命名实体识别、关系提取等。
商静波博士团队近年来针对「基于极弱监督的海量文本结构化」这一课题展开了丰富的研究,试图将训练模型所需的人工成本降到最低。商静波认为,我们可以用非常简短的自然语言描述信息抽取的意图和要求,需要抽取的信息量对于完成下游任务而言是充分且必要的。
举例而言,在进行词组挖掘时,我们可以在没有显式监督信号的情况下,通过挖掘海量文本中频繁共现的模式来识别词组;在进行文本分类时,只需提供新闻的类别名称或其它标签就可以实现极弱监督的效果;命名实体识别(NER)任务可以被分解为实体在词组中的定位以及词组类型识别两部分,可被视为词组挖掘和文本分类的结合,此时我们希望只需要实体类别名称的信息就可以完成 NER。为了在 NER 中避免歧义(例如,Trump 可能是人名,也可能是房子、公司的名字),我们可以进一步提供特殊示例来实现 NER。在关系抽取任务中,我们要对实体间的关系进行分类,此时我们需要使用的极弱监督为关系类别名及其特殊情况示例。
02
无监督上下文相关词组挖掘——UCPhrase
词组挖掘是一项重要的基础性巩固走。如上图所示,通过对 2017 年 4 月 9 日所有的新闻进行词云分析,我们发现「United」和「Dao」是两个频繁出现的词语,这两个词语都存在歧义。如果我们将词云进一步升级为词组云,就可以找出「United Ariline」和「David Dao」,就可以知道当天的新闻报道的是一名叫做 David Dao 的乘客在美联航的飞机上与保安冲突的事件。
可见,词组的表达能力要比单词更为强大。词组挖掘对于理解文本十分重要,它是自然语言处理、信息检索、文本挖掘等下游知识提取任务的基石,我们可以将实体、关系等看做词组的子集,完成文本分析、搜索引擎索引、关键词组建模等功能。
此前,研究者们针对词组挖掘展开了大量的工作。在 ScaCy/Stanford NLP 等常见的自然语言处理包中,他们采用了一些基于神经网络或条件随机场的监督式训模型、能够利用上下文的信息,在新的语句中找出词组。TopMine 等无监督的上下文无关模型通过基于统计的方法对词的组合进行挖掘,判断单词组合在一起是否有意义。
商静波博士在 SIGMOD 2015 上提出了弱监督上下文无关的词组挖掘模型 SegPhrase,要求用户给定 300 个标注的词及其用途,SegPhrase 通过学习的方法将将不同的统计量结合起来,训练分类器。AutoPhrase 是商静波博士于 TKDE 2018 上发表的一种远程监督方法,通过维基百科提供额外的监督信号。然而,远程监督方法利用的知识库中的语料往往较为常见,难以找到新出现的知识,导致监督信号噪声较多,造成不完全的匹配。AutoPhrase 对于出现频率较高的词组有很好的性能。
UCPhrase 是一种无监督的上下文相关的词组挖掘方法,其贡献主要包括两点:(1)在无监督情况下,根据大规模语料库找出自然的监督信号。通常,在文中被反复提及的词组是重要的,可以作为训练数据。(2)利用预训练语言大模型实现上下文相关的词组挖掘,根据生成的注意力图判断不同词例之间的关联强度。
如上图所示,我们首先找出在文中出现了两次或两次以上的词组的最长形式。接着,我们将所有的句子输入给预训练模型,得到注意力图,并且利用 CNN、LSTM 等较小的模型进行二分类,判断某个单词的组合是否为核心词组。
相较于从维基百科中得到的远程监督信号(通常为维基百科的页名、内部有超链接的词组),UCPrahse 得到的核心词组包含更多较短的词组,以及更多出现次数较少的词组。因此,UCPhrase 发现的词组多样性更高,且更加完整。
UCPhrase 并没有依赖现有的知识库。对于一些专业性非常强的词组,可能在维基百科上出现的次数有限,此时无监督学习的方法就会更加有优势。
传统的基于嵌入的方法可以很好地记住标准的人类标签。然而,对于有瑕疵的标注而言,我们并不希望模型将有瑕疵的部分完全记住。而词典匹配模型可以将训练误差降维 0,将错误的标签也记录下来,却难以泛化到没有见过的词组上。因此,我们希望得到与词表面意思无关的特征,不可以通过该特征复原出原本的词。
词组是句子中联系更紧密的词的组合。我们更加关注句子中词与词之间的关系。为此,我们将预训练语言模型得到的注意力图合并起来求均值,得到单词两两之间相互的关系。这样,我们可以通过注意力图得到句子内部的结构,这些找到的词组往往具有独特的模式。
为了避免过拟合的风险,商静波博士尝试训练一个较小的模型实现词组标注工作。以 RoBERTa 模型为例,该模型一共有 12 层 Transformer 模块,每一层有 12 个注意力头,每一个输入的句子长度为 n。
对于每个 N*N 的注意力图,我们可以将其视为 144 通道的图片,将其视为图像分类或分割任务来解决,通过两层的 CNN 构建一个二分类模型,判断两个词之间是否有联系。我们不需要对预训练语言模型进行微调,Checkpoint 文件的大小仅为 22KB。
词组挖掘是较为浅层的任务,只需利用一些语法、词法上的现象。因此,我们仅仅使用了 RoBERTa 模型的前三层,就可以实现较为理想的性能。
为了测试模型性能,商静波博士在不同的粒度上测试了模型的性能。为了测试模型在语料库级别上的性能,我们使用 Prec@k 作为评测指标,测试模型找出的 Top k 个词组;在文档级别上,我们利用现有的对比基准数据集,让模型给出文章的三个关键词,并使用召回率和 F1 作为评测指标;在句子级别上,给定一个句子,我们让模型进行词组标注,定位出句子中全部的词组,评测指标为精确率、召回率、F1。
以 KP20k(计算机领域文献数据集)、KPTimes(新闻数据集)数据集为例。我们比较了不同预训练模型、远程监督方法、无监督方法的性能。实验结果表明,UCPhrase 在语料库级别上的性能与AutoPhrase 和「维基百科 RoBERTa」的性能相当,这是因为维基百科的监督数据噪声较少,且更偏向于出现频繁的词。在文档和句子级别上,UCPhrase 的优势较为明显。
03
只需使用类名的文章分类:X-Class
文本分类是一项历史悠久的任务,旨在将给定的文本分类为某些目标类。一些文本分类任务是层次化的,要求将文本划分到多个具有层次化关系的类中。
传统的监督或半监督学习方法要求文本带有不同程度的标注,通过词袋模型处理后,使用支持向量机、提升树、神经网络等模型完成文本的分类。此时,标注对模型训练的影响很大。数据样本往往存在长尾分布的情况,有一些类的文本非常少,采样很困难。
为此,商静波博士考虑使用弱监督学习范式提升文本分类的效果,通过将文本标注替换为自然语言输入来引导模型进行分类。目前的弱监督文本分类方法主要包括三类:(1)最低限度的监督。每一类文本带有 k 个有标注的数据,以及一系列无标签的数据。(2)种子词驱动。每类给定 K 个类名及若干关键词(种子词)。(3)极弱监督:只有类名的字面文本。
Aharoni 等人在 ACL 2020 上发表的论文「Unsupervised Domain Clusters in Pretrained Language Models」中,对所有词例通过语言模型得到的表征求平均,通过主成分分析将平均表征投影到二维平面上,并对投影结果进行聚类。实验结果表明,不同领域的句子表征被显著区分开。此外,作者构建了一个 5*5 的混淆矩阵。可见,主对角线上的值非常大,说明嵌入本身十分强大,包含了许多领域的信息。
商静波博士在 EMNLP 2021 上发表的论文「"Average" Approximates "First Principal Component"? An Empirical Analysis on Representations from Neural Language Models」中,证明了求平均和 PCA 是等价的。当我们将语句输入给预训练的语言模型后,会得到一个 d*L 维的矩阵,其中每一个列向量为每一个输入词例对应的向量,L 为句子中词例的个数,D 为嵌入的维度。通过 PCA,我们可以得到包含最主要信息的向量的方向。此外,通过对 L 个列向量求均值,我们发现 PCA 主成分向量的方向与 L 个列向量平均的方向几乎一直。这一性质在 BERT、RoBERTa、ELMo、XLNet、Word2Vec、Glove 等预训练模型上都成立。
这一性质启发我们可以通过以下方式实现极弱监督文本分类:首先学习文本的表征,然后将聚类数设置为目标类别数,并且期望聚类的结果与期望的类相似。
我们可以按照不同的方法对同一个数据集中的文章进行分类。如上图所示,NYT-Topics 和 NYT-Locations 分别代表对纽约时报中的文章按照主题和地理位置分类。不同的颜色代表不同的类别,它们的位置由其 BERT 的平均表征决定。按照主题对文章进行分类可以有效地将文章区分开,但是按照位置对文章进行分类的效果并不理想。可见,基于平均 BERT 表征的方法并不稳定。
为此,商静波博士提出了 X-Class,旨在构建一种面向类的表征,只需给定目标类的名称,就可以对表征进行针对性的调整。
通过使用 X-CLass,我们可以将同样的文本映射到空间中不同的位置,将类名和文本映射到同一空间中,并且在空间中做聚类,使每一个类恰好与一个类名对应。在聚类完成后,我们使用置信度最高的文本-类名对作为伪标签,重新训练一个分类器,针对每一个类微调一个 BERT 的表征。
首先,我们通过找到同样的类名在文章中出现的部分,得到其平均的BERT 表征。接着,我们通过不断扩展表征,将更多相关的词加入进来(例如,Sport 与 Win 相关),直到语义发生变化(Top K 的关键词发生变化)。
得到了类的表征后,我们可以通过计算类的表征和单词之间的注意力作为权重,进行加权平均,从而得到新的面向类的表征。我们可以利用上述表征进行聚类和分类。
商静波博士在 7 个对比基准数据集上测试了 X-Class 的性能,这些数据集包含新闻、点评、维基百科等多种形式,有平衡和不平衡的数据集。实验选择的评测指标为 F1 得分,其值越大越好。
如上图所示,在对比方法中,WeSTClass 和 ConWea 使用了三个或三个以上的关键词作为监督,人力成本较高。LOTClass 和 X-Class 则都只使用类名作为监督。X-Class-Rep 和 X-Class-Align 分别代表两组消融实验。实验结果表明,X-Class 在大多数数据集上取得了最好的性能,且性能较为稳定。
如上图所示,X-Class 的面向类的文本表征算法在 NYT-Topic、NYT-Locations、Yelp 这三种设定下的可视化结果表明,X-Class 可以很好地区分各类文本,而基于 BERT 表征的方法则更容易将不同类的文本混合起来。
X-Class 在类标签在输入文本中至少出现一次的情况下就可以取得较好的效果。相较之下,如果某类名在文中只出现了一次,LOTClass 的性能会有非常大幅度的下降,这是由于 LOTClass 非常依赖上下文,而 X-Class 的表征则不依赖于上下文的多样性。
在层次化文本分类任务中,商静波博士分别针对 5 分类的粗粒度设定和 26 分类的细粒度设定开展了实验,并分别测试了端到端的 X-Class 和层次化的 X-Class 两种模型。实验结果表明,X-Class 在粗粒度和细粒度设定下均取得了最好的性能。
04
结语
在极弱监督场景下,我们希望通过最少的人工成本从无结构文本中挖掘出结构化知识。为此,商静波博士通过自然语言向机器传递意图,让机器从海量文本中挖掘出隐藏模式,并将其扩展到更多的任务上。
在弱监督学习方面,商静波博士团队最早在 ACL 2020 上发表了论文「ConWea:Contextualized Weak Supervision for Text Classification」。基于规则、字符串匹配的各种监督信号都是上下文无关的,ConWea 则试图解决一词多义、上下文多样性问题,从而提升弱监督信号的质量。该模型在预训练大模型的帮助下自动地提供上下文相关的监督,在细粒度分类任务上的性能有大幅提升。
在 EMNLP 2020 上,商静波博士团队提出了「META:Metadata-Empowered Weak Supervision for Text Classification」,充分利用了文本数据中有结构信息的元数据(作者、发表时间、关键词等)。具体而言,商静波博士利用 Motif 的概念,将文本中的监督信号与文章结构相结合,提出了一套端到端的弱监督文本分类算法。
商静波博士于 SDM 2021 上发表的论文「ARYA:“Misc”-Aware Weakly Supervised Aspect Classification」将所有不感兴趣的类归结在一起,称之为「杂」类,并利用它更好地区分感兴趣的类。
在 EMNLP 2021 上发表的论文「Coarse2Fine:Fine-grained Text Classification on Coarsely-grained Annotated Data」中,商静波博士在已知粗分类的情况下,利用对大规模预训练模型的提示调优方法将文本进一步分类为细粒度的子类。
此外,商静波博士还广泛与物联网、生物信息、医疗健康、商学院等领域的学者合作,希望将基于极弱监督的知识挖掘技术应用到更多的领域中。