知识图谱的全流程构建过程(知识图谱构建系列II)
知识图谱的全流程构建过程(知识图谱构建系列II)实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务,是解决实体间存在的歧义性问题。详细来说,给定一个富含一系列实体的知识库与已经标注好mention的语料,实体链接任务的目标是将每一个mention匹配到知识库中它所对应的实体上面,如果知识库中没有mention对应的实体,则认为该mention不可链接到当前知识库,标记为NIL。三、Entity Linking关键技术四、Entity Linking前沿文献20篇五、参考文献列表
大家好,我是CHEONG,最近在分享知识图谱入门和构建相关的文章。CHEONG在前年有过大半年实体链接相关的工作经验,实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务,是解决实体间存在的歧义性问题,是知识图谱构建过程中的核心技术。
本文将调研的实体链接相关研究进行了一个总结,写了个不算全面的综述,在此分享给大家,欢迎关注公众号【AI机器学习与知识图谱】,原创不易,有用就点个在看呀!
一、Entity Linking定义及挑战
二、Entity Linking任务应用
三、Entity Linking关键技术
四、Entity Linking前沿文献20篇
五、参考文献列表
1、Entity Linking定义
实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务,是解决实体间存在的歧义性问题。详细来说,给定一个富含一系列实体的知识库与已经标注好mention的语料,实体链接任务的目标是将每一个mention匹配到知识库中它所对应的实体上面,如果知识库中没有mention对应的实体,则认为该mention不可链接到当前知识库,标记为NIL。
3、3、Deep Reinforcement Learning论文名称:Joint Entity Linking with Deep Reinforcement Learning(WWW 2019)
核心思想:本文考虑到之前的Global模型存在两个很大的问题,一是利用全局信息计算候选实体得分时会增加模型的复杂度并且会引入噪音信息;二是先前错误的实体将会导致后面实体消歧的累积误差。该模型从全局角度进行决策。我们的模型充分利用了先前提到的实体,并探讨了当前选择对后续决策的长期影响。
4、End-to-End Learning
论文名称:End-to-End Neural Entity Linking(CoNLL 2018)
核心思想:本文提出端到端模型,一定程度上更能够发现现有拓扑中未知的实体。总体而言比较容易理解其过程,就是将实体识别过程和链接匹配过程连在一起,获取mention的embedding而后直接在模型内部进行相似性匹配操作。
5、Joint Learning
论文名称:Joint Learning of Named Entity Recognition and Entity Linking
核心思想:实体匹配是指将识别到的实体与知识库或者图谱中实体进行匹配与映射。因此实体匹配与识别是两个相关性非常高的任务,通过实体匹配,识别到的实体与现实中的概念相连接。本文将实体匹配与识别统一起来训练,认为两个任务一起学习,能够提升两个任务的准确率。
6、Short Text Entity Linking
(1) AggregatedSemantic Matching for Short Text Entity Linking (CoNLL 2018)
核心思想:长文本能更好的利用全局信息,global scores在短文本中不能很好地使用,本文在noisy and short text上更多的去挖掘local information,并且只使用了local information去计算mention和candidate entity之间的相似度,sim(m ttl) sim(m desc) sim(ctx ttl) sim(ctx desc)四个local similarity,模型上则使用了Representation-focused model and interaction-focused model neural model for semantic matching in fourtext pairs,最后使用rank aggregation对entity排序,模型细节如下:
(2) Old is Gold: Linguistic Driven Approach for Entity and Relation Linking of Short Text (NAACL 2019)
核心思想:本文认为短文本没有充足的上下文信息且部分是残缺的,本文最大的特色在于用DBpedia Wikidata Oxford Dictionary WordNet构建了一个Extended Knowledge Graph 在此基础上知识库建立完成,然后对Query的处理则首先Pos Tagging区分对待动词和名词,且利用英文词的特性利用组合词和首字母辅助任务,候选词的生成在KG上使用elastic search,最后用基于KG进行候选集排序,其中还用到了N-gram对Query中实体分割,模型细节如下:
(3) Entity Linking for Chinese Short Text Basedon BERT and Entity Name Embedding (ccks 2019)
核心思想:传统实体链接任务主要是针对长文本,拥有完整的上下文信息,有助于实体识别与实体消歧。由于口语化、方言和短文本不足的上下文,中文短文本实体链接尚具挑战。本文对中文短文本进行了探讨,模型细节如下:
7、ACL 2019/2018/2017
(1) Boosting Entity Linking Performance by Leveraging Unlabeled Documents (ACL 2019)
(2) Zero-shot Entity Linking by Reading Entity Description (ACL 2019)
(3) Distant Learning for Entity Linking with Automatic Noise Detection (ACL 2019)
核心思想:以上三篇都是针对于没有标注数据的情况下,在无标注数据下,利用上下文信息实现Entity Linking。
(4) Improving Neural Entity Disambiguation with Graph Embedding (ACL 2019)
核心思想:只提出一个核心的东西,就是利用KG的结构化数据使用DeepWalk构建Graph Embedding,并且在两个实验上证明了Graph Embedding的效果对于Entity Linking的提升,其中一个实验用的模型和代码是论文End-to-End Neural Entity Linking,将其中的TextEmbedding换成了Graph Embedding。
(5) DiaNED: Time-Aware Named Entity Disambiguation for Diachronic Corpora (ACL 2018)
核心思想:本文是针对特殊领域数据Diachronic Corpus上做NED,文中提到之前的NED都是针对于某个短暂时间的实体消歧,对于时间跨度很大的数据处理效果不好,本文就针对于时间长跨度的数据提出命名实体消歧,通过计算Mention和All Entities之间的时间相似度。
(6) List-only Entity Linking (ACL 2017)
核心思想:本文首先考虑到Knowledge Base可能是稀疏的,Entity没有充足的信息,因此将关注点放在Seed Mentions上,在计算Mention和Entity之间分数前,先看Mention和Seed Mention之间的关系。Seed Mention选择,通过聚类选取最大的聚类作为Seed Mentions,在计算分数的时候用到了Entity Type(Loc Per等)和Mention Textual Context。
8、EMNLP 2019/2018/2017
(1) Learning Dynamic Context Augmentation for Global Entity Linking (EMNLP2019)
核心思想:本文指出Global Model在计算相似度时的复杂度高,提出了一种Dynamic Context Augmentation的方法来融合global signal,在提高Entity Linking效果的同时降低了运算复杂度,文中用两种方法实现了DCA,一种是标准的监督模型框架,另一种是强化学习框架,并且将DCA用到了两个已经有的Local Model上进行试验,效果好,本文有提供源码,可以考虑作为基模型使用,本文核心目的也就是利用DCA方法学习到Global Information。
(2) Fine-Grained Evaluation for Entity Linking (EMNLP 2019)
核心思想:本文核心不是做Entity Linking,作者考虑到Entity Linking没有一个一致的评判标准,因此对不同类型的Mentions Entities Links进行一个细粒度的划分,对数据进行细粒度划分之后再给出统一的评估标准,评估EL模型的效果。
(3) Improving Fine-grained Entity Typing with Entity Linking (EMNLP 2019)核心思想:本文工作主要是对Entity类别进行分类,Thefine-grained entity type classification,其中entity linking知识用来给entity分类的一个工具。
(4) Effective Use of Context in Noisy Entity Linking (EMNLP 2018)
核心思想:本文主要考虑在Noisy and Short Text中,如何更好地提取Mention的上下文信息。文中认为对于稀疏的特征难以提取,而想更充分的挖掘Mention的上下文和Entity之间的相似性,因此提出了一些新的方案,例如对Mention的上下文分别进行Representation,计算Left Context Right Context和Entity之间的多种关系,使用Character CNN提取特征(但效果优化不明显),最后还是用看Mention Context和Entity之间Overlap Feature,没有源码。
(5) Entity Linking within a Social Media Platform: A Case Study on Yelp (EMNLP 2018)
核心思想:本文主要考虑在一个社交媒体平台上Entity Linking任务中target entities没有很多的信息描述,针对此问题提出了新的解决方案。首先本文创造了一份自己的数据集,针对于该数据集因为Entity没有充足的上下文信息,因此本文针对此份数据集相对于conventional features,提出了Social Features和Location Features,其中Social Features是看Mention和Entity之间是否有User等social relations,比较多的情况下就认为Mention和Entity之间强关系,Local Features则是看是否在同一个城市等位置信息。
(6) Entity Linking via Joint Encoding of Types Descriptions and Context (EMNLP 2017)
核心思想:本文在计算Mention和Entity之间相似度时引入了Fine-Grained Types,同时结合了Mention-Context(local context and Document Context)和Entity Description的分数,特殊之处在于引入了Mention和Entity的Fine-grained Types,即是同样类型的Mention匹配同样类型的Entity。
(7) Entity Linking for Queries by Searching Wikipedia Sentences (EMNLP 2017)
核心思想:本文提出了一个Entity Linking方法用在Query中,本文的亮点是使用了直接评估query和Wikipedia articles之间的相似度,排序使用的是Regression Based Framework。
往期精彩
【知识图谱系列】基于2D卷积的知识图谱嵌入
【知识图谱系列】知识图谱的神经符号逻辑推理