用户画像入门基础知识，信息抽取方法概览

小君 2023-02-24 17:44:38 491

用户画像入门基础知识，信息抽取方法概览总体来看，基于文本模式的方法能够从大规模语料库中得到目标信息实体在文本中的频繁模式，并通过较为严格的文本匹配从目标文本中抽取信息，从而具有较高的抽取精度，但在查全率上表现较差，缺乏可扩展性。这些经典方法为文本模式学习提供了范式，然而也面临着标注数据不足、文本模式可扩展性不高的问题。近年来，随着Freebase 等大规模知识图谱的发展，许多工作转而研究如何利用知识图谱进行远程监督学习（distant learning）。典型代表是Riedel 等人在2013 年提出的Universal Schema 方法[12]。他们借鉴协同过滤算法，将目标实体对（entity pair）看做用户，将实体关系（entity relations）看做商品，将信息抽取转化成商品推荐问题，即寻找目标实体对最有可能符合的实体关系。他们将文本模式与知识图谱中已有的实体关系共同作为学习目标，通过矩阵分解算法建立文本模式

作为数据挖掘和社会网络分析的重要组成部分，用户画像问题吸引了来自学界和业界的广泛关注。在本章节，我们将介绍用户信息抽取的三种基本方法：文本模式挖掘、分类学习模型以及概率图模型。

基于文本模式的方法

（Pattern-based Approaches）

基于文本模式的方法认为从大规模的自然语言数据中能够提炼和学习出频繁的文本模式（textual pattern），并以此进行信息抽取。例如，“牛顿生于1643年。”这句例句中能够提取出“< 某人> 生于< 某年>。”这样的模式。将其与新的语料匹配时，即可从符合该模式的语料中抽取用户的生日信息。

DIPRE 系统[8] 就是典型的基于文本模式的方法。给定一些已知的事实例句，DIPRE 通过最长公共子句等方式归纳出文本模式用于信息抽取，然后搜索与抽取到的信息元组相关的更多例句，继续归纳和扩展文本模式。通过这种迭代式的半监督框架，DIPRE 在给定有限训练数据的情况下能够自动搜寻和扩展模式库。其缺陷在于过于严格的文本匹配导致的高遗漏率，以及迭代归纳过程中引入的错误种子数据产生的错误积累。

Snowball 系统[9] 延续了DIPRE 的半监督学习框架，并在此基础上放宽了模式匹配的条件。其将文本模式编码成连续的特征向量，用特征向量点积衡量两段文本模式中对应子句的相似度，容忍文本模式间存在细微差别，使得文本匹配的适用性大大提高。同时，其提出一系列方法以衡量学习到的文本模式与抽取到的目标信息的可信度，及时筛除数据噪音，从而减少迭代过程中的错误积累问题。后续工作StatSnowball[10] 则引入了更多统计与机器学习的技巧，进一步提升效果。在数据驱动的模式学习基础上，PATTY[11] 引入文本解析树等语言学特征进行文本模式发现。

这些经典方法为文本模式学习提供了范式，然而也面临着标注数据不足、文本模式可扩展性不高的问题。近年来，随着Freebase 等大规模知识图谱的发展，许多工作转而研究如何利用知识图谱进行远程监督学习（distant learning）。典型代表是Riedel 等人在2013 年提出的Universal Schema 方法[12]。他们借鉴协同过滤算法，将目标实体对（entity pair）看做用户，将实体关系（entity relations）看做商品，将信息抽取转化成商品推荐问题，即寻找目标实体对最有可能符合的实体关系。他们将文本模式与知识图谱中已有的实体关系共同作为学习目标，通过矩阵分解算法建立文本模式与目标实体的向量表达，从而更为广泛地衡量文本模式和目标实体间的隐含关系，以及文本模式间、文本模式与知识图谱关系间的隐含相似度，从而取得了很好的效果。

总体来看，基于文本模式的方法能够从大规模语料库中得到目标信息实体在文本中的频繁模式，并通过较为严格的文本匹配从目标文本中抽取信息，从而具有较高的抽取精度，但在查全率上表现较差，缺乏可扩展性。

分类学习模型

（Classification Models）

近年来，机器学习算法的快速发展为信息抽取任务提供了强有力的工具。基于机器学习方法的信息抽取模型将信息抽取转化为关系分类问题，即判断两个目标实体间是否满足目标关系，例如，判断“牛顿”与“1643 年”之间是否存在“< 出生于>”关系。

基于特征的分类学习模型有逻辑斯特回归（Logistic Regression）、决策树模型（Decision Tree）、支持向量机（Support Vector Machine）、随机森林（RandomForest）等。在二分类场景下，这些模型接受一个数据点的特征向量，并给出其属于正例或负例的预测。二分类模型可以通过对多个类别标签进行“属于/不属于”的二值判断扩展成多分类模型。在文本信息抽取问题中，我们首先通过命名实体识别等预处理过程得到候选实体（candidate entity），然后从上下文文本中抽取特征，并通过分类模型预测该候选实体是否是正确的信息。特征的构造是影响分类模型识别准确率的重要因素。用于文本信息抽取的特征主要分为语义特征和语法特征。语义特征指句子各成分间的依赖关系，取决于目标实体在句子的依赖解析树中的依赖路径；语法特征指句子和实体上下文的浅层特征，常见的包括：

• 目标实体间的语序；

• 目标实体的词表示；

• 目标实体的实体类型；

• 目标实体的POS 标签；

• 整句句子的词袋表示；

• 目标实体间的解析树路径；

• 目标实体上下文的n-gram、skip-gram 特征；

分类模型首先将这些特征处理成数值化的特征向量，然后利用有标签数据进行训练，对无标签的数据进行预测。其不足在于仍然依赖于人工定义的特征集合，使得其难以捕捉全部有用特征。同时，分类模型使用的函数簇也往往比较简单，难以建模复杂的非线性关系。

深度学习方法利用神经网络模型（Neural Network）和词的分布式表达（DistributedRepresentation）解决分类任务。与基于特征的分类模型相比，深度学习模型有两大优势。首先，深度学习模型中，单词通过word2vec[13] 等词嵌入（WordEmbedding）技术转化为词向量，包含了更多语义层面的隐含信息，从而使得模型能够捕捉到词语层面的相似关系；更重要的是，深度学习模型能够进行表示学习，从原始数据中自动学习得到有用的特征，避免了人工特征构造，同时能够产生更为有效的特征表示。深度学习方法在信息抽取问题上主要应用卷积神经网络（Convolutional Neural Netw，CNN）和递归神经网络（Recurrent NeuralNetwork）。

卷积神经网络将句子中的单词以词向量的形式叠加成句子矩阵，通过卷积和池化的操作捕捉词与词之间的语义特征，并且能够应对句子中词语交换的问题。Adel 等人2016 年的工作[14] 在槽填充（slot filling）任务上比较了卷积神经网络与传统分类模型。其中，卷及神经网络将句子以目标实体为分隔拆分成三个部分，对每个部分分别进行卷积操作，从而得到上下文的特征表示，并对目标实体进行分类。结果显示，卷积神经网络的性能要高于传统分类模型。

递归神经网络为每个词学习一个隐层表示，同时将上一个词的隐层作为下一个词的输入，从而捕捉上下文关系。全局最后一个词的隐层中包含了全句的语义信息。Yao 等人的工作[15] 提出将长短时记忆机制（Long-short Term Memory）加入递归神经网络模型中进行信息抽取，使得模型能够适时地忽略一些信息，从而取得更好的效果。Kurata 等人[16] 在此基础上做了改进。他们在预处理时首先通过递归神经网络得到全句的向量表示，并将其加入模型的初始输入，从而在学习单个词语时考虑全句信息，提高了信息抽取的精度。

用户画像入门基础知识，信息抽取方法概览(1)

较之基于文本模式的方法，分类学习模型能够自动学习特征与标签间的关系，避免了模式匹配带来的高遗漏率，从而在效果上有较大提升。然而，这些模型没有考虑目标实体之间的关系这一重要信息，同时难以像文本模式那样加入先验知识帮助求解。针对这些问题，我们介绍信息抽取的另一类方法，概率图模型。

概率图模型（Graphic Model）

概率图模型是一类将变量之间的依赖关系用图进行表示的概率模型，适用于建模变量之间的依赖和因果关系。其中，链式条件随机场模型被广泛应用于实体识别、信息抽取等领域。

条件随机场模型（Conditional Random Field，CRF）由Lafferty 和McCallum 在2001 提出[17]。条件随机场是一类判别式模型，即在给定观察数据的情况下计算它们对应的标签值的条件概率。构成条件随机场的充要条件是，图中的所有变量节点满足马尔科夫性质，即其标签值都只与它的邻接节点有关，独立于其他所有节点。因此，条件随机场是一个非常宽泛的概念。在实际应用中，最为常用的是如图2所示的链式条件随机场（Linear-chain Conditional Random Field）。其中 ⃗x= {x1 x2 ... xn} 代表观测数据序列 y = {y1 y2 ... yn} 代表对应的标签值序列。模型的条件概率定义为：

用户画像入门基础知识，信息抽取方法概览(2)

其中，t j ((yi 1 yi ⃗x i)) 定义了yi 和yi 1 上的转移函数，刻画的是在给定观测序列 ⃗x时，标签变量yi 和yi 1 的关系；sk (yi ⃗x i)) 则定义了观测序 ⃗x与标签值yi 的关系。λj和μk 分别是tj 和sk 的权重。Z 作为归一化因子，将tj 和sk 定义的势能函数归一化为[0 1] 区间上的概率值。

用条件随机场进行信息抽取实质上是将信息抽取问题转化为句子各部分的序列标注问题，即在观察到句子的各个实体部分情况下，推测它们对应的标签值。模型中的转移函数t j 和特征函数sk 需要依据经验进行构造。模型的训练过程旨在通过极大似然估计求解条件概率公式2-1中的参数{λj }、{μk }。模型的推断过程即计算。

用户画像入门基础知识，信息抽取方法概览(3)

在已知参数集合{ µ λ }和观察序列 ⃗x的情况下，使用动态规划算法求解，常见的算法有维特比算法[18]。较之文本模式和分类学习模型，概率图模型能够对实体间的关系进行建模，从而捕捉到更多信息，帮助我们进行判断。有了这些基本的信息抽取方法的支持，我们对用户信息抽取工作的三个基本任务：文本信息抽取、隐含属性预测以及用户兴趣挖掘的相关工作及研究现状进行概述。

参考文献：

[1] Brin S. Extracting patterns and relations from the world wide web. International Workshop on The World Wide Web and Databases. Springer 1998. 172–183

[2] Agichtein E Gravano L. Snowball: Extracting relations from large plain-text collections. Proceedings of the fifth ACM conference on Digital libraries. ACM 2000. 85–94

[3] Zhu J Nie Z Liu X et al. Statsnowball: a statistical approach to extracting entity relationships.Proceedings of the 18th international conference onWorld wide web. ACM 2009. 101–110

[4] Nakashole N Weikum G Suchanek F. Patty: a taxonomy of relational patterns with semantictypes. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics 2012. 1135–1145

[5] Riedel S Yao L McCallum A et al. Relation extraction with matrix factorization and universal schemas. 2013.

[6] Mikolov T Chen K Corrado G et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781 2013.

[7] Adel H Roth B Schütze H. Comparing convolutional neural networks to traditional models for slot filling. arXiv preprint arXiv:1603.05157 2016.

[8] Yao K Peng B Zhang Y et al. Spoken language understanding using long short-term memory neural networks. Spoken Language Technology Workshop (SLT) 2014 IEEE. IEEE 2014. 189–194

[9] Kurata G Xiang B Zhou B et al. Leveraging sentence-level information with encoder lstm for semantic slot filling. arXiv preprint arXiv:1601.01530 2016.

[10] Lafferty J D McCallum A Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Proceedings of the 18th International Conference on Machine Learning 2001. 282–289

[11] Sutton C McCallum A et al. An introduction to conditional random fields. Foundations and Trends® in Machine Learning 2012 4(4):267–373

[12] Riedel S Yao L McCallum A et al. Relation extraction with matrix factorization and universal schemas. 2013.

[13] Mikolov T Chen K Corrado G et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781 2013.

[14] Adel H Roth B Schütze H. Comparing convolutional neural networks to traditional models for slot filling. arXiv preprint arXiv:1603.05157 2016.

[15] Yao K Peng B Zhang Y et al. Spoken language understanding using long short-term memory neural networks. Spoken Language Technology Workshop (SLT) 2014 IEEE. IEEE 2014. 189–194

[16] Kurata G Xiang B Zhou B et al. Leveraging sentence-level information with encoder lstm for semantic slot filling. arXiv preprint arXiv:1601.01530 2016.

[17] Lafferty J D McCallum A Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Proceedings of the 18th International Conference on Machine Learning 2001. 282–289

[18] Sutton C McCallum A et al. An introduction to conditional random fields. Foundations and Trends® in Machine Learning 2012 4(4):267–373

用户画像入门基础知识，信息抽取方法概览(4)