快捷搜索:  汽车  科技

达尔豪斯大学信息管理:达姆施塔特工业大学

达尔豪斯大学信息管理:达姆施塔特工业大学图1 概念图元素一个更符合观察到的用户行为代表是概念图(Novak and Gowin 1984),表现为一个以概念为节点和以边表示它们之间关系的标记图(图1)。1972年引进作为教学工具(Novak and Canas 2007),概念图已经应用于教育(Edwards and Fraser 1983; Roy 2008),写作协助(Villalon 2012)或构建信息仓库(Briggs et al. 2004; Richardson and Fox 2005)等众多应用。对于摘要生成,概念图使其能够简明扼要地呈现摘要,并清晰地揭示关系。此外,我们还看到了另一个有趣的用例,它超越了文本摘要的功能:当概念和关系被链接到文档中相应的位置时,该图就可以用于在文档集合中导航,类似于目录。Falke和Gurevych(2017)最近描述了这个想法的实现。Technische Univ

EMNLP 2017 Regular Papers

将结构化引入摘要:众包概念图的基准语料库

Bringing Structure into Summaries:Crowdsourcing a Benchmark Corpus of Concept Maps

达姆施塔特工业大学

Technische Universitat Darmstadt

【摘要】概念图可以用来简洁地表示重要信息,并将结构引入到大型文档集合中。因此,我们研究了一种多文档摘要生成的变体,它以概念图的形式生成摘要。然而,合适这个任务的评估数据集目前还没有。为了填补这一差距,我们提出了一个新创建的概念图语料库,它总结了关于教育主题的各种不同web文档集合。它使用一种新颖的众包方法创建,允许我们高效地确定大型文档集合中的重要元素。我们以基线系统的形式发布语料库(https://github.com/UKPLab/emnlp2017-cmapsum-corpus),并提出评估协议,以便进一步研究这种摘要生成变体。

达尔豪斯大学信息管理:达姆施塔特工业大学(1)

1 引言

多文档摘要生成(MDS)是一个长期研究的NLP问题,它将一组文档转换为包含其最重要特征的短文本。所生成的摘要已被证明可以支持人类处理大量的信息搜集任务(McKeown et al.,2005; Mana-L˜opez´et al. 2004; Roussinov and Chen 2001)。然而,在手工探索一套文档时,人类亲自编写一个完整摘要。相反,用户研究(Chin et al.,2009; Kang et al.,2011)展示了他们会记下重要的关键字和短语,试着找出他们之间的关系并据此组织起来。因此,我们相信以同样的结构化输出,进行摘要研究是传统任务的重要延伸。

一个更符合观察到的用户行为代表是概念图(Novak and Gowin 1984),表现为一个以概念为节点和以边表示它们之间关系的标记图(图1)。1972年引进作为教学工具(Novak and Canas 2007),概念图已经应用于教育(Edwards and Fraser 1983; Roy 2008),写作协助(Villalon 2012)或构建信息仓库(Briggs et al. 2004; Richardson and Fox 2005)等众多应用。对于摘要生成,概念图使其能够简明扼要地呈现摘要,并清晰地揭示关系。此外,我们还看到了另一个有趣的用例,它超越了文本摘要的功能:当概念和关系被链接到文档中相应的位置时,该图就可以用于在文档集合中导航,类似于目录。Falke和Gurevych(2017)最近描述了这个想法的实现。

达尔豪斯大学信息管理:达姆施塔特工业大学(2)

图1 概念图元素

我们提出相应的任务就是基于概念图的多文档摘要生成MDS,以概念图形式的文档集群摘要生成。为了开发和评估这个任务,需要方法和黄金标准语料库,但当前没有适当可用的语料库。手动创建这样的数据集非常耗时,因为其标注包含许多子任务。特别是,标注器需要手动识别文档中所有的概念,而只有少数人会最终总结。

为了克服这些问题,我们提出了一种可以有效地结合自动预处理、可伸缩的众包和高质量专家标注的语料库创作方法。使用它,我们可以避免单个标注器的大量工作,使我们能够扩展到文档集群,而这些集群的规模是传统的摘要生成语料库的15倍。我们创建了一个包括30个主题的新语料库,每个主题都有40个关于教育主题的源文档和一个摘要概念图,这是许多众包工人的共识(见图2)。

达尔豪斯大学信息管理:达姆施塔特工业大学(3)

图2 摘自“没有信用历史的学生贷款”的摘要概念图

作为语料库创建的关键一步,我们开发了一个名为lowcontext重要性标注的众包方案。与传统方法不同的是,它允许我们在文档集群中确定重要元素,而不需要标注器读取所有文档,从而使众包任务成为可行的,并克服先前工作中观察到的质量问题(Lloret et al.,2013)。我们展示了该方法可以为我们的集中摘要生成场景创建可靠的数据,并且在传统的摘要生成语料库上进行测试时,创建了类似于之前工作所获得的标注。

总而言之,我们做出以下贡献:(1)提出一个基于概念图的MDS创新任务(第2节);(2)提出一个新的众包方案来创建参考摘要(第4节);(3)为所提出的任务发布了新数据集(第5节);(4)提供一个评估协议和基线(第7节)。我们在许可证下公开这些资源。

达尔豪斯大学信息管理:达姆施塔特工业大学(4)

2 任务

基于概念图的MDS定义如下:给定一组相关文档,创建一个表示其最重要内容的概念图,满足指定的大小限制并连接。我们将概念图定义为一个标记图,它将概念作为节点,而关系则将其作为边。标签是从文档中提取的标记项的任意序列,使得摘要生成任务可抽取。一个概念可以是一个实体,抽象想法,事件或活动,由它唯一的标签指定。好的图应该是连贯一致的,这意味着每一种关系和这两个连接的概念都形成了一个有意义的命题。

任务是复杂的,由几个相互依赖的子任务组成。我们必须为概念和关系抽取适当的标签,并在多个文档中识别引用相同概念的不同表达式。此外,我们必须选择最重要的概念和关系来进行摘要生成,最后将它们组织在一个满足连接和大小约束的图中。

达尔豪斯大学信息管理:达姆施塔特工业大学(5)

3 相关工作

有人试图从文本中自动构建概念图,并与单个文档 (Zubrinic et al .,2015; Villalon 2012;Valerio Leake 2006; Kowata et al. 2010)或文件集群(Qasim et al. 2013; Zouaq and Nkambou 2009; Rajaraman and Tan 2002)一起工作。这些方法从句法结构中提取概念和关系标签,并将它们连接起来,构建一个概念图。然而,常见的任务定义和可比较的评价却少之又少。此外,只有少数几个人即Villalon(2012)和Valerio和Leake(2006),将摘要生成定义为他们的目标,并试图将输入压缩到一个非常小的尺寸。我们新提出的任务和创建的大集群数据集填补了这些空白,因为它们强调了任务的摘要生成特征。

对于选择值得总结的概念和关系的子任务,传统的摘要生成技术(Nenkova和McKeown 2011)和关键词提取(Hasan and Ng 2014)是相关的和适用的。构建命题图以创建摘要的方法 (Fang et al. 2016; Li et al. 2016; Liu et al. 2015; Li 2015)似乎特别相关,然后一个重要的区别在于:当他们使用图形作为一个中间表示,然后生成文本摘要时,所提任务的目标是创建一个直接可解释的图形,并对用户有用。相比之下,这些中间图形,例如AMR,对于一个典型的非语言学家来说几乎是没有用处的。

对于传统摘要生成,最广为人知的数据集出现在DUC(duc.nist.gov)和TAC (tac.nist.gov)竞赛。他们提供了大量带有黄金标准摘要的新闻文章。为了扩大工作力度,已经创建了几个更专业的语料库:在大小方面,Nakano等(2010)为大规模的网页集合提供了一个摘要语料库。最近,提出了具有更多异构文档的语料库,例如(Zopf et al.,2016)和(Benikova et al.,2016)。我们提出的语料库结合了这些方面,因为它有大量的异构文档集群,并提供了一个必要的基准来评估所提出的任务。对于概念图生成,文章(Villalon et al .,2010)创建了一个人造学生论文摘要概念图的语料库。与我们的语料库相比,它只处理单一的文档,需要小两个数量级的输入压缩量,并且它没公开。

其他类型信息表示如知识库也对概念及其关系进行建模,如Freebase (Bollacker et al.,2009)和本体。然而,它们各有侧重:概念图遵循一个开放的标签范式,并由人类来解释的概念图,知识库和本体通常更严格的类型化,并且是机器可读的。此外,从文本中自动生成它们的方法通常是尽量抽取尽可能多的信息,而我们则要总结一个文档。

达尔豪斯大学信息管理:达姆施塔特工业大学(6)

4 低语境重要性标注

Lloret等(2013)描述了几个关于众包参照摘要的实验。众包工人被要求阅读10份文档,然后从他们那里选择10个总结句,以获得0.05美元的奖励。他们发现了一些挑战,包括工作质量差和标注任务的主观性,这表明众包对这个目的不太有用。

为了克服这些问题,我们引入了一个新的任务设计,低语境重要性标注,来确定文档的摘要性部分。与Lloret等人的方法相比,它更符合众包最佳实践,因为任务简单、直观、小(Sabou et al.,2014),众包工人得到合理的报酬(Fort et al.,2011)。最重要的是,它也更加高效和可伸缩,因为它不要求工人读取集群中的所有文档。

4.1 任务设计

我们将重要性标注任务分解为单个命题层次。我们众包计划的目标是为每一个命题其在一个文档集群中的重要性获得一个分数,使得根据分数的排名揭示什么是最重要的,以及什么应该包含在摘要中。与其他工作不同的是,我们并没有向众包工人展示文档,而是只提供文档集群的主题和命题的描述。这确保任务是小的、简单的并且可以快速完成(参见图3)。

达尔豪斯大学信息管理:达姆施塔特工业大学(7)

图3 以主题描述和两个示例命题为例的众包任务李克特量表

在初步测试中,我们发现这个设计,尽管有最小的上下文,但在我们集中在公共教育主题上的集中集群上合理地工作。例如,可以考虑图3:很容易说P1比P2更重要,而不需要读取文档。

我们区分了两个任务变量:

李克特量表任务 利我们使用一个5点的李克特量表来允许更细粒度的标注,而不是执行二元重要决策。得到的标签被翻译成分数(5…1),而一个命题所有分数的平均值被用来作为其重要性的估计值。这个遵循这样的观点,即尽管单个众包工人可能会主观地发现任务,但多名工人的共识可以表现在平均分数中,往往由于“群体智慧”而变得不那么主观。我们把五个命题随机分成一个任务。

比较任务 作为替代,我们使用基于成对比较的第二个任务设计。比较相对比较容易,也更加一致(Belz and Kow 2010),但也比较贵,因为配对的数量随着对象数量的平方而增加(即使有智能采样策略,如CrowdBT中的主动学习(Chen et al. 2013),配对数量仅仅是减少了一个常数因子(Zhang et al. 2016))。为了降低成本,我们把五个命题分为一组作为任务,要求众包工人每次拖放都按照其重要性进行排序。从结果中,我们得到了成对的比较,并使用TrueSkill (Herbrich et al.,2007),一个强大的贝叶斯排名归纳模型 (Zhang et al .,2016),以获得对每个命题的重要估计。

4.2 初步研究

为了验证所提出的方法,我们使用了来自TAC2008 (Dang and Owczarzak 2008)的数据,对亚马逊土耳其机器人进行了初步研究。我们从使用两个任务设计的前三个集群(D0801A-A D0802A-A D0803A-A)中提取了474个命题的重要性估计值。每个李克特量表任务被分配给5个不同的众包工人,并获得0.06美元。在比较任务中,我们还收集了5个标签,分别支付了0.05美元,并从所有可能的配对中抽样7%。我们分批提交了100对,以及根据TrueSkill模型的置信度,为后续批选择配对。

质量控制 依据Lloret等人(2013)的观察,我们制定了几项质量控制措施。首先,我们将任务限制在来自美国的工人身上,批准率至少达到95%。其次,我们通过测量每个工人的李克特分数与其他四个分数的平均值来确定低质量的工人。最糟糕的工人(占所有标签的5%)被删除。此外,我们还包括了在大约80个任务中类似于(Lloret et al .,2013)中的陷阱句子。与Lloret等人的研究结果形成鲜明对比的是,这句话(这句话并不重要)和一个不那么明显但不重要的句子(巴拉克·奥巴马毕业于哈佛大学(Harvard Law))被认为是不重要的(1.08和1.14),表明工人们正确地完成了任务。

一致性与可靠性 对于李克特量表任务,我们遵循Snow (2008)的原则,并计算一致性作为一名工人的李克特得分与其余工人平均分的平均皮尔逊相关性(因为工人在所有项目上不一致,我们通过排序每个命题的标签,创建了五个元标签工人)。这种测量方法不如精确严格标签的一致性,可以考虑相近标签和高或低得分的工人。我们观察到0.81的相关关系,表明有实质性的一致。比较而言,多数一致性为0.73。为了进一步研究收集到的数据的可靠性,我们遵循了Kiritchenko和Mohammed(2016)的方法,并简单地重复了这三个主题之一的众包。在第一次和第二次运行的重要评估之间,我们发现了一个用于李克特量表的0.82的皮尔逊相关值(Spearman 0.78)和用于比较任务的0.69的皮尔逊相关值(Spearman 0.66)。这表明,尽管该任务具有主观性,但它允许我们收集可靠的标注。

同行评价 除了可靠性研究之外,我们还在摘要评估任务中对标注进行了外在评估。对于TAC2008的58个同行摘要中,我们计算了一个分数作为它所包含的命题的重要性估计的总和。表1显示了这些同行得分,在这三个主题上的平均分数,与在TAC中分配的手动响应分数与ROUGE-2和金字塔Pyramid评分相关联(ROUGE和Pyramid金字塔的相关性低于TAC报道的值,因为我们只使用3主题而不是所有48个)。结果表明,在两个任务设计中,我们获得了重要的注解,这些注解同样适用于摘要评估,如金字塔标注或黄金标准摘要。

达尔豪斯大学信息管理:达姆施塔特工业大学(8)

表1 在TAC2008的主题1-3上手动响应得分的相关性

结论 在试点研究的基础上,我们得出结论,提出的众包方案可以使我们获得对命题的适当重视。由于不需要工人读取所有文档,因此其标注比传统方法更有效、更可伸缩。

达尔豪斯大学信息管理:达姆施塔特工业大学(9)

5 语料库建立

本节介绍了语料库的构建过程,如图4所示,将自动预处理、可伸缩的众包和高质量的专家标注结合在一起,从而能够扩展到我们文档集群的大小。对于每个主题,我们在众包上花了大约150美元和1.5小时的专家标注,而只有一个标注者需要超过8小时(200字每分钟)阅读一个主题的所有文档。

5.1 源数据

作为一个起点,我们使用了DIP语料库(Habernal et al .,2016),收集了100个网页上49个关于教育主题的集群(例如:霸凌、家庭教育、毒品),并对每个主题进行了简短描述。它是由一个使用先进信息检索的大型web爬虫系统创建。我们选择了30个主题,用于创建必要的概念图标注。

5.2 命题抽取

由于概念图是由表示概念之间关系的命题组成(参见图1),我们需要将这种结构强加在文档集群的纯文本上。这可以通过手工标注的概念和关系来完成。然而,我们集群的规模导致其工作量很大:每一个主题(总共69k)需要处理2288个句子。因此,我们采用一种自动的方法。

开放信息提取(Open IE)范式(Banko et al.,2007)提供了一个非常类似于所需的表示形式。例如,从

有不良信用记录的学生不应该失去希望,并申请联邦政府的贷款。

Open IE系统提取两个参数的元组和一个表示命题的关系短语:

(比如有不良信用记录历史,不应该失去希望)

(比如有不良信用记录历史,申请FAFSA联邦贷款)

虽然关系短语类似于概念图中的关系,但这些元组中的许多参数都代表有用的概念。我们使用Open IE [https://github.com/knowitall/openie],一个先进的系统(Stanovsky and Dagan 2016)来处理所有的句子。删除重复后,每个主题获得4137个元组。

因为我们想要创建一个黄金标准的语料库,我们必须确保我们产生高质量的数据。因此,我们利用分配给每一个抽取的元组置信度去过滤低质量数据。为了确保我们不过于侵略性地过滤(和在最后摘要中丢失重要方面),我们从所有主题中抽样,手工标注了500个元组用于校对。前250个,我们调谐滤波阈值为0.5,这样在剩下未见到的一半中可以保持98.7%的正确抽取。过滤后,一个话题有平均2850个命题(总共有85000个)。

5.3 命题过滤

尽管Open IE范式有相似之处,但并不是每一个提取的元组都适合作为概念图的命题。为了减少后续步骤的工作量,我们希望过滤掉不合适的元组。如果一个元组是合适的,它需要满足:(1)它是正确提取,(2)没有任何上下文意义,并且(3)具有表示适当概念的参数。我们创建了一个指导方针,解释什么时候将一个元组标记为适合概念图,并进行了一个小的标注研究。三个标注者独立地标记了500个随机抽样元组。其一致性是82%(κ= 0.60)。我们发现元组是不合适主要是因为他们不肯舍弃代词,与(2)有冲突,或与参数完整条款或命题有冲突,与(3)有冲突,而(1)置信度过滤主要是照顾的5.2节的置信过滤。

由于元组的数量多,我们决定将过滤步骤自动化。我们在多数投票标注上训练了一个线性支持向量机SVM。对于特征,我们使用了提取置信度、参数长度和关系以及部分语音标签等。为了保证自动分类不排除合适的命题,我们对分类器进行了调整,以避免错误的否定。特别地,我们引入了类权重,以高比例的正类为代价提高了负类的精度。此外,我们还手动验证了一定数量最不确定的负类,以进一步提高性能。当20%的分类被手工验证和纠正时,我们发现我们的模型在350个标记的实例上训练,在不可见的150个实例上的负类达到了93%的精度。我们发现这是一个合理的自动化和数据质量的权衡,并将模型应用于完整的数据集。

分类器过滤掉了43%的命题,每个主题留下了1622个。我们手工检查了17000个最不自信的负类,并纠正了955个。我们还纠正了某些类型的元组的正类,因为我们知道分类器是不精确的。最后,每个主题平均有1554个命题(总共47000个)。

5.4 重要性标注

鉴于前面步骤中确定的命题,我们现在应用第四节描述的众包方案来确定它们的重要性。为了应对大量命题,我们将两个任务的设计结合起来:首先,我们对每个命题从5个众包工人收集了李克特分数,清理数据并计算平均分。然后,仅使用前100名命题(我们也将所有与第100个相同分数的命题相加,平均产生112个命题)。根据这些分数,我们对所有可能的成对比较中的10%进行了众包。使用TrueSkill,我们获得了100个最重要的命题的细粒度排序。

对于李克特分数,所有主题的平均一致性是0.80,而大多数比较的一致性是0.78。我们重复了三个随机选择的主题数据集,发现两者之间的Pearson相关系数为李克特分数为0.73 (Spearma 0.73),用于比较的为0.72 (Spearma 0.71)。这些数据表明,众包方法与TAC文档一样可靠地在这个数据集上工作。

总的来说,我们上传了53000个评分和12000个比较任务到土耳其机器人上,花费4425.45美元的费用。从100个最重要命题的细粒度排序中,我们选择了每个主题的前50个,在随后的步骤中构建一个摘要概念图。

5.5 命题修改

有一个可管理的命题数量,然后一个注释器应用一些直接转换来纠正Open IE系统的常见错误。首先,我们将在每一个参数中包含连接词的命题分解为每个连接的单独命题,而Open IE系统有时却不能这样做。其次,我们纠正了可能出现在参数或关系短语中的分词误差,尤其是在句子没有正确分段的情况下。因此,对于我们的概念图,我们有一组高质量的命题,由第一个转换所组成,平均每个主题有56.1个命题。

5.6 概念图构建

在最后一步中,我们将一系列重要命题连接起来,形成一个图表。例如,给出以下两个命题

(学生,可以借,斯坦福贷款)

(学生,没有,信用历史)

可以很容易地看到,尽管第一个参数略有不同,这两个标签描述学生的概念,使得我们可以用学生、斯坦福带宽和信用历史概念构建一个概念图。因此,标注任务涉及到决定哪些可用的命题包括在映射中,哪些概念要合并,何时合并,哪些可用标签可以使用。由于这些决策高度依赖于彼此,并且需要上下文,因此我们决定使用专家标注者而不是众包子任务。

标注者给出了主题描述和最重要的命题排序。使用一个简单的标注工具提供的可视化图形,他们可以一步一步地连接这些命题。要求他们给出25个概念,即概念图的推荐的最大值(Novak and Canas ˜ 2007)。此外,他们更喜欢更重要的命题,并确保连通性。在连接两个命题时,要求他们保留对两个命题都合适的概念标签。为了支持标注者,该工具使用了ADW (Pilehvar et al.,2013),这是一种最先进的语义相似方法,可显示可能的连接。该标注是由具有NLP背景的研究生在得到了指导方针和工具介绍后,并对一个例子进行了标注后执行的。

如果一个标注者不能连接25个概念,那么她可以创建三个与自由定义的标签的合成关系,使图稍微抽象。平均而言,构建的图有0.77个合成关系,主要是连接概念,它们的关系太明显而无法在文本中明确表述(例如,蒙特梭利教师和蒙特梭利教育之间)。

为了评估这个标注步骤的可靠性,我们有两个标注者创建的前三个图。我们将选择命题的任务转化为在图作为二元决策任务,并观察到84%的一致(κ= 0.66)。第二,我们将概念的加入判决建模为一个在所有成对共同概念上的二元决策,观察到95%的一致(κ= 0.70)。最后,我们比较概念标签标注者来决定那个被包括在最终的图中,观察到85%的一致性(κ= 0.69)。因此,标注显示了实质性的一致(Landis and Koch 1977)。

达尔豪斯大学信息管理:达姆施塔特工业大学(10)

6 语料库分析

在这一节中,我们描述新创建的语料库,该语料库除了具有概念图形式的摘要外,还有几个方面不同于传统的摘要生成语料库。

6.1 文档集群

大小 这个语料库包含30个不同主题的文档集群。它们每个包含大约40个文档,平均有2413个标记项,这导致了平均集群大小为97 880个标记项。用这些特征,文档集群比有十个文档的DUC集群大15倍,比有25个文档的集群大5倍(见表2)。此外,这些文档在长度方面可变,其(长度可调)标准差是其他语料库的两倍。有了这些属性,语料库就代表了对现实应用场景的一个有趣的挑战,在这个场景中,用户通常需要处理超过10个文档。

达尔豪斯大学信息管理:达姆施塔特工业大学(11)

表2 与经典语料库相比,主题集群(标记项的大小,含标准偏差的平均值)

类型 因为我们使用了一个大的web爬虫作为我们语料库的来源,因此它包含了各种类型的文档。为了进一步分析这个属性,我们从语料库中抽出50个文档作为样本进行分类。其中,我们发现了专业写作文章和博客文章(28%),家长和孩子教育材料(26%),个人博客文章(16%),论坛讨论和评论(12%),评论链接集合(12%)和科学文章(6%)。

文本异质性 除了各种类型,文档在语言使用方面也有所不同。为了捕获该属性,我们参考Zopf等人(2016)的工作,并计算每个主题在一个文档的单词分布和其余文档中的单词分布之间的平均Jensen-Shannon散度。这个值越高,文档之间的语言差别越大。我们发现,所有话题的平均分歧为0.3490,而在2004年的DUC为0.3019,TAC 2008A为0.3188。

6.2 概念图

如表3所示,30个参考概念图中的每一个都有25个概念、24到28个关系。概念和关系的标签平均由3.2个标记项组成,而后者的字符要短一些。

达尔豪斯大学信息管理:达姆施塔特工业大学(12)

表3 概念图大小(含标准方差的平均值)

为了更好地了解什么样的文本分割已经被用作标签,我们会自动地用他们的部分语言来标记他们,并用依赖解析器来确定他们的头。概念标签倾向于以名词(82%)或动词(15%)为首,同时也包含形容词、介词和限定词。另一方面,关系标签几乎总是由一个动词(94%)来控制,并包含介词、名词和语助词。这些分布非常类似于Villalon等人(2010)对其(单文档)概念图语料库的报道。

通过分析映射的图形结构,我们发现它们都是相连的。他们平均有7.2个中心概念,有多于一个关系,而其余的则只有一个命题。我们发现,获得更高数量的联系意味着妥协其重要性,即包括不重要的命题,并决定反对它。

达尔豪斯大学信息管理:达姆施塔特工业大学(13)

7 基线实验

在本节中,我们简要描述一个基线和我们发布的含有详细文档及语料库的评估脚本。

基线方法 受到先前在概念图生成和关键词提取等工作的启发,我们实现了一个简单方法。对于一个文档集群,它执行以下步骤:

1.提取所有NPs作为潜在的概念;

2.合并潜在概念,它的标签匹配于一个概念;

3.对于一个句子中共同出现的每一对概念,如果他们包含一个动词,则在两者之间选择标记项作为其潜在关系;

4.如果一对概念有多个关系,则选择一个带有最短标签的关系;

5.给每一个概念分配一个重要性分数,并对它们进行相应的排序;

6.在所有提取的概念和关系中,找出得分高的25个概念的连通图。

对于第5条,我们训练了一个二元分类器来识别所有潜在概念集合中的重要概念。我们使用常用的特征进行关键字提取,包括位置、频率和长度,而用Weka的随机森林(Hall et al.,2009)实现作为模型。在推理时,我们使用分类器的置信度作为一个正分类的分数。

在步骤(6)中,我们从所有的提取的概念和关系的完整图开始,并使用启发式找到一个连接的子图,满足25个大小限制以及高得分的概念:我们迭代式删除最弱的概念,直到只剩下一个连接组件25概念或少的用于摘要的概念图。这种方法保证了概念映射是连接的,但可能不会找到具有最高总重要性得分的概念子集。

评价指标 为了自动比较生成的概念图和参考图,我们提出了三个指标(精确度量的定义,请参阅发布的脚本和附带的文档)。作为一个完全由一组命题定义个概念图,我们可以计算生成和参考图命题组的精度、召回率和F1-scores。一个命题被表示为概念和关系标签的连接。严格的匹配是在词干提取后进行比较,只计算准确和完整匹配。使用METEOR (Denkowski and Lavie,2014),我们提供了第二个度量标准,它将同义词和释义纳入考虑范围,并进行部分匹配。最后,我们在图中所有命题连接之间计算了ROUGE-2 (Lin 2004)。这些自动措施可能与人的评估相辅相成。

结果 表4显示了基线的性能。对单一管道步骤的分析揭示了该任务主要瓶颈和其方法挑战。首先,我们观察到大约76%的黄金概念被提取(步骤1 2)所覆盖,而前25个概念(第5步)只包含17%的黄金概念。因此,内容选择是一个主要挑战,源自于语料库的大集群规模。其次,在最后的图中包含了17%的黄金概念(第6步),严格的命题匹配得分较低,表明关系抽取的表现不佳(第3步),这些错误沿着管道的传播导致了整体的低分数。

达尔豪斯大学信息管理:达姆施塔特工业大学(14)

表4 测试集上的基线性能


达尔豪斯大学信息管理:达姆施塔特工业大学(15)


8 结论

在这项工作中,我们提出了一个低语境重要性标注,一个新的众包方案,我们使用它来为基于概念图的MDS创建一个新的基准语料库。该文集提供了大量异构web文档的文档集群,构成了一个具有挑战性的摘要生成任务。我们与语料库一起提供了基线方法实现和评估脚本,并希望我们的努力有助于未来研究这种摘要生成的方法。

后台回复”论文原文“获取论文原文下载链接!!!

猜您喜欢: