文章目录
- abstract
- 1.Introduction
- 2.2. Supervised Machine Learning Approaches to Relation Extraction
- 2.1. Statistical Learning Approach
- 2.1.1 Feature-based approaches to RE
- 2.1.2 Kernel-based approaches to RE
- 2.2. Relational Learning Approach
- 2.2.1. Inductive Logic Programming
- 2.2.2 Ontologies
- 2.2.3 ILP-based systems for RE
- 2.2.4 Qualitative Comparison of ILP-based RE systems
- 3. OntoILPER: An ILP-based System for RE
- 3.1.1 Global RE Process
- 3.1.2 Overview of OntoILPER Architecture
- 3.2 Graph-based Sentence Representation and Graph Reduction Component
- 3.2.1. Graph-based Model for Sentence Representation
- 3.2.2. Graph Reduction
- 3.2.3. Relational Representation vs. Vector Representation.
- 3.3. Background Knowledge Generation Component
- 3.4. ILP-based Rule Learning Component
- 3.5. Rule Application Component
- 3.6. The Role of the Domain Ontology
- 4. Experimental Evaluation
- 4.2 Optimal ProGolem Parameters
- 4.3 Experimental Setup
- 4.3.1. Evaluation Settings: Cross-Validation and Cross-Corpus
- 4.3.2 Selected RE Systems for Comparison
- 4.3.3 Comparative Cross-Validation Evaluation
- 4.3.4 Comparative Cross-Corpus Evaluation
- 4.4 OntoILPER Limitations
Lima, R., et al. (2019). “A logic-based relational learning approach to relation extraction:The OntoILPER system.” Engineering Applications of Artificial Intelligence, Elsevier 78: 142-157.
- 机器学习中可能的函数构成的空间称为假设空间
abstract
关系提取(RE)是检测和表征文本中实体之间的语义关系的任务,在过去的二十年中,尤其是在生物医学领域,它已变得越来越重要。已经使用有监督的机器学习技术发表了许多有关关系提取的论文。这些技术大多数依赖于统计方法,例如基于特征的方法和基于树核的方法。这种统计学习技术通常基于用于表示示例的命题假设空间,即它们采用特征的属性值表示。这种表示形式有一些缺点,特别是在复杂关系的提取中,这需要有关所涉及实例的更多上下文信息,即,它不能从解析树中有效捕获结构信息而不会丢失信息。在这项工作中,我们介绍了OntoILPER,这是一种基于逻辑的关系提取关系学习方法,该方法使用归纳逻辑编程以符号提取规则的形式生成提取模型。OntoILPER受益于丰富的示例关系表示,可以缓解上述缺陷。出于一些原因,我们提出的关系方法似乎比统计方法更适合于关系提取。此外,OntoILPER使用领域本体来指导背景知识生成过程,并用于存储提取的关系实例。在来自生物医学领域的三个蛋白质-蛋白质相互作用数据集上评估了诱导提取规则。将OntoILPER提取模型的性能与其他最新的RE系统进行了比较。令人鼓舞的结果似乎证明了所提出解决方案的有效性。
- 关系抽取
- 统计方法(主流)
- 基于特征的方法
- 基于树核的方法
- 基于用于表示实例的命题假设空间
- 缺点:复杂关系的抽取需要更多的上下文信息
- 也就是,无法从解析树中有效的捕获结构信息而不丢失
- 基于逻辑的方法
- OntoILPER(本文)
- 归纳逻辑编程(Inductive Logic Programming)以符号提取规则的形式生成提取模型
- 受益于丰富的实例关系表示,可以缓解上述缺陷
- 更适合关系抽取
- 利用领域本体知道背景知识生成过程
- 专业领域的(生物领域)
- 用于存储提取的关系实例
- OntoILPER(本文)
- 统计方法(主流)
1.Introduction
- IE
- NER:识别并分类
- RE
- 检测:两个实体是否有关系
- 分类:是什么关系
- 大多:二元关系,两个实体之间的关系
- 方法
- 基于监督的统计机器学习方法,例如基于特征和基于树核的方法
- 缺点:复杂关系的抽取需要更多的上下文信息
- 也就是,无法从解析树中有效的捕获结构信息而不丢失
- (不能充分表达)
- 缺点:复杂关系的抽取需要更多的上下文信息
- 关系学习方法—基于逻辑的方法( Inductive Logic Programming [Muggleton, 1991] )
- 关系学习方法:
- [Furnkranz等,2012]。
- 可以从相当复杂的数据结构(例如图形或多个表)生成分类模型
- OntoILPER(本文)
- 引入符号规则的监督学习
- 对象:从文字语料中提取二元关系
- 归纳逻辑编程(Inductive Logic Programming)以符号提取规则的形式生成提取模型
- 受益于丰富的实例关系表示,可以缓解上述缺陷
- 更适合关系抽取
- 利用领域本体知道背景知识生成过程
- 专业领域的(生物领域)
- 用于存储提取的关系实例
- 假设:
- 自动获取的由一阶谓词表示的大量语言知识,
- 结合能够诱导表达性提取规则的基于逻辑的关系学习技术,
- 可以生成高度准确的关系提取模型。
- OntoILPER的假设空间(表达):
- 不仅以表示示例结构方面的关系特征的形式集成了有关节点属性和关系的信息,
- 还可以由学习组件系统地进行探索
- 另一个贡献:使用领域本体来定义要提取的关系以及本体填充population的目的
- 使用领域本体来定义要提取的关系
- 用作背景知识,为表示结构与RE任务相关的实例提供高度表达的关系假设空间
- 本体填充population的目的
- 从文本中提取的实例可以转换为领域本体中相应的本体实例(从而丰富本体)
- 使用领域本体来定义要提取的关系
- 与许多RE相反:
- 允许将有关领域的先验知识集成到提取规则的归纳中
- 当做减少搜索空间的约束
- 允许将有关领域的先验知识集成到提取规则的归纳中
- 思想:
- RE任务应通过推理实例的结果特征来实现
- 句子的 一个丰富的关系表示模型应定义结构特征
- OntoILPER的RE的假设:
- 当学习有丰富的关系模型表示的对象的属性时,特征构造可以通过单个对象的结果及其与其他对象的关系来指导
- 关系学习方法:
- 基于监督的统计机器学习方法,例如基于特征和基于树核的方法
- 生物领域
- 蛋白质(mention)识别
- PPI(蛋白质之间的相互作用)
信息提取(IE)是文本挖掘中的重要任务,其目标是发现和结构化半结构化或非结构化文档中的信息,而忽略不相关的信息[Jiang,2012]。有两个主要的子任务IE:命名实体识别(NER)和关系提取(RE)。NER旨在从文本中识别命名的实体,并将其分类为一组预定义的实体类型,例如人员,组织,位置等。此类实体类型对于许多应用程序领域最为有用[Turmo等,2006]。
RE由两个相关的子任务组成:检测和表征文本中(命名的)实体之间的语义关系。第一个子任务负责确定两个给定实体之间的关系是否成立,而第二个子任务指的是将关系类型标签分配给特定关系实例的分类问题。关于RE的大多数工作都集中在二元关系上,即两个实体(论元)之间的关系。
NER和RE已广泛应用于从生物医学文献中迅速增长的出版物中提取有用的信息。例如,NER已被用于识别蛋白质名称(提及),在生物信息学研究中它被认为是至关重要的。生物医学领域中另一个普遍解决的子任务是蛋白质-蛋白质相互作用(PPI)[Quian&Zhou,2012],它基于先前NER阶段的结果,旨在寻找句子中的蛋白质对,从而将一种蛋白质描述为调节或约束对方。通常,大多数最新的RE方法,尤其是PPI都是基于监督的统计机器学习方法,例如基于特征和基于树核的方法。此类方法基于用于表示示例的命题假设空间,即它们采用属性值(命题)表示形式,该表示形式具有一些限制,尤其是在提取复杂关系时,通常需要更多有关所涉及实例的上下文信息。换句话说,这种表示不能有效地从解析树中捕获结构信息而不会丢失信息[Choi等,2013]。这种对RE的统计机器学习方法的替代方法是关系学习方法,它能够从相当复杂的数据结构(例如图形或多个表)生成分类模型[Furnkranz等,2012]。
我们的工作假设是,假设自动获取的由一阶谓词表示的大量语言知识,结合能够诱导表达性提取规则的基于逻辑的关系学习技术,可以生成高度准确的关系提取模型。此外,我们争论了两个主要思想:RE任务应通过推理示例的结构特征来执行,而句子的丰富关系表示模型应定义结构特征。
本文介绍了OntoILPER,这是一个基于受监督学习者的RE系统,该系统引入了从文本语料库中提取实体之间的二进制关系的符号规则。OntoILPER受益于丰富的示例关系表示,克服了一些基于表示性较低的假设空间表示示例的当前RE系统的缺点。实际上,OntoILPER假设空间不仅以表示示例结构方面的关系特征的形式集成了有关节点属性和关系的信息,而且还可以由学习组件系统地进行探索。
OntoILPER对RE的另一个重要贡献涉及使用域本体来定义要提取的关系以及本体填充的目的。在前者中,领域本体被用作正式的背景知识,为表示结构与RE任务相关的示例提供了高度表达的关系假设空间。在后者中,从文本中提取的关系实例可以转换为领域本体中的相应本体实例。
最后一项任务也称为本体人口[Petasis等,2011]。与许多RE系统相反,OntoILPER允许将有关领域的先验知识集成到提取规则的归纳中。实际上,在搜索和规则归纳过程中,领域知识都可以有效地用作减少搜索空间的约束。来自生物医学领域(PPI)的三个RE数据集的经验结果表明,由于一些我们在此讨论的原因,与某些统计学习方法相比,OntoILPER是一种有价值的替代RE方法,本文的其余部分结构如下:第2节回顾了基于监督机器学习的最先进的RE系统以及本文所讨论的有关本体和归纳逻辑编程的基本概念。在第3节中,我们将概述OntoILPER功能架构,重点是其主要组件。第4节报告并讨论了对来自生物医学领域的三个数据集进行的比较实验的结果。最后,第5节总结了本文并概述了未来的工作。
2.2. Supervised Machine Learning Approaches to Relation Extraction
- 关系提取的监督学习
- 统计学习方法(常用)
- 关系学习方法
2.1. Statistical Learning Approach
- 统计学习方法(常用)
- 建模为分类模型
- 学习
- 预测
- 方法
- 基于特征
- 基于核
- 建模为分类模型
2.1.1 Feature-based approaches to RE
- 基于特征的方法
- 构建:关系实例–>集中特征的数值向量–>分类器(如SVM)
- 特征:
- 词汇特征
- 与实体相关的信息
- 句法分析树
- 语义信息中衍生的语言特征
- 缺点
- 特征多了难以计算
- 数据量增加了也难以扩展
- 难以有效地捕捉结构化的分析树的特征
- 这个很重要
基于特征的可再生能源构建方法是,首先将关系示例转换为代表几种特征的数值向量,然后采用支持向量机(SVM)[Joachims,1999]等机器学习技术进行检测和分类。将关系示例转换为一组预定义的关系类型。这样的方法通过利用从词汇知识,与实体相关的信息,句法分析树和语义信息中衍生的大量语言特征来获得最新的性能结果[Kambhatla,2004] [Zhou等,2005] [Giuliano等,2006] [Li等,2015] [Muzaffar等,2015]。数千个特征的利用在计算上是繁重的,并且不能随着数据量的增加而很好地扩展。此外,基于特征的方法难以有效地捕获结构化的分析树信息,这对于RE中进一步提高性能至关重要[Zhou et al。,2005]。
2.1.2 Kernel-based approaches to RE
- 基于kernel的RE
- 使用:核函数
- 内积
- 相似度
- RE中常用的核函数
- 基于树的核
- 树核是基于包含两个实体的通用子结构
- 希望可以计算树的相似度来隐式地利用结构化特征
- [Culotta and Sorensen,2004] [Airola et al。,2008] [Quian] &Zhou,2012] [Ma et al。,2015]
- 树:解析树–(语法树?可以获得语法结构化信息
- 性能好
- 缺点
- 树内核计算中的子树没有上下文[Zhou et al。,2007]
- 如何选择合适的树的跨度[Zhang et al。,2006]
- 复合内核:
- 多种内核的复合函数
- [Miwa et al., 2010] [Tikk et al., 2010]
- 可以同时有树核和基于特征的方法的优点
- Choi et al. (2009)
- 词法+上下文特征的复合内核
- 可以将实体类型信息与结构(语法)特征组合为单个的内核函数
- 缺点:仅根据单个节点的句子成分信息进行比较[Jiang,2012]
- 基于树的核
- 使用:核函数
基于内核的RE方法基于内核函数或简单的内核,这些函数定义了在某些基础向量空间中表示的两个观察到的实例的内部积。内核函数通常被视为两个输入向量之间相似度的度量,这些输入向量表示使用原始属性集的转换空间中的示例。在RE [Jiang,2012]中研究了以下两种主要类型的内核:
基于树的内核基于包含两个实体的通用子结构,以便通过直接计算两棵树之间的相似性来隐式地利用结构化特征,如[Culotta and Sorensen,2004] [Airola et al。,2008] [Quian] &Zhou,2012] [Ma et al。,2015]。基于树的内核通过处理解析树来探索各种结构化的特征空间,以便从示例中捕获语法结构化的信息。树形内核可以实现与基于特征的内核相当甚至更好的性能,这主要是由于树形内核在捕获某种程度上的关系实例的结构信息方面的独特优势。但是,在RE中应用基于树的内核存在两个主要问题。第一个是树内核计算中的子树没有上下文。因此,他们不考虑包含两个参数实体的目标子树之外的上下文信息[Zhou et al。,2007]。第二个问题涉及在RE中选择合适的树跨度,即与关联最短路径所包围的子树的树跨度链接,该最短路径将解析树中的两个相关实体链接在一起[Zhang et al。,2006]。
复合内核由不同内核的组合产生[Miwa等,2010] [Tikk等,2010]。复合内核主要在难以将各种功能都包含到单个内核中时使用,即它们可以集成基于特征和基于树内核的优点。Zhao和Grishman(2005)定义了几个基于特征的复合内核,以集成各种特征。在[Zhang et al。 [2006],作者提出了一种将卷积解析树内核与实体特征内核结合在一起的复合内核。最近,Choi等。 (2009)引入了一个复合内核,该内核通过扩展现有的复合内核来集成各种词法和上下文特征。他们用一系列词汇特征扩展了语法特征,以实现更准确的提取结果。先前的研究[Choi等,2009] [Jiang,2012]显示,复合内核比单个语法树内核具有更好的性能。这意味着实体类型信息可以与结构(语法)特征组合为单个内核函数。复合内核的缺点在于,仅根据每个节点的句子成分信息进行比较[Jiang,2012]。
2.2. Relational Learning Approach
- 关系学习方法
- 从复杂的数据结构(图形或多个表)生成分类模型[Fürnkranz等,2012]
- 常用方法:归纳逻辑变成ILP
- 统一表示语言:一阶谓词
- 表示:实例,背景知识和假设
- 可用的专家只是也可用作背景知识–>提升假设空间的表达能力
- 组件
- ILP
- 本体
称为关系学习的监督学习方法从复杂的数据结构(图形或多个表)生成分类模型[Fürnkranz等,2012]。在这种方法中,最广泛使用的学习技术之一是归纳逻辑编程(ILP),它采用一阶谓词作为示例,背景知识(BK)和假设的统一表示语言[Lavrac and Dzeroski,1994]。此外,在ILP学习期间,可用的专家知识可以用作进一步的BK,从而增加了假设空间的表达能力。在本节的其余部分,我们首先介绍本工作中讨论的基于ILP的RE的系统的两个主要组件:ILP和本体。然后,介绍了一些当前基于ILP的RE系统,然后对其进行了定性比较。
2.2.1. Inductive Logic Programming
- ILP
- 交叉点
- 归纳学习
- 从观察推论假设
- 逻辑变成:
- 表示形式和语义
- 归纳学习
- 目标:
- 在基于一些背景知识及子句(无变量的基本子句)表示的正例E+、负例E---->学习某个目标谓词的描述(或假设H)
- 归纳假设H:H ← h1 ∧ ··· ∧ hk
- hi:非冗余子句,包含所有正例,无负例
- 优势:
- 归纳模型的可读性
- 可以从结构或关系数据中学习
- 可充分利用背景知识
- 表达力强(与传统属性值语言相比,一阶谓词逻辑可以表示更复杂的概念)
- 交叉点
从理论上讲,ILP解决在归纳学习与逻辑编程的交叉点。从归纳式机器学习开始,ILP继承了从观察推论假设的技术发展。从逻辑编程中,它继承了其表示形式和语义。作为一种有监督的学习技术,ILP旨在基于一些BK以及两组通常由子句表示的正例(E +)和负例(E-)来学习某个目标谓词的有意描述(或假设H)。没有变量,即基本子句。归纳假设H表示为H ← h1 ∧ ··· ∧ hk形式的子句H的有限连集,其中每个hi是一个非冗余子句,它包含所有正例,没有负例[Muggleton (1995)。ILP成功的原因之一是归纳模型的可读性。此外,它具有从结构或关系数据中学习的能力,因此可以利用以BK表示的领域知识来获利。另一个有趣的优点是,与传统的属性值(零阶)语言相比,它可以使用一阶逻辑来表示更复杂的概念[Furnkranz等,2012]。
2.2.2 Ontologies
- 本体
- 概念化的明确规范
- 形式化知识的表示,可以由计算机处理大量任务,包括通信、互操作性、智能主体的通信和推理
- 特定领域或开放领域中的概念、属性、关系、约束、公理和实例的定义。
- 允许领域知识的重用,使领域假设更加明确。
- 可在信息抽取中使用
- 有多种用途
在最常被引用的本体定义之一中,Gruber断言本体论是概念化的明确规范[Gruber,1993]。本体是形式化知识的表示,可以由计算机处理大量任务,包括通信和互操作性(使用本体作为通用词汇),智能主体的通信和推理。用实际的术语来说,本体涵盖了在特定领域或整个语境中的概念,属性,关系,约束,公理和实例的定义。另外,它们允许域知识的重用,使域假设变得明确。几个研究人员已经证明了在IE过程中使用本体的兴趣。本体已被用于多种目的:在给定的领域中捕获知识[Nedellec&Nazarenko,2005],处理信息内容[Karkalesis等,2011],以及推理[Wimalasuriya&Dou,2009],仅举几例。
2.2.3 ILP-based systems for RE
- ILP-based systems for RE
- Kim et al. (2007)
- 提出了一个基于Aleph ILP系统的RE系统。
- 文本预处理:
- 它使用基于内存的浅解析器(MBSP)提供的NER,词性(POS),分词分析和语法功能分配(主题,对象,时间等)进行文本预处理。
- 数据集:使用蛋白质家族数据库PRINTS数据库中的一组句子来评估该系统。
- 评估任务:涉及提取蛋白质与其他生物实体(包括疾病,功能和结构)之间的关系实例。
- 结果:他们报告的结果达到了75%的精度,但对三个评估数据集中的两个数据集,召回率均不到30%。
- Horvath et al. (2009)
- 认为:依赖树是由表示图边缘的二元谓词组成的关系结构。
- 文本预处理组件:
- 同时基于GATE框架[Cunnighan等,2002]和斯坦福解析器[De Marneffe和Manning,2008]。
- 语义资源:WordNet [Fellbaum,1998],可从文本中找到的两个给定实体获得上位关系。
- 假设:作者假定一元谓词集的偏序由实体之间的层次结构定义,
- 一元谓词Person(X)比Physicist(X)谓词更笼统。
- 实现NRE:
- 生成规则:应用最小一般化(LGG)[Plotkin,1971]技术,他们生成了一组规则,表示为满足某些一致性标准的非递归Horn子句
- 所有规则必须覆盖最少数量的正例。
- 属性向量表示:所生成的规则用于为每个示例构造属性的二进制向量。
- 分类:将所得向量用于训练SVM分类器。
- 生成规则:应用最小一般化(LGG)[Plotkin,1971]技术,他们生成了一组规则,表示为满足某些一致性标准的非递归Horn子句
- Smole et al. (2012)
- 提出了一个基于ILP的系统,
- 任务:该系统学习用于从斯洛文尼亚语言中的地理实体定义中提取关系的规则。
- 作为组件被使用:他们的系统被用作空间数据推荐服务的组成部分。
- 提取五个关系:作者着重于提取在空间实体的1,308个定义中出现的五个最频繁的关系(“ isA”,“ isLocated”,“ hasPurpose”,“ isResultOf”和“ hasParts”)。
- 语言处理:
- 他们的自然语言处理(NLP)组件基于Amebis Slovene POS标记器。
- 分块检测:作者在斯洛文尼亚实现了一种用于分块检测的工具,该工具将Amebis已经标记的文本作为输入。
- 学习组件:该系统中的学习组件基于Progol ILP系统[Muggleton,1995]。
- Kordjamshidi et al. (2012)
- 任务: Spatial Role Labeling (SpRL)[Kordjamshidi等。等,2011]。
- 从文本中提取通用空间关系。
- (i)识别描述空间概念的词。
- (ii)这些词在空间设置中所起作用的分类
- 关系学习框架:kLog [Frasconi et al., 2012]
- 使用图形内核的基于内核
- kLog可以通过逻辑程序的形式从背景知识(BK)中获利
- 语言处理
- the Charniak Parser [Charniak and Johnson, 2005]:POS和依赖项解析
- 任务: Spatial Role Labeling (SpRL)[Kordjamshidi等。等,2011]。
- Alvis[Nédellec et al. (2008)]
- 任务:这是一个提取生物实体之间关系的RE系统。
- 语言处理:
- Alvis提供了基于Ogmios NLP框架的语义分析[Nazarenko et al。,2006],
- 该框架执行多个NLP子任务,包括生物实体的NER,POS标签,句法解析以及对生物域本体的语义映射。
- 学习组件:Alvis是基于LP-Propal([Alphonse and Rouveirol,2000]中提出的基于ILP的学习组件)。
- 输入:带注释的语料库,以引入适合标记域本体中发现的语义关系的提取规则。
- 依靠:术语词典来识别文本中的生物医学实体实例。
- 更新困难(不够活跃)
- Kim et al. (2007)
2.2.4 Qualitative Comparison of ILP-based RE systems
- 提供全面的NLP工具的
- Gate:领域无关
- Ogmios:针对生物医学领域
- 基于ILP的IE依赖于NLP任务
- 依赖关系解析
- SRL
- 使用本体
- Nédellec
- OntoILPER系统
- 可视作OBIE系统(基于本体的信息抽取)
- 提供了ILP和领域本体之间的协同作用
- ILP:能够生成符号提取规则
- 领域本体:可被OBIE充分利用一般化
- 基于属性值表示的核的方法比关系学习方法更受到欢迎
- 原因一:核方法效果好
- 原因二:ILP表达能力强但缺乏对其的实验评估
- (大概觉得基于逻辑的方法太复杂了?)
- 本文做了比较:将OntoILPER与最先进的核方法比较
- ILP的方法缺少数据集/或是量身定制的方法
- (ILP也没有新成果?)
表格1根据以下维度总结了上面介绍的基于ILP的RE系统的特征:(i)执行IE任务,无论是NER还是RE,(ii)在文本预处理中执行的NLP子任务,(iii)使用的NLP工具,(iv)使用的语言或语义资源,以及(v)ILP学习组件,(vi)评估数据集和(vii)本体的使用
于使用的自然语言工具,GATE在Horvath系统中的一个软件包中提供了一套全面的NLP工具。Ogmios框架是另一个综合的NLP平台,提供了几种自然语言工具,但它是针对生物医学领域量身定制的,而GATE是与领域无关的。
另外,值得注意的是,基于ILP的IE系统的趋势依赖于更深的NLP任务,例如完全依赖项解析[De Marneffe and Manning,2008]和SRL [Harabagiu et al。,2005]。同样,这并不奇怪,因为先前有关依赖关系解析和SRL的工作已被证明对IE非常有益[Jiang and Zhai,2007] [Harabagiu et al。,2005]。
考虑到外部资源,例如IE过程中使用的本体和语义叙词表,仅Hovarth等人。 (2010年)从WordNet获利。
每个研究的系统采用基于ILP的学习组件的不同实现
。此外,从实验设置的角度来看,其中一半使用相同域或不同域(Hovarth,Nédellec和OntoILPER)的多个语料库进行了重要的实验。
最后,关于本体的使用,只有Nédellec和OntoILPER系统可以从中获利
此外,与Tab中的大多数系统相反。 1,OntoILPER可以被视为OBIE系统,因为它提供了基于ILP的学习者与领域本体之间协同作用的所有好处:前者能够生成符号提取规则,而后者可以被OBIE充分利用一般化的过程。
综上所述,已经表明,使用属性-值表示的基于核的方法比关系式方法更受欢迎。一个可能的原因是,基于内核的可再生能源方法在新闻专线和生物医学领域的多个共享任务上均获得了最先进的性能[Li等人,2013 e Ma等人,2015]。另一方面,基于ILP的方法所使用的假设空间的更丰富的关系表示似乎是处理自然语言句子解析的图形表示的更自然的方法,这是由于其优势已在本教程的简介部分中进行了讨论。这篇报告。我们的调查揭示的另一个重要方面是,缺乏对基于ILP的RE解决方案的更深入的实验评估,该解决方案使用了相同域或不同域的多个基准数据集来获得更重要的发现和结论。
为了缓解这一差距,我们提出了基于ILP的RE系统OntoILPER,该系统利用BK从所研究领域的本体论元素中获利。此外,在来自生物医学领域的三个具有挑战性的基准RE数据集上对OntoILPER进行了评估。更准确地说,在这项工作的实验部分,我们使用基于内核的最新RE系统(而不是与OntoILPER紧密相关的基于ILP的RE系统)进行了比较评估。做出此决定的理由是基于以下事实:所选的基于内核的RE系统采用相同的实验设置和相同的公开基准RE数据集,从而可以与OntoILPER进行更直接,更公正的比较;与使用量身定制的或非公开可用的语料库进行评估的几乎所有基于ILP的RE系统相反。
3. OntoILPER: An ILP-based System for RE
如图1所示,OntoILPER由以模块化流水线架构排列的几个组件组成。核心组件集成了一个基于ILP的系统,该系统以符号形式生成提取规则。知识工程师可以轻松理解此类规则,知识工程师可以在规则归纳任务的后期阶段对其进行完善,以改善整个提取过程。此外,提取符号规则可以自动转换为其他规则形式,例如SWRL [Horrocks等,2010]。
- OntoILPER
- 组件以流水线架构排列
- 核心组件:基于ILP的系统
- 以符号形式生成提取规则
- 人可理解
- 可对其完善来改善
- 可自动转换为其他规则形式
- 以符号形式生成提取规则
3.1.1 Global RE Process
- 预处理:
- 使用NLP工具来生成注释,
- 注释作为一阶谓词的示例的图的自动表示
- RE
- 提取规则归纳阶段
- 输入:带注释的学习语料
- ILP从输入中提取一组规则
- 提取规则应用阶段
- 将归纳的规则集应用于未显示围挡中存在的候选实例(实体和关系)
- 先分类
- 再将其填充到领域本体中(下个阶段)
- 提取规则归纳阶段
在OntoILPER中,RE过程在两个不同的阶段中执行,如图1所示。首先,在“提取规则归纳”阶段中,一般ILP系统从作为输入给出的带注释的学习语料库中得出一个理论(一组规则)。然后,在“提取规则应用程序”阶段,将诱导规则集应用于未显示文档中存在的候选实例(实体和关系),以便在填充领域本体之前对它们进行分类。在上面提到的两个阶段中,都进行了一个预处理阶段,其中使用了几种NLP工具来生成语言丰富的语料库注释。然后是作为一阶逻辑谓词的示例的基于图的自动表示。
3.1.2 Overview of OntoILPER Architecture
- nlp处理组件
- Stanford CoreNLP
- 句子拆分,标记化,词性(POS)标记,词形化(确定单词的基本形式),NER和依赖项解析
- OpenNLP:
- 分块分析
- 结果:在XML文件中序列化
- Stanford CoreNLP
- 基于图的句子表示
- 图归约组件
- 背景知识生成组件
- 输入:标注的文档,领域本体
- 功能:生成相关特征并表示
- 生成的特征–>以Prolog factual base实现的背景知识
- ILP规则学习组件:
- 输入:带注释的示例
- 功能:归纳出类似Horn的提取规则
- 提取规则:遵循Prolog谓词的相同语法
- 规则应用程序组件:
- 在Prolog factual base(背景知识)上应用规则
- 归纳规则来自:从新文档中产生的(没用过的)
- (看图感觉归纳规则来自BK和提取的两个部分?)
- 本体填充
- 该组件将关系的新实例存储为领域本体类的实例。
自然语言处理组件。 OntoILPER集成了Stanford CoreNLP4,用于执行以下NLP子任务序列:句子拆分,标记化,词性(POS)标记,词形化(确定单词的基本形式),NER和依赖项解析;和OpenNLP5工具,用于分块分析。对于言语和名义语块,我们将其最右边的标记视为head元素。上面列出的所有语言分析都在XML文件中序列化,该XML文件包含输入语料库的带注释的丰富版本。
基于图的句子表示和图归约组件。该组件负责OntoILPER管道中的两个紧密相关的处理任务:基于图的句子表示和图归约。
背景知识生成组件。该组件自动从一组带注释的文档和域本体中生成并表示相关功能,并作为输入。生成的特征将转换为以Prolog事实基础实现的BK。
ILP规则学习组件。它依靠ILP从带注释的示例中得出类似Horn的提取规则。提取规则遵循Prolog谓词的相同语法。
规则应用程序组件。它根据从规则学习阶段未使用的新文档生成的Prolog事实基础上应用归纳规则。结果,识别并提取了新的关系实例。
3.2 Graph-based Sentence Representation and Graph Reduction Component
3.2.1. Graph-based Model for Sentence Representation
- 句子表示
- 基于图的关系模型
- 使用句子的结构和属性特征
- 这些特征:共同描述了对实体和关系的mention
- 被视作关系的或逻辑的谓词。
- 功能:可在概念实体(类和关系的实例)之间指定二元关系
- 候选实例:句子中每一个主要短语组分(名词,短语)
- 这些短语都有可能引用:领域本体定义的真实概念
- 给定句子,关系模型可以表达给定句子的任何语法结构
- 图G:句子S->三元组(映射)
- 候选实例:句子中每一个主要短语组分(名词,短语)
- 原理:
- 对于同一个句子两个实体之间的关系的建立:通过他们在图中的路径
- 编码:
- 对单个词的句法属性
- 短语成分之间的予以关系
- 两种语言分析–>构成了这个模型
- Chunking Analysis(分块)
- 定义:实体的边界及名词、动词、介词短语的头部(核心)成分
- 动词短语–可能是关系的候选者(介词也有可能)
- 名词短语–可能表示实体或类的实例
- 定义:实体的边界及名词、动词、介词短语的头部(核心)成分
- Dependency Analysis(依赖)
- 短语的结构分析–>句子的类型化依存分析
- 由此产生依赖图(基于依赖关系语法的全路径解析算法的结果)
- 依赖关系分析(斯坦福依赖解析器
- 分块分析
- 语素句法特征(节点属性)
- 命名实体属性、
- 标记二元关系或谓词
- 可以通过给论元(括号里的自变量)添加约束来丰富–>产生了新的二元关系
- located(X,Y):约束X是人,Y是地名
- 链接:新的二元关系由OntoILPER归纳过程用来将句子中的词与领域本体中的类和关系链接起来。
- 可以通过给论元(括号里的自变量)添加约束来丰富–>产生了新的二元关系
- 类或关系的实例:图中的节点或边
- 节点有很多属性:如本体类标签
- 关系特征:句子中单词之间的语法依赖关系(可用于从句子中归纳提取规则)(被认为是)
- OntoILPER的RE的假设:
- 当学习有丰富的关系模型表示的对象的属性时,特征构造可以通过单个对象的结果及其与其他对象的关系来指导
- Chunking Analysis(分块)
OntoILPER使用基于结构和属性的句子的基于关系的(基于图的)句子模型,这些结构和属性共同描述了对实体和关系的提及。这些特征被视为关系或逻辑谓词。在这种用于句子表示的关系模型中,可以在概念实体(类和关系的实例)之间指定二元关系:句子中的每个主要短语组成(名词和口头短语)都被视为提取的候选实例。换句话说,所有表达单个标记或短语的短语都可能引用
这种用于句子表示的关系模型基于这样的原理:例如,可以通过此图中的实体之间的路径来获得同一句子中两个实体之间的关系的建立,该关系对单个单词的两种形态-句法属性进行编码,以及词组成分之间的语义关系[De Marneffe and Manning,2008]。在下文中,我们描述了两种语言分析,它们构成了提出的基于图的句子表示模型。
(i)分块分析。分块分析用于定义实体边界以及名词,动词和介词短语的头部(核心)成分。例如,考虑句子“纽约CNNfn新闻台的Myron Kandel”。图2显示了对该句子执行分块分析后获得的该句子的头部标记。通常,口头短语可能是关系的候选者,而名词短语则可以表示实体或类的实例。
(ii)依赖性分析。依存关系分析[Kruijff,2002]包括从短语结构分析生成句子的类型化依存关系分析,并生成依存关系图[De Marneffe and Manning,2008]。依赖关系图是基于依赖关系语法的全路径解析算法的结果[Jiang and Zhai,2007],其中语法结构用图4表示。图4显示了上面介绍的句子的关系模型的一个实例这是通过整合:(i)带有斯坦福依赖解析器生成的折叠的依赖关系(例如prep_on)的依赖关系分析而获得的; (ii)分块分析(粗体的头部标记),即句子中标记的排序(NextToken边),(iii)作为节点属性的形态语法特征(灰色箭头),以及(iv)命名实体属性。根据图4所示的示例,可以标识一组二进制关系或谓词,包括det(Newsdesk,the),nn(Newsdesk,CNNfn),prep_at(Myron-Kandel,Newsdesk),prep_in(MyronKandel,New -约克)。
二进制关系及其自变量的这种集合可以通过对自变量类型的附加约束来进一步丰富。这样的附加二进制关系由OntoILPER归纳过程用来将句子中的术语与领域本体中的类和关系链接起来。为了说明这一点,请考虑要学习的目标关系,例如,如图4所示的located(X,Y),则第一个参数X应该是Person类的实例,而第二个参数Y应该是Person类的实例。域本体中Location类的实例。因此,在此提出的关系模型中,类和关系的实例可以分别视为节点和边。此外,每个节点可以具有许多属性,包括本体类标签。从OntoILPER中的RE任务的角度来看,句子中单词之间的语法依存关系被认为是关系特征,可以在归纳句子中的符号提取规则时加以利用。此外,OntoILPER的RE方法基于以下假设:当学习由丰富的关系模型表示的对象的属性时,特征构造可以通过单个对象的结构及其与其他对象的关系来指导。
3.2.2. Graph Reduction
- 图规约策略:图规约的启发式规则
- 用于表达富句标注
- 句子的依赖图–>替换为小的依赖图(小则通用–泛化)
- 规约步骤:面向实体,在依赖图中,寻找实体周围最小的上下文相关的信息
- 主要思想:图规约规则来加速学习–>用更小更通用的图来限制假设空间和增加召回率
- 规则:Ri : {Ci} → {Ai}
- Ci:以对节点属性的约束来定义
- POS标签,其传入传出边的类型,父节点。。。
- Ai:对应的操作,用于删除边
- Ci:以对节点属性的约束来定义
- 功能:
- 发现更通用的提取规则
- 减少了假设空间的搜索,从而减少了学习时间
我们在[Lima et al。,2013]中提出了几种基于启发式的规则,用于减少表示富句注释的图,如图4所示。更具体地说,我们的图归约策略用较小的句子版本替换句子的依存关系图。从它试图保留依赖图中的实体周围的最小相关上下文信息的意义上来说,该图简化步骤是面向实体的。关键思想是通过应用几种图形还原规则来加快学习阶段,这些规则限制了假设空间并通过启用更通用的较短图形来增加召回率。规则的格式为Ri:{Ci}→{Ai},其中Ci表示条件部分,主要由对节点属性(包括其POS标签,其传出/传入边缘的类型,其父节点等)的约束来定义; Ai是应用于匹配节点的一系列操作,用于从图形中删除一些边缘。我们请读者参考[Lima et al。,2014a]来定义此类规则。如我们先前的工作[Lima et al。,2014a]所报道的那样,这种图约简策略能够发现更通用的提取规则,因为它们被证明对改善OntoILPER在两个领域的性能非常有用:生物医学和新闻。另一个优点在于,简化图减少了在假设空间中的搜索,从而减少了学习时间。
3.2.3. Relational Representation vs. Vector Representation.
- 向量表示
- 一行一个实例,一列一个属性
- 添加列来增加特征
- 基于核的方法
- 句子的解析树–>特征向量
- 转换过程中,一部分信息丢失了
- 所有实例用一个表示形式(使用一样的特征,一个表)
- 实例差异大的情况下,会出现属性值缺失
- 这种缺失(稀疏)影响很大
- 句子的解析树–>特征向量
- OntoILPER:
- 每个实例相互之前的表示独立,稀疏性降低
- 特点
- 考虑关系KB的能力
- 诱导规则的语言表达能力
在命题机器学习中,所有示例均由单个表表示,其中行表示示例,而列表示示例的属性。在此表格或基于矢量的表示形式中,通常通过添加新列作为其他数据列的功能来完成有关给定域的专家知识的合并。
RE的基于核的方法[Giuliano等,2007] [Jiang和Zhai,2007] [Li等,2015] [Muzaffar等,2015]以句子分析树的输入结构表示形式进行转换向量表示模型中的特征。通常通过在句子分析树上应用相似性函数来执行此转换。结果,在此转换过程中,部分关系知识(即结构信息)丢失了[Fürnkranz等,2012] [Jiang,2012]。实例的矢量表示的另一限制在于对所有实例具有唯一的表示格式的限制,即,为域中的每个元素创建一个特征,并且使用相同的特征来表征所考虑的所有实例。通常,由于示例之间的差异,大多数属性将包含空值,因此这导致数据表非常稀疏。然而,Brown and Kros(2003)指出,在探索深度知识时,此数据稀疏性问题甚至更为关键,这可能会给命题机器学习算法带来严重问题。相反,在OntoILPER中,每个示例都独立于其他示例表示。因此,代表实例的数据稀疏性问题大大减少了[Fürnkranz等,2012]。因此,通过采用一阶形式主义来表示BK和示例,可以减轻上述限制。这使得可以有效地表示本质上是命题或关系的许多信息源,而没有上述向量表示的缺点。而且,考虑到关系BK的能力和所诱导规则的语言表达能力是OntoILPER的独特功能。
3.3. Background Knowledge Generation Component
- BK生成组件
- 输入:上面的表示(特征)
- 领域本体指导
- 输出:Prolog factual base
- 实体关系图来构造特征(图五)
- 此ER模型显示了知识库中如何构造领域对象,包括文档,句子,短语和token
- 二元谓词生成:
- 类型约束下由ER模型定义的结构指导生成
- 与领域本体的关系或类链接
- 基本思想:特征的构造以实例的结构为指导
- BK(用户定义)
- 用户定义:用户可以指定任何形式的附加声明性知识来帮助规则诱导过程
- 目标:帮助规约过程,实现更好的规则概括
- 两个离散的数字谓词
- 令牌长度
- 块dist to root:句内块和主要动词(root)之间的距离
- 数值可手动调节
- 结构特征和属性特征
- 词法特征
- 分块特征
- 语义特征:(命名实体识别和附加的实体提及特征,类型等
- 结构特征
- 顺序
- 整体不分关系
- 语法依赖关系
- Prolog谓词:特征都会转换为Prolog谓词
- 一元谓词表示标识符
- 二元谓词对应于属性-值对和关系rel(arg1, arg2)
- 使用next/2二元谓词,该谓词将一个标记与其在句子中的直接后继标记联系
BK生成组件的主要目标是从上一节介绍的关系模型中识别并提取相关特征。在领域本体的指导下,该组件将生成的特征转换为Prolog事实基础,由基于ILP的学习者用作输入。
此外,可以通过图5中所示的实体关系(ER)图来构造生成的特征。此ER模型显示了知识库中如何构造域对象,包括文档,句子,短语和令牌。结合领域本体,由ER模型定义的结构可用于指导二进制谓词及其自变量的生成,这两个二进制谓词及其类型均受到附加约束。还生成其他二进制谓词,它们旨在将句子中的术语与领域本体中的类和关系链接起来。这里的基本思想是,当学习RE中的对象时,特征构造应以示例的结构为指导。在下文中,我们详细描述了建议的功能以及用户定义的BK。词法特征,它涉及到词、引理、长度和标记级的一般形态类型信息。由词性词性标记构成的句法特征;名词性、介词或动词性块的首词;单词在句子中出现的连续的POS标签的bi-gram和trigram;
分块的特点是将句子分成名词、介词和动词组,提供组块类型信息(名词性、动词性或介词)、组块头词及其与句子中主要动词的相对位置。
语义特征包括文本预处理阶段中已识别的命名实体,以及输入语料库提供的任何附加的实体提及特征。例如,在TREC数据集中,每个注释实体都有它的实体提及类型(人员、组织或位置)。
结构特征是句子表示的基于图的模型中连接所有其他特征的结构元素。它们表示(i)在输入语句中保持令牌顺序的令牌排序;(ii)令牌与包含它们的块之间的部分-整体关系,即,令牌分组在其对应的块中;块的排序由它们的头标记之间的边表示;(iv)句子中两个标记之间的语法依赖关系,根据斯坦福依赖关系解析器给出的单词之间的类型化依赖关系。
由于Prolog被用作OntoILPER、领域实体中示例的表示语言,
所有上述特性类型都转换为相应的Prolog谓词。我们使用表2中Person类的实例“Myron”演示了上述完整的特性集。对于表2中的大多数谓词,特性的一阶逻辑表示非常简单:Prolog中的一元谓词表示标识符,而二进制谓词对应于属性-值对和关系,例如rel(arg1, arg2)。与其他使用特征向量表示上下文窗口的机器学习方法(在句子中给定单词w的左右各有n个标记)不同,我们使用next/2二元谓词,该谓词将一个标记与其在句子中的直接后继标记联系起来,如表2所示。
在OntoILPER中,用户可以指定任何形式的附加声明性知识来帮助规则诱导过程。图6中显示的谓词也作为BK集成到OntoILPER中。这些用户定义的谓词包含两个离散谓词的数字谓词,包括令牌长度/ 2和块dist_to_root / 2:第一个谓词将令牌长度分为短,中或长大小,而第二个谓词将距离离散(以数字表示)标记和句子的主要动词(词根)之间。这些谓词中的数值是手动调整的。这种用户定义的谓词旨在实现更好的规则概括。
3.4. ILP-based Rule Learning Component
- ILP-based Rule Learning Component
- 集成了 ProGolem [Santos, 2010], [Muggleton et al., 2009](ILP)(自下而上)
- 把Progol 的从句构造[Muggleton,1995]与Golem的自下而上的控制策略[Muggleton and Feng,1992]结合
- 基于预测性设置:以ILP来构建分类模型
- 能学习长期的,不确定的目标概念或谓词
- 目标谓词的复杂性:
- 先验未知(取决于问题)
- 需要不确定的BK
- 目标谓词的复杂性:
- 覆盖集算法
- best_armg:波束搜索迭代ARMG(非对称相对最小泛化)算法
- 否定规约策略:删除了不必要的文字
- 对规约提取的规则的限制:
- 按上面定义的结构和属性特征来表达BK
- 格式正确
- 应该定义领域专家可以解释的语言模式
- 生成提取规则
- 学习中,搜索规则很费时
- 优化:ProGolem结构特殊,可以仅探索假设空间中包含高精度提取规则的部分
- 假设空间由两个假设之间有准顺序关系构成,可以在候选规则之间导航
- 偏倚:定界+可能出现的模式声明
- 模式声明
- bias偏倚:的常见类型
- 用于:
- 定义有效规则形式的句法约束
- 告知规则中谓词参数的类型和输入/输出模式[Santos,2010]
- ProGolem中的漠视生命
- head:目标谓词
- body:可能出现在规则主题部分的文字或原子
- 还对用作谓词参数的变量类型施加了限制:prolog谓词简单声明
- 归约规则。
- 符号分类器:图7示出了针对part_whole关系的两个导出规则。这样的提取规则在OntoILPER中被视为符号分类器,可用于分类新的未见示例。
- 集成了 ProGolem [Santos, 2010], [Muggleton et al., 2009](ILP)(自下而上)
OntoILPER中的规则学习组件集成了ProGolem [Santos,2010],[Muggleton等,2009],这是一种有效的自下而上的ILP学习器,能够学习复杂的不确定目标谓词。ProGolem将最具体的从句构造Progol [Muggleton,1995]与Golem的自下而上的控制策略[Muggleton and Feng,1992]结合在一起。它基于预测性设置,该预测性设置使用ILP来构建分类模型,分类模型表示为能够区分正例和负例的符号规则。根据Santos(2010)的观点,ProGolem在自上而下的ILP系统(如Aleph)方面具有优势,因为ProGolem能够学习长期的,不确定的目标概念或谓词。在许多实际应用中,例如从原子和键的描述中学习化学性质,目标谓词的复杂性通常是先验未知的,即,它取决于问题。这样的复杂性也需要不确定的BK。ProGolem(Santos,2010)中使用的基本覆盖集算法如下:ProGolem覆盖集算法
如上所示,ProGolem使用覆盖集算法来构建一个可能包含多个子句的理论。在此算法的每次迭代中,要选择初始种子示例e(第4行)的最高分值,ProGolem迭代构建新的子句,该子句调用[Hitzler]中提出的波束搜索迭代ARMG(非对称相对最小泛化)算法(第6行)。等人,2009]。然后,将进一步概括通过波束搜索找到的子句。为了从给定的子句C的正文中修剪文字,ProGolem采用了基于否定的归约策略(第7行),该策略删除了非必要的文字,即可以在不更改条款C的否定覆盖范围的情况下将其删除。 。最后,如果当前子句Ce达到预期的准确性得分(第8行),则将其添加到理论T中,并将其涵盖的所有示例从训练示例集中删除。有关ARMG和基于负数的约简算法的详细说明,请参见(Santos,2010)
ProGolem对诱导提取规则施加了一些限制[Santos,2010],如下:(i)它们必须根据第3.2节中描述的句子表示关系模型定义的结构和属性特征来反映BK; (ii)关于规则中变量的链接,它们必须格式正确,即,必须存在一串文字,将规则开头的输入变量连接到规则主体中的变量[ Santos,2010年],(iii)他们应该定义领域专家可以轻松解释的语言学家模式。接下来,将介绍与OntoILPER中的规则归纳相关的一般方面,然后提供模式声明和一些归纳规则的示例。
ProGolem对诱导提取规则施加了一些限制[Santos,2010],如下:(i)它们必须根据第3.2节中描述的句子表示关系模型定义的结构和属性特征来反映BK; (ii)关于规则中变量的链接,它们必须格式正确,即,必须存在一串文字,将规则开头的输入变量连接到规则主体中的变量[ Santos,2010年],(iii)他们应该定义领域专家可以轻松解释的语言学家模式。接下来,将介绍与OntoILPER中的规则归纳相关的一般方面,然后提供模式声明和一些归纳规则的示例。
生成提取规则。在OntoILPER中学习期间,在ProGolem必须执行的假设空间中搜索规则在计算上是昂贵的,因为有必要针对正例和负例测试每个候选规则。实际上,这是整个ILP学习过程中最昂贵的任务。为了加快学习速度,ProGolem会利用其特殊的结构智能地遍历假设空间,仅探索假设空间中包含高精度提取规则的部分。为此,假设空间由两个假设之间的准顺序关系构成,从而可以在候选规则之间进行有效导航[Muggleton&Feng,1992] [Santos,2010]。另外,ProGolem通过定界并通过可能出现的模式声明对可能巨大的假设搜索空间进行了偏倚,从而对最准确的提取规则进行了有效的搜索。
模式声明。模式声明[Muggleton&Feng,1992]是ILP系统(包括ProGolem)采用的最常见的偏见类型之一,用于定义有效规则形式的句法约束。它们还告知规则中谓词参数的类型和输入/输出模式[Santos,2010]。ProGolem提供两种类型的模式声明:head和body。前者(modeh)表示目标谓词,换句话说,是要诱导的有效规则的头部,而后者(modeb)约束可能出现在规则主体部分的文字或基础原子。模式声明还对用作谓词参数的变量类型施加了限制。此类类型仅由类型(值)形式的Prolog谓词简单声明,例如token(t_1)和chunck(ck_1),分别用作标记和块的标识符。
在模式声明定义的开头,符号“ 1”表示仅一个附带谓词实例可以出现在规则中,而“ *”表示任何数量的附带谓词可以出现在规则的主体部分中。例如,上面的第一个模式声明表示规则work_for的开头,即规则中仅允许目标谓词work_for(令牌,令牌)的一个实例,表示两个令牌之间的二进制关系。第三个模式声明表示谓词t_next(token,token),该谓词将令牌链接到句子中的下一个令牌。最后,符号“ +”和“-”限制了规则学习期间谓词(或文字)后面跟着谓词(或立即数)的方式。有兴趣的读者可以参考[Santos,2010] [Muggleton,1995],以获取有关ProGolem中模式声明的更多信息。在学习阶段,模式声明会严重限制潜在解决方案的数量,并确保仅生成格式正确的假设。在OntoILPER中,格式正确的假设定义为提供有关实体以及在其上下文中出现的单词的信息的子句。
3.5. Rule Application Component
- Rule Application Component
- 将规则用于之前生成的Prolog事实基础中,得到新的关系实例,加入到领域本体中
- 提取实例
- 本体填充
该组件的目标是将诱导规则应用于从新文档生成的知识库(Prolog事实基础)中,类似于规则学习阶段所使用的规则。结果,识别并提取了新的关系实例。然后,将提取的实例作为新实例添加到输入域本体中。此任务也称为本体填充。实际上,OntoILPER可以看作是一个本体填充系统。OWL API7用于实现本体填充服务。由于它作为OntoILPER的核心组件的重要性,接下来将详细介绍域本体所扮演的角色。
3.6. The Role of the Domain Ontology
- The Role of the Domain Ontology
- 训练中
- BK生成过程:从本体定义中引入规则的BK谓词的抽象来指导生成过程
- 探索到领域实体及其同义词,用作实体分类
- 规则生成:利用领域实体概括或专门化规则
- 利用本体概念之间的关系
- 从语料库中提取规则(依据领域本体标注)
- 领域本体:IE的结构化提取版本
- BK生成过程:从本体定义中引入规则的BK谓词的抽象来指导生成过程
- 应用中
- 将文本映射到领域本体中
- 将文本映射到领域本体中
- 训练中
训练模式:领域本体描述了由OntoILPER开发的领域和BK。该本体通过定义从中引入规则的BK谓词的抽象级别(类和超类)来指导BK生成过程。因此,在BK生成步骤中,将考虑领域本体的TBox元素(类和属性标签,数据/对象属性,分类关系以及非分类关系的域/范围)。换句话说,将领域本体集成到OntoILPER IE流程中符合某些最先进的OBIE系统所使用的本体知识的前三个级别,如[Karkeletis,2011]中所述: ,OntoILPER探索的本体资源包括领域实体(例如,人,位置)及其同义词。这些资源主要在OntoILPER中用于实体分类。在第二层上,域实体按概念层次结构进行组织,OntoILPER IE流程可利用该域实体来概括/专门化提取规则。在第三级,OntoILPER既利用概念的属性,又利用本体的概念之间的关系。此外,从语料库中获取提取规则,该提取规则先前已根据领域本体进行了注释。最后,领域本体可以看作是IE过程的结构化提取模板。
应用模式。 OntoILPER总体RE过程旨在将文本信息映射到领域本体。OntoILPER根据领域本体中相应的类选择和解释输入文本的相关部分。图8说明了此语义映射过程。
4. Experimental Evaluation
- 数据集
- the biomedical domain concerning proteinprotein interactions的三个
- Learning Language in Logic(LLL)[Nedellec,2005年]。
- 该数据集从涉及枯草芽孢杆菌转录的一组句子中介绍了基因相互作用任务
- HPRD50 [Fundel等,2007]。
- 它由人类蛋白质参考数据库(HPRD)引用的50个摘要的随机选择子集组成。
- 相互作用提取性能评估(IEPA)[Ding等,2002]。
- 该数据集由从PubMed信息库中提取的303个摘要组成,每个摘要包含一对特定的共生化学物质。
- Learning Language in Logic(LLL)[Nedellec,2005年]。
- the biomedical domain concerning proteinprotein interactions的三个
- PPI提取–>二分类
- 蛋白质对相互作用:+1
- 不相互作用0
- 评估:
- precision
- recall
- f1
- 对数据正负例不平衡敏感,所以不足以评估
- AUC
我们将PPI提取任务转换为二元分类问题,其中相互作用的蛋白质对被认为是积极的例子,而同一句子中的其他同时出现的对则是负面的。值得注意的是,相互作用是在蛋白质(实体)对的水平上进行标记的,从而可以在每个句子中注释多个实体对。尽管所有数据集都提供了有关已命名生物医学实体和蛋白质-蛋白质相互作用的注释,但是在许多方面,这些数据集存在显着差异。例如,它们在注释实体的范围方面有所不同,从蛋白质到基因,RNA和化学物质都不同[Tikk,2012]。此外,带注释的实体的覆盖范围还不完整,一些数据集指定了交互的方向,而另一些数据集则没有指定[Psysalo等,2008]。标签。图3总结了有关句子数量(#Sentences)以及正数(#E +)和负数(#E-)示例的PPI数据集的基本统计信息。
评估措施。我们使用Precision P,Recall R和F1度量的经典IR度量[BaezaYates和Ribeiro-Neto,1999]来评估本节中所评估系统的有效性。由于F1量度对训练集中正例和负例的不平衡数量敏感,因此被批评为F1量不足以提取PPI [Pyysalo et al。,2008]。因此,我们还根据[Airola等人,2008]中的建议,报告了曲线下面积(AUC)度量的结果。此外,为了与以前在相同的PPI数据集和共享任务上发表的结果进行公平比较,我们采用了[Tikk等,2010]和[Airola等,2008]中提出的相同的性能标准和实验设置。并且也被本节中引用的其他RE系统采用,即:蛋白质-蛋白质相互作用既被视为非类型提及,也被视为对称提及。评估前将自互动从语料库中删除;语料库提供了金和标准蛋白质(实体)注释。
4.2 Optimal ProGolem Parameters
- 最佳参数:{theory_construction =全局,evalfn =覆盖率,depth_i = 3,minprec = 0.5,minpos = 3,噪声= 0.3}
- 寻找方法
- (i)分离最相关的参数;
- (ii)在对上一步中选择的参数的少量值进行系统变化之后,获得对模型分类精度的无偏估计;
- (iii)选取在所有目标谓词中产生最佳平均预测准确性的值。
为了生成具有高分类精度的模型,首先必须找到最佳的学习参数。为了获得ProGolem的此类参数,我们遵循了[Kohavi and John,1995]中提出的方法,该方法建议了以下三个步骤:(i)分离最相关的参数; (ii)在对上一步中选择的参数的少量值进行系统变化之后,获得对模型分类精度的无偏估计; (iii)选取在所有目标谓词中产生最佳平均预测准确性的值。因此,进行了一些初步实验,以实现高精度结果并防止模型过度拟合。结果,稳定了ProGolem算法的以下最佳学习参数:{theory_construction =全局,evalfn =覆盖率,depth_i = 3,minprec = 0.5,minpos = 3,噪声= 0.3}。最后三个参数通过强加抽取规则必须覆盖最少数量的正样本(minpos)来避免过拟合。并达到最低精度(minprec)。最后,noise参数允许选择仅覆盖少数负面示例的规则。
4.3 Experimental Setup
4.3.1. Evaluation Settings: Cross-Validation and Cross-Corpus
- 10倍交叉验证在同一语料库
- 跨Corpus(CC)评估:
- 其中训练和测试数据集来自不同的分布,即我们在一个语料库上训练RE系统,并在另一个语料库上对其进行测试。
- OntoILPER:可以确认语料库中存在重叠的抽取规则或模式,并且可以评估OntoILPER生成的最终规则的泛化程度。
4.3.2 Selected RE Systems for Comparison
我们选择了六个RE系统,以与第4.1节中所述的相同生物医学数据集与OntoILPER进行比较。选择这些系统是因为它们在PPI提取方面取得了最佳性能,如[Tikk等,2010]所报道。所有基于内核的RE系统都使用SVM算法,并使用CV和CC方法进行了评估,并采用与我们相同的实验设置。我们宁愿选择与OntoILPER更紧密相关的基于内核的RE系统,而不是基于ILP的RE系统(请参阅第2.2节)。原因是,一方面,基于内核的RE系统采用相同的实验设置和相同的RE公共PPI提取数据集,从而可以与OntoILPER进行直接和公平的比较。另一方面,几乎所有基于ILP的RE系统都是使用量身定制的或非公开提供的语料库进行评估的,因此无法与OntoILPER进行直接比较。接下来简要描述所选的RE系统。
- SL [Giuliano等,2006]。浅语言内核(SL)仅基于两种类型的上下文特征:本地和全局。前者基于表面特征,包括标点,大写;后者基于实体的w尺寸窗口中的引理和POS标记等浅层语言功能。
- APG [Airola等,2008]。全路径图内核(APG)在解析树中计算所有可能长度的加权共享路径。路径权重由依赖关系的距离确定,该距离是关系中候选实体之间的最短路径。它使用带有POS标签,单词序列和沿依赖关系图中最短路径的加权边的依赖关系图作为功能。
- kBSPS [Tikk等人,2010]。 k波段最短路径频谱内核(kBPSS)结合了其他三个基本内核:适用于依赖关系树的语法树;基于边缘连接的树节点的序列的顶点遍历;以及APG的一种变体,它也考虑了相邻节点。
- Composite[Miwa等。 2009、2010]。 AkaneRE RE系统[Miwa等。 (2009)]是基于一个结合了其他三个特征的复合内核:一个词袋核,可计算两个无序词集之间的相似度;一个子集树内核,通过计算公共子树的数量来计算两个输入树之间的相似度;图核通过比较公共节点之间的关系来计算两个输入图之间的相似度。AkaneRE的改进版本[Miwa et al。,2010]在其解析器的输出上应用了一组简化规则,以从解析树中删除不必要的信息。
- SDP-CPT [Quian & Zhou, 2012]. The Shortest Dependency Path-directed Constituent Parse Tree (SDP-CPT) kernel uses the shortest dependency path between two proteins in the dependency graph structure of a sentence for reshaping the constituent parse tree.
- EOEP-CPT [Ma等,2015]。有效优化和扩展路径导向的成分分析树(EOEP-CPT)内核[Ma等,2015]是对SDP-CPT内核的改进。该内核通过应用可以优化和扩展给定句子中两种蛋白质之间最短依赖路径的处理规则来纠正解析错误。
4.3.3 Comparative Cross-Validation Evaluation
选项卡中的总体结果。图4显示,就F1度量而言,SDP-CPT在LLL数据集上具有最佳性能。对于相同的数据集,通过复合核方法获得了最高的AUC。就F1量度和AUC分数而言,OntoILPER的表现均优于HPRD50数据集上的所有其他系统。对于IEPA数据集,复合内核获得了最高的F1和AUC分数,而OntoILPER紧随其后。SDP-CPT内核显示在Tab中。 4来自Quian和Zhou(2012)。然而,在[Ma et al。,2015]中,作者报告说,通过增强的EOEP-CPT内核,F1比SDP-CPT内核的结果提高了1.2%。这组作者说,进行这种改进的主要原因是,当两个内核都使用相同版本的斯坦福解析器(v2.0.4)时,EOEP-CPT算法比SDP-CPT更精确和简洁。此外,Ma及其同事声称,EOEP-CPT算法可有效消除由依存依存关系引起的噪声干扰,同时保留关键信息。在Tab中所有比较的系统中。如图4所示,复合内核是唯一执行类似于OntoILPER的简化步骤的内核。顺便说一下,与[Miwa et al。,2009]报道的先前版本相比,配备了简化规则的Composite内核版本将F1度量提高了近4个点。此外,尽管Composite内核在IEPA语料库上获得了总体最高分,但该内核具有很高的计算复杂度和实现难度[Ma等,2015]。如第3.2节所述,基于OntoILPER图的转换方法还可以简化表示句子的图。如先前的工作[Lima et al。,2014a]所述,这种简化方法有助于最终诱导提取规则的整体性能提升(主要是在召回方面)。这项工作也证明了这一点,在该工作中,OntoILPER在所有PPI数据集上均获得了第二好的总体平均表现。OntoILPER简化方法与[Miwa et al。,2010]提出的方法有所不同,主要是因为简化规则的性质以及句子的目标句法构造。实际上,OntoILPER依赖于依赖解析器产生的类型化依赖,而Miwa及其同事的系统使用成分解析器。结果,关于目标实体和句子中主要从句的位置顺序,OntoILPER简化规则趋向于更简单,更灵活。另一方面,与基于依存解析器的输出的提取规则相反,基于组成解析器的提取规则必须考虑目标元素在句子中的确切位置[Buyko et al。,2011]。
4.3.4 Comparative Cross-Corpus Evaluation
- 学习规则的能力
总结了OntoILPER CC评估结果以及在[Tikk等,2010]和[Ma等,2015]中针对选定的PPI提取内核系统所报告的结果。它采用了与其他系统相同的实验设置,以便进行合理的比较。该实验的主要目的是回答有关OntoILPER学习规则的能力的问题,这些规则的适用范围超出了用于训练数据的特定特征。值得一提的是,基于内核的解决方案如Tab所示。 5是卷积内核,即它们利用示例的结构,即语法树或句子的依存关系图。他们的主要思想是通过计算两个子结构的相似性来计算两个给定示例的整体相似性。
讨论。表5上显示的用于PPI提取的系统的性能。 5显然取决于训练数据与测试数据之间的差异。这种差异包括独特的写作风格,技术细节水平或某些语言语法结构的频率等。结论是,由于训练和测试数据集中存在不同的特征,人们通常可以期望CC的性能比CV评估的性能低。此外,这些结果还表明,没有数据集是训练的错误选择。确实,仍需要进一步研究以更好地理解有关可再生能源系统的分析中数据集奇异特性的影响。总体结果显示在选项卡中。 5指出,从句子的关系模型给出的示例的基础结构也能够像卷积内核一样找到示例的最重要的特征,因此OntoILPER方法与基于内核的RE系统相当。换句话说,示例的关系模型同时考虑了词汇和句法特征(表示为有向连接图),能够从示例中捕获最重要的结构信息,而不会留下主要的关系特征。我们还强调指出,本节讨论的大多数比较的RE内核都是专门为PPI提取任务设计的,即它们考虑了句子结构的特殊性或在生物医学语料库中发现的风格偏好。这与域无关的OntoILPER相反。事实上,正如[Lima等人,2014b]所报道的那样,OntoILPER在新闻广播领域也取得了最先进的性能。因此,尝试改善OntoILPER在PPI提取上的性能的直接方法是使它具有针对生物医学实体的特定命名实体识别器,以及使用在生物医学领域数据集上训练的解析器。最后,OntoILPER令人鼓舞的结果表明它是一种有价值的替代RE方法,与基于内核的RE方法相比,它具有一些优点。
4.4 OntoILPER Limitations
- 限制
- 解析文本预处理:流水线,容易错误传递
- 高计算成本的学习
- 过拟合
解析文本预处理中的错误。 OntoILPER采用基于NLP的应用程序常用的流水线架构。众所周知,由于在句子的关系表示中引入了嘈杂的模式,这种架构易于解析错误,这可能会妨碍提取性能。实际上,对于某些领域,尤其是对于生物医学领域,句子的复杂性给自然语言解析器带来了挑战,自然语言解析器通常在由非技术性文本(新闻广播文本)组成的大规模语料库上进行训练。为了减轻解析错误,如[Pyysalo et al。 [2007年]和[Jonnalagadda等人,2009年],句子简化技术可以在不同领域的许多数据集中将自然语言解析器的平均准确度提高4%以上。这样的发现启发了我们的研究,将类似的方法应用于OntoILPER中的句子简化(cf.第3.2.2节)获得了与[Lima et al。,2014a]中讨论的结果非常相似的结果。
高计算成本的学习。在OntoILPER中搜索高精度提取规则的过程非常耗时,这主要是由于其ILP系统采用的覆盖算法在学习过程中生成并测试了数百甚至数千个候选提取规则。为了减轻这种情况,应探索减少样本数量(主要是负面样本)的欠采样技术[Chawla,2005] [Liu等,2009]。欠采样技术选择训练示例,从而将假设空间减小到更易于管理的大小。结合以上基于图的句子表示技术的简化,还将研究样本量选择方法[Byrd等,2012]。
过度拟合提取规则。机器学习算法通常倾向于过度拟合(存储)其训练数据。OntoILPER中采用的ILP方法偏向于生成高度精确但召回率较低的提取规则。实际上,通过检查第4节中报告的实验的提取规则,发现10-20%的提取规则非常专业,即最多涵盖两个截然不同的阳性示例。为了解决这个问题,集成机器学习方法[Goadrich et al。,2006] [Dietterich,2000]可能会有所帮助。
- emmm……觉得效果不太好还很复杂,虽然是19年的文章但是感觉很古早