一、摘要
本文在这项工作中解决的问题是产生一个可能由给定事件引起的可能的未来事件。 论文提出了一种使用机器学习和数据挖掘技术建模和预测未来新闻事件的新方法。论文的Pundit算法概括了因果关系对的例子,以推断因果关系预测因子。为了获得精确标记的因果关系示例,本文挖掘了150年的新闻文章,并将语义自然语言建模技术应用于包含某些预定义因果关系模式的标题。为了更全面,该模型使用从LinkedData挖掘的大量世界知识本体,包含200个关系约200亿的数据集。对真实新闻文章的实证评估表明,论文的Pundit算法达到了人类级别的表现。
二、相关工作
1.使用因果关系模式从文本中抽取因果关系:手工制作、机器学习自动生成
2.识别逻辑上相随的文本:文本蕴含
3.预测文本中描述的事件或事件表达的事件顺序:学习基于预定义对的特征来预测一对事件的时间顺序的分类器。
三、事件表示
算法的基本元素是事件,我们利用Kim的工作中的元素设计一种表示方案,允许我们比较、概括、推理事件。Kim将事件定义为三元组[对象,关系,时间间隔]。
本文提出了一种表示,除了属性关系之外,还进一步引入角色来构造事件。
每个事件将由以下元素构成:
1.事件的对象展示的时间动作或状态(P)
2.执行动作的一个或多个参与者O1
3.执行动作的一个或多个对象O2
4.动作的一个或多个工具O3
5.事件发生的和一个或多个地点O4
6.时间t
事件最终被表示为<P,O1,...,O4,t>
举例:发生在2004年11月的 美国军队用炸药摧毁了伊拉克的一个仓库
事件建模为<摧毁(动作),美国军队(主角),仓库(对象),炸药(工具),伊拉克(地点),2004年11月(时间)>
文献中关于事件表示的方法可以分为两组:
1.通过完整的文本或单个术语描述句子级别的事件
2.以语法驱动的方式描述事件
在第一种方法中,例如事件“美国军队用炸药摧毁了伊拉克的一个仓库”,“伊拉克袭击美国基地”和“恐怖分子基地遭到美国海军陆战队在喀布尔的攻击”单独使用条款可能会产生前第一和第二个事件可能比第一和第三个事件更相似,因为它缺乏理解,两个事件的主角都是军事团体,喀布尔和伊拉克是事件的地点。第二种方法以语法驱动的方式描述事件,其中每个元素都映射到名词短语。在这个例子中,该表示难以找到与原事件具有恰当的相似性的事件,因为在语法级别中,第二和第三事件都是相似的。
使用这些表示,很难以语义或实用的方式对执行事件的所有元素概括和比较。论文的方法是语义——它识别主角,对象等。这类似于大型知识论中提出的复杂事件表示,例如Cyc [22]将每个事件(例如,美国陆军)的原子元素映射到语义概念(例如,主角)为可比较和可推广的事件的规范表示提供了肥沃的土壤。
四、预测算法
此节展示Pundit算法,这是一个学习算法,用于对给定的当前事件,预测其可能的影响,输出预测事件g。在训练过程中,在训练期间,学习算法概括了给定的例子并产生了一个抽象树。对于抽象树中的每个节点,基于节点中的示例生成预测规则。 在预测阶段,新事件与抽象树中的节点匹配,并且在其上应用相关规则以产生影响事件。
4.1问题的定义:
1.所有事件的集合:Ev
2.预测函数:2^Ev --> 2^Ev
3.问题的子类函数:Ev --> Ev
解决方法:从例子中学习函数
1.假设不知道存在因果关系函数。
2.假设给出一组例子E={<e1,g(e1)i>,...,<en,g(en)i>}
3。目标是产生一个假设g',g'是g的一个很好的近似值。
4.2泛化对象和动作
我们的目标是开发一种学习算法,该算法基于因果关系对的示例自动诱导因果关系函数。推断的casualty函数应该能够对给定事件进行预测,即使之前从未发生过。 例如,给出训练的示例<土耳其的地震,毁坏>和<澳大利亚地震,毁坏>,现在的新事件是“日本地震”,那么合理的预测应该是毁坏。为了能够处理这样的预测,我们必须赋予我们的学习算法具有泛化能力。 例如,在上述情景中,算法需要能够将澳大利亚和土耳其概括为国家,并推断出各国的地震可能会导致破坏。这种类型的推断为了概括一组示例,每个示例由一对事件组成,我们对这些事件的组件进行泛化。
为了概括一组示例,每个示例由一对事件组成,我们对这些事件的组件进行泛化,分为对象和动作。
为了概括对象,我们假设语义网络Go =(V,E)的可用性,其中节点V=O是现实世界中的对象,边上的标签是诸如“...是一个”,“...是某部分”,“...是首都”。在这项工作中,本文使用了最大的语义网络之一的LinkedData本体[4],我们将在第五部分中详细介绍。
如果它们以相同的方式与第三个对象相关,则将两个对象定义为相似。该关系可以是语义网络中的标签或标签序列。例如,巴黎和伦敦将被视为相似,因为它们的节点都通过路径“是...首都”和“在大陆”连接。
定义1:
a,b属于V,如果语义网G中存在两条路径,(a,v1,l1),...,(vk,vk+1,lk)和(b,w1,l1),...(wk,wk+1,lk)使得vk+1=wk+1则L=l1,l2,...,lk是标签L的序列,L是a,b的泛化路径,定义为Path(a,b),
在事件泛化过程中应该避免过度概括 - 例如,给定两个类似事件,一个发生在巴黎,一个发生在伦敦,我们希望产生泛化“欧洲城市”(首都->大陆->欧洲)而不是最抽象的概况“大陆上的城市”(首都->大陆->是个->大陆),即对象的最小泛化。
定义2:最小泛化路径:定义为MGenPath(a,b),最短的泛化路径,定义distGen(a,b)为MGenPath(a,b)的长度。
如上所述,基于路径的语义距离在许多NLP应用程序中被证明是成功的。例如,使用相似的距离来测量两个单词的语义相关性,作为连接表示单词[31,37]的两个节点的分类法(例如,Wordnet或维基百科)中最短路径的长度的函数。 我们以此度量为基础,并将其扩展为处理事件,这些事件是结构化的,并且可以包含来自不同本体的多个对象。
为了有效地生成MGenPath,我们设计了一种基于动态编程的算法(如图1所示),该算法计算G中所有对象对的MGenPath。
步骤1:初始化将保持所有具有共同泛化的节点的队列。
步骤2:该算法识别具有通过相同类型的边(1)连接到它们的公共节点(c)的所有节点(a,b)。 c可以被认为是a和b泛化。 Mgen结构映射一对节点对它们的泛化(Mgen.Gen)及其泛化路径(MGen.Pred)。
步骤3:以动态编程方式,算法迭代Mgen中的所有节点(a,b),为此我们在先前的迭代中找到了最小的泛化,并找到两个节点 - 一个(x)连接到a和1( y)通过相同类型的边(l)连接到b(阶段3.4)。
因此,x和y的最小泛化是a和b的最小泛化,并且路径是a,b的MGenPath,并且添加了边类型(l)。此更新在3.4.1-3.4.4阶段执行。
步骤4:最终,当不再扩展具有最小泛化的节点时(即,找不到通过相同边缘类型连接到它们的两个节点),算法停止并返回Mgen。
我们还使用本体Gp定义动作之间的距离,类似于我们定义对象之间距离的方式。 具体来说,我们使用VerbNet本体,这是最大的英语动词词典之一。 它映射到许多其他在线资源,如Wordnet。本体是分层的,基于对Levin类的动词分类[15]。 使用这个本体,我们描述了动词之间的联系。 图6显示了该本体中的一个节点,它概括了“打”和“踢”的动作。
4.3泛化事件
为了为泛化提供有意义的支持,本文希望找到相似的事件,它可以被泛化成一个抽象的事件。在本文的示例中,希望将<土耳其地震,毁坏>和<澳大利亚地震,毁坏>作为相同事件组的示例。因此,希望以这样一种方式对事件进行聚类,即具有相似原因和类似效果的事件将聚集在一起。与所有聚类方法一样,应定义分类对象(在我们的示例中为事件)之间的距离度量。
ei = <Pi,O1i,...,O4i,ti>和ej = <Pj,O1j,...,O4j,tj>为两个事件。在前面的小节中,定义了对象(动作)间的距离函数。在此,将两个事件ei和ej的相似性定义为它们的对象和动作之间的距离之和:
是图G中的距离函数distGen。
同样,两对因果事件<ci,ei>和<cj,ej>之间的相似性定义为:
使用上面建议的相似性度量,聚类过程可以被认为是训练样本的分组,其方式的影响很小(类似于信息增益方法,其中示例按类别聚类)并且他们的事业有很高的相似性。本文使用HAC层次聚类算法[11]作为聚类方法。该算法首先将最接近的事件对连接成一个集群,并通过将最近的两个集群连接在一起直到所有元素链接在一起成为我们称之为抽象树(AT)的事件的分层图来继续重复该过程。在预测阶段,输入原因事件将与其中一个创建的集群匹配。为了实现这一点,为每一个抽象树中的每个节点分配一个代表性的原因事件,即最接近节点原因事件的质心的事件。
4.4 因果预测规则生成
学习的最后阶段是创建规则,允许在给定事件事件的情况下生成预测事件。由于输入原因事件与节点质心匹配,则本可以自然地返回匹配质心的效果事件。然而,这不会为我们提供所需的结果。假设今天发生了一起事件ei =“地震袭击海地”,该事件与质心所代表的节点相匹配:“地震袭击土耳其”,其效果是“红十字帮助送往安卡拉”。显然,由于海地发生地震,预测红十字会帮助将被送往安卡拉是不合理的。我们希望能够抽象出过去的原因和过去的原因之间的关系,并学习一个连接它们的谓词条款,例如:为“地震对应[国名]”而“红十字会的帮助发送到[国家的首都]”。在预测期间,这样的条款将应用于当前输入事件ei,其产生关于ei的效果。在我们的例子中,逻辑谓词子句将是“……的首都”,如(土耳其)“的首都”= 安卡拉。当应用于当前事件ei:(海地)“的首都”= 太子港时,输出现在将是“红十字会帮助太子港”。请注意,条款的应用只能应用于某些类型的对象 - 在我们的例子中是国家/地区。这些条款可以是任何长度,例如,“在布鲁克林被捕的嫌疑人”,“布隆伯格宣布紧急”产生了短语市长(自治市镇(x)),因为布鲁克林是纽约的一个区,其市长是布隆伯格。
下面将展示如何在抽象树图中为每个节点学习这样的子句。回想一下,语义网络图GO是边缘标记图,其中每个边是三元组hv1,v2,li,其中l是谓词(例如“……的首都”)。规则学习过程分为两个主要步骤:首先,我们在事件事件的任何对象与事件的任何对象之间找到GO中长度最多为k的无向路径pi。请注意,我们不一定在同一角色中查找两个对象之间的路径。在上面的例子中,我们在原因事件(布鲁克林)的位置和影响事件的演员(布隆伯格)之间找到了一条路径。其次,我们使用路径pi的标签作为谓词构造一个子句。我们称之为大小为k的谓词投影,pred = l1,...lk从事件ei到事件ej。在预测期间,投影将应用于新事件e = <Pi,O1,...O4,t>通过在具有pred标签序列的Oi中找到GO中的无向路径。由于k是未知的,对于AT中的节点中的每个训练示例<ct,et>的算法,找到具有从ct的对象到GO图中的et的对象的k大小增加的所有可能的谓词路径。每个这样的路径由它在节点中出现的次数加权。谓词生成的完整过程如图2所示。函数LearnPredicateClause从给定的原因和事件中调用不同k大小和不同对象的内部函数FindPath。 FindPath是一个递归函数,试图在图中找到两个对象之间的长度为k的路径。如果找到,它将返回此路径的标签。
4.5预测
给出一个训练模型g’,它可以被应用到新的事件e=<Pi,O1,...O4,t>,并输出它的影响。该过程分为两个主要步骤:在抽象树中传播事件,检索与新事件匹配的所有类似节点,然后在事件上应用节点规则以产生事件的效果。
给定一个新事件,Pundit从根开始遍历抽象树。对于搜索前沿中的每个节点,算法计算输入事件与该节点上每个孩子的质心的相似性(SIM(ei,ej)),并扩展那些具有比其父结点更好相似性的孩子结点。最后,算法返回搜索边界中所有节点的集合,并根据它们与输入事件的相似性进行排序。直觉上,我们尝试找到最不通用但仍然类似于新事件的节点。完整的算法如图3所示。该算法保存了一组可能的匹配结果(候选者)和一个保持搜索前沿(Q)的队列。在阶段4中,算法遍历图。在阶段4.2中,对于每个边缘,算法测试新事件e与父节点(edge.Source)的相似性是否高于子节点(edge.Destination)。如果测试成功,则将具有相似性得分的父节点添加到可能的结果中。在暴露所有边缘之后,算法在阶段5中返回可能的结果。可以在图4中看到该过程的可视化。
对于在前一阶段中检索的每个节点,节点谓词投影pred应用于新事件e = <Pi,O1,...,O4,t>通过在具有pred标签的Oi中找到GO中的无向路径。此规则基于检索到的结点生成可能的事件。
投影结果是到达顶点的所有对象。形式上,如果存在V0:O包含于V0,存在V1,...,Vk:(V0,V1,l1),...,(Vk-1,Vk,lk)∈Edges(Go)可以应用pred。投影结果是所有对象o∈Vk。所有节点的投影结果由目标原因与节点MGen的相似性加权(用于打破平局)。
5.因果挖掘过程:实现细节
在上一节中,作者提出了一个高级算法,该算法需要训练示例T,关于实体GO的知识以及事件的动作类P.这项工作的主要挑战之一是构建可扩展的系统以获得这些要求。
本文提出了一个系统,挖掘新闻来源以提取事件,构建他们的规范语义模型,并在这些事件之上构建因果图。系统爬取几个动态信息源超过4个月。最大的信息来源是New-York-Times档案馆,其上进行了光学字符识别(OCR)。总体收集的数据连续超过150年(1851年至2009年)。
对于对象的泛化,系统自动读取Web内容并提取世界知识。这些知识是从结构化和半结构化的公共信息库中挖掘出来的。使用Map-Reduce框架将因果图的生成分布在20台机器上。此过程有效地整合了不同的来源,提取事件并消除了实体的歧义。由此产生的因果关系图由超过3亿个实体节点,10亿个静态边缘(连接事件中遇到的不同对象)和超过700万个因果关系边缘(连接Pundit发现的相互引起的事件)组成。抽象树中的每个规则都是基于3个实例的平均值生成的,标准差为2。
在因果关系图之上,构建了搜索和索引基础结构,以便能够搜索数百万个文档。该索引允许在事件图上快速遍历,从而在算法的重用阶段期间实现有效的推理能力。
5.1世界知识挖掘
在这项工作中,作者利用来自几个众所周知的本体的知识来构建实体图Go。图由维基百科,ConceptNet [26],WordNet [30],Yago [38]和OpenCyc的概念组成。概念之间的关系(例如,CapitalOf)是从LinkedData云项目[4]获得的,其中概念使用人类编辑器相互链接。图Go的十亿标记边是这些本体的谓词。该系统通过收集上述内容,处理订阅源和处理格式化数据集(例如维基百科)来创建实体图。然后,作者的抓取工具以原始格式存档这些文档,并使用LinkedData的链接信息将它们转换为RDF格式。本文使用SPARQL查询作为搜索创建的知识图的一种方式。
5.2因果事件挖掘和抽取
监督学习算法需要许多学习示例才能够很好地概括。由于时间数据的数量非常大,跨越数百万篇文章,因此获得人类注释示例的目标变得不可能。因此,作者提供了一个自动程序来从动态内容中提取用于学习因果关系的标记示例。特别是在这项工作中,我们使用了1851—2009年的纽约时报档案,WikiNews和BBC总共超过1400万篇文章(见表1中的数据统计)。当作者单独对新标题进行分析时,这个阶段的准确性(在有代表性的数据子集上执行)为78%(参见第6.2.2节)。系统挖掘这些标题中的非结构化自然语言文本,并搜索因果语法模式。作者使用[40,23]中描述的因果连接器构造这些模式。这些连接器分为三组:
1.因果连接:在这组连接器中,我们使用单词:because、as、after作为连接器。
2.因果介词:在这组连接器中,我们使用了:due to、because of
3.使役动词:在这组连接器中,我们使用了:cause、lead to。
我们构造了一组用于提取因果关系的规则。每个规则的结构如下:<模式,约束,优先级>,其中模式是包含因果关系连接符的正则表达式,约束是可以应用模式的句子的语法约束,而优先级是规则的优先级(如果有多个规则可以匹配)。例如,对于因果关系连接器“之后”,使用模式“After [sentence1],[sentence2]”,其中约束为[sentence1]不能以数字开头。这种模式可以匹配“在阿富汗投票之后,虚假表面的抱怨”,但不会与“在州议员汤姆乔治回归10年后”的句子相匹配。另一个模式示例是“[sentence1] as [sentence2]”,其中[sentence2]的约束具有动词。使用该约束,该模式可以匹配句子“诺基亚切割工作,因为它试图赶上竞争对手”匹配,但不是句子“民权摄影师揭露为线人”。规则应用程序的结果是一对句子:一个标记为原因,一个标记为结果。
给定自然语言句子(从文章标题中提取),表示事件(在学习或预测期间),以下过程将其转换为结构化事件:
1.使用源自WordNet词干分析器的形态分析器提取变形词的根形式。例如,在2010年2月10日的文章标题中:“美国攻击杀死了巴基斯坦的17名武装分子,“攻击”,“杀死”和“武装分子”分别转变为“攻击”,“杀戮”和“激进分子”。
2.执行词性标注,并识别动词。使用VerbNet词汇识别动词的类别,例如,kill属于P =谋杀类。
3.应用与动词匹配的句法模板来提取语义关系,从而提取单词的作用(参见图6中的示例)。这些模板基于VerbNet,它为每个动词类提供一组语法模板。这些模板将语法与句子中实体的主题角色相匹配。我们匹配模板,即使它们在句子树中不连续。即使在主语和主要动词之间存在辅助动词的情况下,这也允许句子的匹配。在我们的例子中,模板是“NP1 V NP2”,它将NP1转换为“Agent”,NP2转换为“Patient”。因此,我们将美国的攻击与作为主角,以及武装分子作为Patient相匹配。如果没有模板可以匹配,句子被转换为语法关系的类型依赖图[28]。在该示例中,美国攻击被识别为句子的主体(主角的候选者),武装者作为对象(Patient的候选者),并且巴基斯坦作为介词(位置或工具的候选者,基于启发式,例如,位置词典) )。使用此分析,我们确定位置是巴基斯坦。
4.Oi中的每个单词都映射到基于维基百科的概念。如果一个单词与多个概念匹配,我们通过计算新闻文章主体与与该概念相关的维基百科文章正文之间的余弦相似性来进行歧义消除:例如,美国与几个概念相匹配,例如:美国,索尔福德大学和Us(阿里兄弟专辑)。内容最相似的是美国维基百科的概念。
5.事件t的时间是在新闻中发表文章的时间,例如t = 10/02/2010。在我们的例子中,最终结果是事件e = <谋杀类,美国,军队,NULL,巴基斯坦,10/02/2010>。该阶段的最终结果是由因果事件对组成的因果图。这些事件的结构如第3节所述。在下图说明了这样的一对。
6实验评估
进行了各种实验来测试我们的算法的性能和行为。
6.1方法
在本节中,我们概述了我们用于实验的方法。我们提供两种类型的实验 - 一种评估构建的因果图的精度,另一种评估我们系统的预测准确性。
6.1.1预测评估
我们实现了上述算法并评估了它们的性能。使用1851年至2009年期间的新闻文章训练预测算法。第5节中提到的网络资源快照可追溯到2009年。评估是在单独的数据上进行的 - 来自2010年的维基新闻文章。我们将此数据称为测试数据。与许多监督学习问题一样,评估是使用人类标记的数据进行的。我们进行了两个评估程序 - 一个比较系统预测能力(预测的准确性)和预测的合理性(确保预测不是微不足道的并且与原因事件相关)。合理性评估程序分为以下步骤:
1.事件识别:我们的算法假设预测器h的输入是事件。为了找到代表事件的新闻标题,我们从测试数据中随机抽取n个标题。对于每个标题,要求人们确定标题是否是可能导致其他事件的事件。我们将标记为事件的标题集表示为E.我们再次从E中随机抽取k个标题。我们将此组称为C.
2.算法事件预测:在每个事件标题ci∈C上,Pundit从标题执行事件提取,并产生具有由ci表示的事件的最高分数的事件eai。这个阶段的结果:{(ci,eai)|ci∈C}
3.人类事件预测:人们被问及ci∈C可能引起的事件。给予人类的指示是阅读给定的事件并提供他们对可能导致的事件的最佳理解。他们被允许使用任何资源,并且不受时间的限制。人类结果表示为ehi。该要求人以结构化的方式提供答案(正如我们的算法产生的那样。这一阶段的结果是:{(ci,ehi)|ci∈C}
4.人类对结果的评价:向m每个人展示三元组(ci,ehi,eai)。我们要求评(ci,ehi)和(ci,eai)的精度,在0-4的范围内(0是非常不可能的预测,4是高度可能的预测)。
准确性评估与上述评估类似,但在第三步中,我们在事件事件发生后一年内检查新闻(和其他网络资源),预测事件是否出现在新闻中。评估者被要求为他们的评估提供置信度(因为一些事件,如葬礼,并不总是在新闻中报道)。 我们在评估中只考虑了自信和高度自信的结果。
所有人类评估均使用Amazon Mechanical Turk(MTurk)进行。我们使用验证码过滤了评估者,并过滤掉了异常值。我们进行了上述实验,其值n = 1500,k = 50,m = 10。
6.1.2抽取评估
作为我们算法的分析实验的一部分,我们提供了对该工作中描述的信息提取技术的评估,并用于训练系统。具体而言,我们提供两种类型的评估:事件提取评估和因果提取评估。事件提取评估检查事件的提取情况。在给定原始新闻标题的情况下,要求用户以1-5的等级评估动作,主角,对象,乐器和时间的提取情况。我们对随机抽样的1000个新闻标题进行了此评估,我们为每个标题分配了5个MTurkers。我们使用验证码过滤了评估者,并过滤掉了异常值。类似地,因果提取评估评估两个文本事件之间的因果关系的合理性。此评估表明我们制定的因果关系模板的精确度。系统显示两个系统认为具有原因和影响关系的句子,并要求他们以1-5的等级评估这种关系的合理性。我们对500个随机抽样对进行了评估,每个对我们分配了5个MTurkers。
6.2结果
在本节中,我们提供了两种评估的结果:预测评估(合理性和预测评估)以及我们提供的作为系统输入的培训数据的评估。
6.2.1预测评估
表2中报告了准确度评估结果。尽管Pundit的表现较高,但对k个配对得分的配对t检验得出非统计学显着的p值(0.08)。结果提供了一些证据,证明该算法预测未来事件的能力与人类预测能力的能力相似。
合理性评估得出Pundit的平均预测精度为3.08 / 4(3是“可能的预测”),人类预测平均精度为2.86±0.18 / 4。对于每个事件,我们对m个量子的结果进行平均,得出事件中算法性能的平均得分,以及人类预测的平均得分(参见表3)。我们对k个配对分数进行了配对t检验。发现该算法优于人类的优势在统计学上显着,p <0.05。我们现在可以得出结论,算法产生合理的未来事件的能力优于人类的预测能力。
对于每个提取的因果关系事件,我们计算了事件结构的语义提取的精度(表4)。我们得出结论,使用我们使用的模板在该域中提取事件具有相当高的精度。为了比较,用于提取不同类型关系的实体的其他工作[7]达到42-53%的精度。如此高精度的主要原因是使用特定于域的模板以获得高精度(具有较低的召回率)。我们进行了额外的实验,以评估基于语义相似性的上述每个实体与世界知识本体的匹配。结果总结在表5中。
召回整个过程是10%。我们的目标一般是达到一套高精度的规则,从中可以进行泛化。我们并未声称在因果关系提取方面达到了最高性能,但仅仅提出了后来的研究可以建立的模块化方法。
我们在线共享提取事件的整个数据集2。
6.3讨论
我们在本节中对结果进行定性分析,以便更好地理解算法的优势和劣势。给定事件“路易斯安那洪水”,该算法预测将逃离的[人数]。该预测基于以下过去的新闻文章:佛罗里达州的居民逃离希尔顿和风暴;随着飓风临近北卡罗莱纳州海岸,150000居民逃离;随着巨大风暴袭击德克萨斯州海岸,一百万人逃离;德克萨斯州的数千人逃离艾克飓风;成千上万的人逃离佛罗里达海岸的暴风雨;在佛罗里达州至少有1000人逃离洪水。过去的事件被推广到“[美国南部各州]的[天气灾害]”的因果关系“导致逃离的[人数]”。在预测期间,发现事件“路易斯安那洪水”与上述广义因果关系最相似。重用分类功能,输出将逃离的[人数]。
另一个例子是,给定事件“6.1级大地震袭击海地”,它输出了以下预测:“[人数]将会死亡”,“[人数]将失踪”,“[人数]余震将在海地附近袭击海岛”和“地震将转向美属维尔京群岛”。虽然前三个预测似乎非常合理,但第四个预测是有问题的。在这种情况下,系统学到的规则是 :袭击岸边国家的自然灾害倾向于靠近国家。在我们的案例中,它预测地震将影响美属维尔京群岛,这些岛屿在地理上与海地关系密切。然而,预测“地震将转向美属维尔京群岛”并不是很现实,因为地震不能改变它的路线。它的创建基于与龙卷风袭击海岸国家的过去例子的匹配。原因是训练的稀疏性。两者都是自然灾害,没有负面的例子或足够的积极例子来支持这种区分。然而,我们仍然觉得这个例子很有意思,因为它使用空间位置发布预测(美国维尔京群岛[靠近]海地)。同样问题的另一个例子是预测:<闪电杀死了5人,闪电将被捕>,这是基于训练例子预测的,在示例中杀害其他人的人被捕。表6中可以看到测试中超过50个的更多示例。
7结论
在信息提取和本体构建方面已经完成了许多工作。在这项工作中,我们讨论如何将这些知识用于事件预测的大规模AI问题。我们提出了一个系统,该系统经过培训,可以使用因果事件作为输入来预测将来可能发生的事件。每个事件都表示为一个谓词的元组和4个一般语义角色。用于训练的事件对是使用简单的句法模式从新闻标题中自动提取的。通过以下方式实现对未见事件的推广:1)创建抽象树(AT),其包含来自观察事件的实体以及从可用在线本体中提取的其包含类别; 2)找到连接实体的谓词路径,从而将事件引发到所引起事件中的实体,其中再次从可用本体中提取路径。
我们讨论了构建这样一个系统的许多挑战:获得足够大的数据集,知识的表示以及此类任务所需的推理算法。我们使用基于Web的对象层次结构和操作类,执行大规模挖掘并应用自然语言技术将150多年历史档案的原始数据转换为事件的结构化表示。这显示了所提出方法的可扩展性,这对于需要大量数据才能正常工作的任何方法都是一个重要因素。我们还提出,由不同的人为不同目的(例如不同的本体)建立的众多资源实际上可以通过概念图合并,以构建一个在实践中可以很好地运作的系统。
我们对大数据语料库进行大规模学习,并提出新颖的推理技术。我们考虑规则提取和泛化。我们提出了使用现有本体进行规则泛化的新方法,我们认为这些方法可用于许多其他相关任务。
对于未来的方向,我们希望研究如何衰减系统中事件的信息,因为在1851年学到的因果关系可能与2010年的预测不太相关。但是,即使很久以前发生过,许多常识知识仍然可以使用。另外的方向可以包括更好的事件提取,例如Do等人提出的。
我们的实验评估表明,Pundit算法的预测至少与人类一样好。我们相信,我们的工作是第一个利用网络上可用的大量信息来执行通用,基于知识和类似人类的预测的工作之一。
参考文献:Learning Causality for News Events Prediction
论文获取地址:https://dl.acm.org/citation.cfm?id=2187958