文章目录
- 实体关系抽取的任务定义
- 机器学习框架
- 属性补全
实体关系抽取的任务定义
从文本中抽取出两个或者多个实体之间的语义关系;从文本获取知识图谱三元组的主要技术手段,通常被用于知识图谱的补全。美丽的西湖坐落于浙江省的省会城市杭州的西南面。-->(西湖,位于,杭州) , (浙江省,省会,杭州)
基于模板的方法:基于依存句法匹配的关系抽取。依存句法分析句子的句法结构,以动词为几点,构建规则,对节点上的词性和边上的依存关系进行限定。
基于模板的方法:基于依存句法匹配的关系抽取。对句子进行分词、词性标注、命名实体识别、依存分析等处理;根据句子依存语法树结构上匹配规则,每匹配一条规则就生成一个三元组;根据扩展规则对抽取到的三元组进行扩展;对三元组实体和触发词进一步处理抽取出关系。
基于模板的方法:优缺点。优点:在小规模数据集上容易实现;构建简单。缺点:特定领域的模板需要专家构建;难以维护;可移植性差;规则集合小的时候,召回率很低。
基于监督学习的关系抽取:At-least-one Hypothesis。预先定义好关系的类别;人工标注一些数据;设计特征表示;选择一个分类方法 (SVM、NN等);评估结果。
基于监督学习的关系抽取:特征设计。实体特征:实体前后的词;实体的类型、语法、语义信息;实体词的共现特征, e.g., dog and cat;引入外部语义关系:ACE entity types,WordNet features。关系特征:实体之间的词;窗口及Chunk序列;实体间的依存关系路径;实体间树结构的距离;特定的结构信息,如最小子树。
机器学习框架
机器学习框架——特征函数+最大熵模型,同关系句子具有类似的文本特征。
1. 目标是求在知道X的条件下使熵H最大的条件概率p(y|x);2. 满足一组约束条件,fi即是需要针对句子样本定义的特征函数。
机器学习框架——核函数。在关系抽取任务中,给定句子空间X,核函数K: X * X -> [0, ∞)表示一个二元函数,它以X中的两个句子x,y为输入,返回二者之间的相似度得分K(x,y)。例如,我们可以为句子定义一个特征向量计算函数Ø(·),那么句子x和y对应特征向量的点 集K(x,y)=Ø(x)T ·Ø(y)可以作为核函数的一种实现形式。具体而言,给定输入文本T中的两个实体e1和e2,核函数方法采用下述方法计算它们之间满足关系r的置信度。首先从标注数据中找到文本T’,且T’中包含满足关系r的e1’和e2’。然后基于核函数计算T和T’之间的相似度,作为e1和e2满足关系r的置信度。该做法背后体现的思想是:如果两个实体对同时满足某个关系r,这两个实体对分别所在的文本上下文也应该相似,该相似通过核函数计算得到。计算相似度的方法有基于字符串核(Sequence kernel)和基于树核函数(Tree kernel)等多种方法
机器学习框架——字符串核举例。给定带有关系标注的训练样本集合,该方法首先基于每个样本中出现的实体e1和e2将该样本切分为左端上下文left、中间上下文middle和右端上下文right三部分。给定测试样本,根据其中出现的实体e1’和e2’对其进行同样的切分,生成left’ 、middle’和right’。基于字符串核函数计算该样本与每个训练样本在上述三个上下文上的相似度,最后对三个相似度得分进行加和,并用于分类模型的训练与预测。
机器学习框架——句法树核函数。句法树核,增加节点特征。
机器学习框架——最短依赖路径树核函数
机器学习框架——深度学习方法。基于特征的方法需要人工设计特征,这类方法适用于标注数量较少,精度要求较高,人工能够胜任的情况。基于核函数的方法能够从字符串或句法树中自动抽取大量特征,但这类方法始终是在衡量两段文本在子串或子树上的相似度,并没有从语义的层面对两者做深入比较。此外,上述两类方法通常都需要做词性标注和句法分析,用于特征抽取或核函数计算,这是典型的pipeline做法,会把前序模块产生的错误传导到后续的关系抽取任务,并被不断放大。深度学习技术不断发展,端到端的抽取方法能大幅减少特征工程,并减少对词性标注等预处理模块的依赖,成为当前关系抽取技术的主流技术路线。
机器学习框架——基于递归神经网络的关系抽取。1. 对于输入句子中待分类的实体e1和e2,在句法树中找到能覆盖着两个实体的最小子树;2. 然后从该子树对应的叶节点开始,通过自底向上的方式两两合并相邻的两个单词或短语对应的向量和矩阵,直到遍历至该子树的根节点结束。3. 最后基于根节点对应的向量p,使用softmax对关系集合中的关系候选进行打分和排序。4. 该方法基于词向量和句法树本身的结构,有效的考虑了句法和语义信息,但并未考虑实体本身在句子中的位置和语义信息。
机器学习框架——基于CNN的关系抽取
机器学习框架——基于CNN的关系抽取。仅用词级别的特征提取,是会丢失语序、上下文、句子整体的信息,使用seq_length方向的词卷积,以尽量提取些句子级别的信息。
机器学习框架——基于BiLSTM的关系抽取
机器学习框架——基于图神经网络的关系抽取,图神经网络在图像领域的成功应用证明了以节点为中心的局部信息聚合同样可以有效的提取图像信息。利用句子的依赖解析树构成图卷积中的邻接矩阵,以句子中的每个单词为节点做图卷积操作。如此就可以抽取句子信息,再经过池化层和全连接层即可做关系抽取的任务。
拓展问题——实体关系联合抽取
拓展问题——实体关系联合抽取,定义一种新颖的实体关系联合抽取的序列标注规范。
拓展问题——基于胶囊神经网络多标签关系抽取。传统模型主要关注单标签关系抽取,但同一个句子可能包含多个关系。采用胶囊神经网络可以帮助实现多标签的关系抽取。如图所示,模型首先通过预训练的 embedding 将句子中的词转化为词向量;随后使用BiLSTM 网络得到粗粒度的句子特征表示,再将所得结果输入到胶囊网络,首先构建出primary capsule,经由动态路由的方法得到与分类结果相匹配的输出胶囊。胶囊的模长代表分类结果的概率大小。
拓展问题——多元关系抽取
拓展问题——跨句推理,提取不同句子中单实体间的关系
半监督学习——基于远程监督的关系抽取,远程监督的基本假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均可能表示出这种关系。
远程监督-基于多实例学习(降噪学习),包含相同实体对的句子组成一个Bag,基于注意力机制选择样本。
远程监督-强化学习(降噪学习),采取强化学习方式在考虑当前 句子的选择状态下选择样例,关系分类器向样例选择器反馈,改进选择策略。
半监督学习—基于Bootstrapping的关系抽取
语义漂移问题的一些解决方法:限制迭代次数,采用语义类型Semantic Type对样本进行过滤和约束,⟨ Organization⟩ ’s headquarters in ⟨ Location⟩ ⟨ Location⟩ -based ⟨ Organization⟩⟨ Organization⟩ , ⟨ Location⟩,对抽取结果进行类型检查,耦合训练。
属性补全
属性知识:一个事物若干属性的取值来对这个事物进行多维度的描述,属性补全:对实体拥有的属性及属性值进行补全,方法:抽取式,基于模板,基于机器学习模型;生成式:基于机器学习模型。
抽取式属性补全:抽取输入文本中的字词,组成预测的属性值。预测出的属性值一定要在输入侧出现过。
生成式属性补全:直接生成属性值,而这个属性值不一定在输入文本中出现,只要模型在训练数据中见过即可。
属性补全方法比较:抽取式,只能抽取在输入文本中出现过的属性值,预测属性值一定在输入中出现过,具有一定可解释性,准确性也更高;生成式:可以预测不在文本中出现的属性值,只能预测可枚举的高频属性,导致很多属性值不可获取,预测出来的属性值没有可解释性。
属性补全应用-商品属性补全:商品关键属性补全,利于买家选择,利于提升导购,利于优质选品。方法:借助算法的图文识别能力,通过商品图片预测商品的类目、同款、品牌。