关系抽取与属性补全

文章目录

    • 实体关系抽取的任务定义
    • 机器学习框架
    • 属性补全

实体关系抽取的任务定义

    从文本中抽取出两个或者多个实体之间的语义关系;从文本获取知识图谱三元组的主要技术手段,通常被用于知识图谱的补全。美丽的西湖坐落于浙江省的省会城市杭州的西南面。-->(西湖,位于,杭州) , (浙江省,省会,杭州)

图片名称
实体关系抽取方法概览
图片名称
基于模板的方法:基于触发词匹配的关系抽取

    基于模板的方法:基于依存句法匹配的关系抽取。依存句法分析句子的句法结构,以动词为几点,构建规则,对节点上的词性和边上的依存关系进行限定。

图片名称
基于模板的方法:基于触发词匹配的关系抽取

    基于模板的方法:基于依存句法匹配的关系抽取。对句子进行分词、词性标注、命名实体识别、依存分析等处理;根据句子依存语法树结构上匹配规则,每匹配一条规则就生成一个三元组;根据扩展规则对抽取到的三元组进行扩展;对三元组实体和触发词进一步处理抽取出关系。

图片名称

    基于模板的方法:优缺点。优点:在小规模数据集上容易实现;构建简单。缺点:特定领域的模板需要专家构建;难以维护;可移植性差;规则集合小的时候,召回率很低。

图片名称

    基于监督学习的关系抽取:At-least-one Hypothesis。预先定义好关系的类别;人工标注一些数据;设计特征表示;选择一个分类方法 (SVM、NN等);评估结果。

图片名称

    基于监督学习的关系抽取:特征设计。实体特征:实体前后的词;实体的类型、语法、语义信息;实体词的共现特征, e.g., dog and cat;引入外部语义关系:ACE entity types,WordNet features。关系特征:实体之间的词;窗口及Chunk序列;实体间的依存关系路径;实体间树结构的距离;特定的结构信息,如最小子树。

机器学习框架

    机器学习框架——特征函数+最大熵模型,同关系句子具有类似的文本特征。

图片名称

    1. 目标是求在知道X的条件下使熵H最大的条件概率p(y|x);2. 满足一组约束条件,fi即是需要针对句子样本定义的特征函数。

    机器学习框架——核函数。在关系抽取任务中,给定句子空间X,核函数K: X * X -> [0, ∞)表示一个二元函数,它以X中的两个句子x,y为输入,返回二者之间的相似度得分K(x,y)。例如,我们可以为句子定义一个特征向量计算函数Ø(·),那么句子x和y对应特征向量的点 集K(x,y)=Ø(x)T ·Ø(y)可以作为核函数的一种实现形式。具体而言,给定输入文本T中的两个实体e1和e2,核函数方法采用下述方法计算它们之间满足关系r的置信度。首先从标注数据中找到文本T’,且T’中包含满足关系r的e1’和e2’。然后基于核函数计算T和T’之间的相似度,作为e1和e2满足关系r的置信度。该做法背后体现的思想是:如果两个实体对同时满足某个关系r,这两个实体对分别所在的文本上下文也应该相似,该相似通过核函数计算得到。计算相似度的方法有基于字符串核(Sequence kernel)和基于树核函数(Tree kernel)等多种方法

图片名称

    机器学习框架——字符串核举例。给定带有关系标注的训练样本集合,该方法首先基于每个样本中出现的实体e1和e2将该样本切分为左端上下文left、中间上下文middle和右端上下文right三部分。给定测试样本,根据其中出现的实体e1’和e2’对其进行同样的切分,生成left’ 、middle’和right’。基于字符串核函数计算该样本与每个训练样本在上述三个上下文上的相似度,最后对三个相似度得分进行加和,并用于分类模型的训练与预测。

图片名称

     机器学习框架——句法树核函数。句法树核,增加节点特征。

图片名称

    机器学习框架——最短依赖路径树核函数

图片名称
最短依赖路径树(SPT)内核
图片名称
上下文相关最短路径依赖树核函数

    机器学习框架——深度学习方法。基于特征的方法需要人工设计特征,这类方法适用于标注数量较少,精度要求较高,人工能够胜任的情况。基于核函数的方法能够从字符串或句法树中自动抽取大量特征,但这类方法始终是在衡量两段文本在子串或子树上的相似度,并没有从语义的层面对两者做深入比较。此外,上述两类方法通常都需要做词性标注和句法分析,用于特征抽取或核函数计算,这是典型的pipeline做法,会把前序模块产生的错误传导到后续的关系抽取任务,并被不断放大。深度学习技术不断发展,端到端的抽取方法能大幅减少特征工程,并减少对词性标注等预处理模块的依赖,成为当前关系抽取技术的主流技术路线。

    机器学习框架——基于递归神经网络的关系抽取。1. 对于输入句子中待分类的实体e1和e2,在句法树中找到能覆盖着两个实体的最小子树;2. 然后从该子树对应的叶节点开始,通过自底向上的方式两两合并相邻的两个单词或短语对应的向量和矩阵,直到遍历至该子树的根节点结束。3. 最后基于根节点对应的向量p,使用softmax对关系集合中的关系候选进行打分和排序。4. 该方法基于词向量和句法树本身的结构,有效的考虑了句法和语义信息,但并未考虑实体本身在句子中的位置和语义信息。

图片名称

    机器学习框架——基于CNN的关系抽取

图片名称

    机器学习框架——基于CNN的关系抽取。仅用词级别的特征提取,是会丢失语序、上下文、句子整体的信息,使用seq_length方向的词卷积,以尽量提取些句子级别的信息。

图片名称

    机器学习框架——基于BiLSTM的关系抽取

图片名称

    机器学习框架——基于图神经网络的关系抽取,图神经网络在图像领域的成功应用证明了以节点为中心的局部信息聚合同样可以有效的提取图像信息。利用句子的依赖解析树构成图卷积中的邻接矩阵,以句子中的每个单词为节点做图卷积操作。如此就可以抽取句子信息,再经过池化层和全连接层即可做关系抽取的任务。

    拓展问题——实体关系联合抽取

图片名称
误差传播问题
图片名称
实体识别和关系抽取任务之间的关联

    拓展问题——实体关系联合抽取,定义一种新颖的实体关系联合抽取的序列标注规范。

图片名称

    拓展问题——基于胶囊神经网络多标签关系抽取。传统模型主要关注单标签关系抽取,但同一个句子可能包含多个关系。采用胶囊神经网络可以帮助实现多标签的关系抽取。如图所示,模型首先通过预训练的 embedding 将句子中的词转化为词向量;随后使用BiLSTM 网络得到粗粒度的句子特征表示,再将所得结果输入到胶囊网络,首先构建出primary capsule,经由动态路由的方法得到与分类结果相匹配的输出胶囊。胶囊的模长代表分类结果的概率大小。

图片名称

    拓展问题——多元关系抽取

图片名称

    拓展问题——跨句推理,提取不同句子中单实体间的关系

图片名称

    半监督学习——基于远程监督的关系抽取,远程监督的基本假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均可能表示出这种关系。

图片名称

    远程监督-基于多实例学习(降噪学习),包含相同实体对的句子组成一个Bag,基于注意力机制选择样本。

图片名称

    远程监督-强化学习(降噪学习),采取强化学习方式在考虑当前 句子的选择状态下选择样例,关系分类器向样例选择器反馈,改进选择策略。

图片名称

    半监督学习—基于Bootstrapping的关系抽取

图片名称

    语义漂移问题的一些解决方法:限制迭代次数,采用语义类型Semantic Type对样本进行过滤和约束,⟨ Organization⟩ ’s headquarters in ⟨ Location⟩ ⟨ Location⟩ -based ⟨ Organization⟩⟨ Organization⟩ , ⟨ Location⟩,对抽取结果进行类型检查,耦合训练。

属性补全

    属性知识:一个事物若干属性的取值来对这个事物进行多维度的描述,属性补全:对实体拥有的属性及属性值进行补全,方法:抽取式,基于模板,基于机器学习模型;生成式:基于机器学习模型。

图片名称

    抽取式属性补全:抽取输入文本中的字词,组成预测的属性值。预测出的属性值一定要在输入侧出现过。

图片名称

    生成式属性补全:直接生成属性值,而这个属性值不一定在输入文本中出现,只要模型在训练数据中见过即可。

图片名称

    属性补全方法比较:抽取式,只能抽取在输入文本中出现过的属性值,预测属性值一定在输入中出现过,具有一定可解释性,准确性也更高;生成式:可以预测不在文本中出现的属性值,只能预测可枚举的高频属性,导致很多属性值不可获取,预测出来的属性值没有可解释性。

图片名称

    属性补全应用-商品属性补全:商品关键属性补全,利于买家选择,利于提升导购,利于优质选品。方法:借助算法的图文识别能力,通过商品图片预测商品的类目、同款、品牌。

图片名称

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/1647.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(C语言入门)数组

目录 什么是数组? 数组: 数组的使用: 数组的初始化: 数组名: 数组案例: 一维数组的最大值: 一维数组的逆置: 数组和指针: 通过指针操作数组元素: …

亚马逊、Lazada、速卖通怎么提高复购率?如何利用自养号测评实现销量飙升

对于跨境卖家来说,抓住客户是最重要的,很多卖家都把大部分心思放在如何吸引新客户上,忽视了已有客户的维护。其实相较于投广告、报秒杀活动吸引新客户,维护好已有客户,提升复购率的成本更低。当然,维护好客…

使用matlab/C语言/verilog分别生成coe文件

之前已经写过一个如何使用matlab生成coe文件,matlab自行运算生成三角波、正弦波等数据,并保存为COE文件。可跳转下面的网址进行查阅。 使用matlab生成正弦波、三角波、方波的COE文件_三角波文件.coe-CSDN博客https://blog.csdn.net/yindq1220/article/d…

C++ | Leetcode C++题解之第32题最长有效括号

题目&#xff1a; 题解&#xff1a; class Solution { public:int longestValidParentheses(string s) {int left 0, right 0, maxlength 0;for (int i 0; i < s.length(); i) {if (s[i] () {left;} else {right;}if (left right) {maxlength max(maxlength, 2 * ri…

Python从0到100(十五):函数的高级应用

前言&#xff1a; 零基础学Python&#xff1a;Python从0到100最新最全教程。 想做这件事情很久了&#xff0c;这次我更新了自己所写过的所有博客&#xff0c;汇集成了Python从0到100&#xff0c;共一百节课&#xff0c;帮助大家一个月时间里从零基础到学习Python基础语法、Pyth…

高通将支持 Meta Llama 3 在骁龙终端运行;特斯拉中国全系车型降价 1.4 万元丨 RTE 开发者日报 Vol.189

开发者朋友们大家好&#xff1a; 这里是「RTE 开发者日报」&#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE&#xff08;Real Time Engagement&#xff09; 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有…

第52篇:算法的硬件实现<三>

Q&#xff1a;本期我们介绍二进制搜索算法电路&#xff0c;用于查找某个数据在数组中的位置。 A&#xff1a;基本原理&#xff1a;从数组的中间元素开始&#xff0c;如果给定值和中间元素的关键字相等&#xff0c;则查找成功&#xff1b;如果给定值大于或者小于中间元素的关键…

Java本地缓存技术选型(Guava Cache、Caffeine、EhCache)

前言 对一个java开发者而言&#xff0c;提到缓存&#xff0c;第一反应就是Redis。利用这类缓存足以解决大多数的性能问题了&#xff0c;我们也要知道&#xff0c;这种属于remote cache&#xff08;分布式缓存&#xff09;&#xff0c;应用的进程和缓存的进程通常分布在不同的服…

JAVA学习笔记30(线程)

1.线程 1.线程的概念 1.线程是由进程创建的&#xff0c;是进程的一个实体 2.一个进程可以拥有多个线程 2.并发 ​ *同一时刻&#xff0c;多个任务交替执行&#xff0c;造成一种"貌似同时"的错觉&#xff0c;单核cpu实现的多任务就是并发 3.并行 ​ *同一时刻&…

私人密码管理储存库!Bitwarden 部署安装教程

日常生活中我们每个人都会拥有大量网站或社交平台帐号&#xff0c;时间久远了密码很容易忘记。因此&#xff0c;像 1Password 等密码管理 同步 一键登录的工具成为了很多人的首选。 然而 1Password 毕竟要付费&#xff0c;也有人会担心这类工具有隐私泄露的风险。其实&#…

随着深度学习的兴起,浅层机器学习没有用武之地了吗?

深度学习的兴起确实在许多领域取得了显著的成功&#xff0c;尤其是那些涉及大量数据和复杂模式的识别任务&#xff0c;如图像识别、语音识别和自然语言处理等。然而&#xff0c;这并不意味着浅层机器学习&#xff08;如支持向量机、决策树、朴素贝叶斯等&#xff09;已经失去了…

Android集成Sentry实践

需求&#xff1a;之前使用的是tencent的bugly做为崩溃和异常监控&#xff0c;好像是要开始收费了&#xff0c;计划使用开源免费的sentry进行替换。 步骤&#xff1a; 1.修改工程文件 app/build.gradle apply plugin: io.sentry.android.gradle sentry {// 禁用或启用ProGua…

算法打卡day50|单调栈篇01| Leetcode 739. 每日温度、496.下一个更大元素 I

算法题 Leetcode 739. 每日温度 题目链接:739. 每日温度 大佬视频讲解&#xff1a;739. 每日温度视频讲解 个人思路 因为题目所求的是找到一个元素右边第一个比自己大的元素&#xff0c;这是单调栈的经典题目&#xff0c;用栈来记录遍历过的元素 解法 单调栈 单调栈的本质…

opensshserver.config: line 3: Bad configuration option: GSSAPIKexAlgorithms

报错记录 /etc/crypto-policies/back-ends/opensshserver.config: line 3: Bad configuration option: GSSAPIKexAlgorithms 百度尝试 找到 “GSSAPIKexAlgorithms”这一行&#xff0c;然后注释掉 #GSSAPIKexAlgorithms vim /etc/ssh/sshd_config 这种方式并没有解决 解决方…

为什么中级职称评审不通过?有什么原因?

参与过职称评审或者有了解过职称评审的小伙伴们&#xff0c;应该都知道&#xff0c;职称评审都是有通过率&#xff0c;不是你去评&#xff0c;一定会评下来&#xff0c;一定会发证的&#xff0c;那么评审为什么不通过&#xff1f;有哪些原因呢&#xff1f; 现在职称评审人越来越…

免费开源圈子社交交友社区系统 可打包小程序 支持二开 源码交付!

线上社交的好处&#xff1a; 当今社会&#xff0c;人们越来越依赖于网络社交。互联网无疑为人类带来了许多好处&#xff0c; 其中一个就是线上社交。通过各种社交平台&#xff0c;人们可以随时随地互动交流&#xff0c;扩大自 己的社交圈&#xff0c;丰富生活。但是&#xf…

智慧气象站:赋能农业高标准发展新征程

随着科技的不断进步&#xff0c;智慧农业气象站已成为推动农业高标准发展的重要力量。它集成了先进的传感器、数据分析和通信技术&#xff0c;为农业生产提供了精准、及时的气象信息&#xff0c;助力农民实现科学种植、精准管理。 智慧农业气象站能够实时监测农田环境的温度、…

绿联 安装qbittorrent及一些常见错误的解决办法

绿联 安装qbittorrent及一些常见错误的解决办法 1、镜像 linuxserver/qbittorrent:latest 2、安装 2.1、创建容器 按需决定是否进行资源限制。 2.2、基础设置 2.3、网络 桥接即可。 注&#xff1a;如果使用IPV6&#xff0c;请选择"host"模式。 注&#xff1a;如…

0.5W 3KVDC 隔离单、双输出 DC/DC 电源模块——TPV-W5 3.3V, 5V,12V 15V系列

TPV-W5系列提供正负双输出和单输出&#xff0c;工业级环境温度&#xff0c;用于PCB安装的国际标准结构。此系列产品小巧&#xff0c;效率高&#xff0c;低输出纹波及能承受3000V以上的耐压&#xff0c;用于需要正负电压或单输出和高隔离电压的场合。封装有SIP和DIP可选。

Next.js 14 App Router引入 farmer-motion 初始化异常解决,顺带学点知识

前言 farmer-motion 是一个非常好用的动画库&#xff0c;当然用来做组件切换和路由切换过渡更不在话下。 记录一下&#xff0c;Next.js 14 App Router 下引入初始化异常的解决姿势&#xff0c;顺带扯一下 next.js 的知识点&#xff1b; 问题 过渡组件代码 我们拿 farmer-m…