三、NLP中的句子关系判断

句子关系判断是指判断句子是否相似,是否包含,是否是问答关系等,常应用在文本去重、检索(用户输入和文档的相关性)、推荐(和用户喜好文章是否相似)等场景中。

3.0、文本相似度计算

3.0.0 传统机器学习判断句子相似度

首先,将句子对转换成向量,参考第零章节给出的方法。

其次,计算句子间的距离,计算距离的常用方式:

(1)欧式距离:

(2)曼哈顿距离:

(3)切比雪夫距离

(4)余弦相似度

(5)Jaccard系数(词袋模型适用)

(6)皮尔逊相关系数

以下是计算示例

两个向量:X = [80, 85, 90, 75, 95]
Y = [70, 75, 85, 60, 90]
平均分:
meanX = (80 + 85 + 90 + 75 + 95) / 5 = 85
meanY = (70 + 75 + 85 + 60 + 90) / 5 = 76
协方差:
Cov(X, Y) = [(80-85)*(70-76) + (85-85)*(75-76) + (90-85)*(85-76) + (75-85)*(60-76) + (95-85)*(90-76)] / 5
= (-5 * -6 + 0 * -1 + 5 * 9 + -10 * -16 + 10 * 14) / 5 = 75
标准差:
σX = √[((80-85)^2 + (85-85)^2 + (90-85)^2 + (75-85)^2 + (95-85)^2) / 5]
= √[(25 + 0 + 25 + 100 + 100) / 5]
= √[50] ≈ 7.07
σY = √[((70-76)^2 + (75-76)^2 + (85-76)^2 + (60-76)^2 + (90-76)^2) / 5]
= √[(36 + 1 + 81 + 256 + 196) / 5]
= √[114] ≈ 10.68
皮尔逊相关系数:
r = Cov(X, Y) / (σX * σY) = 75 / (7.07 * 10.68) ≈ 1.06

(7)汉(海)明距离(需要基于one-hot编码)

就是对两个向量中每一位进行异或(xor)运算,并计算出异或运算结果中1的个数。例如[1,1,0]和[0,1,1]这两个向量,对它们进行异或运算,其结果是110⊕011=101,海明距离即为2

(8)编辑距离

Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑(加词、减词、移词)操作次数,如果它们的距离越大,说明它们越是不同。RD最常见的算法题之一。

(9)SimHash

一种搜索常用的相似度算法【深度好文】simhash文本去重流程

3.0.1 深度模型判断句子相似度

总的可以分为单塔和双塔模型。

单塔模型:先将输入文本合并,然后输入到单一的神经网络模型。在单塔模型下,我们需要把两句文本通过[SEP]进行拼接,将拼接好的数据喂给模型,通过output中的[CLS] token做一个二分类任务。准确率高,计算慢。因为有多少对相似的句子,就需要拼接多少次。

双塔模型:对输入文本分别进行编码成固定长度的向量,通过文本的表示向量进行交互计算(计算方式可参考少一节(1)中的内容)得到文本之间的关系,也可训练自己的分类器,如LR/GBDT/SVM等等进行进一步的分类。图中的brt可以换成ernie等其他模型,计算的快,工业界常用的方式,但准确率不如单塔。

其余方法,可参考:21个经典深度学习句间关系模型

3.1 语义关系推理

任务描述:从前提句中推理得到假设句子,通常推理包括蕴含、中立和矛盾。

常用方法:单塔和双塔模型,和相似度判断类似,可参考3.0的内容,只需将相似的二分类判断改为三分类即可。

3.2 问答对判断等

方法与句子关系判断类似。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/743616.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络-认识设备

一、概述 前面我们其实已经讲了一些关于设备的知识了,从现在开始进入下一阶段的理解。 网络基础设施由交换机、路由器、防火墙等构成,那我们的数据怎样从一个接口转发到另外一个接口最终实现网络访问的呢? 二、设备基础 2.1 网络设备硬件架构 我们分别以…

Axure原型设计项目效果 全国职业院校技能大赛物联网应用开发赛项项目原型设计题目

目录 前言 一、2022年任务书3效果图 二、2022年任务书5效果图 三、2022年国赛正式赛卷 四、2023年国赛第一套样题 五、2023年国赛第二套样题 六、2023年国赛第三套样题 七、2023年国赛第四套样题 八、2023年国赛第七套样题 九、2023年国赛正式赛题(第八套…

SSA-LSTM多输入回归预测 | 樽海鞘优化算法-长短期神经网络 | Matlab

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、算法介绍: 四、完整程序下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Matlab平台编译&am…

智慧路灯杆如何提升智慧城市文旅形象

今年以来,全国多地城市凭借本地独特物产、独特旅游环境等亮点火爆出圈,为城市带来显著经济增长和形象提升。文旅经济作为高附加值产业,具有高收益、高潜力等特点,还有助于推动城市经济转型和可持续发展。 推动城市文旅经济发展&am…

力扣每日一题 最大二进制奇数 模拟 贪心

Problem: 2864. 最大二进制奇数 由于奇数的二进制末尾一定是 111,我们可以把一个 111 放在末尾,其余的 111 全部放在开头,这样构造出的奇数尽量大。 复杂度 时间复杂度: O ( n ) O(n) O(n) 空间复杂度: O ( 1 ) O(1) O(1) Code class…

全国降雨侵蚀力因子R值/土壤侵蚀模型RUSLE

降雨侵蚀力因子其实是反应降雨对土壤侵蚀的潜在能力,就是降雨的冲刷对土壤的侵蚀效应。 在过去几天查阅文献资料的过程中,本人亲眼看见过的关于因子R的计算方法就超过30种,着实大开了眼界。 不过总结这些计算方法,其实核心思路大…

第六篇【传奇开心果系列】Python的自动化办公库技术点案例示例:大学生数据全方位分析挖掘经典案例

传奇开心果博文系列 系列博文目录Python的自动化办公库技术点案例示例系列 博文目录前言一、Pandas库全方位分析挖掘大学生数据能力介绍二、大学生学生成绩数据分析数据挖掘示例代码三、大学生选课数据分析数据挖掘示例代码四、大学生活动参与数据分析数据挖掘示例代码五、大学…

让若依生成的service、mapper继承mybatisPlus的基类

前言:若依继承mybatisPlus后,生成代码都要手动去service、serviceImpl、mapper文件去继承mybatisplus的基类,繁琐死了。这里通过修改若依生成模版从而达到生成文件后直接使用mybatisPlus的方法。 一、首先找到若依生成模版文件位置&#xff…

VsCode免密登录

创建本地密匙 按下WinR输入cmd,输入 ssh-keygen -t rsa然后连续回车直到结束 找到Your public key has been saved in C:\Users\Administrator/.ssh/id_rsa.pub,每个人都不一样找到密匙所在地 打开id_rsa.pub这个文件,可以用记事本打开&am…

ROS 语音交互(三) tts

目录 一、模型选择 二、流程 三、核心代码展示 一、模型选择 科大讯飞超拟人识别 二、流程 超拟⼈合成协议 | 讯飞开放平台文档中心 (xfyun.cn) 三、核心代码展示 # coding: utf-8 import _thread as thread import os import time import base64import base64 import …

【C++】STL--String

这一节主要总结string类的常见接口,以及完成了string类的模拟实现。 目录 标准库的String类 string类常见接口 string类对象的常见构造 string析构函数:~string string类对象的容量操作 string类对象的访问及遍历操作 string类对象的修改操作 s…

NAS网络存储的简单了解

一、概述 NAS网络存储,即网络附加存储(Network Attached Storage),是一种具有很大存储容量的电脑外敷设备,它通过网络直接连接到交换机上。NAS的主要功能是为网络区域存储(或磁盘)的用户提供数据…

二、TensorFlow结构分析(5)案例

案例: minimize(error) 代码: def linear_regression():# 自实现线性回归# 1)准备数据X tf.random.normal(shape[100,1])y_true tf.matmul(X,[[0.8]]) 0.7# 2)构造模型# 定义模型参数 用 变量weights tf.Variable(initial_v…

聚观早报 | 比亚迪e2荣耀版上市;华为享界S9正式亮相

聚观早报每日整理最值得关注的行业重点事件,帮助大家及时了解最新行业动态,每日读报,就读聚观365资讯简报。 整理丨Cutie 3月14日消息 比亚迪e2荣耀版上市 华为享界S9正式亮相 理想汽车L系列改名 极氪全新纯电MPV车型曝光 vivo X100S外…

大数据基础设施搭建 - Doris

文章目录 一、Linux系统要求1.1 设置系统最大打开文件句柄数1.2 设置最大虚拟块的大小1.3 集群中其他安装doris的机器同上调整1.4 重启服务器生效 二、确认需要下载哪个Doris版本三、上传并解压压缩包3.1 创建目录3.2 解压fe3.3 解压be3.4 解压java udf函数3.4.1 解压3.4.2 复制…

金航标kinghelm宋仕强先生说,“金航标,连接世界

金航标kinghelm宋仕强先生说,“金航标,连接世界”。连接器的作用是为两个电路子系统提供一个可分离的界面,一方面使得零部件或子系统的维护或升级不必修改整个系统;另一方面提高了零部件的便携性、外围设备的拓展能力,…

搭建个人智能家居 3 -第一个设备“点灯”

搭建个人智能家居 3 -第一个外设“点灯” 前言ESPHome点灯 HomeAssistant 前言 前面我们已经完成了搭建这个智能家居所需要的环境HomeAssistant和ESPHome,今天我们开始在这个智能家居中添加我们的第一个设备(一颗LED灯),如果环境…

Qt 如何搭建Lua的运行环境

一、Lua简介 Lua 是一种强大的、高效的、轻量级的、可嵌入的脚本语言。它支持过程(procedural)编程、面向对象编程、函数式编程以及数据描述。Lua 是动态类型的,运行速度快,支持自动内存管理,因此被广泛用于配置、脚本…

使用OCC进行旋转扫掠

旋转扫掠是将物体以某一个坐标轴为参照,按照指定的角度旋转生成新的图形的过程 这里使用面的案例,使用线的逻辑处理其实是一样的 //构造旋转轴 gp_Ax1 anAxis; //设置轴的原点 anAxis.SetLocation(0,0,0); //设置轴的方向 anAxis.SetDirection(gp_Dir(0…

Docker与Nacos的下载与安装配置

文章目录 docker作用docker的下载nacos 下载1. 首先搜索需要的下载2. 拉取stars最多的即可3. 启动nacos4. 打开防火墙8848端口5. 访问nacos docker 作用 Docker 是一种开源的容器化平台,它的作用主要包括以下几个方面: 应用程序的打包和分发&#xff1…