BERT应用——文本相似度计算

  本文展示了如何利用BERT模型计算两个文本字符串之间的余弦相似度。BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer架构的预训练模型,广泛应用于自然语言处理领域。BERT的核心创新在于其双向训练的机制,使得模型能够同时考虑到输入数据的左右两侧的上下文信息,从而获得更为丰富的语义表示。

在这里插入图片描述

一、技术思路

  本代码段的技术思路是:首先使用BERT的分词器对输入的单词进行编码,然后将编码后的数据输入到BERT模型中获取嵌入向量。随后,对这些向量进行平均池化处理以获得更加稳定的特征表示,最后通过余弦相似度函数计算两个嵌入向量之间的相似度。这种方法结合了BERT的深层语义理解能力和余弦相似度的直观度量方式,能有效地评估两个文本之间的语义接近程度。

  1. 文本编码原理

  在BERT中,文本首先通过一个分词器(Tokenizer)处理,该分词器将原始输入文本转换为模型可以理解的格式,包括将单词转换为词汇表中的索引、添加特殊的分隔符(如[CLS]和[SEP]),以及生成对应的注意力掩码(Attention Mask)。这一步是处理文本数据的关键,它直接关系到后续模型能否正确理解和处理输入数据。

  1. 嵌入向量的获取

  通过BERT模型对编码后的文本进行处理后,可以获取到每个输入token的嵌入表示。这些表示是在模型的多层网络结构中生成的,其中每一层都通过自注意力机制和前馈网络计算得到新的表示。在自然语言处理任务中,通常使用模型最后一层的输出作为最终的特征表示,因为它们包含了经过多层处理后的高级语义信息。

  1. 余弦相似度的计算

  余弦相似度是一种常用的相似度度量方式,它通过计算两个向量的夹角余弦值来评估它们的相似度。在文本处理中,将两个文本的嵌入向量进行余弦相似度计算,可以得到一个介于-1和1之间的标量值,表示这两个文本在语义上的接近程度。值越接近1,表示语义相似度越高;值越接近-1,表示语义差异越大。

二、代码实现

from transformers import BertTokenizer, BertModel
import torch
import torch.nn.functional as F# 定义要比较的单词
Text_1 = "Apple"
Text_2 = "Red"# 初始化 BERT tokenizer 和模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')# 对单词进行编码
tokens_a = tokenizer(Text_1, return_tensors='pt')
tokens_b = tokenizer(Text_2, return_tensors='pt')# 获取单词的嵌入
with torch.no_grad():embeddings_a = model(**tokens_a).last_hidden_state.mean(dim=1)embeddings_b = model(**tokens_b).last_hidden_state.mean(dim=1)# 计算余弦相似度
cosine_similarity = F.cosine_similarity(embeddings_a, embeddings_b)
cosine_similarity.item()
print(cosine_similarity)

结果

Text_1Text_2cosine_similarity
AppleRed0.8330
AppleEat0.8428
I like applesThe weather is cold0.4977
I like applesI don’t like bananas0.7750

参考资料

[1] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arxiv preprint arxiv:1810.04805, 2018.
[2] bert-base-uncased

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848657.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cartographer学习笔记

Cartographer 是一个跨多个平台和传感器配置提供 2D 和 3D 实时同步定位和地图绘制 (SLAM) 的系统。 1. 文件关系 2. 代码框架 common: 定义了基本数据结构和一些工具的使用接口。例如,四舍五入取整的函数、时间转化相关的一些函数、数值计算的函数、互斥锁工具等…

Autosar Dem模块介绍

Autosar Dem 模块基础 在现代汽车电子系统中,Autosar(Automotive Open System Architecture)扮演着至关重要的角色,而其中的 Dem(Diagnostic Event Manager)模块更是具有关键意义。 Autosar Dem 模块的定义可以概括为:它是负责管理和处理诊断相关事件的一个组件。其主要…

【必会面试题】快照读的原理

目录 前言知识点一个例子 前言 快照读(Snapshot Read)是数据库管理系统中一种特殊的读取机制,主要用于实现多版本并发控制(MVCC, Multi-Version Concurrency Control)策略,尤其是在MySQL的InnoDB存储引擎中…

text2sql、nl2sql框架总结

DB-GPT DB-GPT 语雀 Vanna DAIL-SQL data-copilot SuperSonic:腾讯音乐开源 Chat BI 平台,开启 Text-to-SQL 全新体验

Oracle数据库面试题-6

21. 请解释Oracle数据库中的容灾解决方案,如GoldenGate等。 Oracle数据库中的容灾解决方案旨在确保在发生严重的灾难事件(如地震、火灾、洪水等)时,数据库能够迅速恢复正常的业务操作,同时最小化损失。容灾解决方案通…

特征优化+模型优化

一、优化思路梳理 课前准备   在昨天的内容中,我们通过使用更强的集成模型以及模型融合的方法,已经顺利将比赛分数提高至前20%。但正如此前所说,之前的一系列操作只不过是遵循了常规操作流程进行的数据处理与建模,若希望能够更进…

面试题:Proxy 相较于 Object.defineProperty 有什么优势?

面试题:Proxy 相较于 Object.defineProperty 有什么优势? Object.defineProperty 详解 语法:Object.defineProperty(obj, prop, descriptor) 功能:在一个对象上定义一个新属性或修改其现有属性,并返回此对象。 参数…

界面控件Telerik UI for WPF中文教程 - 用RadSvgImage升级应用程序UI

Telerik UI for WPF拥有超过100个控件来创建美观、高性能的桌面应用程序,同时还能快速构建企业级办公WPF应用程序。UI for WPF支持MVVM、触摸等,创建的应用程序可靠且结构良好,非常容易维护,其直观的API将无缝地集成Visual Studio…

笔记-Python中的struct模块

了解c语言的人,一定会知道struct结构体在c语言中的作用,它定义了一种结构,里面包含不同类型的数据(int,char,bool等等),方便对某一结构对象进行处理。而在网络通信当中,大多传递的数据是以二进制流(binary …

ADB命令来捕获设备屏幕快照和发送鼠标事件来实现抓取公众号文章

ADB命令来捕获设备屏幕和发送鼠标事件来实现抓取公众号文章 现在公众号需要登陆账号才能看到评论内容。登陆要账号的密码等,token还会过期。 现在的很多小程序进行了加密,那是否有方案可以抓取小程序或公众号的数据呢? 解决方案: …

【简报】VITA 74 (VNX)B

1 为什么向AMSAT社区提及VPX / VNX 1.1VPX是包括卫星在内的最新一代军用车辆增长最快的标准 VITA 65 – 面向地面车辆的 OpenVPX文献检索将揭示在许多商业和军事坚固型系统应用中的广泛应用VITA 78 – AFRL和工业界正在开发用于卫星的“SpaceVPX”和“Space VPX Lite” 1.2 …

R语言数据分析15-xgboost模型预测

XGBoost模型预测的主要大致思路: 1. 数据准备 首先,需要准备数据。这包括数据的读取、预处理和分割。数据应该包括特征和目标变量。 步骤: 读取数据:从CSV文件或其他数据源读取数据。数据清理:处理缺失值、异常值等…

AWS Load Balancer Controller 实践

背景 通过编写K8S的Ingress 然后能自动创建 aws的LB 作用 控制器监视 Kubernetes Ingress 或 Service 资源。作为响应,它会创建相应的 AWS 弹性负载均衡资源。您可以通过对 Kubernetes 资源应用注释来配置负载均衡器的特定行为。例如,您可以使用注释将 AWS 安全组附加到负…

人工智能_机器学习097_PCA数据降维算法_数据去中心化_特征值_特征向量_EVD特征值分解原来和代码实现---人工智能工作笔记0222

降维算法的原理,一会咱们再看,现在先看一下,算法 可以看到PCA算法的,原理和过程,我们先看一下代码 为了说明PCA原理,这里,我们,先来计算一下X的方差,可以看到 先把数据进行去中心化,也就是用数据,减去数据的平均值. B = X-X.mean(axis=0) 这段代码是用于计算矩阵X的每一列减去该…

websockets怎么工作的呢?

WebSockets是一种在单个TCP连接上进行全双工通信的协议,使得客户端和服务器之间的数据交换变得更加简单,并允许服务端主动向客户端推送数据。下面是WebSockets的工作原理: 1. **握手阶段**: - 客户端发起一个HTTP请求到服务器&…

react+vite创建

要在本地初始化一个结合了React和Vite的项目,你可以遵循以下步骤: 1、安装Node.js: 确保你的机器上已安装了Node.js。如果未安装,请前往Node.js官网下载并安装。 2、使用终端或命令提示符: 打开你的终端(…

测试工程师经常使用的Python中的库,以及对应常用的函数

os (操作系统接口) 该库提供了许多与操作系统交互的函数,如文件处理、目录操作、进程管理等。 常用功能包括: os.name: 获取操作系统的名称。 os.path: 用于操作文件路径的模块,如os.path.join拼接路径。 os.mkdir: 创建目录。 os.remove: 删…

EE trade:通货膨胀对老百姓意味着什么

通货膨胀,是经济领域中的一个常见现象,对社会各阶层尤其是普通老百姓的生活产生了深远影响。理解通货膨胀对老百姓的真实含义,可以帮助我们更好地应对日常生活的变化与挑战。 1. 生活成本的上升 最直接的影响体现在生活成本上。通货膨胀会导致…

Linux操作系统:Redis在虚拟环境下的安装与部署

Redis下载方法 最近部署项目的时候用到了Redis,自己在安装的时候也碰到了一些列问题最终安装成功,记录一下自己的安装历程。前期准备: 服务器Linux版本:Centos8.4 64位(http://isoredirect.centos.org/centos/8/isos/…

TS设置接收的形参类型

在我们使用pinia时会接受参数&#xff0c;一般来说是传递两个参数 setGlobalState(...args: ObjToKeyValArray<GlobalState>) {this.$patch({ [args[0]]: args[1] }); } 例如此时传递的是globalStore.setGlobalState("token", "123"); 那么此时的…