自然语言NLP学习

自然语言NLP学习

news/2025/4/27 17:53:03/文章来源:https://blog.csdn.net/wangqiaowq/article/details/135824792

2-7 门控循环单元（GRU）_哔哩哔哩_bilibili

GRU LSTM

双向RNN

CNN 卷积神经网络

输入层转化为向量表示

dropout

ppl

标量

在物理学和数学中，标量（Scalar）是一个只有大小、没有方向的量。它只用一个数值就可以完全描述，且满足交换律。例如，质量、温度、时间、体积、密度、功、能量等都是标量。

在向量代数中，标量与向量是相对的概念，标量可以与向量相乘，从而改变向量的长度但不改变其方向。例如，在三维空间中，如果一个向量的长度为3，一个标量为2，那么这个标量乘以向量的结果将得到一个长度为6，方向不变的新向量。

注意力分数

隐向量

隐向量（Latent Vector）是机器学习和深度学习中一个重要的概念，特别是在自然语言处理、推荐系统、图像识别等领域。隐向量是用来表示复杂数据的一种低维实数向量，它通过训练学习到的，并试图捕捉原始高维数据中的潜在结构和语义信息。

在推荐系统中：

隐向量通常用来表示用户和物品（如电影、音乐等），每个用户和每件物品都被映射到一个固定维度的向量空间中。
例如，在因子分解机（FM，Factorization Machines）模型中，各个特征（比如用户ID或商品ID）对应的隐向量可以通过矩阵分解得到，这些隐向量的内积可以用来预测用户对商品的评分或者偏好。

在自然语言处理中：

单词或文档也可以用隐向量来表示，这种表示方法常被称为词嵌入（Word Embeddings），如Word2Vec、GloVe等模型生成的向量。
这些隐向量可以捕获单词之间的语义相似性，使得在向量空间中距离相近的单词具有类似的含义。

在深度学习架构中：

在神经网络中，Embedding层就是用来将离散的高维输入（如one-hot编码）转换为连续的低维隐向量，以便进行后续的计算和模式挖掘。

总的来说，隐向量是一种压缩和抽象的表示形式，它有助于模型理解和处理高维稀疏数据，并能够发现数据内部隐藏的模式和联系。

softmax函数是一种在机器学习和深度学习中广泛使用的归一化指数函数，主要用于多分类问题的输出层计算预测类别概率分布。

激活函数

注意力机制解决信息瓶颈问题

Transformer

BPE

交叉熵

正则化

加权平均是一种统计方法，用于计算一组数值的平均值时，考虑到每个数值的重要性（权重）不同。在普通平均数中，所有数据点都同等重要，而在加权平均中，每个数据点有一个与其对应的权重值，这个权重反映了该数据点在最终结果中的相对影响程度。

加权平均的计算公式为：

加权平均数=∑(每个数据值×对应权重)∑(所有权重)加权平均数=∑(所有权重)∑(每个数据值×对应权重)

例如，在学校教育场景中，一个学生的学期总评成绩可能由平时测验、期中考试和期末考试的成绩按不同比例（权重）综合得出：

平时测验：80 分，权重 20%
期中考试：90 分，权重 30%
期末考试：95 分，权重 50%

那么，该学生的学期总评成绩可以通过以下步骤计算：

学期总评成绩=(80×0.2)+(90×0.3)+(95×0.5)0.2+0.3+0.5学期总评成绩=0.2+0.3+0.5(80×0.2)+(90×0.3)+(95×0.5)

此外，在财务领域，加权平均法常用于库存管理，计算存货的单位成本。例如，考虑一段时间内多次购入商品的情况，每次购入的数量和单价不同，这时会根据各批次进货的数量（作为权重）和其相应的单价来计算整个库存的平均单位成本。

3-13 预训练语言模型--PLM介绍_哔哩哔哩_bilibili

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/647500.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

ModuleNotFoundError: No module named ‘half_json‘

ModuleNotFoundError: No module named ‘half_json‘

问题: ModuleNotFoundError: No module named ‘half_json’ 原因: 缺少jsonfixer包解决方法: pip install jsonfixerjson修正包地址: https://github.com/half-pie/half-json

阅读更多...

【自动化测试】读写64位操作系统的注册表

【自动化测试】读写64位操作系统的注册表

自动化测试经常需要修改注册表很多系统的设置（比如：IE的设置）都是存在注册表中。桌面应用程序的设置也是存在注册表中。所以做自动化测试的时候，经常需要去修改注册表 Windows注册表简介注册表编辑器在 C:\Windows\regedit…

阅读更多...

【MySQL】计算日期是当前月份的第几周

【MySQL】计算日期是当前月份的第几周

力扣题 1、题目地址 2993. 发生在周五的交易 I 2、模拟表表：Purchases Column NameTypeuser_idintpurchase_datedateamount_spendint (user_id, purchase_date, amount_spend) 是该表的主键(具有唯一值的列)。purchase_date 的范围从 2023 年 11 月 1 日到 2…

阅读更多...

【linux】-telnet服务安装

【linux】-telnet服务安装

1. 说明 telnet 分为 ：telnet 服务端和 telnet 客户端本文只演示安装 telnet服务端 2. 安装telnet服务端、以及守护服务xinetd 2.1 检测telnet-server的rpm包是否安装 rpm -qa telnet-server 2.2 若未安装，则安装telnet-server&#xff0…

阅读更多...

【Java基础】JVM关闭回调函数(ShutdownHook)的应用场景

【Java基础】JVM关闭回调函数(ShutdownHook)的应用场景

文章目录一.ShutdownHook介绍二.ShutdownHook被调用场景三.ShutdownHook如何使用四.ShutdownHook实践一.ShutdownHook介绍 ShutdownHook就是一个简单的已初始化但是未启动的线程。当虚拟机开始关闭时，它将会调用所有已注册ShutdownHook的回调函数&#xff0…

阅读更多...

Qt 基于海康相机的视频标绘

Qt 基于海康相机的视频标绘

需求： 基于视频进行标注，从而进行测量。曾经搞在线教育时，尝试在视频上进行文字或者图形的绘制，但是发现利用Qt widget 传sdk 句柄的方式，只能使用窗口叠加的方式（Qt 基于海康相机的视频绘图_海康相…

阅读更多...

提效IntelliJ IDEA插件

提效IntelliJ IDEA插件

要问对后端程序员最重要的软件是哪个？IntelliJ IDEA说第二，估计没有其他软件可以称第一。在工作过程中我发现对于这么重要的软件，有些开发同学竟然把它“打扮”的甚是简陋，能实现高级功能的插件，没有！能简化…

阅读更多...

Java算法 leetcode简单刷题记录7

Java算法 leetcode简单刷题记录7

Java算法 leetcode简单刷题记录7 最长奇偶子数组： https://leetcode.cn/problems/longest-even-odd-subarray-with-threshold/ 有的题看着不难，根据提示往下写，有的case就是死活过不了这道题耗了挺久… class Solution {public int longes…

阅读更多...

专业144总分410+华南理工大学811信号与系统考研经验华工电子信息与通信

专业144总分410+华南理工大学811信号与系统考研经验华工电子信息与通信

今年专业811信号与系统144（二战，感谢信息通信Jenny老师专业课对我的巨大提高，第一年自己复习只考了90，主要栽专业课和数学）总分410含泪（二战的同学都知道苦，成功来之不易）考上华南理…

阅读更多...

java servlet 高校田径运动会管理系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目

java servlet 高校田径运动会管理系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目

一、源码特点 jsp高校田径运动会管理系统是一套完善的java web信息管理系统采用mvc模式 servletdaobean 模式开发，对理解JSP java编程开发语言有帮助，系统具有完整的源代码和数据库，系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myecl…

阅读更多...

Kafka-消费者-KafkaConsumer分析总结

Kafka-消费者-KafkaConsumer分析总结

KafkaConsumer依赖SubscriptionState管理订阅的Topic集合和Partition的消费状态，通过ConsumerCoordinator与服务端的GroupCoordinator交互，完成Rebalance操作并请求最近提交的offset。 Fetcher负责从Kafka中拉取消息并进行解析，同时参与posi…

阅读更多...

基于本地缓存制作一个分库分表的分布式ID生成器

基于本地缓存制作一个分库分表的分布式ID生成器

引言： 代码在 https://gitee.com/lbmb/mb-live-app 中【mb-live-id-generate-provider】模块里面如果喜欢希望大家给给star 项目还在持续更新中。背景介绍项目整体架构是基于springboot 3.0 开发 rpc 调用采用 dubbo 注册配置中心使用 nacos 采用shardin…

阅读更多...

vue中数据状态轮询

vue中数据状态轮询

vue中数据状态轮询 1、数据接口和状态接口是分开的首先在页面挂在后请求数据，然后判断数据中状态是否有需要轮询的，有的话就轮询： async getTableDataList() {this.tableLoading true;try {let params {page: this.dataPage,page_size:…

阅读更多...

[git] windows系统安装git教程和配置

[git] windows系统安装git教程和配置

一、何为Git Git(读音为/gɪt/)是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理。二、git安装包有2种版本，Git for Windows Setup和Git for Windows Portable(便携版)两个版本都可以。三、Git for Windows Por…

阅读更多...

jQuery Chaining —— W3school 详解简单易懂（十）

jQuery Chaining —— W3school 详解简单易懂（十）

通过 jQuery，您可以把动作/方法链接起来。 Chaining 允许我们在一条语句中允许多个 jQuery 方法（在相同的元素上）。 jQuery 方法链接直到现在，我们都是一次写一条 jQuery 语句（一条接着另一条）。不过…

阅读更多...

手动搭建koa+ts项目框架（apidoc文档篇）

手动搭建koa+ts项目框架（apidoc文档篇）

文章目录一、安装apidoc工具二、使用1、项目根目录新建apidoc.json2、定义接口路由上方注解对应信息3、配置静态文件访问目录4、生成api文档如有启发，可点赞收藏哟~ 一、安装apidoc工具全局安装 npm i apidoc -g查看是否安装成功 apidoc -v二、使用 1、项目根…

阅读更多...

1. MySQL 数据库

1. MySQL 数据库

本章内容关系型数据库基础安装 MySQL 管理数据库和表用户和权限管理函数，存储过程，触发器和事件 MySQL 架构存储引擎服务器选项，系统和状态变量优化查询和索引管理锁和事务管理日志管理备份还原 MySQL 集群压力测试…

阅读更多...

linux-centos服务器离线安装yapi(包含nodejs、mongodb、yapi、pm2离线安装)

linux-centos服务器离线安装yapi(包含nodejs、mongodb、yapi、pm2离线安装)

yapi是使用vue框架开发的，借助nodejs 前端直接访问的mongodb数据库，离线安装yapi步骤如下下载离线安装包下载地址 https://download.csdn.net/download/qq445829096/88778418 离线安装包先复制到 dev/yapi目录(根据自己习惯自定义目录) node-v12.13.0-linux-x64.tar.xz …

阅读更多...

【算法练习】leetcode算法题合集之排序篇

【算法练习】leetcode算法题合集之排序篇

排序算法快速排序单路快排获取随机一个元素，元素左边是小于它的，元素右边是大于它的。 partition：选择一个元素，交换left。比较nums[left]和nums[i]，如果nums[i]<nums[left]，找到一个小于标的元素的数据，交换到j的位置，j记录着最后一个小于标的元素的数据，切换…

阅读更多...

P1065 [NOIP2006 提高组] 作业调度方案题目

P1065 [NOIP2006 提高组] 作业调度方案题目

题目我们现在要利用m台机器加工n个工件，每个工件都有m道工序，每道工序都在不同的指定的机器上完成。每个工件的每道工序都有指定的加工时间。每个工件的每个工序称为一个操作，我们用记号j-k表示一个操作，其中j为1到n中的某个数…

阅读更多...

最新文章