AI学习记录 - transformers 的 linear 词映射层的详细分析， CrossEntropyLoss 函数解析

AI学习记录 - transformers 的 linear 词映射层的详细分析， CrossEntropyLoss 函数解析

bicheng/2025/7/2 1:29:31/文章来源:https://blog.csdn.net/weixin_43954090/article/details/141300345

创作不易，有用的话点个赞。。。。。。

1. 假设条件

词汇表：假设词汇表包含四个词汇：[token_0, token_1, token_2, token_3]。
模型的输出概率分布：模型的输出经过 Softmax 转换后，得到概率分布：[0.1,0.5,0.2,0.2]，我们需要将[0.1,0.5,0.2,0.2]套进如下公式。

数学公式

在这里插入图片描述

真实标签

y 的独热编码向量为：y=[0,1,0,0]

如下图表示：
在这里插入图片描述
代入公式可得：

在这个例子中，torch.log 的计算过程可以简化为计算预测概率的自然对数 log(0.5)，然后取其负值得到最终的交叉熵损失 0.6931。这个损失值表示的是模型在该样本上的预测误差。

一般来说，计算误差，按照上面的数字，直接计算不好吗，如下：

0 - 0.1 = 0.1,
1 - 0.5 = 0.5,
0 - 0.2 = 0.2,
0 - 0.2 = 0.2,
逐个计算进行反向传播。

那为什么要使用log函数呢？

因为在数据处理上，我们已经使用了softmax函数，使得所有数字加起来等于1，当我把其中一个修改了，自然会影响到其他的维度的数字。所以我只需要让0.5这一个进行反向传播就可以了。

看看log函数图像，我们发现，0到1之间，数字越大，也就是越接近1，-log(x)数字就越小，那么就可以把-log(x)的值当作是损失值，也是符合预期的。例如按照原来的分类方法当0.5(x)越大，越靠近1，证明 1 - 0.5(x) 越小，也越是符合预期，所以把-log(x)当成是损失率刚刚好也满足原来的多分类的概念，torch就可以根据-log(x)作为损失率去反向传播，就是对权重的调大还是调小，调整幅度是多少。

在这里插入图片描述

在这里插入图片描述

可以看出y越靠近1，log越接近0，寓意为损失率越低。。。。。。。。。。。。。。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/52002.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

88.SAPUI5 Model Binding的问题-在view更改数据，model却不变

88.SAPUI5 Model Binding的问题-在view更改数据，model却不变

目录 1.背景 2.sap.ui.model.BindingMode sap.ui.model.BindingMode.OneWay sap.ui.model.BindingMode.TwoWay 3.oModel.setDefaultBindingMode 方法说明 execOneWay方法 execTwoWay方法 1.背景在做一个UI5项目，后台读取sap.ui.model.Model后，把…

阅读更多...

qt-12工具盒(ToolBox)

qt-12工具盒(ToolBox)

工具盒--ToolBox drawer.hdrawer.cppmain.cpp运行图 drawer.h #ifndef DRAWER_H #define DRAWER_H #include <QWidget> #include <QToolBox> #include <QToolButton> #include <QGroupBox> #include <QVBoxLayout>class Drawer : public QToolB…

阅读更多...

MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读

MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读

大模型的趋势：模型性能越来越好，模型参数变小，端边设备计算能力变强。 MiniCPM-V优点结果好、OCR能力突出、多分辨率、多语言、易于部署模型结构图片encoder适用vit。输入整体以及切片。切片使用自适应算法，通过计算分数&am…

阅读更多...

[LitCTF 2024]浏览器也能套娃？

[LitCTF 2024]浏览器也能套娃？

题目有标志SSRF SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由攻击者构造形成由服务端发起请求的一个安全漏洞。一般情况下，SSRF攻击的目标是从外网无法访问的内部系统。（正是因为它是由服务端发起的，所以它能够请求到与它相…

阅读更多...

数据结构----栈

数据结构----栈

一丶概念只能在一端进行插入和删除操作的线性表（又称为堆栈），进行插入和删除操作的一端称为栈顶，另一端称为栈底二丶特点先进后出 FILO first in last out 后进先出 LIFO last in first out 三丶顺序栈逻辑结构&…

阅读更多...

【网络】套接字(socket)编程——TCP版

【网络】套接字(socket)编程——TCP版

接着上一篇文章：http://t.csdnimg.cn/GZDlI 在上一篇文章中，我们实现的是UDP协议的，今天我们就要来实现一下TCP版本的接下来接下来实现一批基于 TCP 协议的网络程序，本节只介绍基于IPv4的socket网络编程基于 TCP 的网络编程开…

阅读更多...

给既有exe程序添加一机一码验证

给既有exe程序添加一机一码验证

原文地址：李浩的博客 lihaohello.top 本科期间开发过一款混凝土基本构件设计程序，该程序是一个独立的exe可执行文件，采用VC静态链接MFC库编制而成。近期，需要为该程序添加用户注册验证的功能，从而避免任何用户获取该程…

阅读更多...

python从入门到精通：函数

python从入门到精通：函数

目录 1、函数介绍 2、函数的定义 3、函数的传入参数 4、函数的返回值 5、函数说明文档 6、函数的嵌套调用 7、变量的作用域 1、函数介绍函数是组织好的，可重复使用的，用来实现特定功能的代码段。 name "zhangsan"; length len(nam…

阅读更多...

Java八股整合（MySQL+Redis+Maven）

Java八股整合（MySQL+Redis+Maven）

MySQL 数据库设计三范式不可再分，部分依赖，传递依赖主键和外键区别主键非空约束，唯一性约束，唯一标识一个字段外键用于和其他表建立连接，是另一张表的主键，可重复可为空可以有多个为什么不推荐使…

阅读更多...

链表---数据结构-黑马

链表---数据结构-黑马

链表定义链表是数据元素的线性集合，其每个元素都指向下一个元素，元素存储上是不连续的。分类单向链表，每个元素只知道自己的下一个元素是谁。双向链表，每个元素知道自己的上一个元素和下一个元素。循环链表，…

阅读更多...

10W数据导入该如何与库中数据去重？

10W数据导入该如何与库中数据去重？

使用的是PostgreSQL 在做大数据量（十万级）导入时，某些字段和数据库表里数据（千万级）重复的需要排除掉，把表数据查询出来用程序的方式判断去重效率很低，于是考虑用临时表。先把新数据插入到临时…

阅读更多...

Git工具练习网站

Git工具练习网站

Learn Git Branching

阅读更多...

【深度学习】单层神经网络

【深度学习】单层神经网络

单层神经网络神经元感知机 1943年，心理学家McCulloch和数学家Pitts共同发表了神经网络的开山之作A Logical Calculus of the Ideas Immanent in Nervours Activity1，提出了神经网络的第一个数学模型——MP模型。该模型也成为了人工神经网络的基础。神经…

阅读更多...

AXI DMA IP的MICRO DMA模式和去掉SG（Scatter-Gather）功能的模式

AXI DMA IP的MICRO DMA模式和去掉SG（Scatter-Gather）功能的模式

AXI DMA IP的MICRO DMA模式和去掉SG（Scatter-Gather）功能的模式确实有一些区别。让我们详细比较这两种模式： 功能复杂度： MICRO DMA模式：设计为更简单、更轻量级的DMA解决方案。无SG模式：仍保留了基本DMA的…

阅读更多...

Error hdl vendor backen is missing

Error hdl vendor backen is missing

跑vcs时报这个错， // hdl vendor backends are defined for VCS,QUESTA,INCA #if defined(VCS) || defined(VCSMX) #include "uvm_hdl_vcs.c" #else #ifdef QUESTA #include "uvm_hdl_questa.c" #else #if defined(INCA) || defined(NCSC) #in…

阅读更多...

leetcode-448. 找到所有数组中消失的数字

leetcode-448. 找到所有数组中消失的数字

题目描述给你一个含 n 个整数的数组 nums ，其中 nums[i] 在区间 [1, n] 内。请你找出所有在 [1, n] 范围内但没有出现在 nums 中的数字，并以数组的形式返回结果。示例 1： 输入：nums [4,3,2,7,8,2,3,1] 输出：[5,6…

阅读更多...

代码随想录算法训练营第十四天| 226.翻转二叉树 101. 对称二叉树 104.二叉树的最大深度 111.二叉树的最小深度

代码随想录算法训练营第十四天| 226.翻转二叉树 101. 对称二叉树 104.二叉树的最大深度 111.二叉树的最小深度

目录一、LeetCode 226.翻转二叉树思路：C代码二、LeetCode 101. 对称二叉树思路C代码二、LeetCode 104.二叉树的最大深度思路C代码二、LeetCode 111.二叉树的最小深度思路C代码总结一、LeetCode 226.翻转二叉树题目链接：LeetCode 226.翻转二叉树 …

阅读更多...

Redis缓存配置

Redis缓存配置

redis缓存使用redis缓存的原因是因为在可能的高并发环境下，mysql数据库无法承受大量的请求，可能会导致数据库崩溃。而这些请求很大一部分都是查询请求，因此采用redis这样的以内存作为存储数据空间的数据库来存储查询请求的数据，…

阅读更多...

springboot静态资源访问问题归纳

springboot静态资源访问问题归纳

以下内容基于springboot 2.3.4.RELEASE 1、默认配置的springboot项目，有四个静态资源文件夹，它们是有优先级的，如下： "classpath:/META-INF/resources/", （优先级最高） "classpath:/reso…

阅读更多...

【Android】android，震动一下，50ms，震动等级设置低一点

【Android】android，震动一下，50ms，震动等级设置低一点

要在Android中实现震动50ms，并将震动等级设置为低，你可以使用Vibrator类。下面是一个简单的代码示例，展示如何实现这个功能： import android.content.Context; import android.os.VibrationEffect; import android.os.Vibrator

阅读更多...

最新文章