【深度学习】S2 数学基础 P2 线性代数(下)

目录

  • 范数的意义
    • 范数的数学意义
    • 范数之于深度学习的意义
  • L1 范数与 L2 范数
    • L1 范数
    • L2 范数
  • 小结

本节博文是线性代数第二部分,主要内容为 L 1 L1 L1 范数与 L 2 L2 L2 范数;有关线性代数基础知识,请访问:【深度学习】S2 数学基础 P1 线性代数(上)

范数的意义

范数的数学意义

在数学的框架内,范数是一个基本的概念,它为向量空间提供了一个度量方法,使得可以比较向量的大小,并研究向量之间的运算。

范数之于深度学习的意义

而在深度学习中,范数作为正则化项添加到损失函数中,以帮助改善模型的泛化能力。

具体的说,在深度学习中,损失函数由两部分组成:数据损失和正则化损失。数据损失反映了模型预测与真实标签之间的差异(例如,交叉熵损失或均方误差),而正则化损失则旨在惩罚模型的复杂度,抑制模型参数的过度增长,从而提高模型的泛化能力,防止过拟合。

e . g . e.g. e.g. 一个包含均方误差损失函数和 L1 正则化项的损失函数表示为:
L ( w ) = L d a t a ( w ) + λ R ( w ) L(w)=L_{data}(w)+\lambda R(w) L(w)=Ldata(w)+λR(w)

其中 L d a t a ( w ) L_{data}(w) Ldata(w) 为均方误差损失函数; R ( w ) R(w) R(w) 为 L1 正则化损失函数; λ \lambda λ 是正则化系数;

  • L d a t a ( w ) = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 L_{data}(w)=\frac 1 n \sum ^n _{i=1} (y_i-\hat y_i)^2 Ldata(w)=n1i=1n(yiy^i)2

其中, y i y_i yi 是第 i i i 个真实标签, y ^ i \hat y_i y^i 是模型预测的第 i i i 个标签, n n n 是样本数量。

  • R ( w ) = ∑ j ∣ w j ∣ R(w)=\sum _j |w_j| R(w)=jwj

其中, w j w_j wj 是模型参数, ∣ w j ∣ |w_j| wj w j w_j wj 的绝对值。

可以发现,优化算法在训练过程中会同时最小化两部分损失。由于正则化项通常与模型的复杂度成正比,因此在优化算法寻找最小化损失函数的参数时,会倾向于选择那些能够同时减小数据损失和正则化损失的参数。这样,模型的参数值就会更加分散,模型变得更加简单,从而提高了在未见数据上的泛化能力。

如此,便是范数之于深度学习的意义。


L1 范数与 L2 范数

L1 范数

L1 范数,也称 L1 正则化、 “曼哈顿范数”(Manhattan norm),是向量各元素的绝对值之和。通过在损失函数中增加一个 L1 范数的惩罚项,使某些参数变为零,从而鼓励模型拥有更稀疏的权重,防止模型过拟合。

对于向量 x = [ x 1 , x 2 , . . . , x n ] \mathbf{x} = [x_1, x_2, ..., x_n] x=[x1,x2,...,xn],其 L1 范数表示为:
∣ ∣ x ∣ ∣ 1 = ∑ i = 1 n ∣ x i ∣ ||x||_1 = \sum_{i=1}^{n} |x_i| ∣∣x1=i=1nxi

在深度学习 PyTorch 框架中计算 L1 范数,我们将 “绝对值函数” 和 “按元素求和” 组合起来;

torch.abs(u).sum()

L2 范数

L2 范数,也称 L2 正则化、“欧几里得范数”(Euclidean norm)、“平方范数”,是向量的各元素平方和的平方根。同于 L1 正则化,鼓励模型拥有更稀疏的权重;不同于 L1 正则化,L2 正则化不会导致权重(参数)为零,而是减小权重的绝对值。

对于向量 x = [ x 1 , x 2 , . . . , x n ] \mathbf{x} = [x_1, x_2, ..., x_n] x=[x1,x2,...,xn],其 L2 范数表示为:
∣ ∣ x ∣ ∣ 2 = ∑ i = 1 n x i 2 ||x||_2 = \sqrt{\sum_{i=1}^{n} x_i^2} ∣∣x2=i=1nxi2

在深度学习 PyTorch 框架中计算 L2 范数,使用 norm() 函数;

u = torch.tensor([3.0, -4.0])
torch.norm(u)

小结

L1 范数和 L2 范数的选择取决于具体问题的需求。

在某些情况下,使用 L1 范数可以得到更稀疏的解,这在文本处理和某些类型的图像处理中是有益的。而在其他情况下,L2 范数可能更为合适,因为它能更好地控制模型的光滑度。

在实际应用中,根据不同的场景和问题特性,选择合适的范数非常重要,这关系到算法的性能和效果。


如上;
如有任何疑问,请留言~

2024.2.14

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/682733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python】Python代码的单元测试

Python代码的单元测试 单元测试的概念 定义:是指对软件中的最小可测试单元进行检查和验证。 作用:可以确保程序模块是否否和我们规范的输出,保证该模块经过修改后仍然是满足我们的需求。 单元测试的策略 如果要创建单元测试,…

音视频剪辑|剪辑神器FFMPEG的详细介绍和一些基本的参数介绍

FFmpeg的介绍 FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。它包括了目前领先的音/视频编码库libavcodec。 FFmpeg是在 Linux 下开发出来的,但它可以在包括 Windows 在内的大多数操作系统中编译。 这个项目最早…

1.蓝桥勇士

Problem: 蓝桥勇士 文章目录 思路解题方法复杂度Code 思路 这是一个典型的动态规划问题,我们可以使用最长递增子序列(LIS)的思想来解决。我们可以定义一个数组dp,其中dp[i]表示以第i个对手结束的最长挑战序列的长度。对于每一个对…

比特币再次上演“初五破五”精彩戏法!

号外:2.13教链内参《随着BTC一度突破5万刀,超过9成持有者已盈利》 比特币无惧美通胀数据阻击,在短暂回落之后坚决反攻,在中国农历大年初五,2月14日情人节,大涨6%,从48k绝地反击,再次…

游戏服务器租用多少钱一年?

游戏服务器租用多少钱一年?1个月游戏服务器费用多少?阿里云游戏服务器26元1个月、腾讯云游戏服务器32元,华为云26元,游戏服务器配置从4核16G、4核32G、8核32G、16核64G等配置可选,游戏专业服务器公网带宽10M、12M、15M…

吃瓜 - 春山学

2024年春晚看似一个贵州献上的歌舞节目《上春山》(白敬亭、魏大勋、魏晨合唱)引发网络破案:白敬亭有没有抢C位和故意换衣服?网上的“白敬亭春晚走位风波”不断升级,喂到嘴里的瓜不吃也不行啊。 三人都是明侦的元老嘉…

学习和长跑很类似,长跑可以通过训练提高跑步的速度和时长,那么学习也可以通过训练提高学习的速度和时长吗?

问题描述:学习和长跑很类似,长跑可以通过训练提高跑步的速度和时长,那么学习也可以通过训练提高学习的速度和时长吗?另外,学习和长跑一样,后半程会出现乏力的现象,但是只要坚持下去,…

【数据结构】15 队列应用实例:多项式加法运算

多项式加法运算 我们准备采用不带头节点的单向链表结构表示一元多项式,并按照指数递减的顺序排列各项。 对列表存放的两个多项式进行加法运算时,可以使用两个指针p1和p2。初始时的p1和p2分别指向这两个多项式第1个节点(指数的最高项&#x…

JavaScript中的Symbol:加密与安全性

JavaScript中的Symbol是一种唯一且不可变的数据类型,引入了一种新的基本数据类型,用于表示独一无二的标识符。在本文中,我们将深入介绍JavaScript中的Symbol,讨论如何将其应用于JS加密中,提供案例代码,并说…

C#通过重写虚方法实现加、减、乘、除运算 通过多态确定人类的说话行为

目录 一、涉及到的知识点1 1.虚方法 2.重写方法 3.重写方法与重载方法的区别 4.通过KeyPressEventArgs.KeyChar限制键盘输入的内容 5.if-else if-else嵌套转换为switch case 二、 涉及到的知识点2 1.多态性 2.使用多态性的注意事项 3. 使用虚方法实现多态性 三、实…

黑马Java——集合进阶(不可变集合、Stream流、方法引用)

目录 一、不可变集合 1、创建不可变集合的应用场景 2、创建不可变集合的书写格式 2.1、不可变的List集合 2.2、不可变的Set集合 2.3、不可变的Map集合 3、小结 二、Stream流 1、体验Stream流的作用 2、Stream流的思想 3、Stream流的使用步骤 3.1、单列集合获取Strea…

站在C/C++的肩膀速通Java面向对象

默认学过C或C,对变量、表达式、选择、循环都会。 运行特征 解释型语言(JavaScript、Python等) 源文件-(平台专属解释器)->解释器中执行编译型语言(C、Go等) 源文件-(平台编译器)->平台可执行文件Java 源文件-(…

【白话前端】JS库的作用和常见的九种类型—值得收藏

js库就好比预制菜,我们想吃美食没必要从买菜、择菜、炒菜开始,直接加工就行。 一、什么是JS库 JS库(JavaScript Library)是指一组封装好的函数、方法、类等,用于简化开发者的编程工作。它们通常提供了常用的功能和算…

Android ·移动应用开发 创建第一个Android项目

文章目录 一、创建第一个Android项目1.1 准备好Android Studio1.2 运行程序1.3 程序结构是什么app下的结构res - 子目录(所有图片、布局、字符串等资源)AndroidManifest.xml 有四大组件,程序添加权限声明 Project下的结构 二、开发android时&…

【ArcGIS Pro二次开发】(79):符号系统_CIMUniqueValueRenderer

CIMUniqueValueRenderer是ArcGIS Pro SDK中的一个类,用于创建唯一值渲染器(Unique Value Renderer)。 在ArcGIS Pro中长这样: 通过对CIMUniqueValueRenderer的操作,可以对符号系统进行更改,实现很多功能。…

【AI写文章】解释 Git 的基本概念和使用方式

Git是一个版本控制系统,它可以追踪文件的变化并记录历史。以下是Git的基本概念和使用方式: 1. 仓库(Repository):Git仓库是用来存储项目的历史记录和文件的地方。可以在本地计算机上创建一个仓库,也可以在…

尚硅谷最新Node.js 学习笔记(一)

目录 一、Nodejs入门 1.1、为什么要学习Nodejs? 1.2、Nodejs是什么? 1.3、Nodejs的作用 1.4、Nodejs安装 1.5、Nodejs初体验 1.6、编码注意事项 二、Buffer(缓冲器) 2.1、概念 2.2、特点 2.3、使用 创建Buffer Buffe…

Cocos2dx-lua ScrollView[一]基础篇

一.ScrollView概述 cocos游戏中ScrollView控件大量使用,95%以上的项目都会使用ScrollView,个别游戏可能全部使用翻页的滑动效果。如果想要精通Cocos的UI开发,精通ScrollView控件非常关键,因此对ScrollView的使用进行总结很有必要。 下文缩写说明:sv = ScrollView, item代…

嵌入式Linux网络编程入门:轻松构建网络通信

大家好,今天给大家介绍嵌入式Linux网络编程入门:轻松构建网络通信,文章末尾附有分享大家一个资料包,差不多150多G。里面学习内容、面经、项目都比较新也比较全!可进群免费领取。 为什么选择嵌入式Linux网络编程&#x…

vue3+ts+vite+uniapp项目常见问题

vue3tsvite中""路径失效的问题 ""需要进行配置: 首先npm install types/node --save-dev(需要用到node其中的path)接着在vite.config.ts配置文件中进行配置: 引入 import path from ‘path’,然…