机器学习06-正则化

机器学习06-正则化

文章目录

  • 机器学习06-正则化
    • 0-核心逻辑脉络
    • 1-参考网址
    • 3-大模型训练中的正则化
      • 1.正则化的定义与作用
      • 2.常见的正则化方法及其应用场景
        • 2.1 L1正则化(Lasso)
        • 2.2 L2正则化(Ridge)
        • 2.3 弹性网络正则化(Elastic Net)
        • 2.4 Dropout
        • 2.5 Batch Normalization
        • 2.6 早停(Early Stopping)
        • 2.7 权重衰减(Weight Decay)
        • 2.8 梯度惩罚(Gradient Penalty)
        • 2.9 特征选择和降维
      • 3.不同正则化方法的对比
    • 4-Batch Normalization
      • 简单示例
        • 输入数据
        • 计算步骤
        • 总结
      • 代码实现
    • 5-Layer Normalization
      • 简单示例
        • 输入数据
        • 计算步骤
        • 总结
      • 代码实现

0-核心逻辑脉络

  • 1)欠拟合和过拟合的含义
  • 2)过拟合的解决办法
  • 3)常用的正则化之间的对比
  • 4)Dropout在模型训练的时候有用,在模型预测的时候不会用
  • 5)L1和L2用在什么地方->损失函数+正则化函数(用来约束损失函数不要因为某个参数的权重而倾斜)->
    类比:你赚钱快是不是,我用梯度缴税(正则约束)去治你,再有钱你也麻头皮
  • 6)Layer Normalization正则化->多用于文本训练,针对每个句子(样本)进行正则化
  • 7)Layer Normalization(层归一化)通过归一化每个样本的特征向量来实现这一点,而不是像Batch Normalization(批归一化)那样归一化整个批次的数据。
  • 8)Batch Normalization(批归一化)通过对每个批次的数据进行归一化来实现这一点,具体来说,是对每个特征维度在批次中的分布进行归一化。

1-参考网址

  • 1)解读正则化:https://www.bilibili.com/video/BV1Cm421j7dw
  • 2)最清晰好懂的 Layernorm 原理解析:https://zhuanlan.zhihu.com/p/751292473

  • 正则化知识概念

  • 常用的正则化


3-大模型训练中的正则化

1.正则化的定义与作用

正则化是机器学习和深度学习中的一种技术,旨在通过在模型的损失函数中添加惩罚项来控制模型的复杂度,从而防止模型在训练数据上过度拟合,提高模型的泛化能力。常见的正则化方法包括L1正则化、L2正则化、弹性网络正则化、Dropout、Batch
Normalization等。

2.常见的正则化方法及其应用场景

2.1 L1正则化(Lasso)

原理:通过在损失函数中添加特征权重的绝对值和,使得某些特征权重减小到零,从而实现特征选择。
应用场景:适用于高维数据和稀疏数据,特别是在特征数量大于样本数量时。
优点:可以实现特征选择,减少模型参数数量。
缺点:可能导致模型参数不稳定。

2.2 L2正则化(Ridge)

原理:通过在损失函数中添加特征权重的平方和,鼓励权重均匀分布,减小模型复杂性。
应用场景:适用于一般情况下有较少噪声的数据集。
优点:模型参数稳定,易于解释。
缺点:无法实现特征选择。

2.3 弹性网络正则化(Elastic Net)

原理:结合了L1和L2正则化,通过调节参数来平衡两者的影响。
应用场景:适用于大量特征且存在多重共线性的问题时。
优点:结合了L1和L2正则化的优点,可以同时实现特征选择和参数压缩。
缺点:参数选择较为复杂。

2.4 Dropout

原理:在训练过程中随机忽略神经网络中的一部分神经元,从而减少网络对特定神经元的依赖,提高泛化能力。
应用场景:广泛应用于深度学习中的神经网络模型训练时。
优点:可以有效防止过拟合,提高模型的泛化能力。
缺点:可能会增加训练时间。

2.5 Batch Normalization

原理:通过对每一层的输入进行标准化,加速训练过程并提高模型的泛化能力。
应用场景:广泛应用于深度学习中的各种神经网络模型。
优点:可以加速训练过程,提高模型的稳定性和泛化能力。
缺点:增加了模型的复杂度和计算量。

2.6 早停(Early Stopping)

原理:在训练过程中,当验证集上的性能不再提升时,提前停止训练,以防止过拟合。
应用场景:适用于各种机器学习和深度学习模型。
优点:简单有效,可以防止过拟合。
缺点:可能会导致模型欠拟合,需要合理选择停止条件。

2.7 权重衰减(Weight Decay)

原理:与L2正则化相似,通过在优化过程中引入权重的平方惩罚项来限制权重的大小,从而减少模型的复杂度。
应用场景:广泛应用于深度学习的优化过程中,尤其是针对大规模模型。
优点:能有效防止网络过拟合,尤其是在训练数据有限时。
缺点:与L2正则化类似,无法实现特征选择。

2.8 梯度惩罚(Gradient Penalty)

原理:对神经网络的梯度大小进行正则化,目的是约束网络的梯度不至于过大,避免过拟合。
应用场景:在对抗训练、生成对抗网络(GAN)和强化学习中具有广泛应用。
优点:可以促使模型学习到更加平滑的决策边界,从而提高模型的泛化能力。
缺点:增加了模型的复杂度和计算量。

2.9 特征选择和降维

原理:通过选择对预测有用的特征或对数据进行降维(如PCA)来减少模型的输入维度,从而降低模型复杂度。
应用场景:广泛应用于机器学习中的监督学习任务,尤其是高维数据集的处理。
优点:可以减少过拟合,提高模型的可解释性和计算效率。
缺点:可能会丢失一些有用的信息。

3.不同正则化方法的对比

正则化方法原理优点缺点适用场景
L1正则化添加权重的绝对值和实现特征选择,减少参数数量参数不稳定高维稀疏数据
L2正则化添加权重的平方和参数稳定,易于解释无法实现特征选择一般数据集
弹性网络结合L1和L2正则化同时实现特征选择和参数压缩参数选择复杂多重共线性数据
Dropout随机忽略神经元防止过拟合,提高泛化能力增加训练时间神经网络模型
Batch Normalization输入标准化加速训练,提高稳定性增加复杂度各种神经网络
Layer Normalization每一层各特征维度的标准化提升梯度流动稳定性,适合更深层模型计算成本高RNN、Transformer、小批量数据
早停提前停止训练防止过拟合可能欠拟合各种模型
权重衰减权重平方惩罚防止过拟合无法特征选择大规模模型
梯度惩罚梯度大小正则化学习平滑决策边界增加复杂度对抗训练、GAN
特征选择和降维选择有用特征或降维减少过拟合,提高效率可能丢失信息高维数据集

4-Batch Normalization

Batch Normalization(批归一化)是一种用于神经网络的技术,旨在加快训练速度并提高模型性能。它通过对每个批次的数据进行归一化来实现这一点,具体来说,是对每个特征维度在批次中的分布进行归一化。

简单示例

假设我们有一个简单的神经网络,其中有一个全连接层(Fully Connected Layer),输入是一个形状为 (batch_size, features)
的张量。我们以一个具体的例子来说明Batch Normalization的工作原理。

输入数据

假设我们有一个小批量数据,大小为 batch_size = 2,每个样本有 features = 3 个特征。输入数据如下:

x = [[0.8, -1.2, 0.5],[1.0, 0.3, -0.7]]
计算步骤
  1. 计算每个特征维度的均值和方差

    • 对于第一个特征维度 [0.8, 1.0]
      • 均值:mean1 = (0.8 + 1.0) / 2 = 0.9
      • 方差:var1 = [(0.8 - 0.9)^2 + (1.0 - 0.9)^2] / 2 = 0.01
    • 对于第二个特征维度 [-1.2, 0.3]
      • 均值:mean2 = (-1.2 + 0.3) / 2 = -0.45
      • 方差:var2 = [(-1.2 - (-0.45))^2 + (0.3 - (-0.45))^2] / 2 = 0.9025
    • 对于第三个特征维度 [0.5, -0.7]
      • 均值:mean3 = (0.5 + (-0.7)) / 2 = -0.1
      • 方差:var3 = [(0.5 - (-0.1))^2 + (-0.7 - (-0.1))^2] / 2 = 0.18
  2. 归一化

    • 对于第一个特征维度:
      normalized1 = [(0.8 - 0.9) / sqrt(0.01 + eps),(1.0 - 0.9) / sqrt(0.01 + eps)]
      
      其中 eps 是一个很小的数,用于防止除零错误。
    • 对于第二个特征维度:
      normalized2 = [(-1.2 - (-0.45)) / sqrt(0.9025 + eps),(0.3 - (-0.45)) / sqrt(0.9025 + eps)]
      
    • 对于第三个特征维度:
      normalized3 = [(0.5 - (-0.1)) / sqrt(0.18 + eps),(-0.7 - (-0.1)) / sqrt(0.18 + eps)]
      
  3. 线性变换

    • 归一化后的数据会通过一个线性变换参数 gammabeta 进行调整。
      output1 = gamma1 * normalized1 + beta1
      output2 = gamma2 * normalized2 + beta2
      output3 = gamma3 * normalized3 + beta3
      
总结

通过Batch Normalization,我们为每个特征维度计算批次内的均值和方差,并进行归一化,这样可以确保每个特征维度在批次中的分布更加稳定,从而有助于模型更好地学习和收敛。这种方法有效地减少了内部协变量偏移(Internal
Covariate Shift),提高了训练的稳定性和速度。

代码实现

在实际的深度学习框架中,Batch Normalization通常通过以下方式实现:

import torch
import torch.nn as nn# 定义Batch Normalization
batch_norm = nn.BatchNorm1d(num_features=3)# 输入数据
x = torch.tensor([[0.8, -1.2, 0.5],[1.0, 0.3, -0.7]], dtype=torch.float32)# 应用Batch Normalization
output = batch_norm(x)print(output)

这个简单的示例展示了Batch Normalization的基本操作流程。


5-Layer Normalization

Layer Normalization(层归一化)是一种用于神经网络的正则化技术,旨在提高模型的训练稳定性和收敛速度。它通过归一化每个样本的特征向量来实现这一点,而不是像Batch
Normalization(批归一化)那样归一化整个批次的数据。

简单示例

假设我们有一个简单的神经网络,其中有一个全连接层(Fully Connected Layer),输入是一个形状为 (batch_size, features)
的张量。我们以一个具体的例子来说明Layer Normalization的工作原理。

输入数据

假设我们有一个小批量数据,大小为 batch_size = 2,每个样本有 features = 3 个特征。输入数据如下:

x = [[0.8, -1.2, 0.5],[1.0, 0.3, -0.7]]
计算步骤
  1. 计算每个样本的均值和方差

    • 对于第一个样本 [0.8, -1.2, 0.5]
      • 均值:mean1 = (0.8 + (-1.2) + 0.5) / 3 = 0.0333
      • 方差:var1 = [(0.8 - 0.0333)^2 + (-1.2 - 0.0333)^2 + (0.5 - 0.0333)^2] / 3 = 0.7667
    • 对于第二个样本 [1.0, 0.3, -0.7]
      • 均值:mean2 = (1.0 + 0.3 + (-0.7)) / 3 = 0.2
      • 方差:var2 = [(1.0 - 0.2)^2 + (0.3 - 0.2)^2 + (-0.7 - 0.2)^2] / 3 = 0.5467
  2. 归一化

    • 对于第一个样本:
      normalized1 = [(0.8 - 0.0333) / sqrt(0.7667 + eps),(-1.2 - 0.0333) / sqrt(0.7667 + eps),(0.5 - 0.0333) / sqrt(0.7667 + eps)]
      
      其中 eps 是一个很小的数,用于防止除零错误。
    • 对于第二个样本:
      normalized2 = [(1.0 - 0.2) / sqrt(0.5467 + eps),(0.3 - 0.2) / sqrt(0.5467 + eps),(-0.7 - 0.2) / sqrt(0.5467 + eps)]
      
  3. 线性变换

    • 归一化后的数据会通过一个线性变换参数 gammabeta 进行调整。
      output1 = gamma * normalized1 + beta
      output2 = gamma * normalized2 + beta
      
总结

通过Layer Normalization,我们为每个样本独立地计算均值和方差,并进行归一化,这样可以确保每个样本在特征维度上的分布更加稳定,从而有助于模型更好地学习和收敛。

代码实现

在实际的深度学习框架中,Layer Normalization通常通过以下方式实现:

import torch
import torch.nn as nn# 定义Layer Normalization
layer_norm = nn.LayerNorm(normalized_shape=[3])# 输入数据
x = torch.tensor([[0.8, -1.2, 0.5],[1.0, 0.3, -0.7]], dtype=torch.float32)# 应用Layer Normalization
output = layer_norm(x)print(output)

这个简单的示例展示了Layer Normalization的基本操作流程。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/893152.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot学生成绩管理系统

Spring Boot学生成绩管理系统是一个基于Spring Boot框架开发的,旨在帮助教育机构、学校或教师高效管理学生成绩的系统。 一、系统背景与意义 在教育领域,学生成绩的管理是一项重要且繁琐的工作。传统的手工管理方式不仅效率低下,还容易出错…

13软考高项,项目资源管理

团队章程:价值观,沟通指南,决策标准和过程,冲突处理过程,会议指南和团队共识! 资源管理计划:识别资源,获取资源,角色,组织图,培训,团…

Spring AI入门示例HelloWorld

本文重点介绍,基于Spring AI框架,并使用阿里百炼大模型服务平台的AI服务,快速搭建一个springboot工程,并进行简单的AI问答,初步验证Spring AI框架的易用性,以及与阿里巴巴AI框架spring-ai-alibaba-starter的…

git系列之revert回滚

1. Git 使用cherry-pick“摘樱桃” step 1: 本地切到远程分支,对齐要对齐的base分支,举例子 localmap git pull git reset --hard localmap 对应的commit idstep 2: 执行cherry-pick命令 git cherry-pick abc123这样就会将远程…

【C++】结构体(上)

1、结构体基本概念 结构体属于用户自定义当代数据类型,允许用户存储不同当代数据类型 2、结构体定义和使用 语法: struct 结构体名 { 结构体成员列表 }; 通过结构体创建变量的方式有三种: (1)struc…

技术晋升读书笔记—华为研发

读完《华为研发》第三版,我深感震撼,书中的内容不仅详实地记录了华为公司的成长历程,还揭示了华为成功背后的管理理念和创新思路。这本书通过真实的案例和数据,展示了华为如何从一个小企业发展成全球通信行业的领导者。 一、关键人…

高效实现 Markdown 转 PDF 的跨平台指南20250117

高效实现 Markdown 转 PDF 的跨平台指南 引言 Markdown 文件以其轻量化和灵活性受到开发者和技术写作者的青睐,但如何将其转换为易于分享和打印的 PDF 格式,是一个常见需求。本文整合了 macOS、Windows 和 Linux 三大平台的转换方法,并探讨…

[Mac + Icarus Verilog + gtkwave] Mac运行Verilog及查看波形图

目录 1. MAC安装环境 1. 1 Icarus Verilog 编译 1. 2 gtkwave 查看波形 2. 安装遇到的问题 2. 1 macOS cannot verify that this app is free from malware 2. 2 gtkwave-bin is not compatible with macOS 14 or later 3. 运行示例 3. 1 源代码 3. 2 编译Verilog 3. 3 生成.v…

FRP内网穿透0.61.1新版教程

在上一篇zerotier讲述了如何实现虚拟局域网搭建,这篇会讲述FRP内网穿透的使用教程 那么frp与zerotier的区别是什么呢?(说人话) FRP 主要用于内网服务向外网的单向暴露。 ZeroTier 用于构建一个虚拟的私有网络,实现多点…

如何通过 Apache Airflow 将数据导入 Elasticsearch

作者:来自 Elastic Andre Luiz 了解如何通过 Apache Airflow 将数据导入 Elasticsearch。 Apache Airflow Apache Airflow 是一个旨在创建、安排(schedule)和监控工作流的平台。它用于编排 ETL(Extract-Transform-Load&#xff0…

通过图形界面展现基于本地知识库构建RAG应用

1. 客户需求 快速完成概念验证(PoC)通过图形界面快速完成演示本地私有数据对比不同模型和成本,决定如何部署 2. 阿里云基于本地知识库构建RAG应用 参考方案: 百炼本地知识库方案 解决方案: FastAPI Gradio Llamaindex qwen-plus 主要三大…

TP4056锂电池充放电芯片教程文章详解·内置驱动电路资源!!!

目录 TP4056工作原理 TP4056引脚详解 TP4056驱动电路图 锂电池充放电板子绘制 编写不易,仅供学习,感谢理解。 TP4056工作原理 TP4056是专门为单节锂电池或锂聚合物电池设计的线性充电器,充电电流可以用外部电阻设定,最大充电…

【Vim Masterclass 笔记21】S09L39:Vim 设置与 vimrc 文件的用法示例(二)

文章目录 S09L39 Vim Settings and the Vimrc File - Part 21 Vim 的配色方案与 color 命令2 map 命令3 示例:用 map 命令快速生成 HTML 代码片段4 Vim 中的 Leader 键5 用 mkvimrc 命令自动生成配置文件 写在前面 本篇为 Vim 自定义配置的第二部分。当中的每个知识…

论文速读|ParGo: Bridging Vision-Language with Partial and Global Views.AAAI25

论文地址:https://arxiv.org/abs/2408.12928 代码地址:https://github.com/bytedance/ParGo bib引用: misc{wang2025pargobridgingvisionlanguagepartial,title{ParGo: Bridging Vision-Language with Partial and Global Views}, author{An…

2024年博客之星年度评选—创作影响力评审入围名单公布

2024年博客之星活动地址https://www.csdn.net/blogstar2024 TOP 300 榜单排名 用户昵称博客主页 身份 认证 评分 原创 博文 评分 平均 质量分评分 互动数据评分 总分排名三掌柜666三掌柜666-CSDN博客1001002001005001wkd_007wkd_007-CSDN博客1001002001005002栗筝ihttps:/…

20250118拿掉荣品pro-rk3566开发板上Android13下在uboot和kernel启动阶段的Rockchip这个LOGO标识

20250118拿掉荣品pro-rk3566开发板上Android13下在uboot和kernel启动阶段的Rockchip这个LOGO标识 2025/1/18 15:12 缘起:做飞凌OK3588-C开发板/核心板【Linux R4】的时候,测试/生产要求没有开机LOGO【飞凌/Rockchip】 要求:黑屏或者中性界面。…

【转】厚植根基,同启新程!一文回顾 2024 OpenHarmony 社区年度工作会议精彩瞬间

在数字化浪潮奔腾不息的今天,开源技术已成为推动科技创新与产业发展的强大引擎。2025年1月10日-11日,OpenAtom OpenHarmony(开放原子开源鸿蒙,以下简称“OpenHarmony”或“开源鸿蒙”)社区2024年度工作会议于深圳盛大启…

Mybatis 进阶 / Mybatis—Puls (详细)

目录 一.动态SQL 1.1标签 1.2 标签 1.3标签 1.4标签 1.5标签 1.6标签 mybatis总结: 二.Mybatis-Puls 2.1准备工作 2.2CRUD单元测试 2.2.1创建UserInfo实体类 2.2.2编写Mapper接⼝类 2.2.3 测试类 2.3 常见注解 2.3.1TableName 2.3.2TableField 2.4打印日…

Go 切片:用法和本质

要想更好的了解一个知识点,实战是最好的经历。 题目 我这里放一道题目: package mainimport "fmt"func SliceRise(s []int) {s append(s, 0)for i : range s {s[i]}fmt.Println(s) }func SlicePrint() {s1 : []int{1, 2}s2 : s1s2 append…

如何下载对应城市的地理json文件

这里采用的是阿里地图工具进行查找: DataV.GeoAtlas地理小工具系列 由阿里云DataV数据可视化团队出品,多年深耕数据可视化领域,数据大屏业务开拓者和领航者。致力用震撼而清晰的视觉语言,让更多人读懂大数据,受惠数据驱动的决策方式 第一步打开网站 : …