如何探究大模型理论?UCLA最新《深度学习统计理论》综述,详述近似、训练动力学和生成模型

在这篇文章中,我们从三个角度回顾了神经网络的统计理论文献。在第一部分中,我们回顾了非参数框架下关于神经网络的过度风险(excess risks)的研究成果,这些成果适用于回归或分类。这些结果依赖于神经网络的显式构造,采用了近似理论的工具,导致过度风险的收敛速度较快。通过这些构造,可以根据样本大小、数据维度和函数平滑度来表达网络的宽度和深度。然而,它们的底层分析仅适用于深度神经网络高度非凸景观中的全局最小值。这促使我们在第二部分回顾神经网络的训练动力学。具体来说,我们回顾了试图回答“通过基于梯度的方法训练的神经网络如何找到能够在未见数据上泛化良好的解决方案”的论文。特别地,我们回顾了两种众所周知的范式:神经切线核(Neural Tangent Kernel,NTK)范式和平均场(Mean-Field,MF)范式。

在最后一部分中,我们回顾了生成模型的最新理论进展,包括生成对抗网络(Generative Adversarial Networks,GANs)、扩散模型,以及大型语言模型(Large Language Models,LLMs)中的上下文学习(in-context learning,ICL)。前两种模型被认为是现代生成人工智能时代的主要支柱,而ICL是LLMs在上下文中通过少数示例学习的强大能力。最后,我们通过提出几个深度学习理论的有前景的方向来结束这篇文章。

https://www.zhuanzhi.ai/paper/723a8b685e08dae08fe25cd03917454a

1 引言 

近年来,作为机器学习的一个子领域,深度学习 [Goodfellow et al., 2016] 领域经历了重大的发展。它的影响已经超越了传统界限,在诸如医疗保健 [Esteva et al., 2019]、金融 [Heaton et al., 2017]、自主系统 [Grigorescu et al., 2020] 和自然语言处理 [Otter et al., 2020] 等行业中取得了显著进展。神经网络,我们大脑的数学抽象,是这一进步的核心。然而,在人工智能的持续复兴中,神经网络获得了几乎是神话般的地位,传播了它们更像艺术而非科学的误解。驱散这种观念是重要的。虽然神经网络的应用可能令人敬畏,但它们坚实地植根于数学原理中。在这种背景下,深度学习理论的重要性变得显而易见。几个关键点强调了其重要性。

1.1 为什么理论很重要?

在这一小节中,我们旨在强调在数学和统计框架内理解深度学习的重要性。以下是一些需要考虑的关键点:

  1. 深度学习是一个动态且快速发展的领域,在线上产生了成千上万的出版物。当今的模型特点是高度复杂的网络架构,包含许多复杂的子组件。在这种复杂性中,理解这些模型背后的基本原则变得至关重要。为了实现这种理解,将这些模型置于统一的数学框架中是必不可少的。这样的框架是一个宝贵的工具,可以从这些复杂模型中提取核心概念,使我们能够提取和理解推动其功能的关键原则。

  2. 将统计框架应用于深度学习模型,允许与其他统计方法进行有意义的比较。例如,像小波或核方法这样广泛使用的统计估计器可以引发关于深度神经网络何时何故可能表现更好的问题。这种分析帮助我们理解深度学习相比传统统计方法何时表现出色,从而使理论和实践受益。

  3. 超参数,如学习率、权重初始化、网络架构选择、激活函数和批量大小,显著影响估计模型的质量。理解这些超参数的适当范围对于理论家和实践者都是必要的。例如,在大数据时代,当一个数据集中有数百万个样本时,理论智慧告诉我们网络的深度应该在样本大小的对数中进行缩放,以便良好地估计组合函数 [Schmidt-Hieber, 2020]。

在这篇综述中,我们提供了深入这些概念的论文概述,并在精确的数学设置中为读者提供了上述话题的具体见解。在这里,我们试图避免过多的技术性内容,并使介绍尽可能对各个领域的统计学家都易于理解。

1.2 论文概览 

我们将神经网络的统计理论现有文献分类为三类

  1. 近似理论视角。最近,出现了大量工作,这些工作将神经网络模型的近似理论 [Yarotsky, 2017, Mhaskar, 1996, Petersen and Voigtlaender, 2018, Schmidt-Hieber, 2020, Montanelli and Du, 2019, Blanchard and Bennouna, 2022, Hornik et al., 1989, Hanin, 2019] 与实证过程中的工具 [Van de Geer, 2000] 结合起来,以获得在非参数设置下回归 [Schmidt-Hieber, 2020, Hu et al., 2021] 和分类 [Hu et al., 2020, Kim et al., 2021] 任务中过度风险的快速收敛率。近似理论在测量神经网络在某些类别中近似函数的基本复杂性方面提供了有用的视角。具体来说,它使得神经网络的显式构造成为可能,以便我们知道为了获得良好的收敛率,网络的宽度、深度和活跃参数的数量应该如何根据样本大小、数据维度和函数平滑度指标来缩放。为了简单起见,我们主要考虑将全连接神经网络用作函数估计器的工作。这些工作包括 Schmidt-Hieber [2020], Kim et al. [2021], Shen et al. [2021], Jiao et al. [2021], Lu et al. [2021], Imaizumi and Fukumizu [2019, 2022], Suzuki [2018], Chen et al. [2019b], Suzuki and Nitanda [2021], Suh et al. [2022] 等,在不同的问题设置下进行研究。然而,这些工作假设损失函数的全局最小值是可获得的,并且主要关注这些最小值的统计属性,而不考虑任何优化问题。但鉴于损失函数的非凸性以及隐藏层中激活函数的非线性,这是一个强假设。

  2. 训练动力学视角。在这个背景下,理解神经网络模型的非凸损失函数景观及其对神经网络泛化能力的影响成为文献中的下一个步骤。例如,一个开创性的实证发现 [Zhang et al., 2021] 揭示了通过随机梯度下降训练的足够过参数化的神经网络模型可以完美拟合(嘈杂的)数据甚至随机噪声,但同时它们仍然可以很好地泛化。在许多关于过参数化的重要发现中,如 Arora et al. [2019b], Jacot et al. [2018] 揭示,通过梯度下降(GD)在 ℓ2-损失下训练的足够宽度的深度神经网络的动力学,表现与在再生核希尔伯特空间(RKHS)中的函数类似,其中的核与特定网络架构相关联。许多后续工作研究了在内核范式下神经网络的训练动力学和泛化能力 [Suh et al., 2021, Hu et al., 2021, Nitanda and Suzuki, 2020]。尽管如此,神经网络表现出的不仅仅是内核回归,例如特征学习 [Yang and Hu, 2020]。这种能力是通过允许网络参数显著偏离其初始值来实现的,这是内核范式所不允许的。许多研究者试图填补这一差距 [Ghorbani et al., 2020b, Wei et al., 2019],证明了神经网络相对于内核范式网络的统计优势,但仍然限制了网络参数可能的可行距离。另一重要的研究方向试图解释神经网络在不同范式下的学习动力学,被称为平均场(MF)范式。在这个范式下,网络参数有显著偏离其初始值的灵活性,尽管这需要无限的宽度。最后,我们通过介绍一个统一的框架 Yang and Hu [2020] 来结束这一部分,该框架使我们全面理解基于梯度的方法中权重初始化和学习率缩放的选择如何影响神经网络在其无限宽度极限下的动力学。

  3. 生成模型。在这一部分中,我们回顾了最新的生成模型理论进展,包括生成对抗网络(GANs),扩散模型,以及大型语言模型(LLMs)中的上下文内学习。在过去的十年中,GANs [Goodfellow et al., 2014] 作为一种显著的无监督学习方法脱颖而出,以其学习数据分布和高效采样数据的能力而闻名。在这篇综述中,我们将介绍研究GANs统计属性的论文 [Arora et al., 2017, Liang, 2021, Chen et al., 2020a, Bai et al., 2018, Zhang et al., 2017, Schreuder et al., 2021]。最近,另一组生成模型,即扩散模型,在生成各种数据模态的高质量合成数据方面表现出色,包括图像 [Song et al., 2020, Dhariwal and Nichol, 2021],表格数据 [Kim et al., 2022, Suh et al., 2023],医学成像 [M¨uller-Franzes et al., 2022] 等,大幅度超过基于GAN的模型。然而,鉴于模型的复杂性和它在社区中的最近引入,为什么它表现如此出色的理论原因仍然不明确。最后,我们将回顾在大型语言模型中观察到的一个有趣现象,即上下文内学习(ICL)。它指的是LLMs在输入-输出对的任务示例(输入-输出对)和新查询输入的提示序列条件下,可以准确地生成相应的输出。读者可以参考 Gui et al. [2021], Yang et al. [2022] 的综述论文,了解GANs和扩散模型在各个领域的方法论和应用的详细描述。关于ICL的概述,请参阅 Dong et al. [2022] 的综述,其中突出了这个方向的一些关键发现和进展。 

1.3 深度学习理论现有综述 

据我们所知,目前有三篇关于深度学习理论的综述论文 [Bartlett et al., 2021; Fan et al., 2021; Belkin, 2021]。这些论文在某些主题上存在重叠,但它们的主要焦点各不相同。Bartlett et al. [2021] 提供了一个全面而技术性的综述,专注于深度神经网络的统计理解。特别是,作者着重考察了神经网络中超参数化的显著影响,这在使基于梯度的方法发现插值解方面起着关键作用。这些方法引入了隐式正则化,如Neyshabur [2017]讨论的,或导致了一种称为良性过拟合的现象 Bartlett et al. [2020]。Fan et al. [2021] 介绍了实践中最常用的神经网络架构,如卷积神经网络(CNN)、循环神经网络(RNN),以及从统计角度出发的训练技术,如批量标准化、dropout等。同时,也简要介绍了神经网络的近似理论。

与Bartlett et al. [2021]类似,Belkin [2021] 回顾了超参数化在隐式正则化和良性过拟合方面的作用,这不仅观察于神经网络模型,也观察于经典的统计模型,如加权最近邻预测器。最值得注意的是,他们通过优化的视角提供了对神经网络非凸损失景观的超参数化角色的直观理解。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/637070.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 3.2.2整合MyBatis-Plus 3.5.5依赖不兼容问题

问题演示 导依赖 当你启动项目就会 抛出该异常 java.lang.IllegalArgumentException: Invalid value type for attribute factoryBeanObjectType: java.lang.String 问题原因 mybatis-plus 中 mybatis 的整合包版本不够导致的 解决方案 排除掉mybatis-plus 中 mybatis 的整合…

Cortex-M3/M4内核中断及HAL库函数详解(1):中断相关寄存器

0 工具准备 Keil uVision5 Cortex M3权威指南(中文) Cortex M3与M4权威指南 stm32f407的HAL库工程 STM32F4xx中文参考手册 1 NVIC相关寄存器介绍 在Cortex-M3/M4内核上搭载了一个异常响应系统,支持为数众多的系统异常和外部中断。其中&#…

C - Monotonically Increasing

很妙的dfs&#xff1a;记录层数以及前一个数是多少。 代码&#xff1a; int ans[11]; int n,m;void dfs(int u,int pre){if(un1){for(int i1;i<n;i)cout<<ans[i]<< ;cout<<endl;return;}for(int ipre1;i(n-u)<m;i){ans[u]i;dfs(u1,i);} }void solve(…

Linux问题 apt-get install时 无法解析域名“cn.archive.ubuntu.com”

问题描述: 在安装程序时会出现无法解析域名的错误 解决办法: 1、编辑文件 sudo vim /etc/resolv.conf 2、在最后加上(按键 i 进入编辑模式) nameserver 8.8.8.8 3、保存退出(:wq)

Upload靶场通关教程(旧版20关)

文件上传类型&#xff1a; 前端验证&#xff1a;1 MIME类型验证&#xff1a;2 黑名单验证&#xff1a;3~10&#xff0c;19 大小写绕过、空格绕过、解析后缀数字绕过、点绕过、/绕过、::$DATA绕过 白名单验证&#xff1a;11~18&#xff0c;20 %00截断、二次渲染、文件包含、…

力扣每日一练(24-1-20)

大脑里的第一想法是排列组合&#xff0c;直接给出超级准确的最优解。 但不适用&#xff0c;hhh 只要连续的n个元素大于或者等于target就可以了 题目比自己想象的要好解决 解法是使用滑动窗口算法。这个算法的基本思想是维护一个窗口&#xff0c;使得窗口内的元素总和大于等于目…

算法常用思路总结

思路 1. 求数组中最大最小值思路代码 2. 计算阶乘思路&#xff1a;代码&#xff1a; 3. 得到数字的每一位思路代码 4. 计算时间类型5. 最大公约数、最小公倍数6. 循环数组的思想题目&#xff1a;猴子选大王代码 补充经典例题1. 复试四则运算题目内容题解 2. 数列求和题目内容题…

Pytest 测试框架与Allure 测试报告——Allure2测试报告-L3

目录&#xff1a; allure2报告中添加附件-图片 Allure2报告中添加附件Allure2报告中添加附件&#xff08;图片&#xff09;应用场景Allure2报告中添加附件&#xff08;图片&#xff09;-Python代码示例&#xff1a;allure2报告中添加附件-日志 Allure2报告中添加附件&#xff…

Flink处理函数(3)—— 窗口处理函数

窗口处理函数包括&#xff1a;ProcessWindowFunction 和 ProcessAllWindowFunction 基础用法 stream.keyBy( t -> t.f0 ).window( TumblingEventTimeWindows.of(Time.seconds(10)) ).process(new MyProcessWindowFunction()) 这里的MyProcessWindowFunction就是ProcessWi…

《WebKit 技术内幕》之五(4): HTML解释器和DOM 模型

4 影子&#xff08;Shadow&#xff09;DOM 影子 DOM 是一个新东西&#xff0c;主要解决了一个文档中可能需要大量交互的多个 DOM 树建立和维护各自的功能边界的问题。 4.1 什么是影子 DOM 当开发这样一个用户界面的控件——这个控件可能由一些 HTML 的标签元素…

使用Sobel算子把视频转换为只剩边缘部分

效果展示 原始视频 修改后的视频 整体代码 import cv2vc cv2.VideoCapture(test.mp4)if vc.isOpened():open, frame vc.read() else:open Falsei 0 while open:ret, frame vc.read()if frame is None:breakif ret True:i 1# 转换为灰度图gray cv2.cvtColor(frame, cv…

实现分布式锁

背景 分布式锁是一种用于协调分布式系统中多个节点之间并发访问共享资源的机制。在分布式系统中&#xff0c;由于存在多个节点同时访问共享资源的可能性&#xff0c;需要使用分布式锁来保证数据的一致性和正确性。 今天要实现的是分布式场景中的互斥类型的锁。 下面时分布…

Tensorflow 入门基础——向LLM靠近一小步

进入tensflow的系统学习&#xff0c;向LLM靠拢。 目录 1. tensflow的数据类型1.1 数值类型1.2 字符串类型1.3 布尔类型的数据 2. 数值精度3. 类型转换3.1 待优化的张量 4 创建张量4.1 从数组、列表对象创建4.2 创建全0或者1张量4.3 创建自定义数值张量 5. 创建已知分布的张量&…

luceda ipkiss教程 56:画多端口螺旋线

案例分享&#xff1a;画多端口螺旋线 注&#xff1a;spiral的长度不是真实长度&#xff0c;具体可以参考教程28 代码如下&#xff1a; from si_fab import all as pdk import ipkiss3.all as i3 import numpy as np from scipy.constants import piclass SpiralCircular(i3.P…

linux perf工具使用

参考文章Linux性能调优之perf使用方法_perf交叉编译-CSDN博客 perf是一款Linux性能分析工具。比如打流性能优化的时候&#xff0c;就能够看到是哪些函数消耗的cpu高 那么linux如何编译perf工具呢&#xff1f; perf工具编译 进入perf目录下linux-3.16/tools/perf make ARCH…

HarmonyOS 应用开发入门

HarmonyOS 应用开发入门 前言 DevEco Studio Release版本为&#xff1a;DevEco Studio 3.1.1。 Compile SDK Release版本为&#xff1a;3.1.0&#xff08;API 9&#xff09;。 构建方式为 HVigor&#xff0c;而非 Gradle。 最新版本已不再支持 &#xff08;”Java、JavaScrip…

【Qt】信号和槽

需要云服务器等云产品来学习Linux的同学可以移步/-->腾讯云<--/-->阿里云<--/-->华为云<--/官网&#xff0c;轻量型云服务器低至112元/年&#xff0c;新用户首次下单享超低折扣。 目录 一、Qt中的信号和槽 1、信号 2、槽 3、Q_OBJECT 二、Qt中的connect函…

k3s x GitLab Runner Operator,GitLab CI 云原生构建新体验

GitLab CI 是非常常用的一款 CI/CD 工具&#xff0c;只需要在 .gitlab-ci.yml 文件中用 YAML 语法编写 CI/CD 流水线即可。而 GitLab CI 能够运行的关键组件是 GitLab Runner。GitLab Runner 是一个轻量级、高扩展的代理&#xff0c;主要用来执行 GitLab CI/CD 流水线中的 Job&…

stm32 FOC系列 直流有刷控制原理

1、直流有刷驱动板 使用三极管搭建的简易 H 桥电路&#xff0c;如图 5.3.1 所示&#xff1a; 图 5.3.1 是使用三极管搭建的简易 H 桥电路&#xff0c;其中 MOTOR 表示直流有刷电机&#xff0c; Q1、 Q2、 Q3 和 Q4 为 4 个三极管&#xff0c;其中 Q1 和 Q3 接在了电源正极&…

[AutoSar]BSW_OS 08 Autosar OS_内存保护

一、 目录 一、关键词平台说明一、内存保护的概念 关键词 嵌入式、C语言、autosar、OS、BSW 平台说明 项目ValueOSautosar OSautosar厂商vector &#xff0c;芯片厂商TI 英飞凌编程语言C&#xff0c;C编译器HighTec (GCC) >>>>>回到总目录<<<<&l…