如何探究大模型理论?UCLA最新《深度学习统计理论》综述,详述近似、训练动力学和生成模型

在这篇文章中,我们从三个角度回顾了神经网络的统计理论文献。在第一部分中,我们回顾了非参数框架下关于神经网络的过度风险(excess risks)的研究成果,这些成果适用于回归或分类。这些结果依赖于神经网络的显式构造,采用了近似理论的工具,导致过度风险的收敛速度较快。通过这些构造,可以根据样本大小、数据维度和函数平滑度来表达网络的宽度和深度。然而,它们的底层分析仅适用于深度神经网络高度非凸景观中的全局最小值。这促使我们在第二部分回顾神经网络的训练动力学。具体来说,我们回顾了试图回答“通过基于梯度的方法训练的神经网络如何找到能够在未见数据上泛化良好的解决方案”的论文。特别地,我们回顾了两种众所周知的范式:神经切线核(Neural Tangent Kernel,NTK)范式和平均场(Mean-Field,MF)范式。

在最后一部分中,我们回顾了生成模型的最新理论进展,包括生成对抗网络(Generative Adversarial Networks,GANs)、扩散模型,以及大型语言模型(Large Language Models,LLMs)中的上下文学习(in-context learning,ICL)。前两种模型被认为是现代生成人工智能时代的主要支柱,而ICL是LLMs在上下文中通过少数示例学习的强大能力。最后,我们通过提出几个深度学习理论的有前景的方向来结束这篇文章。

https://www.zhuanzhi.ai/paper/723a8b685e08dae08fe25cd03917454a

1 引言 

近年来,作为机器学习的一个子领域,深度学习 [Goodfellow et al., 2016] 领域经历了重大的发展。它的影响已经超越了传统界限,在诸如医疗保健 [Esteva et al., 2019]、金融 [Heaton et al., 2017]、自主系统 [Grigorescu et al., 2020] 和自然语言处理 [Otter et al., 2020] 等行业中取得了显著进展。神经网络,我们大脑的数学抽象,是这一进步的核心。然而,在人工智能的持续复兴中,神经网络获得了几乎是神话般的地位,传播了它们更像艺术而非科学的误解。驱散这种观念是重要的。虽然神经网络的应用可能令人敬畏,但它们坚实地植根于数学原理中。在这种背景下,深度学习理论的重要性变得显而易见。几个关键点强调了其重要性。

1.1 为什么理论很重要?

在这一小节中,我们旨在强调在数学和统计框架内理解深度学习的重要性。以下是一些需要考虑的关键点:

  1. 深度学习是一个动态且快速发展的领域,在线上产生了成千上万的出版物。当今的模型特点是高度复杂的网络架构,包含许多复杂的子组件。在这种复杂性中,理解这些模型背后的基本原则变得至关重要。为了实现这种理解,将这些模型置于统一的数学框架中是必不可少的。这样的框架是一个宝贵的工具,可以从这些复杂模型中提取核心概念,使我们能够提取和理解推动其功能的关键原则。

  2. 将统计框架应用于深度学习模型,允许与其他统计方法进行有意义的比较。例如,像小波或核方法这样广泛使用的统计估计器可以引发关于深度神经网络何时何故可能表现更好的问题。这种分析帮助我们理解深度学习相比传统统计方法何时表现出色,从而使理论和实践受益。

  3. 超参数,如学习率、权重初始化、网络架构选择、激活函数和批量大小,显著影响估计模型的质量。理解这些超参数的适当范围对于理论家和实践者都是必要的。例如,在大数据时代,当一个数据集中有数百万个样本时,理论智慧告诉我们网络的深度应该在样本大小的对数中进行缩放,以便良好地估计组合函数 [Schmidt-Hieber, 2020]。

在这篇综述中,我们提供了深入这些概念的论文概述,并在精确的数学设置中为读者提供了上述话题的具体见解。在这里,我们试图避免过多的技术性内容,并使介绍尽可能对各个领域的统计学家都易于理解。

1.2 论文概览 

我们将神经网络的统计理论现有文献分类为三类

  1. 近似理论视角。最近,出现了大量工作,这些工作将神经网络模型的近似理论 [Yarotsky, 2017, Mhaskar, 1996, Petersen and Voigtlaender, 2018, Schmidt-Hieber, 2020, Montanelli and Du, 2019, Blanchard and Bennouna, 2022, Hornik et al., 1989, Hanin, 2019] 与实证过程中的工具 [Van de Geer, 2000] 结合起来,以获得在非参数设置下回归 [Schmidt-Hieber, 2020, Hu et al., 2021] 和分类 [Hu et al., 2020, Kim et al., 2021] 任务中过度风险的快速收敛率。近似理论在测量神经网络在某些类别中近似函数的基本复杂性方面提供了有用的视角。具体来说,它使得神经网络的显式构造成为可能,以便我们知道为了获得良好的收敛率,网络的宽度、深度和活跃参数的数量应该如何根据样本大小、数据维度和函数平滑度指标来缩放。为了简单起见,我们主要考虑将全连接神经网络用作函数估计器的工作。这些工作包括 Schmidt-Hieber [2020], Kim et al. [2021], Shen et al. [2021], Jiao et al. [2021], Lu et al. [2021], Imaizumi and Fukumizu [2019, 2022], Suzuki [2018], Chen et al. [2019b], Suzuki and Nitanda [2021], Suh et al. [2022] 等,在不同的问题设置下进行研究。然而,这些工作假设损失函数的全局最小值是可获得的,并且主要关注这些最小值的统计属性,而不考虑任何优化问题。但鉴于损失函数的非凸性以及隐藏层中激活函数的非线性,这是一个强假设。

  2. 训练动力学视角。在这个背景下,理解神经网络模型的非凸损失函数景观及其对神经网络泛化能力的影响成为文献中的下一个步骤。例如,一个开创性的实证发现 [Zhang et al., 2021] 揭示了通过随机梯度下降训练的足够过参数化的神经网络模型可以完美拟合(嘈杂的)数据甚至随机噪声,但同时它们仍然可以很好地泛化。在许多关于过参数化的重要发现中,如 Arora et al. [2019b], Jacot et al. [2018] 揭示,通过梯度下降(GD)在 ℓ2-损失下训练的足够宽度的深度神经网络的动力学,表现与在再生核希尔伯特空间(RKHS)中的函数类似,其中的核与特定网络架构相关联。许多后续工作研究了在内核范式下神经网络的训练动力学和泛化能力 [Suh et al., 2021, Hu et al., 2021, Nitanda and Suzuki, 2020]。尽管如此,神经网络表现出的不仅仅是内核回归,例如特征学习 [Yang and Hu, 2020]。这种能力是通过允许网络参数显著偏离其初始值来实现的,这是内核范式所不允许的。许多研究者试图填补这一差距 [Ghorbani et al., 2020b, Wei et al., 2019],证明了神经网络相对于内核范式网络的统计优势,但仍然限制了网络参数可能的可行距离。另一重要的研究方向试图解释神经网络在不同范式下的学习动力学,被称为平均场(MF)范式。在这个范式下,网络参数有显著偏离其初始值的灵活性,尽管这需要无限的宽度。最后,我们通过介绍一个统一的框架 Yang and Hu [2020] 来结束这一部分,该框架使我们全面理解基于梯度的方法中权重初始化和学习率缩放的选择如何影响神经网络在其无限宽度极限下的动力学。

  3. 生成模型。在这一部分中,我们回顾了最新的生成模型理论进展,包括生成对抗网络(GANs),扩散模型,以及大型语言模型(LLMs)中的上下文内学习。在过去的十年中,GANs [Goodfellow et al., 2014] 作为一种显著的无监督学习方法脱颖而出,以其学习数据分布和高效采样数据的能力而闻名。在这篇综述中,我们将介绍研究GANs统计属性的论文 [Arora et al., 2017, Liang, 2021, Chen et al., 2020a, Bai et al., 2018, Zhang et al., 2017, Schreuder et al., 2021]。最近,另一组生成模型,即扩散模型,在生成各种数据模态的高质量合成数据方面表现出色,包括图像 [Song et al., 2020, Dhariwal and Nichol, 2021],表格数据 [Kim et al., 2022, Suh et al., 2023],医学成像 [M¨uller-Franzes et al., 2022] 等,大幅度超过基于GAN的模型。然而,鉴于模型的复杂性和它在社区中的最近引入,为什么它表现如此出色的理论原因仍然不明确。最后,我们将回顾在大型语言模型中观察到的一个有趣现象,即上下文内学习(ICL)。它指的是LLMs在输入-输出对的任务示例(输入-输出对)和新查询输入的提示序列条件下,可以准确地生成相应的输出。读者可以参考 Gui et al. [2021], Yang et al. [2022] 的综述论文,了解GANs和扩散模型在各个领域的方法论和应用的详细描述。关于ICL的概述,请参阅 Dong et al. [2022] 的综述,其中突出了这个方向的一些关键发现和进展。 

1.3 深度学习理论现有综述 

据我们所知,目前有三篇关于深度学习理论的综述论文 [Bartlett et al., 2021; Fan et al., 2021; Belkin, 2021]。这些论文在某些主题上存在重叠,但它们的主要焦点各不相同。Bartlett et al. [2021] 提供了一个全面而技术性的综述,专注于深度神经网络的统计理解。特别是,作者着重考察了神经网络中超参数化的显著影响,这在使基于梯度的方法发现插值解方面起着关键作用。这些方法引入了隐式正则化,如Neyshabur [2017]讨论的,或导致了一种称为良性过拟合的现象 Bartlett et al. [2020]。Fan et al. [2021] 介绍了实践中最常用的神经网络架构,如卷积神经网络(CNN)、循环神经网络(RNN),以及从统计角度出发的训练技术,如批量标准化、dropout等。同时,也简要介绍了神经网络的近似理论。

与Bartlett et al. [2021]类似,Belkin [2021] 回顾了超参数化在隐式正则化和良性过拟合方面的作用,这不仅观察于神经网络模型,也观察于经典的统计模型,如加权最近邻预测器。最值得注意的是,他们通过优化的视角提供了对神经网络非凸损失景观的超参数化角色的直观理解。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/637070.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 3.2.2整合MyBatis-Plus 3.5.5依赖不兼容问题

问题演示 导依赖 当你启动项目就会 抛出该异常 java.lang.IllegalArgumentException: Invalid value type for attribute factoryBeanObjectType: java.lang.String 问题原因 mybatis-plus 中 mybatis 的整合包版本不够导致的 解决方案 排除掉mybatis-plus 中 mybatis 的整合…

Cortex-M3/M4内核中断及HAL库函数详解(1):中断相关寄存器

0 工具准备 Keil uVision5 Cortex M3权威指南(中文) Cortex M3与M4权威指南 stm32f407的HAL库工程 STM32F4xx中文参考手册 1 NVIC相关寄存器介绍 在Cortex-M3/M4内核上搭载了一个异常响应系统,支持为数众多的系统异常和外部中断。其中&#…

【STL-vector】

vector构造函数vector赋值操作vector容量和大小vector插入和删除数据存取互换容器&#xff0c;实现两个容器内元素的互换&#xff0c;具有收缩内存的作用vector预留空间reserve&#xff0c;减少vector在动态拓展容量时的拓展次数 #include<iostream> #include<vector…

vite和mockjs配合使用

vite mockjs 当后端还没准备完成之前&#xff0c;前端可以使用 mock 模拟后端响应&#xff0c;提高开发效率 1、安装插件 使用 vite-plugin-mock 插件&#xff0c;配合mockjs完成项目的 mock 配置 npm install mockjs vite-plugin-mock2、vite配置插件 在 vite.config.js…

聊聊PowerJob的AliOssService

序 本文主要研究一下PowerJob的AliOssService DFsService tech/powerjob/server/extension/dfs/DFsService.java public interface DFsService {/*** 存储文件* param storeRequest 存储请求* throws IOException 异常*/void store(StoreRequest storeRequest) throws IOEx…

C - Monotonically Increasing

很妙的dfs&#xff1a;记录层数以及前一个数是多少。 代码&#xff1a; int ans[11]; int n,m;void dfs(int u,int pre){if(un1){for(int i1;i<n;i)cout<<ans[i]<< ;cout<<endl;return;}for(int ipre1;i(n-u)<m;i){ans[u]i;dfs(u1,i);} }void solve(…

Linux问题 apt-get install时 无法解析域名“cn.archive.ubuntu.com”

问题描述: 在安装程序时会出现无法解析域名的错误 解决办法: 1、编辑文件 sudo vim /etc/resolv.conf 2、在最后加上(按键 i 进入编辑模式) nameserver 8.8.8.8 3、保存退出(:wq)

Upload靶场通关教程(旧版20关)

文件上传类型&#xff1a; 前端验证&#xff1a;1 MIME类型验证&#xff1a;2 黑名单验证&#xff1a;3~10&#xff0c;19 大小写绕过、空格绕过、解析后缀数字绕过、点绕过、/绕过、::$DATA绕过 白名单验证&#xff1a;11~18&#xff0c;20 %00截断、二次渲染、文件包含、…

网络安全B模块(笔记详解)- Apache安全配置

1.打开服务器场景(A-Server),通过命令行清除防火墙规则。在服务器场景上查看apache版本,将查看到的服务版本字符串完整提交; 2.检测服务器场景中此版本apache是否存在显示banner信息漏洞,如果验证存在,修改配置文件将此漏洞进行加固,并重启Apache服务,将此加固项内容…

力扣每日一练(24-1-20)

大脑里的第一想法是排列组合&#xff0c;直接给出超级准确的最优解。 但不适用&#xff0c;hhh 只要连续的n个元素大于或者等于target就可以了 题目比自己想象的要好解决 解法是使用滑动窗口算法。这个算法的基本思想是维护一个窗口&#xff0c;使得窗口内的元素总和大于等于目…

代码随想录算法训练营第二十五天| 216.组合总和III、17.电话号码的字母组合

216.组合总和III 题目链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 解题思路&#xff1a;依旧是正常遍历&#xff0c;过程中记录遍历的所有节点之和&#xff0c;如果当前元素之和已经大于所给定的值&#xff0c;退回上一节点 ja…

算法常用思路总结

思路 1. 求数组中最大最小值思路代码 2. 计算阶乘思路&#xff1a;代码&#xff1a; 3. 得到数字的每一位思路代码 4. 计算时间类型5. 最大公约数、最小公倍数6. 循环数组的思想题目&#xff1a;猴子选大王代码 补充经典例题1. 复试四则运算题目内容题解 2. 数列求和题目内容题…

专升本-拓展部分-信息安全

信息安全&#xff1a; 1.信息本身的安全&#xff0c;也是信息安全的基本属性&#xff1a;保密性&#xff0c;完整性&#xff0c;可用性 信息本身的安全是指保证信息的保密性&#xff08;非授权用户不能访问信息&#xff09;&#xff0c;完整性&#xff08;信息正确&#xff0c…

Pytest 测试框架与Allure 测试报告——Allure2测试报告-L3

目录&#xff1a; allure2报告中添加附件-图片 Allure2报告中添加附件Allure2报告中添加附件&#xff08;图片&#xff09;应用场景Allure2报告中添加附件&#xff08;图片&#xff09;-Python代码示例&#xff1a;allure2报告中添加附件-日志 Allure2报告中添加附件&#xff…

Flink处理函数(3)—— 窗口处理函数

窗口处理函数包括&#xff1a;ProcessWindowFunction 和 ProcessAllWindowFunction 基础用法 stream.keyBy( t -> t.f0 ).window( TumblingEventTimeWindows.of(Time.seconds(10)) ).process(new MyProcessWindowFunction()) 这里的MyProcessWindowFunction就是ProcessWi…

《WebKit 技术内幕》之五(4): HTML解释器和DOM 模型

4 影子&#xff08;Shadow&#xff09;DOM 影子 DOM 是一个新东西&#xff0c;主要解决了一个文档中可能需要大量交互的多个 DOM 树建立和维护各自的功能边界的问题。 4.1 什么是影子 DOM 当开发这样一个用户界面的控件——这个控件可能由一些 HTML 的标签元素…

【前端学习笔记2】javaScript基础

是什么&#xff1a; 是一种运行在客户端&#xff08;服务器的编程语言&#xff09; javacript分为行内JavaScript&#xff0c;内部JavaScript&#xff0c;外部JavaScript 内部JavaScript 直接写在html中body里面 alert&#xff08;“hello&#xff0c;world”&#xff09;…

Flutter 入门

什么是Flutter Flutter 只是一个用来解决跨平台的UI框架&#xff0c;最终还是要使用原生平台进行绘制&#xff0c;对于大部分和系统API无关的页面都可以使用Flutter处理,但是有一些获取系统信息的页面比如某个页面获取Android是否打开了通知栏权限&#xff1f;获取手机电池电量…

React16源码: React中的IndeterminateComponent的源码实现

IndeterminateComponent 1 &#xff09;概述 这是一个比较特殊的component的类型&#xff0c; 就是还没有被指定类型的component在一个fibrer被创建的时候&#xff0c;它的tag可能会是 IndeterminateComponent在 packages/react-reconciler/src/ReactFiber.js 中&#xff0c;有…

Impala:基于内存的MPP查询引擎

Impala查询引擎 1、Impala概述 1、Impala概述 Impala是Cloudera公司主导研发的高性能、低延迟的交互式SQL查询引擎&#xff0c;它提供SQL语义&#xff0c;能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala是CDH平台首选的PB级大数据实时交互式查询分析引擎 2015年11月&…