微信导航网站如何建设/电商平台怎么搭建

微信导航网站如何建设,电商平台怎么搭建,做图网站,做网站需要从统计学视角看机器学习的训练与推理 目录 引言:统计学与机器学习的奇妙缘分训练与推理:你得先学会“看数据”再“用数据”最大似然估计(MLE):从直觉到数学证明 3.1 伯努利分布的MLE3.2 单变量高斯分布的MLE3.3 多元…

从统计学视角看机器学习的训练与推理

目录

  1. 引言:统计学与机器学习的奇妙缘分
  2. 训练与推理:你得先学会“看数据”再“用数据”
  3. 最大似然估计(MLE):从直觉到数学证明
    • 3.1 伯努利分布的MLE
    • 3.2 单变量高斯分布的MLE
    • 3.3 多元高斯与线性回归中的MLE
  4. 经验风险最小(ERM):MLE的自然推广
  5. 其他估计方法:矩估计、在线递归估计与指数加权移动平均
  6. 总结与展望

引言:统计学与机器学习的奇妙缘分

当我们谈论机器学习时,其实是在说如何“训练”一个模型,让它能够从数据中“推理”出规律。统计学作为这一过程的数学基石,提供了严格的理论支持。从古老的贝叶斯推理到现代的频数推理,每种方法都有其独特的数学证明和直观解释。本文就将带你走进这些理论的世界,让你在大白话的解释中,感受到数学公式背后的美妙逻辑!

训练与推理:你得先学会“看数据”再“用数据”

在机器学习中,我们通常把整个过程分为两个阶段:训练和推理。训练阶段,我们使用大量数据来“教会”模型识别数据的内在规律;而在推理阶段,模型利用学到的知识对新数据进行预测。两者的区别在于:

  • 训练(Training): 模型根据已知数据调整自身参数,就像你学习数学时不断做题、修正错误。这个过程本质上就是参数估计和优化问题。
  • 推理(Inference): 模型用训练中学到的参数去处理未知数据,给出预测结果,就像考试时你凭借平时的训练作答。

在统计学里,我们往往用概率分布来刻画数据,通过最大似然估计、贝叶斯方法等工具,实现训练与推理的数学转化。

最大似然估计(MLE):从直觉到数学证明

最大似然估计是统计学中最核心的参数估计方法之一,它的思想其实很直白——选择使得观测数据出现概率最大的参数值。下面,我们通过几个经典例子来详细说明这一过程。

伯努利分布的MLE

假设你在做一个抛硬币实验,每次实验的结果只有“正面”(1)和“反面”(0)。用$ \theta $表示出现正面的概率,那么一组独立实验的似然函数为:

L ( θ ) = ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i L(\theta)=\prod_{i=1}^{n} \theta^{x_i}(1-\theta)^{1-x_i} L(θ)=i=1nθxi(1θ)1xi

为了方便求导,我们取对数,得到对数似然函数:

ℓ ( θ ) = ∑ i = 1 n [ x i log ⁡ θ + ( 1 − x i ) log ⁡ ( 1 − θ ) ] \ell(\theta)=\sum_{i=1}^{n} \Bigl[x_i\log\theta+(1-x_i)\log(1-\theta)\Bigr] (θ)=i=1n[xilogθ+(1xi)log(1θ)]

接下来,对 θ \theta θ求导并令导数为零,我们可以得到:

d ℓ ( θ ) d θ = ∑ i = 1 n x i θ − n − ∑ i = 1 n x i 1 − θ = 0 \frac{d\ell(\theta)}{d\theta}=\frac{\sum_{i=1}^{n}x_i}{\theta}-\frac{n-\sum_{i=1}^{n}x_i}{1-\theta}=0 dθd(θ)=θi=1nxi1θni=1nxi=0

解得:

θ = 1 n ∑ i = 1 n x i \theta=\frac{1}{n}\sum_{i=1}^{n}x_i θ=n1i=1nxi

这告诉我们,最佳的参数 θ \theta θ就是正面出现的频率。简单明了,对吧?

单变量高斯分布的MLE

对于连续变量,最常用的分布之一就是高斯分布。设数据服从单变量高斯分布:

p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x-\mu)^2}{2\sigma^2}\Bigr) p(xμ,σ2)=2πσ2 1exp(2σ2(xμ)2)

对于独立数据集,似然函数为:

L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) L(\mu,\sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^2}}\exp\Bigl(-\frac{(x_i-\mu)^2}{2\sigma^2}\Bigr) L(μ,σ2)=i=1n2πσ2 1exp(2σ2(xiμ)2)

取对数后得到:

ℓ ( μ , σ 2 ) = − n 2 log ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ell(\mu,\sigma^2)=-\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2 (μ,σ2)=2nlog(2πσ2)2σ21i=1n(xiμ)2

分别对 μ \mu μ σ 2 \sigma^2 σ2求导并令导数为零,我们能推导出:

μ = 1 n ∑ i = 1 n x i \mu=\frac{1}{n}\sum_{i=1}^{n}x_i μ=n1i=1nxi

σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 \sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 σ2=n1i=1n(xiμ)2

这两个公式直观地告诉我们,数据的均值和方差正是高斯分布参数的最佳估计。

多元高斯与线性回归中的MLE

当数据是多维的,我们用多元高斯分布来描述数据。设 x ∈ R d \mathbf{x}\in \mathbb{R}^d xRd,其概率密度函数为:

p ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(\mathbf{x}|\boldsymbol{\mu},\Sigma)=\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\Bigl(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\Bigr) p(xμ,Σ)=(2π)d/2∣Σ1/21exp(21(xμ)TΣ1(xμ))

同样地,对数似然函数为:

ℓ ( μ , Σ ) = − n 2 log ⁡ ( ( 2 π ) d ∣ Σ ∣ ) − 1 2 ∑ i = 1 n ( x i − μ ) T Σ − 1 ( x i − μ ) \ell(\boldsymbol{\mu},\Sigma)=-\frac{n}{2}\log((2\pi)^d|\Sigma|)-\frac{1}{2}\sum_{i=1}^{n}(\mathbf{x}_i-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}_i-\boldsymbol{\mu}) (μ,Σ)=2nlog((2π)d∣Σ∣)21i=1n(xiμ)TΣ1(xiμ)

通过对 μ \boldsymbol{\mu} μ Σ \Sigma Σ求导,可以得到最优估计公式。特别地,在线性回归中,我们假定目标变量 y y y与输入特征 x \mathbf{x} x之间满足:

y = x T β + ϵ , ϵ ∼ N ( 0 , σ 2 ) y=\mathbf{x}^T\boldsymbol{\beta}+\epsilon,\quad \epsilon\sim N(0,\sigma^2) y=xTβ+ϵ,ϵN(0,σ2)

在这种假设下,最大似然估计的求解过程等价于最小二乘法,最佳参数为:

β ^ = ( X T X ) − 1 X T y \hat{\boldsymbol{\beta}}=(X^TX)^{-1}X^Ty β^=(XTX)1XTy

同时,噪声方差的估计为:

σ ^ 2 = 1 n ∥ y − X β ^ ∥ 2 \hat{\sigma}^2=\frac{1}{n}\|y-X\hat{\boldsymbol{\beta}}\|^2 σ^2=n1yXβ^2

这些推导不仅告诉我们如何从数据中“学习”参数,更为后续更复杂的模型训练提供了理论基础。

经验风险最小(ERM):MLE的自然推广

最大似然估计是一种非常特殊的经验风险最小(ERM)方法。当我们在训练一个模型时,目标是最小化经验风险,即:

θ ^ = arg ⁡ min ⁡ θ 1 n ∑ i = 1 n L ( y i , f ( x i ; θ ) ) \hat{\theta}=\arg\min_{\theta}\frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i;\theta)) θ^=argθminn1i=1nL(yi,f(xi;θ))

这里, L L L是损失函数,而 f ( x i ; θ ) f(x_i;\theta) f(xi;θ)是模型预测值。如果我们选择 L L L为负对数似然,那么ERM就完全等价于MLE。这说明,经验风险最小化不仅适用于概率模型,也适用于更广泛的模型训练问题,是MLE思想的自然推广。

其他估计方法:矩估计、在线递归估计与指数加权移动平均

除了MLE之外,统计学中还有许多其他参数估计方法。下面我们用大白话和公式来解释几种常见的方法:

矩估计法(Method of Moments, MOM)

矩估计法的基本思想是:用样本矩来估计分布的理论矩。例如,对于单变量高斯分布,我们有:

μ = E [ x ] ≈ 1 n ∑ i = 1 n x i \mu=E[x]\approx \frac{1}{n}\sum_{i=1}^{n}x_i μ=E[x]n1i=1nxi

σ 2 = E [ ( x − μ ) 2 ] ≈ 1 n ∑ i = 1 n ( x i − μ ) 2 \sigma^2=E[(x-\mu)^2]\approx \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2 σ2=E[(xμ)2]n1i=1n(xiμ)2

对于均匀分布 U ( a , b ) U(a,b) U(a,b),已知其理论均值和方差分别为:

μ = a + b 2 , σ 2 = ( b − a ) 2 12 \mu=\frac{a+b}{2},\quad \sigma^2=\frac{(b-a)^2}{12} μ=2a+b,σ2=12(ba)2

利用样本均值和样本方差,我们可以反推出分布的参数。这种方法简单直观,适用于很多分布的参数估计。

在线递归估计与高斯分布均值的递归MLE

在实际应用中,数据往往是不断到来的,我们希望能够实时更新模型参数。在线递归估计便是一种非常实用的方法。例如,对高斯分布均值的递归估计公式为:

μ ^ t = μ ^ t − 1 + α ( x t − μ ^ t − 1 ) \hat{\mu}_t=\hat{\mu}_{t-1}+\alpha(x_t-\hat{\mu}_{t-1}) μ^t=μ^t1+α(xtμ^t1)

其中, α \alpha α是一个学习率参数,控制新数据对估计值的影响。这其实和我们日常生活中的“不断修正预期”很像:每次遇到新情况,我们就会略微调整之前的看法。

指数加权移动平均(Exponential Weighted Moving Average, EWMA)

当我们希望对时间序列数据进行平滑处理时,指数加权移动平均是一个好方法。其公式为:

S t = λ x t + ( 1 − λ ) S t − 1 S_t=\lambda x_t+(1-\lambda)S_{t-1} St=λxt+(1λ)St1

其中, λ \lambda λ为平滑系数(通常在 0 0 0 1 1 1之间), S t S_t St为当前的平滑值。简单来说,每个时刻的估计值不仅考虑当前数据 x t x_t xt,还会参考之前的状态 S t − 1 S_{t-1} St1,使得整体估计更平滑、鲁棒性更高。

总结与展望

通过上面的讨论,我们可以看到,统计学不仅为机器学习中的训练和推理提供了理论基础,更在参数估计上展现出极大的魅力。无论是最大似然估计的严谨证明,还是经验风险最小化的广义框架,都为我们理解机器学习模型的本质提供了强有力的支持。同时,矩估计、在线递归估计和指数加权移动平均等方法,也展示了数据流时代实时更新模型参数的可能性。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/896885.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI赋能企业协作4-NL2Sql技术路线

1.1 对话即服务的一点思考 在数智化转型的过程中,基于即时通信(IM)的协作平台正悄然成为企业智能化转型的“新基建”。协作平台天然具备高频交互、实时协同和场景化落地的特性,仿佛是为对话式AI量身定制的试验场——员工在熟悉的聊…

批量提取 Word 文档中的页面

如何将 Word 文档中的页面提取出来形成一个新的文档呢?比如将 Word 文档中的第一页提取出来、将 Word 文档中的最后一页提取出来、再或者将 Word 文档中的中间几页提取出来等等。人工的处理肯定非常的麻烦,需要新建 Word 文档,然后将内容复制…

Sqlserver安全篇之_启用TLS即配置SQL Server 数据库引擎以加密连接

官方文档 https://learn.microsoft.com/zh-cn/sql/database-engine/configure-windows/configure-sql-server-encryption?viewsql-server-ver16 https://learn.microsoft.com/zh-cn/sql/database-engine/configure-windows/manage-certificates?viewsql-server-ver15&pre…

多镜头视频生成、机器人抓取、扩散模型个性化 | Big Model weekly第58期

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot 本文介绍了一种名为GLM-4-Voice的智能且类人化的端到端语音聊天机器人。它支持中文和英文,能够进行实时语音对话&a…

MOM成功实施分享(七)电力电容制造MOM工艺分析与解决方案(第一部分)

声明:文章仅用于交流学习,不用于商业项目实施,图片来源于网络,如有侵犯权利,请联系作者及时删除。 本方案旨在对电力电容(PEC和PQM型号)制造工艺深度分析,结合管理要求设计MOM相关功…

JavaWeb后端基础(3)

原打算把Mysql操作数据库的一些知识写进去,但是感觉没必要,要是现在会的都是简单的增删改查,所以,这一篇,我直接从java操作数据库开始写,所以这一篇大致就是记一下JDBC、MyBatis、以及SpringBoot的配置文件…

移动端国际化翻译同步解决方案-V3

1.前言 因为软件出海,从在上上家公司就开始做翻译系统,到目前为止已经出了两个比较大的版本了,各个版本解决的痛点如下: V1版本: 主要针对的是AndroidiOS翻译不一致和翻译内容管理麻烦的问题,通过这个工具…

2.css简介

什么是css: CSS (Cascading Style Sheets,层叠样式表),是一种用来为结构化文档(如 HTML 文档或 XML 应用)添加样式(字体、间距和颜色等)的计算机语言,CSS 文件扩展名为 .…

机器人学习模拟框架 robosuite (3) 机器人控制代码示例

Robosuite框架是一个用于机器人模拟和控制的强大工具,支持多种类型的机器人。 官方文档:Overview — robosuite 1.5 documentation 开源地址:https://github.com/ARISE-Initiative/robosuite 目录 1、通过键盘或SpaceMouse远程控制机器人…

可终身授权的外国工具,不限次数使用!PDF转CAD的软件

最近有不少朋友问我有没有好用的CAD转换工具,今天就来给大家分享两款超实用的小软件,希望能帮到大家。 第一款软件是一款国外开发的,它专门用来把PDF文件转换成CAD格式,特别方便。 这款软件的操作非常简单,打开后无需安…

ffmpeg源码编译支持cuda

1.安装cuda CUDA Toolkit 11.3 Downloads | NVIDIA Developer 在选择组件的时候,将CUDA中的Nsight VSE和Visual Studio Integration取消勾选 不然会安装失败 2.编译ffmpeg 把cuda编译宏定义开启,再编译avcodec 3.编译livavutil报错struct "Cuda…

【北京迅为】iTOP-RK3568OpenHarmony系统南向驱动开发-第4章 UART基础知识

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…

【计算机网络入门】初学计算机网络(十)(重要)

目录 1. 网络层的作用 2. IPV4 2.1 IP 数据报格式 2.2 IP地址分类方案 2.3 数据的转发 2.4 特殊用途的IP地址 3. 子网划分和子网掩码 3.1 子网划分 3.2 子网掩码 1. 网络层的作用 按照教学五层模型,应用层、传输层、网络层、数据链路层、物理层&#xff…

机器学习(五)

一,多类(Multiclass) 多类是指输出不止有两个输出标签,想要对多个种类进行分类。 Softmax回归算法: Softmax回归算法是Logistic回归在多类问题上的推广,和线性回归一样,将输入的特征与权重进行…

Windows安装nvm【超详细图解】

目录 前言 一、NVM下载 方式一:官网下载 方式二:GitHub 下载 二、NVM安装 镜像源配置 三、Node安装 四、环境变量配置 前言 NVM(Node Version Manager)是一个命令行工具,用于在一台计算机上轻松管理和切换多…

KVM虚拟机磁盘创建探究-2

使用 virt-install 命令自动创建磁盘镜像和使用 qemu-img 手动创建磁盘镜像,在磁盘镜像本身格式和基本功能上是一致的,但在一些特性如初始占用磁盘空间、创建时的可配置性等方面存在区别,下面以 QCOW2 格式磁盘镜像为例进行详细说明。 初始占…

京准电钟:NTP校时服务器于安防监控系统应用方案

京准电钟:NTP校时服务器于安防监控系统应用方案 京准电钟:NTP校时服务器于安防监控系统应用方案 NTP校时服务器在安防监控系统中的应用方案主要通过高精度时间同步技术,解决设备间时间差异问题,确保日志、录像等数据的时间一致性…

Linux网络_应用层自定义协议与序列化_守护进程

一.协议 协议是一种 "约定". socket api 的接口, 在读写数据时, 都是按 "字符串" 的方式来发送接 收的. 如果我们要传输一些 "结构化的数据" 怎么办呢? 其实,协议就是双方约定好的结构化的数据 像下面,两端都知道数据结构…

SQL命令详解之多表查询(连接查询)

目录 1 简介 2 内连接查询 2.1 内连接语法 2.2 内连接练习 3 外连接查询 3.1 外连接语法 3.2 外连接练习 4 总结 1 简介 连接的本质就是把各个表中的记录都取出来依次匹配的组合加入结果集并返回给用户。我们把 t1 和 t2 两个表连接起来的过程如下图所示: …

001-码云操作

码云操作 一、配置公钥1.官网地址1.进入 git bash2.查看生成的公钥3.设置到 Gitee4.测试 二、初始化一个项目1.新建仓库 一、配置公钥 方便后续提交代码不用填写密码 1.官网地址 官网地址:https://gitee.com/Git码云教程:https://gitee.com/help/arti…