统计学习方法与实战——统计学习方法概论

统计学习方法概论

文章目录

  • 统计学习方法概论
    • 前言
      • 章节目录
      • 导读
    • 实现统计学习方法的步骤
    • 统计学习方法三要素
      • 模型
        • 模型是什么?
      • 策略
        • 损失函数与风险函数
        • 常用损失函数
        • ERM与SRM
      • 算法
    • 模型评估与模型选择
      • 过拟合与模型选择
    • 正则化与交叉验证
    • 泛化能力
    • 生成模型与判别模型
      • 生成方法
      • 判别方法
    • 分类问题、标注问题、回归问题
      • 1. 分类问题
      • 2. 标注问题(序列标注问题)
      • 3. 回归问题
      • 总结

前言

章节目录

  1. 统计学习
  2. 监督学习
    1. 基本概念
    2. 问题的形式化
  3. 统计学习三要素
    1. 模型
    2. 策略
    3. 算法
  4. 模型评估与模型选择
    1. 训练误差与测试误差
    2. 过拟合与模型选择
  5. 正则化与交叉验证
    1. 正则化
    2. 交叉验证
  6. 泛化能力
    1. 泛化误差
    2. 泛化误差上界
  7. 生成模型与判别模型
  8. 分类问题
  9. 标注问题
  10. 回归问题

导读

  1. 统计学习三要素对理解统计学习方法起到提纲挈领的作用
  2. 主要讨论监督学习
  3. 分类问题、标注问题和回归问题都是监督学习的重要问题
  4. 本书中介绍的统计学习方法包括…。这些方法是主要的分类、标注以及回归方法。他们又可归类为生成方法与判别方法。
  • 输入和输出对称为样本

  • 注意在介绍输入空间,输出空间等概念的时候,以及这一章的很多部分都会有个帽子,监督学习中监督学习可以概括如下:从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给的训练数据以及未知测试数据在给定评价标准意义下有最准确的预测。,理解下这里的假设。

实现统计学习方法的步骤

统计学习方法三要素:模型,策略,算法

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的算法
  5. 通过学习方法选择最优的模型
  6. 利用学习的最优模型对新数据进行预测或分析

统计学习方法三要素

模型

模型是什么?

在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数

策略

损失函数与风险函数

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数:衡量模型的推理结果与我们实际标签的差距

  1. 损失函数(loss function)或代价函数(cost function)
    损失函数定义为给定输入 X X X预测值 f ( X ) f(X) f(X)真实值 Y Y Y之间的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))

  2. 风险函数(risk function)或期望损失(expected loss)
    这个和模型的泛化误差的形式是一样的
    R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y Rexp(f)=Ep[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy
    模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)平均意义下的损失(期望损失),但是因为 P ( X , Y ) P(X,Y) P(X,Y)是未知的,所以前面的用词是期望,以及平均意义下的

    这个表示其实就是损失的均值,反映了对整个数据的预测效果的好坏,P(x,y)转换成 ν ( X = x , Y = y ) N \frac {\nu(X=x, Y=y)}{N} Nν(X=x,Y=y)更容易直观理解, 但是真实的数据N是无穷的。

  3. 经验风险(empirical risk)或经验损失(empirical loss)
    R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i)) Remp(f)=N1i=1NL(yi,f(xi))
    模型 f f f关于训练样本集的平均mean损失
    根据大数定律,当样本容量N趋于无穷大时,经验风险趋于期望风险

  4. 结构风险(structural risk)
    R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)
    J ( f ) J(f) J(f)为模型复杂度, λ ⩾ 0 \lambda \geqslant 0 λ0是系数,用以权衡经验风险和模型复杂度。

常用损失函数

损失函数数值越小,模型就越好

L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))

  1. 0-1损失
    L = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L=\begin{cases}1, Y \neq f(X) \\0, Y=f(X) \end{cases} L={1,Y=f(X)0,Y=f(X)
  2. 平方损失,张量之差的平方
    L = ( Y − f ( X ) ) 2 L=(Y-f(X))^2 L=(Yf(X))2
  3. 绝对损失,两个值直接相减
    L = ∣ Y − f ( X ) ∣ L=|Y-f(X)| L=Yf(X)

L ( Y , P ( Y ∣ X ) ) L(Y,P(Y|X)) L(Y,P(YX))

  1. 对数损失
    这里 P ( Y ∣ X ) ⩽ 1 P(Y|X)\leqslant 1 P(YX)1,对应的对数是负值,所以对数损失中包含一个负号,为什么不是绝对值?因为肯定是负的。
    L = − log ⁡ P ( Y ∣ X ) L=-\log P(Y|X) L=logP(YX)
ERM与SRM

经验风险最小化(ERM)与结构风险最小化(SRM)

  1. 极大似然估计是经验风险最小化的一个例子
    当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计
  2. 贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子
    当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计

算法

模型评估与模型选择

训练误差和测试误差是模型关于数据集的平均损失。

统计学习方法具体采用的损失函数未必是评估时使用的损失函数`,这句理解下。参考下在数据科学比赛中给出的评分标准,与实际学习采用的损失函数之间的关系。

  • 训练时使用的损失函数与测试时的损失函数不一定一样

过拟合与模型选择

这部分讲到了最小二乘法,举例:

这个问题中训练数据 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } T=\{(x_1, y_1),(x_2,y_2),\cdots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)}

模型

f M ( x , w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w M x M = ∑ j = 0 M w j x j f_M(x,w)=w_0+w_1x+w_2x^2+\cdots+w_Mx^M=\sum\limits_{j=0}^Mw_jx^j fM(x,w)=w0+w1x+w2x2++wMxM=j=0Mwjxj

经验风险最小化策略下

L ( w ) = 1 2 ∑ i = 1 N ( f ( x i , w ) − y i ) 2 L(w)=\frac{1}{2}\sum\limits_{i=1}^N(f(x_i,w)-y_i)^2 L(w)=21i=1N(f(xi,w)yi)2

将模型和训练数据带入到上式得到

L ( w ) = 1 2 ∑ i = 1 N ( ∑ j = 0 M w j x i j − y i ) 2 = 1 2 ∑ i = 1 N ( w ⋅ x i − y i ) 2 L(w)=\frac{1}{2}\sum\limits_{i=1}^N\left(\sum\limits_{j=0}^Mw_jx_i^j-y_i\right)^2=\frac{1}{2}\sum\limits_{i=1}^N(w\cdot x_i-y_i)^2 L(w)=21i=1N(j=0Mwjxijyi)2=21i=1N(wxiyi)2

这个问题要求 w = ( w 0 ∗ , w 1 ∗ , ⋯ , w M ∗ ) w=(w_0^*,w_1^*,\cdots,w_M^*) w=(w0,w1,,wM)

w w w求偏导令其为零,得到一系列方程,求解可以用梯度下降或者矩阵分解。

求解线性方程组 A x = b Ax=b Ax=b,可以表示为 x = A / b x=A/b x=A/b,问题展开之后可以涉及到矩阵分解

TODO: 这个例子展开一下

正则化与交叉验证

  1. 正则化
    模型选择的典型方法是正则化
  2. 交叉验证
    另一种常用的模型选择方法是交叉验证
    • 简单
    • S折(K折, K-Fold)[^1]
    • 留一法

泛化能力

  • 现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力

  • 统计学习理论试图从理论上对学习方法的泛化能力进行分析

  • 学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的, 简称为泛化误差上界(generalization error bound)

注意泛化误差的定义,书中有说事实上,泛化误差就是所学习到的模型的期望风险

生成模型与判别模型

监督学习方法可分为生成方法(generative approach)与判别方法(discriminative approach)

生成方法

generative approach

  • 可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
  • 收敛速度快, 当样本容量增加时, 学到的模型可以更快收敛到真实模型
  • 当存在隐变量时仍可以用

判别方法

discriminative approach

  • 直接学习条件概率 P ( Y ∣ X ) P(Y|X) P(YX)或者决策函数 f ( X ) f(X) f(X)
  • 直接面对预测, 往往学习准确率更高
  • 可以对数据进行各种程度的抽象, 定义特征并使用特征, 可以简化学习问题

分类问题、标注问题、回归问题

Classification, Tagging, Regression

  • 分类系统和标注系统的差异外,没看到其他差异,但实际上这两幅图中对应的输入数据有差异,序列数据的 x i = ( x i ( 1 ) , x i ( 2 ) , … , x i ( n ) ) T x_i = (x_i^{(1)},x_i^{(2)},\dots,x_i^{(n)})^T xi=(xi(1),xi(2),,xi(n))T对应了
  • 回归问题的产出为 Y = f ^ ( X ) Y=\hat f(X) Y=f^(X)

分类和回归其实都是相对而说,分类模型其实也可以用于回归,只是用于任务的不同
在机器学习和深度学习中,问题通常可以分为几种类型,包括分类问题、标注问题和回归问题。以下是对这三种问题的详细解释:

1. 分类问题

定义:分类问题是指将输入数据分配到预定义的类别或标签中。目标是根据输入特征预测离散的输出类别。

特点

  • 输出是离散的,通常是有限个类别。
  • 常见的评估指标包括准确率、精确率、召回率和F1-score等。

示例

  • 二分类问题:例如,判断一封电子邮件是否为垃圾邮件(是/否)。
  • 多分类问题:例如,识别图像中的物体(如猫、狗、鸟等)。

应用

  • 图像分类(如手写数字识别、物体检测)
  • 文本分类(如情感分析、主题分类)
  • 医疗诊断(如疾病分类)

2. 标注问题(序列标注问题)

定义:标注问题是指对输入序列中的每个元素进行标注,通常用于处理序列数据。目标是为每个输入元素分配一个标签。

特点

  • 输入是一个序列,输出是与输入序列长度相同的标签序列。
  • 常见的评估指标包括准确率、F1-score等。

示例

  • 命名实体识别(NER):在文本中识别出人名、地名、组织名等。
  • 词性标注:为句子中的每个单词分配词性标签(如名词、动词、形容词等)。
  • 语音识别:将语音信号转换为文本,并为每个音素或词分配标签。

应用

  • 自然语言处理(如文本分析、信息提取)
  • 生物信息学(如基因序列标注)
  • 计算机视觉(如图像分割)

3. 回归问题

定义:回归问题是指预测一个连续的数值输出。目标是根据输入特征预测一个实数值。

特点

  • 输出是连续的,可以是任意实数。
  • 常见的评估指标包括均方误差(MSE)、均绝对误差(MAE)和R²(决定系数)等。

示例

  • 预测房价:根据房屋的特征(如面积、位置、卧室数量等)预测其市场价格。
  • 股票价格预测:根据历史数据预测未来的股票价格。
  • 温度预测:根据气象数据预测未来的温度。

应用

  • 财务预测(如销售额、利润预测)
  • 经济学(如GDP预测)
  • 工程(如材料强度预测)

总结

  • 分类问题:将输入分配到离散类别中,输出是类别标签。
  • 标注问题:对输入序列中的每个元素进行标注,输出是与输入序列长度相同的标签序列。
  • 回归问题:预测连续的数值输出,输出是实数值。

这三种问题在机器学习中有着广泛的应用,选择合适的模型和算法来解决这些问题是机器学习实践中的关键。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/53458.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高校大模型实验室大模型应用平台

大模型应用平台是一款专为高校大模型应用场景教学和科研打造的知识库问答系统。该平台易于使用,知识库支持常见的txt、doc、pdf、md等数据文件上传,同时提供了简洁易懂的操作配置界面,使用户可以轻松地搭建和训练AI应用,并快速进行…

arm64高速缓存基础知识

高速缓存的替换策略 随机法:随机地确定替换的高速缓存行,由一个随机数产生器产生随机数来确认替换行 FIFO法:选择最先调入的高速缓存行进行替换 LRU法:最少使用的行优先替换。 高速缓存的共享属性 内部共享的高速缓存通常指的…

时间序列处理方法

对于时间序列数据进行多分类任务,RNN对于顺序建模不理想,可以考虑以下模型和改进方法: Transformers(时序数据版) 优势: 相较于RNN(如GRU、LSTM),Transformers 擅长捕捉长距离依赖关…

Python 多线程访问数据库正确使用dbutils PooledDB数据库连接池

1.安装DBUtils pip install DBUtils 2.db_helper.py的代码如下 import pymysql from dbutils.pooled_db import PooledDB from config import configclass DBHelper:def __init__(self):""":param mincached:连接池中空闲连接的初始数量:param maxcached:连接…

Flutter基本组件Text使用

Text是一个文本显示控件,用于在应用程序界面中显示单行或多行文本内容。 Text简单Demo import package:flutter/material.dart;class MyTextDemo extends StatelessWidget {const MyTextDemo({super.key});overrideWidget build(BuildContext context) {return Sca…

飞速了解Conda的作用和安装使用教程

当我们想要在github上克隆不同的项目下来运行时,会发现项目的语言环境或包的版本不同,出现版本冲突问题会导致程序无法运行、兼容性问题频出。我们常常需要管理多个项目,每个项目可能依赖于不同的包版本或编程语言环境。如果不加以管理&#…

在HTML5中使用Noto Sans CJK字体的详细指南

在HTML5中使用Noto Sans CJK字体的详细指南 方法一&#xff1a;通过Google Fonts在线加载Noto Sans CJK步骤 1&#xff1a;访问Google Fonts并获取字体链接步骤 2&#xff1a;获取字体的<link>标签步骤 3&#xff1a;在HTML文件中引入字体 方法二&#xff1a;下载并本地托…

agentuniverse快速开始和踩坑

https://github.com/alipay/agentUniverse/tree/mastergithub地址:https://github.com/alipay/agentUniverse/tree/master 老大看了演示demo也想跟着做个agent工具,但踩坑太多,含泪写下博客 前置环节 git clone https://github.com/alipay/agentUniverse.git conda create -n…

AndroidStudio清除重置Http Proxy代理的方式

问题背景 在国内做代码开发的都知道&#xff0c;在国际互联网我们存在看不见的墙&#xff0c;导致无法访问一些代码库和资源&#xff0c;所以在使用开发工具拉取第三方库的时候总会遇到无法连接或者连接超时的情况&#xff0c;所以就会使用一些安全的网络代理工具&#xff0c;辅…

【JavaSE】Java基本数据类型缓存池

new Integer(18) 、 Integer.valueOf(18) 、Integer.valueOf(300) 的区别 new Integer(18) &#xff1a;每次都会创建一个新对象Integer.valueOf(x)&#xff1a; x in [-128, 127]&#xff1a;使用缓存池中的对象x not in [-128, 127]&#xff1a;创建新对象 Integer缓存池大…

windows清理图标缓存

方法一 删除 IconCache.db 文件 进入 C:\Users\用户名\appdata\local 目录&#xff0c;直接删除 IconCache.db 文件&#xff0c;重启电脑。 需要注意的是&#xff0c;这一步中 appdata 文件夹和 IconCache.db 文件都是隐藏的系统文件&#xff0c;需要手动输入地址或者显示隐藏…

【Qt】事件分发器

事件分发器 概述 在 Qt 中&#xff0c;事件分发器(Event Dispatcher) 是⼀个核⼼概念&#xff0c;⽤于处理 GUI 应⽤程序中的事件。事件分发器负责将事件从⼀个对象传递到另⼀个对象&#xff0c;直到事件被处理或被取消。每个继承⾃ QObject类 或 QObject类 本⾝都可以在本类中…

《纳瓦尔宝典》的核心思想在于阐述如何通过智慧和策略实现财富自由和生活幸福

《纳瓦尔宝典》概况 图书概况 《纳瓦尔宝典》是2022年5月10日由中信出版社出版的一本书籍&#xff0c;作者是美国作家埃里克乔根森。该书通过收集和整理硅谷知名天使投资人纳瓦尔拉维坎特在推特、博客和播客等平台上的智慧箴言&#xff0c;形成了一本关于财富积累和幸福人生的…

如何在红米手机中恢复已删除的照片?(6 种方式可供选择)

凭借出色的相机和实惠的价格&#xff0c;小米红米系列已成为全球知名品牌。但是&#xff0c;最近有些人抱怨他们在 红米设备上丢失了许多珍贵的图片或视频&#xff0c;并希望弄清楚如何从小米手机恢复已删除的照片。好吧&#xff0c;在小米设备上恢复已删除的视频/照片并不难。…

AI预测福彩3D采取888=3策略+和值012路或胆码测试9月8日新模型预测第81弹

经过80期的测试&#xff0c;当然有很多彩友也一直在观察我每天发的预测结果&#xff0c;得到了一个非常有价值的信息&#xff0c;那就是9码定位的命中率非常高&#xff0c;70多期一共只错了8次&#xff0c;这给喜欢打私房菜的朋友提供了极高价值的预测结果~当然了&#xff0c;大…

接口(Interface)和端点(Endpoint)的区别

在软件开发和相关的文档中&#xff0c;我们经常会看到两个专有名词&#xff1a;接口&#xff08;Interface&#xff09;和端点&#xff08;Endpoint&#xff09;。而它们的使用场景有很大的重合部分&#xff0c;让人有些分不清到底用哪个。那么&#xff0c;这两者到底有什么区别…

牛客周赛 Round 59(下)

逆序数 题目描述 登录—专业IT笔试面试备考平台_牛客网 运行代码 #include<bits/stdc.h> using namespace std; typedef long long ll; int main() {ll n,k;cin>>n>>k;ll sum(n*(n-1))/2;cout<<sum-k<<endl;return 0; } 代码思路 组合数的计…

手机到了外地ip地址就变了吗

手机到了外地IP地址就变了吗&#xff1f;随着智能手机的普及&#xff0c;人们越来越频繁地使用手机进行各种网络活动。然而&#xff0c;关于手机IP地址是否会随着地理位置的变化而改变&#xff0c;许多用户仍心存疑惑。本文将深入探讨这一问题&#xff0c;揭示IP地址变化的奥秘…

vue原理分析(八)研究new Vue()中的initProxy

在Vue.prototype._init 中有一些init函数&#xff0c;今天我们来研究这些init函数 Vue.prototype._init function (options) {......{initProxy(vm);}......initLifecycle(vm);initEvents(vm);initRender(vm);callHook$1(vm, beforeCreate, undefined, false /* setContext *…

【C/C++】“秒懂”学C/C++不可错过的“经典编程题” — 日期类的经典运用 (含题链接)

“秒懂”学C/C不可错过的“经典编程题” — 日期类的经典运用 (含题链接&#xff09; 1. 计算日期到天数转换(1). 解题思路&#xff1a;(2). 代码实现&#xff1a; 2. 打印日期(1). 解题思路&#xff1a;(2). 代码实现&#xff1a; 3. 日期累加(1). 解题思路&#xff1a;(2). 代…