【AI】大数据机器学习—统计学习及监督学习概论

统计学习包括监督学习、无监督学习、半监督学习和强化学习。

参考书是李航的《统计学习方法》,该书主要讨论监督学习。
统计学习作为一个研究领域,主要包括统计学习方法、统计学习理论和统计学习应用。统计学习方法主要关注的问题是设计新的学习方法。

一、统计学习方法的三要素

统计学习方法主要包括模型的假设空间、模型选择的准则和模型学习的算法,简称为模型、策略和算法

假设空间是一个很重要的概念,监督学习是学习一个从输入到输出的映射,该映射由模型来表示,换言之,学习的目的是找到最好的一个模型。模型属于从输入空间到输出空间的映射的集合,而该集合就是假设空间。假设空间的范围大于等于模型的空间。

实现一个统计学习方法的步骤如下:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略,如何衡量一个模型的好坏;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用最优模型对新数据做预测和分析。

二、监督学习的三要素分析

2.1 模型

在监督学习过程中,模型包括概率模型和非概率模型,前者所要学习的是条件概率分布,后者学习的是决策函数。监督学习模型的假设空间包含所有可能的条件概率分布或决策函数,假设空间中的模型一般有无穷多个

总之,由决策函数表示的模型是非概率模型,由条件概率分布表示的模型是概率模型。

2.2 策略

首先引入两个概念,损失函数和风险函数,损失函数(loss function)度量模型一次预测的好坏,风险函数(risk funciton)度量模型平均意义下预测的好坏

风险函数又称为期望损失(expected loss),因为它相当于是平均意义上的损失。

损失函数是度量预测错误的程度,不同的损失函数有不同的特性,统计学习中的损失函数有 0-1 损失函数,平方损失函数,绝对损失函数,对数损失函数等。损失值越小,模型就越好,而学习的目标是找出整体风险(平均损失)最小的模型。

使风险最小有两种策略,这也是监督学习的两个基本策略:经验风险最小化(empirical risk minimization, ERM)和结构风险最小化(structural risk minimization, SRM)。风险最小就是使模型的平均损失最小,一个直观的想法是,随着训练样本数目的增加,经验风险会趋近于期望风险(即理想值),但这是不现实的,且若训练样本数较少,还存在过拟合问题。

经验风险最小化的例子:极大似然估计

因此为了避免在数据量较少时出现过拟合现象,又提出了结构风险最小化,它等价于正则化。结构风险在经验风险的基础上加入表示模型复杂度的正则化项或惩罚项,如加入模型复杂度的惩罚项,模型越复杂,其值越大,从而使结构风险也相应变大。

结构风险最小化的例子:贝叶斯估计

2.3 算法

算法就是指用何种计算方法求解最优模型,本质上就是求解使风险最小的最优化问题。若该最优化问题有显式的解析解,那么比较简单,但通常解析解不存在,则需要数值解法求解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/99014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

端粒/端粒酶生信切入点,6+端粒酶+泛癌+甲基化+实验。

今天给同学们分享一篇端粒酶泛癌甲基化实验的生信文章“Genomic, epigenomic, and transcriptomic signatures for telomerase complex components: a pan‐cancer analysis”,这篇文章于2022年10月31日发表在Mol Oncol期刊上,影响因子为6.6。 激活端粒酶…

拍摄的照片怎么做二维码?一分钟在线生成二维码

​手机拍摄的照片怎么做成二维码呢?用二维码来查看图片的方式现在很多人都在使用,其优点在于不占用自身空间,还可以拥有更快速度让他人查看图片内容,常见的图片二维码类型一般有信息展示、照片展示、商品海报、表情包等等。图片二…

伦敦银最新走势不利怎么办

跟其他的投资品种一样,伦敦银的价格走势在不停的变化,而且由于本身产品具有较高的资金杠杆,所以万一行情走势变得不利,在很短的时间之内就会对投资者的账户造成严重损失,所以投资者应该对此作好充分的准备。 伦敦银的最…

浅谈安科瑞PZ系列多功能仪表在越南水电站的应用

摘要:用户侧用能的透明化、智能化、是当下用能管理的必然趋势。针对用户侧主要的用能节点,设计安装智能仪表,再通过后台系统来实时监控各用能回路的工作状态;并计量各个回路的用电量、用水量、用气量。通过实时监控用能以及相关电…

mysql用户权限

mysql创建用户权限 创建用户 MySQL中的用户帐号由用户名,以及使用字符分隔的主机名组成。 CREATE user user_account IDENTIFIED BY password; 例: create user superlocalhost IDENTIFIED BY 123456; //localhost主机连接到MySQL数据库服务器 create u…

【eigen】解决报错 return type of RCmpEQReturnType Eigen::operator== is not ‘bool’

文章目录 1. 发现问题2. GPT 分析问题3. 解决问题 1. 发现问题 在 c 项目中使用了 C 20 编译标准(GCC10),结果 eigen 中出现报错 /usr/include/eigen3/Eigen/src/Cholesky/LDLT.h:372:58: error: return type of ‘const RCmpEQReturnType …

TypeScript 笔记:String 字符串

1 对象属性 length 返回字符串的长度 2 对象方法 charAt() 返回在指定位置的字符 charCodeAt() 返回在指定的位置的字符的 Unicode 编码 concat 连接两个或更多的字符串 indexOf 返回某个指定的字符串值在字符串中首次出现的位置 lastIndexOf 从后向前搜索字符串&…

计算机网络(四):网络层

参考引用 计算机网络微课堂-湖科大教书匠计算机网络(第7版)-谢希仁 1. 网络层概述 网络层的主要任务是实现网络互连,进而实现数据包在各网络之间的传输 要实现网络层任务,需要解决以下主要问题 网络层向运输层提供怎样的服务 (“…

QQ浏览器怎么才能设置默认搜索引擎为百度

问题: 打开QQ浏览器,搜索相关信息时发现总是默认为”搜狗搜索引擎“,想将其转为”百度搜索引擎“ 解决: 1、点击浏览器右侧”菜单“图标,选择”设置“,如下图所示: 2、在”常规设置“中的”搜…

竞赛选题 深度学习 YOLO 实现车牌识别算法

文章目录 0 前言1 课题介绍2 算法简介2.1网络架构 3 数据准备4 模型训练5 实现效果5.1 图片识别效果5.2视频识别效果 6 部分关键代码7 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 基于yolov5的深度学习车牌识别系统实现 该项目较…

二叉搜索树的基础操作

如果对于二叉搜索树不是太清楚,为什么要使用二叉搜索树?作者推荐:二叉搜索树的初步认识_加瓦不加班的博客-CSDN博客 定义节点 static class BSTNode {int key; // 若希望任意类型作为 key, 则后续可以将其设计为 Comparable 接口Object val…

MySQL 如何使用离线模式维护服务器

离线模式 作为 DBA,最常见的任务之一就是批量处理 MySQL 服务的启停或其他一些活动。在停止 MySQL 服务前,我们可能需要检查是否有活动连接;如果有,我们可能需要把它们全部杀死。通常,我们使用 pt-kill 杀死应用连接或…

3.(vue3.x+vite)class动态绑定的方式

前端技术社区总目录(订阅之前请先查看该博客) 效果浏览 代码如下 <template><div><div :class="{acti

通用监控视频web播放方案

业务场景 对接监控视频&#xff0c;实现海康大华等监控摄像头的实时画面在web端播放 方案一&#xff0c;使用 RTSP2webnode.jsffmpeg 说明&#xff1a;需要node环境&#xff0c;原理就是RTSP2web实时调用ffmpeg解码。使用单独html页面部署到服务器后&#xff0c;在项目中需要播…

python3 调用 另外一个python脚本

3种python调用其他脚本脚本的方法_python 调用python脚本_linjingyg的博客-CSDN博客 Python之系统交互(调用系统命令)subprocess_subprocess.getoutput(cmd) 参数格式不正确-CSDN博客 subprocess.call()只能返回状态码。subprocess.getoutput(cmd)只能输出命令结果。 str(py…

IP 子网划分(VLSM)

目录 一、 为什么要划分子网 二、如何划分子网 1、划分两个子网 2、划分多个子网 一、 为什么要划分子网 假设有一个B类IP地址172.16.0.0&#xff0c;B类IP的默认子网掩码是 255.255.0.0&#xff0c;那么该网段内IP的变化范围为 172.16.0.0 ~ 172.16.255.255&#xff0c;即…

【Java 进阶篇】HTML块级元素详解

HTML&#xff08;Hypertext Markup Language&#xff09;是用于创建网页的标记语言。在HTML中&#xff0c;元素被分为块级元素和内联元素两种主要类型。块级元素通常用于构建网页的结构&#xff0c;而内联元素则嵌套在块级元素内&#xff0c;用于添加文本和其他内容。本文将重点…

C++设计模式-单件(Singleton)

目录 C设计模式-单件&#xff08;Singleton&#xff09; 一、意图 二、适用性 三、结构 四、参与者 五、代码 C设计模式-单件&#xff08;Singleton&#xff09; 一、意图 保证一个类仅有一个实例&#xff0c;并提供一个访问它的全局访问点。 二、适用性 当类只能有一…

【17】c++设计模式——>原型模式

原型模式的定义 c中的原型模式&#xff08;Prototype Pattern&#xff09;是一种创建型设计模式&#xff0c;其目的是通过复制&#xff08;克隆&#xff09;已有对象来创建新的对象&#xff0c;而不需要显示的使用构造函数创建对象&#xff0c;原型模式适用于创建复杂对象时&a…

浅谈内存函数以及模拟实现

1.memcpy void * memcpy ( void * destination, const void * source, size_t num ); 函数memcpy从source的位置开始向后复制num个字节的数据到destination的内存位置。 这个函数在遇到 \0 的时候并不会停下来。 如果source和destination有任何的重叠&#xff0c;复制的结果都…