机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)

文章目录

  • 目录
    • 1.概率与统计
      • 1.1 机器学习与概率统计之间的关系
      • 1.2 重要的统计量
        • 1.2.1 期望
        • 1.2.2 方差
        • 1.2.3 协方差,相关系数
          • 协方差
          • 相关系数
        • 1.2.4 矩
      • 1.3 重要的定理与不等式
      • 1.4 用样本估计参数

目录

1.概率与统计

1.1 机器学习与概率统计之间的关系

1.什么是概率问题和统计问题

  • 概率问题:已知数据的整体分布,然后求取抽样数据的概率。
  • 统计问题:是概率问题的逆过程,即已知抽样数据的概率,求数据的整体分布。

2.监督学习----概率统计

  • 训练过程:统计的过程
  • 预测过程:概率的过程

3.机器学习与概率统计的关系

  • 统计估计的是一个分布,机器学习训练出来的是一个模型,模型可以包含多个分布。
  • 训练和预测的核心评价指标是模型的误差,误差本身可以为概率的形式
  • 对误差的不同定义方式可以转换为对不同损失函数的定义。
  • 机器学习是概率与统计的进阶版本(不严谨的说法)

1.2 重要的统计量

1.2.1 期望

1.离散型:E(x) = ∑ixipi\sum_{i}x_ip_iixipi
2.连续型:E(x) = ∫−+xf(x)dx\int _-^+xf(x)d_x+xf(x)dx
期望可以理解为数据加权下的平均值
3.性质

  • 无条件成立:E(kx) = kE(x) E(x + y) = E(x) + E(y)
  • 如果x,y为相互独立:E(XY) = E(X) E(Y)

独立:P(AB) = P(A)*P(B)
互斥:P(AB) = 0 P(A+B) = P(A) + P(B)

若:E(XY) = E(X)E(Y)只能说明X和Y不相关。

1.2.2 方差

1.定义:
var(x) = E(x−E(x))2=E(x2)−E2(x)E{(x - E(x))^2}=E(x^2)-E^2(x)E(xE(x))2=E(x2)E2(x)

2.性质

  • 无条件成立:
    • var(c)=0var(c) = 0var(c)=0
    • var(x+c)=var(c)var(x+c) = var(c)var(x+c)=var(c)
    • var(kx)=k2var(x)var(kx) = k^2var(x)var(kx)=k2var(x)
  • 当x和y相互独立的时候:
    var(x+y)=var(x)+var(y)var(x+y) = var(x) + var(y)var(x+y)=var(x)+var(y)

方差的平方根称为标准差

方差可以理解为整体数据偏移平均值的一个程度。

1.2.3 协方差,相关系数

协方差

1.定义:
cov(x,y) = E{[x-E(x)]*[y-E(y)]}

从定义可以看出,协方差是从方差定义扩张而来的,方差只针对的单变量,而协方差则考量的是2个变量之间的关系。

x和y如果是离散的变量,则x和y的维度必须相等。

2.性质

  • 无条件成立:
    • cov(x,y)=cov(y,x)对称性cov(x,y) = cov(y,x) 对称性cov(x,y)=cov(y,x)
    • cov(ax+b,cy+d)=accov(x,y)cov(ax+b , cy+d) = accov(x,y)cov(ax+b,cy+d)=accov(x,y)
    • cov(x1+x2,y)=cov(x1,y)+cov(x2,y)cov(x_1+x_2,y) = cov(x_1,y) + cov(x_2,y)cov(x1+x2,y)=cov(x1,y)+cov(x2,y)
    • cov(x,y)=E(xy)−E(x)∗E(y)cov(x,y) = E(xy) - E(x)*E(y)cov(x,y)=E(xy)E(x)E(y)
  • 当x,y相互独立的时候:cov(x,y)=0

cov(x,y)=0 只能得出变量x,y是不相关,无法得出独立的结论

3.意义:
协方差可以度量两个变量具在相同方向上的变化趋势。

  • 如果cov(x,y) > 0: x,y的变化趋势相同
  • 如果cov(x,y) < 0: x,y的变化趋势相反
  • 如果cov(x,y) > 0: x,y不相关

可以使用协方差来衡量特征和特征,特征和标签之间的相关性,即可以基于协方差来进行特征的筛选。
协方差只能用于衡量2个变量之间的相关性,衡量多个变量之间的相关性需要协方差矩阵。

4.协方差的上界
如果:var(x)=θ12var(x) = \theta_1^2var(x)=θ12 var(y)=θ22var(y) = \theta_2^2var(y)=θ22 则:|cov(x,y) ≤θ1∗θ2\le\theta_1*\theta_2θ1θ2|

5.协方差矩阵:
对于n个随机变量{x1,x2,....,xnx_1,x_2,....,x_nx1,x2,....,xn},任意两个元素xi,xjx_i , x_jxi,xj都可以得到一个协方差,从而形成一个n*n的矩阵,其中协方差矩阵是对称阵。

相关系数

1.peason相关系数

  • 定义:Px,y=cov(x,y)/(var(x)∗var(y))P_{x,y}=cov(x,y)/\sqrt(var(x)*var(y))Px,y=cov(x,y)/(var(x)var(y))
  • 性质:
    • 由协方差的上界可知:|P|$\le$1
    • 当且仅当x,y线性相关时,等号成立
    • 相关系数是标准尺度下的协方差。上面关于协方差的性质也适用于相关系数。
    • 相关系数取值在(0,1)之间,越接近1则说明两变量的相关性越大,越接近0则说明相关性越低。(线性相关)。

2.相关系数矩阵(可画出热图)
对多个变量两两之间求取相关系数,并组成矩阵,则为相关系数矩阵

  • 相关系数矩阵可以发现特征之间的相关性
  • 协方差矩阵归一化后便可以得到相关系数矩阵
  • 实际中使用较多的是相关系数矩阵而非协方差矩阵,因为协方差矩阵取值范围较大,表现不明显
  • 使用相关系数矩阵的目的是为了进行特征的选择。
  • 负相关也是相关。当两个特征向量之间的相关系数为1,则可以去除其中的某一个。

3.独立和不相关

  • 一般指的不相关指的是线性独立
  • 如果x,y不相关,则x,y没有线性关系,但是可以有其他函数关系。

1.2.4 矩

1.定义:对于随机变量X,X的K阶原点矩为:E(XK)E(X^K)E(XK)
X的K阶中心矩为:E[X−E(X)]KE[X-E(X)]^KE[XE(X)]K
从上面给出的矩的定义,我们可以看出期望是一阶原点矩 , 方差是二阶中心距

  • 变异系数:标准差和均值的比值为变异系数
  • 偏度(skewness):三阶矩
  • 峰度(kurtosis):四阶矩

1.3 重要的定理与不等式

1.jenson不等式(函数f凸函数)

  • 基本jenson不等式定义:
    f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)f(\theta x + (1-\theta)y)\le\theta f(x) + (1-\theta)f(y)f(θx+(1θ)y)θf(x)+(1θ)f(y)

2.如果:θ1,θ2,...,θk≥0\theta _1,\theta_2,...,\theta_k \ge0θ1,θ2,...,θk0θ1+θ2+...+θk=1\theta_1+\theta_2+...+\theta_k=1θ1+θ2+...+θk=1 则:f(θ1x1+...+θkxk)≤θ1f(x1)+...+θkf(xk)f(\theta_1x_1 + ...+\theta_kx_k) \le\theta_1f(x_1)+...+\theta_kf(x_k)f(θ1x1+...+θkxk)θ1f(x1)+...+θkf(xk)

2.切比雪夫不等式

度量两个变量之间的距离方法有很多,但是要满足一些条件。同时,也可以度量两个分布之间的距离,即度量两个分布之间的相关性,这个对于机器学习是非常有用的,常常可以作为损失函数。

  • 定义:设随机变量X的期望为u ,方差为θ2\theta^2θ2,对于任意的正数ξ\xiξ,有:P(∣X−u∣≤ξ)≤θ2/ξ2P(|X-u|\le\xi)\le\theta^2/\xi^2P(Xuξ)θ2/ξ2
  • 意义:切比雪夫不等式说明,X的方差越小,事件(∣X−u∣≤ξ)(|X-u|\le\xi)(Xuξ)的发生概率越大。
  • 该不等式证明了方差的意义。
  • 该不等式可以证明大数定理。

3.大数定理

  • 定义:设随机变量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn相互独立,并且具有相同的期望u和方差θ2\theta^2θ2,取前K个随机变量,且该K个随机变量的期望为Yn=1/k∑i=1kxiY_n = 1/k\sum_{i=1}^kx_iYn=1/ki=1kxi,则有:limn−&gt;∝p(∣Yn−u∣&lt;ξ)=1lim_{n-&gt;\propto}p(|Y_n - u| &lt; \xi)=1limn>p(Ynu<ξ)=1
  • 意义:当样本的数目足够大时,样本的期望逼近于整体的期望,这是统计方法的基石。
    4.中心极限定理
  • 定义:设随机变量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn相互独立,且服从同一分布,具有相同的期望u和方差θ2\theta^2θ2,则有:Yn=∑i=1n(xi−n∗u)/((n)∗θ)Y_n=\sum_{i=1}^n(x_i-n*u)/(\sqrt(n)*\theta)Yn=i=1n(xinu)/((n)θ)
  • 意义:实际问题中,很多随机变量现象可以看成很多独立影响的综合反应,且这些独立因素服从正太分布。

1.4 用样本估计参数

1.矩估计

  • 基本思想:首先假设整体的满足某个分布,其中给分布中有n个未知的参数。然后,由样本求出n对中心距和原点矩,接着由假设的分布公式求出这n对中心距和原点矩,通过等式关系,解出这n个参数,得出整体的分布。

该方法的计算量比较大,在实践过程中用的比较少。常用于两个分布相关性的比较。

2.最大似然估计

  • 贝叶斯公式:P(D/A)=(P(A/D)∗P(A))/P(D)P(D/A) = (P(A/D)*P(A))/P(D)P(D/A)=(P(A/D)P(A))/P(D)
  • 物理意义:公式中D为样本数据,A为模型参数或者随机事件。则P(D/A)P(D/A)P(D/A)表示A在数据D上的后验概率,P(A/D)为A在数据D上的条件概率,P(A)为A的先验概率
  • 发生过的概率就是最大的
  • 设问题A中的模型有3个:m1,m2,m3m_1,m_2,m_3m1,m2,m3,抽取的样本数为K:x1,x2,...,xkx_1,x_2,...,x_kx1,x2,...,xk,设3个模型的分布为:f(m1),f(m2),f(m3)f(m_1),f(m_2),f(m_3)f(m1),f(m2),f(m3),则已将抽取样本的概率为P=∑i=1kfi(m1)∗fi(m2)∗fi(m3)P=\sum_{i=1}^kf_i(m_1)*f_i(m_2)*f_i(m_3)P=i=1kfi(m1)fi(m2)fi(m3),然后求概率P最大时对应的参数既可以求出整体的分布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445380.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis——事件

redis服务器是一个事件驱动程序。 需要处理两类事件&#xff1a; 1&#xff09;文件事件&#xff1a;redis是通过套接字与客户端或者其他服务器连接的&#xff0c;而文件事件就是服务器对套接字操作的抽象。 2&#xff09;时间事件&#xff1a;服务器对一些定时操作的抽象。…

自然语言处理(1)-概述

自然语言处理-概述概述1.基本概念2.人类语言技术HLT发展简史3.HLT 研究内容4.基本问题和主要困难5.基本研究方法概述 本系列文章计划总结整理中国科学院大学宗成庆老师《自然语言处理》课程相关知识&#xff0c;参考数目《统计自然语言处理》-第二版&#xff0c;宗成庆。 1.基…

redis——客户端

redis服务器是典型的一对多服务器&#xff0c;通过使用由IO多路复用技术实现的文件事件处理器&#xff0c;redis服务器使用了单线程单进程的方式来处理请求。 客户端的属性 描述符 客户端状态的 fd 属性记录了客户端正在使用的套接字描述符&#xff1a; typedef struct red…

矩阵论-线性空间的基与坐标,基变换坐标变换

线性空间与线性变换综述1.1 线性空间1.1.3 线性空间的基与坐标1.1.4 基变换与坐标变换综述 本系列博文主要总结学习矩阵论的心得笔记&#xff0c;参考数目《矩阵论》–张凯院&#xff1b;整个文章的整理体系参照行书过程。 1.1 线性空间 1.1.3 线性空间的基与坐标 向量的坐…

大数据学习(2-1)-Hadoop安装教程-单机模式和伪分布模式(Ubuntu14.04LTS)

文章目录目录1.linxu的安装1.1安装Linux虚拟机1.2安装Linux和Windows双系统2.Hadoop的安装2.1 Hadoop安装前配置2.1.1 配置Hadoop用户2.1.2 安装 ssh , 配置ssh免密登录2.1.3 安装java环境2.2 Hadoop的安装3.Hadoop单机版配置4.Hadoop伪分布版配置目录 1.linxu的安装 1.1安装…

mysql——JDBC

概述 JDBC&#xff1a;java Data Base Connectivity ,java数据库连接&#xff0c;它是一种用于执行sql语句的java API&#xff0c;为多种关系数据库提供统一访问。 其实就是一组用java编写的类和接口。 JDBC API 提供两类主要接口&#xff1a; 1&#xff09;面向开发人员的…

数组精选题目三连(6)

题目一&#xff1a;调整有序的arr数组&#xff0c;使得左半部分有序且不重复&#xff0c;不用保证右边是否有序。 思路&#xff1a; u : 左边的最后位置&#xff0c;即0---u为答案 i : 从u到右遍历 当arr[i]和arr[u]不相等时&#…

大数据学习(2-2)- 使用docker安装配置Hadoop环境

我的思路是这样&#xff1a;安装ubuntu系统---->下载docker---->在docker里拉取hadoop镜像---->在此镜像里创建三个容器(Master、Slave1、Slave2)---->完成完全分布式 1. 安装ubuntu系统(无论你是安装的单系统&#xff0c;还是用虚拟机安装了ubuntu) 如果想安装单…

自然语言处理(2)-信息论基础

自然语言处理-数学基础概述1.信息论基础1.1熵1.2 联合熵和条件熵1.3 相对熵和交叉熵1.4 互信息和双字耦合度1.5 噪声信道模型概述 本系列文章计划总结整理中国科学院大学宗成庆老师《自然语言处理》课程相关知识&#xff0c;参考数目《统计自然语言处理》-第二版&#xff0c;宗…

servlet基础总结

什么是servlet Servlet&#xff08;Server Applet&#xff09;是Java Servlet的简称&#xff0c;是小服务程序或服务连接器&#xff0c;是用Java编写的服务器端程序&#xff0c;主要功能在于交互式地浏览和修改数据&#xff0c;生成动态Web内容. 狭义的Servlet是指Java语言实…

大数据学习(3)- 分布式文件系统HDFS

文章目录目录1.分布式文件系统1.1 计算机集群概念1.2 分布式文件系统结构2.HDFS简介2.1 HDFS设计的目标2.2HDFS的局限性2.3 块的概念2.4 HDFS主要组件及其功能2.4.1 名称节点2.4.2 第二名称节点2.4.3 数据节点3.HDFS体系结构3.1 HDFS体系结构介绍3.2 HDFS体系结构的局限性4.HDF…

Python 图片转简单字符画

字符画是一系列字符的组合&#xff0c;我们可以把字符看作是比较大块的像素&#xff0c;一个字符能表现一种颜色&#xff08;暂且这么理解吧&#xff09;&#xff0c;字符的种类越多&#xff0c;可以表现的颜色也越多&#xff0c;图片也会更有层次感。 灰度值&#xff1a;指黑…

大数据学习(4)--分布式数据库HBase

文章目录目录1.HBase概述1.1BigTable1.2 HBase简介1.3 HBase和传统的关系型数据库之间的区别2.HBase访问接口3.HBase数据模型3.1 数据模型概述3.2 数据模型相关概念3.3 数据坐标3.4 概念视图3.5 物理视图3.6 面向列的存储4.HBase的实现原理4.1 HBase功能组件4.2 表和region4.3 …

servlet中的数据存储

在servlet基础中&#xff0c;我们&#xff1a; 用以下几种方式实现数据存储和共享&#xff1a; 1&#xff09;在客户端页面和服务器端程序之间&#xff0c;用request中的getParameter()方法共享数据 2&#xff09;在请求和请求之间&#xff0c;可以用get/setAttribute方法来共…

Linux(2)-tar,find,grep,xargs

常用命令1. 打包压缩/解包解压缩 tar1.1 打包 tar -czvf xxx.tar.gz xxx1.2 解压 tar -xzvf xxx.tar.gz2.文件/目录搜索2.1 find文件/目录查找2.2 grep文本匹配3. 复合命令3.1 > 重定向3.2 | 管道.shutdown1. 打包压缩/解包解压缩 tar tar和gzip是对黄金搭档&#xff1a;ta…

Event Recommendation Engine Challenge(基础版)---代码

第一步&#xff1a;统计user和event相关信息 #查看train_csv的数据 import pandas as pd df_train pd.read_csv(train.csv) df_train.head()usereventinvitedtimestampinterestednot_interested03044012191877122502012-10-02 15:53:05.75400000:000013044012150228424802012…

servlet——三兄弟的另外两个:过滤器/监听器

过滤器 我们写多了servlet会发现&#xff0c;很多代码和功能是重复的&#xff0c;比如&#xff1a;解决中文乱码问题、权限验证、日志的记录等&#xff0c;他们的特点是&#xff1a;代码相同或相似、分散在不同位置、不利于维护。 过滤器就是他们的解决办法。 过滤器是请求到…