机器学习·概率论基础

概率论

概率基础

这部分太简单,直接略过

条件概率

独立性

独立事件A和B的交集如下

在这里插入图片描述

非独立事件

非独立事件A和B的交集如下

在这里插入图片描述

贝叶斯定理

先验 事件 后验

在概率论和统计学中,先验概率和后验概率是贝叶斯统计的核心概念
简单来说后验概率就是结合了先验概率的前提和新事件的信息

在这里插入图片描述

自然贝叶斯

自然贝叶斯就是在有多个先验的前提下,假设它们相互独立,利用公式算出来的近似概率

在这里插入图片描述

贝叶斯与机器学习

  • 条件概率生成像素
    在这里插入图片描述

  • 条件概率识别图像
    在这里插入图片描述

概率分布

随机变量

随机变量分为离散型随机变量和连续型随机变量

区别如下

在这里插入图片描述

两个分布函数

  • 概率质量函数

在这里插入图片描述

概率分布

  • 离散型概率分布和连续型概率分布

纵坐标都是概率密度函数,面积才是概率,且总面积为1

概率密度函数在一个范围[a,b]为定值

在这里插入图片描述

  • 正态分布

理解模板函数
μ和σ的几何意义
一旁的函数是面积

在这里插入图片描述

箱型图

箱线图也称箱须图、箱形图、盒图,用于反映数据的离散程度,倾斜程度
主要由Q1,Q2,Q3百分位数组成,
在这里插入图片描述

QQ图

定义

分位数-分位数图是通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法
横坐标是理论正态概率分布的百分数,纵坐标是数据概率分布的百分数
在这里插入图片描述

具体定义如下
在这里插入图片描述

统计意义

  • 比较数据是否符合正态分布
  • 越接近直线越可能是正态分布

边缘分布

将高维度密度分布降低至低纬度密度分布

离散型随机变量

*唯一公式

在这里插入图片描述

体现在联合分布的散点图上
在这里插入图片描述

连续性随机变量

本质是散点图+概率密度绘制成三维图像上的一个横截面,公式与离散型完全一致

在这里插入图片描述

条件分布

两个随机变量的条件分布

公式:本质上是条件概率

  • 离散型随机变量
    在这里插入图片描述
    在这里插入图片描述
  • 连续型随机变量

在这里插入图片描述

几何意义:横截面只是上式的分母

在这里插入图片描述

协方差

公式

对于数据集来收,概率分布为恒定值;对于随机变量来说,公式要变成加权的形式
在这里插入图片描述
在这里插入图片描述

统计意义

协方差为正或负说明数据集之间有正相关或负相关的关系,接近0说明数据集几乎没有关系

协方差矩阵

对角线上都是变量的方差,其他都是两个变量之间的协方差

在这里插入图片描述

相关系数

就是把协方差标准化的结果

在这里插入图片描述




数理统计

总体和样本的统计属性

样本的方差

这种结果更接近总体真实的方差

在这里插入图片描述

大数定理

大数定律揭示了随着样本量 𝑛 的增加,样本均值将越来越接近总体的期望值

中心极限定理

中心极限定理(Central Limit Theorem,CLT)是概率论和统计学中的一个重要定理,它描述了在一定条件下,独立同分布随机变量的和(或均值)趋近于正态分布的性质。具体来说,中心极限定理表明,当样本量足够大时,任何分布的独立同分布随机变量的均值的分布都将接近于正态分布,不论这些变量的原始分布是什么。

直接应用

  • 利用样本的均值计算总体估计总体的均值,因为中心极限定理告诉我们当n->∞+,二者的均值是一致的
    也可以用来估计方差随着样本的变化趋势

在这里插入图片描述

  • 中心极限定理表明,当 n 足够大时,均值的标准化形式将收敛于标准正态分布
    可以用于假设检验等这些要求正态分布的情况

在这里插入图片描述

点估计-最大似然估计MLE

最大似然估计(Maximum Likelihood Estimation,MLE)是一种用于估计统计模型参数的方法。最大似然估计通过找到使得观测数据出现的概率最大的参数值,来估计模型参数。
说人话就是已知某个数据集,想要计算某个模型的参数,只需要令各个数据在这个模型(概率密度/分布函数)中的概率乘积(等价于出现可能性)最大,就可以通过求导找出零点解出参数值

伯努利估计

  • 随机变量只有两个取值
    取对数求极值
    最终大概率:实际出现值的平均值

在这里插入图片描述
在这里插入图片描述

高斯函数估计

基本同理:也是最大化点在正态分布曲线上的概率

在这里插入图片描述

线性回归

你的模型就是一条直线,现在讨论的时让数据集尽可能接近你的直线,利用垂直的高斯函数,最大化概率计算直线的参数

在这里插入图片描述

  • 假设都是用的标准高斯函数进行概率模拟
    等价于最小化这些平方误差

在这里插入图片描述

正则化

正则化(Regularization)是一种用于防止机器学习模型过拟合的技术。过拟合是指模型在训练数据上表现良好,但在新数据(测试集)上表现不佳,即模型过于复杂,以至于捕捉了训练数据中的噪音和细节,无法很好地推广到新的数据。正则化通过在损失函数中增加一个惩罚项,限制模型的复杂度,从而提高模型的泛化能力。

常见正则化方法:L2-正则化

多项式拟合中,多项式系数的平方之和组成惩罚项

在这里插入图片描述

正则项

L2-正则化误差乘以正则化参数

在这里插入图片描述

贝叶斯统计

贝叶斯公式:信念,先验和后验

贝叶斯统计将概率解释为对不确定事件的主观信念或信念程度。它通过更新这种信念来进行统计推断。

  • 贝叶斯公式的进一步解释
    在这里插入图片描述
  • 离散和连续分布的贝叶斯公式
    在这里插入图片描述

最大化后验概率 MAP

其实就是更新后的后验概率分布中取一个最大值,最大化你的信念

在这里插入图片描述

贝叶斯统计的特点

先验很大程度上影响着后验
没有任何信息的先验,均匀分布的PDF函数的最大后验就是MLE
如果有充分数据,MLE和MAP估计是一样的

在这里插入图片描述

三者的关系

模型的总损失=模型本身的损失·MLE估计的损失+正则化损失

模型损失

多项式模型的系数分布在正太分布曲线上之积最小化

在这里插入图片描述

条件概率:MLE估计

就是模型生成的点与目标函数的差在正态分布曲线上的概率最大值

在这里插入图片描述

正则化

在这里插入图片描述

置信区间

显著性水平α

样本落在置信区间外的概率

z-score

Z-score是一种标准化的数据度量仅仅适用于正态分布中
Z-score表示一个数据点距离其所在数据集均值的标准差倍数
Z 分数用于衡量一个观测值在其分布中的相对位置,能够帮助识别数据点的异常程度以及进行不同数据集之间的比较。

计算公式

在这里插入图片描述

  • Z分数与显著性水平的关系

z相关于显著性水平α的的值通过查表获得

在这里插入图片描述

在这里插入图片描述

置信区间的计算公式

怎么来的:将均值标准化后根据置信水平确定Z值,然后还原为随机变量X-bar即可
在标准差准确的情况下,均值的分布一定是正态分布,根据中心极限定理

在这里插入图片描述

  • 边际误差的计算
    在这里插入图片描述

t分布-当标准差未知的情况

当使用样本的标准差时,均值的分布不是一个正态分布,而是一个t分布
t分布有一个自由度=样本数N-1,自由度越大,均值分布越接近于正态分布

在这里插入图片描述

概率的置信区间计算

P-hat是抽样的概率,概率的置信区间与样本均值的置信区间计算公式一致,都是±边际误差

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/49051.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何将mp4格式的视频压缩更小 mp4格式视频怎么压缩最小 工具软件分享

在数字化时代,视频内容成为信息传播的重要载体。然而,高清晰度的视频往往意味着较大的文件体积,这给存储和分享带来了一定的困扰。MP4格式作为目前最流行的视频格式之一,其压缩方法尤为重要。下面,我将为大家详细介绍如…

浏览器渲染揭秘:从加载到显示的全过程;浏览器工作原理与详细流程

目录 浏览器工作原理与流程 一、渲染开始时间点 二、渲染主线程的渲染流程 2.1、渲染流程总览 2.2、渲染具体步骤 ①解析html-Parse HTML ②样式计算-Recalculate Style ③布局-Layout ④分层-Layer 相关拓展 ⑤绘制-Paint ⑥分块-Tiling ⑦光栅化-Raster ⑧画-D…

Python爬虫 instagram API获取instagram帖子数据信息

这个instagram接口可以通过url链接直接获取相关帖子信息。如有需求,可点击文末链接联系我们。 详细采集页面 https://www.instagram.com/p/CqIbCzYMi5C/ 请求参数 返回示例 { "__typename": "GraphSidecar", "accessibility_caption&qu…

Python和MATLAB网络尺度结构和幂律度大型图生成式模型算法

🎯要点 🎯算法随机图模型数学概率 | 🎯图预期度序列数学定义 | 🎯生成具有任意指数的大型幂律网络,数学计算幂律指数和平均度 | 🎯随机图分析中巨型连接分量数学理论和推论 | 🎯生成式多层网络…

购物车案例(源码分享)

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 非常期待和您一起在这个小…

排序算法与复杂度介绍

1. 排序算法 1.1 排序算法介绍 排序也成排序算法(Sort Algorithm),排序是将一组数据,依照指定的顺序进行排序的过程 1.2 排序的分类 1、内部排序: 指将需要处理的所有数据都加载到**内部存储器(内存&am…

android13禁用某个usb设备

总纲 android13 rom 开发总纲说明 目录 1.前言 2.触摸设备查看 3.功能修改 3.1 禁用usb触摸 3.2 禁用usb键盘 3.3 禁用usb遥感 4.查看生效与否 5.彩蛋 1.前言 用户想要禁止使用某些usb设备,需要系统不能使用相关的usb设备,例如usb触摸屏,usb键盘,usb遥感等等usb…

Python零基础快速入门!

“人生苦短,我学python”是编程届的名言。用python写小脚本的便捷性,让很多其他语言的学习者把python当作辅助语言。拥有了某一个语言的功底,再来学习另外一种语言应该是十分快速的。编程理念都十分相似,只是看看语言的差异性。带…

Python函数的介绍;变量的作用域;递归函数

一、函数的创建和调用 1.1、什么是函数 函数就是执行特定任和以完成特定功能的一段代码 1.2、为什么需要函数 复用代码 隐藏实现细节 提高可维护性 提高可读性便于调试 1.3、函数的创建 def 函数名(输入函数)函数体(return XXX) 1.4、函数的调用 函数名 (实际参数) 二、…

当当网数据采集:Scrapy框架的异步处理能力

在互联网数据采集领域,Scrapy框架以其强大的异步处理能力而著称。Scrapy利用了Python的异步网络请求库,如twisted,来实现高效的并发数据采集。本文将深入探讨Scrapy框架的异步处理能力,并展示如何在当当网数据采集项目中应用这一能…

用Java手写jvm之实现java -version的效果

写在前面 源码 。 本文来用纯纯的Java代码来实现java -version的效果,就像下面这样: 1:程序 这里输出类似这样的: java version "9" Java(TM) SE Runtime Environment (build 9181) Java HotSpot(TM) 64-Bit Serve…

[保姆级教程]uniapp安装使用uViewUI教程

文章目录 创建 UniApp 项目下载uView UI下载安装方式步骤 1: 安装 uView UI步骤 2: 查看uView UI是否下载成功步骤 3: 引入 uView 主 JS 库步骤 4: 引入 uView 的全局 SCSS 主题文件步骤 5: 引入 uView 基础样式步骤 6: 配置 easycom 组件模式注意事项 NPM方式步骤 1: 安装 uVi…

websocket状态机

websocket突破了HTTP协议单向性的缺陷,基于HTTP协议构建了双向通信的通道,使服务端可以主动推送数据到前端,解决了前端不断轮询后台才能获取后端数据的问题,所以在小程序和H5应用中被广泛使用。本文主要集合报文分析对于websocket…

MATLAB绘制正弦波、余弦波、方波、三角波

一、引言 MATLAB是一种具有很强的数值计算和数据可视化软件,提供了许多内置函数来简化数学运算和图形的快速生成。在MATLAB中,你可以使用多种方法来快速绘制正弦波、方波和三角波。以下是一些基本的示例,展示了如何使用MATLAB的命令来实现正弦…

基于dcm4chee搭建的PACS系统讲解(一)docker搭建精简版

文章目录 知识点PACSdcm4chedcm4chee部署dcm4chee方式 docker部署docker编排 总结 最近项目开始需要用到PACS系统,于是研究了一番,选用了dcm4chee搭建PACS系统,抛出 dcm-arc-light的git地址 。 知识点 PACS Picture Archiving and Communic…

【详细的springboot自动装载原理】

1.默认提供的核心配置模块 springboot提供了 spring-boot-autoconfigure模块,该模块为springboot自动配置的核心模块,它初始化好了很多我们平时需要的配置类,那么有了这些配置类就能生效了吗?得需要一个东西在启动的时候去把它加…

uniapp 小程序 嵌套 webview 返回需要点击两次

uniapp 小程序 嵌套 webview 返回需要点击两次 先 上图 小程序也监听不到 返回事件在网上找了一圈 都没有理想的答案&#xff0c;猜测 是因为嵌入的页面中有问题果然 小程序中嵌入的代码 <view><web-view :src"urlSrc" ></web-view></view>…

jdk1.8 List集合Stream流式处理

jdk1.8 List集合Stream流式处理 一、介绍(为什么需要流Stream&#xff0c;能解决什么问题&#xff1f;)1.1 什么是 Stream&#xff1f;1.2 常见的创建Stream方法1.3 常见的中间操作1.4 常见的终端操作 二、创建流Stream2.1 Collection的.stream()方法2.2 数组创建流2.3 静态工厂…

理解进程status的二进制位表示及进程等待(是什么,为什么,怎么办)

信号编号&#xff1a;低7位 状态编号&#xff1a;次低8位 1.子进程退出后会变为僵尸进程&#xff0c;将退出结果写入自身的task_struct结构体中 2.wait/waitpid是一个系统调用->OS可以读取子进程的task_struct 1.为什么要进行进程等待&#xff1f; 1.将子进程&#xff…

C语言 | Leetcode C语言题解之第241题为运算表达式设计优先级

题目&#xff1a; 题解&#xff1a; #define ADDITION -1 #define SUBTRACTION -2 #define MULTIPLICATION -3int* diffWaysToCompute(char * expression, int* returnSize) {int len strlen(expression);int *ops (int *)malloc(sizeof(int) * len);int opsSize 0;for (in…