【小白学机器学习6】真实值,观测值,拟合值,以及数据的误差的评价:集中趋势,离散度,形状等

目录

1 世界上有哪几种值?只有3种值

1.1 真值/真实值/理想值/主观值(形而上学世界里)

1.2 实际值/现实值/观测值/样本值(看到的/记录下来的)

1.3 拟合值/预测值(算出来的)

2  对数据的各种描述

2.1 维度1:总体和相对指标

2.2 数据分析的角度描述数据

2.2.1 为什么有这个角度?

2.2.2 具体是3个: 数据的集中趋势,数据的离散趋势,数据的形状

2.2.3 分散程度/ 离散程度

2.2.4 离散程度,集中趋势:相对的一对指标

3 数据的集中程度

3.1 数据的集中程度的定义

3.2 数据的集中程度的多种指标

3.3 中位数

3.4 众数

3.5 分位数

3.6 百分位数

4 数据的离散程度

4.1 数据的离散程度

4.2 数据的离散程度的多种指标

4.3 极差(Range)

4.4 平均差  

4.4.1 平均差

4.4.2 平均差必须用abs()

5 用来衡量形态的:变异指标

5.1  变异系数

5.2 偏态与峰度测度

5.3 偏态系数

5.4 峰态系数

6 数据标准化


1 世界上有哪几种值?只有3种值

世界上的值,从这个逻辑上,严格的被划分为了这3类:大脑里想象相信的,可以看到+记下来的,自己算的,

  • 大脑里想象相信的:真实值
  • 可以看到+记下来的:实际值/观测值
  • 自己算的:拟合值/预测值

1.1 真值/真实值/理想值/主观值(形而上学世界里)

  • 比如丢硬币的任意一边的概率=0.5,这个就是真实值
  • 真实,语言意义所指的层面是,理想世界,数学理想世界的那个真实。
  • 也是个理想值,主观的
  • 整个主观是指不存在现实里,只存在形而上学层次的值。

1.2 实际值/现实值/观测值/样本值(看到的/记录下来的)

  • 因为是观察到真实世界里发生了的,从而记录下来的
  • 这个才是客观的
  • 注意:客观的不是真实的(这个要有一定哲学形而上学的思维)
  • 这个客观是指,现实中记录的数。
  • 特殊情况:有些观测值具有直观的唯一确定性。此时观测值=真实值
    • 比如概率之和,怎么测都一定符合100%?
    • 虽然这些情况下,观测值==真实值,但是概念上仍然独立分开,可以认为是刚好相等。

1.3 拟合值/预测值(算出来的)

  • 用模型去拟合现有的观测值/样本值,目的是为了产生一些现实中没有的预测值(如时间序列未来的预测值)。
  • 但是同时,因为模型拟合很难100%贴合观察数据,对于之前的观测值/样本值,也产生了对应的拟合值。
  • 这个也是客观存在得,算出来的值。
  • 模型Function(观察值)→ 拟合值+预测值

2  对数据的各种描述

  • 对数据可以进行描述,也需要描述
  • 一个系列的数据,描述存在多种不同的维度
    • 比如从总体还是部分的区别来描述
    • 从相对和绝对的角度
    • 从数据分析的角度

2.1 维度1:总体和相对指标

  • 总量指标, sum,比如总利润等等
  • 相对指标, ratio percent,比如同比环比等等

2.2 数据分析的角度描述数据

2.2.1 为什么有这个角度?

       假如我们有多组数据,每组数据各有差别,因为我们要描述数据,就必须把下面的这些问题搞清楚:

  • 比如
  • 有的数据很集中,有的数据很分散
  • 有的数据很符合观察数据,有的偏离非常园
  • 有的数据呈现圆形,有的呈现正态分布,有的是直线型。。。。

2.2.2 具体是3个: 数据的集中趋势,数据的离散趋势,数据的形状

  • 描述数据分布的集中趋势:反映数据向其中心靠拢或聚集程度
  • 描述数据分布的离散程度:反映数据远离中心的趋势或程度
  • 描述数据分布的形状变化:反应数据分布的形状特征

2.2.3 分散程度/ 离散程度

  • 分散程度,离散程度,虽然好像在非数学领域有时候有区分, 据我了解好像没看到数学领域区别,暂时认为是一个东西了。
  • 比如经济学领域
  • 离散程度:variance/ standard deviation数据之间本身的分散程度大,波动大,不够集中聚拢。
  • 分散程度:diversification分散化风险的意思

2.2.4 离散程度,集中趋势:相对的一对指标

  • 我认为是相对的一对指标,但略有差别,不能互相替代。
  • 数据资料的频数分布有集中趋势和离散趋势两个主要特征。
  • 仅仅用集中趋势来描述数据的分布特征是不够的,只有把两者结合起来
  • 举例:我们经常会碰到平均数相同的两组数据其离散程度不同。

3 数据的集中程度

3.1 数据的集中程度的定义

  • 集中趋势(central tendency):集中趋势反映了一组数据的中心点位置所在及该组数据向中心靠拢或聚集的程度。(描述数据中心)
  • 适合查看符合正态分布等数据。
  • 如果数据本身比较偏,看集中趋势意义大吗?

3.2 数据的集中程度的多种指标

  • 在统计学中,集中趋势或中央趋势,在口语上也经常被称为平均,
  • 表示一个机率分布的中间值。
  • 最常见的几种集中趋势包括算数平均数、中位数及众数
    • 平均值,
    • 代数平均值
    • 几何平均值
    • 加权平均值,如期望就是一种以概率为权重的加权平均数
    • 调和平均数

3.3 中位数

  • 中位数:数据序列序号中间的那个数

3.4 众数

  • 众数:   出现次数最多的数

3.5 分位数

  • 分位数(百分位数):经常画箱图
  • 2分位数,50%左右,其实就是中位数
  • 四分位数,下四分位数25%
  • 十分位数:1/10

3.6 百分位数

  • 百分位数,尤其是,正态分布的,68%,95%,99% 等3 个区间
  • 正态分布的3σ原则为:
    • 数值分布在(μ-σ,μ+σ)中的概率为0.6827;
    • 数值分布在(μ-2σ,μ+2σ)中的概率为0.9545;
    • 数值分布在(μ-3σ,μ+3σ)中的概率为0.9973

4 数据的离散程度

4.1 数据的离散程度

所谓离散程度(Measures of Dispersion),即观测变量各个取值之间的差异程度。它是用以衡量风险大小的指标

  • 离散程度反映了各个数据属性值远离其中心值的程度,是数据分布的另一个重要特征。
  • 数据的离散程度越大,则集中趋势的测度值对该组数据的代表性就越差,反之亦然。
  • 反映各变量值远离其中心值的程度,是数据分布的另一个重要特征
  • 从另一个侧面说明 集中趋势测度值的代表程度  (数据距离集中区域分散程度)
  • 离散程度越大,均值代表的东西就越少。
  • 离散趋势适用情况:均数相差不大,单位相同的资料。

4.2 数据的离散程度的多种指标

  • 极差
  • 方差
  • 标准差
  • 四分位数间距。

4.3 极差(Range)

  • 极差又称全距, 常规理解:数据宽度?跨度?
  • 是观测变量的最大取值与最小取值之间的离差,也就是观测变量的最大观测值与最小观测值之间的区间跨度.极差的计算公式为:   
  • R= Max(Xi) - Min(Xi)
  • 容易受极端值的影响
  • 极差是用来衡量数据的最大值与最小值之间的差异程度。
  • 极差简单易懂,但只考虑了数据的两个极端值,不能完全反映数据集的分散情况。

4.4 平均差  

4.4.1 平均差

  • 平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数.
  • 它综合反映了总体各单位标志值的变动程度.
  • 平均差越大,则表示标志变动度越大,反之则表示标志变动度越小
  • 其实就是, 平均差=Σ|Xi-X均值|/n

4.4.2 平均差必须用abs()

  • 必须用 abs() ,否则离散程度的正负差别就会互相抵消,无法反映离散程度!
  • 其实就是, 平均差=Σ(Xi-X均值)/n 是错的

5 用来衡量形态的:变异指标

  • 偏态和峰态(形状)反映数据总体分布形态的指标
  • 变异系数(Coefficient of Variation):
  • 变异系数是标准差与均值之比,用来比较不同数据集的离散程度。
  • 变异系数可以消除数据单位的影响,更适合用于比较不同尺度或大小的数据集。

5.1  变异系数

变异系数= 标准差除以均值。

离散系数相同时

需要对比两件事物的离散程度,是利用变异系数进行对比。

从公式来看变异系数是以其数学期望为单位去度量随机变量取值波动程度的特征数,标准差的量纲与数学期望的量纲是一致的,所以变异系数是一个无量纲的量,也说明消除了量纲对波动的影响。

5.2 偏态与峰度测度

  • 偏态与峰度测度(偏态及其测度、峰度及其测度)。
  • 偏态:反映数据分布不对称的方向和程度
  • 峰态:反映数据分布图的尖峭程度或扁平程度

5.3 偏态系数

  • 是数据分布偏斜程度的测度
  • 偏态系数 = 0时:对称分布
  • 偏态系数 > 0时:右偏分布
  • 偏态系数 < 0时:左偏分布

5.4 峰态系数

  • 是数据分布尖峭程度的测度
  • 峰态系数 = 0时:峰度适中
  • 峰态系数 > 0时:尖峰分布
  • 峰态系数 < 0时:偏平分布

6 数据标准化

定义:数据指数化

  • 意义:能够去除数据的单位限制,将其转化为无单位的纯数值,便于不同单位或量级的指标能够进行比较和加权
  • 0-1标准化:也叫离差标准化,是对原始数据进行线性变换,是结果落到 [0,1] 区间
  • z-score标准化:也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/720604.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言利用函数创建链表,修改链表(插入,删除,添加),指针函数的返回

这段代码是一个简单的链表操作程序&#xff0c;包括创建节点、在链表末尾添加节点、在指定位置插入节点和删除指定位置的节点。以下是详细的注释&#xff1a; #include<stdio.h> #include<stdlib.h>// 定义链表节点结构体 struct listnode{int i; // 节点存储的整…

TDengine 签约树根互联,应对“高基数”难题

近日&#xff0c;树根互联与涛思数据达成签约合作&#xff0c;共同推动智能制造领域的建设。作为一家处于高速发展期的工业互联网企业&#xff0c;树根互联将新一代信息技术与制造业深度融合&#xff0c;开发了以自主可控的工业互联网操作系统为核心的工业互联网平台——根云平…

【HTML】HTML标签实例学习笔记(待更新)-黑马程序员

【HTML】HTML标签实例学习笔记&#xff08;待更新&#xff09;-黑马程序员 成对出现的标签 标签一般都是成对出现&#xff0c;标签之间的关系有包含关系和并列关系两种。 像 <head></head>为双标签&#xff0c;<br/>为单标签 单标签很少 大多数都为双标签。…

springboot项目单纯使用nacos注册中心功能

Spring Boot 项目完全可以单独使用 Nacos 作为注册中心。Nacos 是一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。它支持服务的注册与发现&#xff0c;能够与 Spring Boot 应用无缝集成&#xff0c;为微服务架构提供了强大的支持。 在使用 Nacos 作为注册中…

Python实现DMI工具判断信号:股票技术分析的工具系列(3)

Python实现DMI工具判断信号&#xff1a;股票技术分析的工具系列&#xff08;3&#xff09; 介绍算法解释 代码rolling函数介绍完整代码 介绍 先看看官方介绍&#xff1a; DMI (趋向指标&#xff09; 用法 1.PDI线从下向上突破MDI线&#xff0c;显示有新多头进场&#xff0c;为…

系统架构29 - 架构风格补充(下)

面向服务架构风格 关键目标关键技术实现方式WEB Service服务注册表企业服务总线ESB特点&#xff1a; SOA是一种 粗粒度、松耦合服务架构&#xff0c;服务之间通过简单、精确定义接口进行通信&#xff0c;不涉及底层编程接口和通信模型。 在SOA中&#xff0c; 服务是一种为了满…

BUUCTF---[BJDCTF2020]藏藏藏1

1.题目描述 2.下载附件&#xff0c;解压之后是一张图片和一个文本 3.把图片放在winhex,发现图片里面包含压缩包 4.在kali中使用binwalk查看&#xff0c;然后使用foremost分离&#xff0c;在使用tree查看分离出来的文件&#xff0c;最后将zip文件使用unzip进行解压。步骤如下 5.…

pdf编辑软件哪个好用?5款PDF编辑器分享

pdf编辑软件哪个好用&#xff1f;PDF编辑软件在现代办公和学术研究中发挥着举足轻重的作用&#xff0c;它们不仅具备基础的编辑和修改功能&#xff0c;还能够支持多种注释工具&#xff0c;帮助我们高效地管理和整理PDF文件。无论是需要调整文档布局、添加文本或图像&#xff0c…

RocketMQ - 从RocketMQ全链路分析一下为什么用户支付后没收到红包?

1. 订单系统推送消息到MQ的过程会丢失消息吗? 订单系统在接收到订单支付成功的通知之后,必然会去推送一条订单支付成功的消息到MQ,那么在这个过程中,会出现丢失消息的问题吗? 答案是可能会丢失的,比如订单系统在推送消息到RocketMQ的过程中,是通过网络去进行传输的,但…

C++ 前缀和

目录 例1 例2 例3 例4 例5 例6 例7 例8 例1 DP34 【模板】前缀和 分析&#xff1a;dp和arr的大小并不是固定的&#xff0c;就是有没有偏移量&#xff0c;这里的n是从1开始&#xff0c;不如直接放到下标1处&#xff0c;在最后的减法时&#xff0c;如果用第一个参考代码会…

MySQL - #1115 - Unknown character set: ‘utf8mb4‘

问题描述 #1115 - Unknown character set: utf8mb4 原因分析 因为在创建表的时候是有这个编码的&#xff0c;但是在单独修改某个字段的编码时发现报错&#xff0c;虽然觉得莫名其妙&#xff0c;那就将机就计&#xff0c;改成大概率有的编码——UTF8&#xff0c;因为这边为的是…

rtt的io设备框架面向对象学习-touch设备

目录 1.触摸设备基类2.触摸设备基类的子类3.初始化/构造流程3.1设备驱动层3.2 设备驱动框架层3.3 io设备管理层 4.总结5.使用5.1实例 1.触摸设备基类 此层处于设备驱动框架层。此层的类是抽象类。 在/ components / drivers / include / drivers /touch.h定义了如下touch设备…

云计算 3月2号 (自配本地和远程yum源)

自建yum源 本地源 一、使用本地的镜像文件来制作yum源(做完记得删除) 1、挂载dvd镜像或将镜像拷贝到机器中 mkdir /yum-repo mount /dev/cdrom /yum-repo # 如果我们在设置中挂载了镜像使用这个方法 mount 镜像的路径 /yum-repo # 如果我们拷贝镜像到了系统中&#xff0c;可…

flink on yarn paimon

目录 概述实践paimon 结束 概述 ogg kafka paimon 实践 前置准备请看如下文章 文章链接hadoop一主三从安装链接spark on yarn链接flink的yarn-session环境链接 paimon 目标: 1.同步表2.能过 kafka 向 paimon写入 SET parallelism.default 2; set table.exec.sink.not-n…

Ai学社致力于Ai视觉设计和AI绘画

Ai学社来啦&#xff01;致力于短时间搞定Ai视觉设计、AI绘画。 遍知首席Ai讲师&#xff0c;教大家如何利用Ai迅速提升工作效率&#xff0c;升职加xin&#xff01;目前申请对ai感兴趣的均可以参加&#xff01;免费报名。 招生人数&#xff1a;本批次至少招募100名。招生时间&…

C++ Date类型定义 (类的简单实践案例)

//头文件#include<iostream> #include<assert.h> using namespace std;class Date { public:// 获取某年某月的天数int GetMonthDay(int year, int month);// 全缺省的构造函数Date(int year 1900, int month 1, int day 1);// 拷贝构造函数// d2(d1)Date(const…

LeetCode-02

225. 用队列实现栈 用两个队列实现栈的功能&#xff0c;思路如下&#xff1a; 往空队列中放新元素把非空队列中的元素依次放入刚才添加了新元素的队列&#xff0c;直到非空队列变为空队列 class MyStack(object):def __init__(self):self.queue1 []self.queue2 []def push(…

【教程】Kotlin语言学习笔记(四)——方法(持续更新)

写在前面&#xff1a; 如果文章对你有帮助&#xff0c;记得点赞关注加收藏一波&#xff0c;利于以后需要的时候复习&#xff0c;多谢支持&#xff01; 【Kotlin语言学习】系列文章 第一章 《认识Kotlin》 第二章 《数据类型》 第三章 《数据容器》 第四章 《方法》 文章目录 【…

突发,Anthropic推出突破性Claude 3系列模型,性能超越GPT-4

&#x1f989; AI新闻 &#x1f680; 突发&#xff0c;Anthropic推出突破性Claude 3系列模型 摘要&#xff1a;人工智能创业公司Anthropic宣布推出其Claude 3系列大型语言模型&#xff0c;该系列包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus三个子模型&#xff0c;旨…

Cesium 自定义Primitive-绘制圆

一、创作来源 1、cesium的entity绘制圆 2、不使用entity的情况下&#xff0c;使用自定义的primitive来动态绘制圆 3、结合上一篇文章的圆&#xff0c;执行动态圆的更新 二、编写步骤 1、创建绘制线的类 包括构造函数、绘图函数以及销毁函数 import { Viewer, ScreenSpaceEven…