MATLAB数据统计描述和分析

描述性统计就是搜集、整理、加工和分析统计数据, 使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在数学建模的数据描述部分经常使用。

目录

1.频数表和直方图

2 .统计量 

3.统计中几个重要的概率分布 

3.1正态分布 

3.2卡方分布 

3.3 t分布 

3.4 F分布 

3.5MATALB中的命令

4.正态总体统计量的分布 

5.参数估计 

5.1 点估计 

5.2 区间估计 

5.3 参数估计的 Matlab 实现

 6.假设检验

6.1 单个正态总体均值 μ 的检验

 6.2 方差已知,关于 μ 的检验( Z 检验)

6.3 方差未知,关于 μ 的检验(t 检验) 

6.4两个正态总体均值差的检验(t 检验)

 7.分布拟合检验


1.频数表和直方图

一组数据(样本)往往是杂乱无章的,做出它的频数表和直方图,可以看作是对这 组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次 数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一 个阶梯形的图,称为直方图,或频数分布图。

作频数表及直方图 求频数用 hist 命令实现,其用法是:

[N,X] = hist(Y,M)

得到数组(行、列均可)Y 的频数表。它将区间[min(Y),max(Y)]等分为 M 份(缺省时 M 设定为 10),N 返回 M 个小区间的频数,X 返回 M 个小区间的中点。

示例:下图为身高和体重数据:

程序:

clc,clear;
load data.txt; 
high=data(:,1:2:9);
high=high(:); 
weight=data(:,2:2:10);
weight=weight(:); 
[n1,x1]=hist(high);
[n2,x2]=hist(weight);
subplot(1,2,1), hist(high); 
title('身高直方图')
subplot(1,2,2), hist(weight); 
title('体重直方图')

运行结果如下: 

clc,clear;
fid1 = ['aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg' ...  'cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga' ...  'gggacggatacggattctggccacggacggaaaggaggacacggcggacataca' ...  'atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta' ...  'cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc'];  
a = 0; b = 0; c = 0; d = 0; e = 0;    
for charIdx = 1:length(fid1)  currChar = fid1(charIdx);  if currChar == 'a'  a = a + 1;  elseif currChar == 'c'  b = b + 1;  elseif currChar == 'g'  c = c + 1;  elseif currChar == 't'  d = d + 1;  elseif currChar >= 'a' && currChar <= 'z'  e = e + 1; % 超出范围的个数 end  
end   
f = [a b c d e];  
he = sum(f);  
disp('a,c,g,t个数')
disp(f);  
disp('总个数')
disp(he);  
countsNames = {'a', 'c', 'g', 't'};
figure;   
bar(1:4, f(:,1:4));
set(gca, 'XTickLabel', countsNames);  
xlabel('字符'); 
ylabel('频数');
title('字符频数直方图'); 

2 .统计量 

假设有一个容量为n 的样本(即一组数据),需要对它进 行一定的加工,才能提出有用的信息,用作对总体(分布)参数的估计和检验。统计量反映样本数量特征的函数,它不含任何未知量。

下面我们介绍几种常用的统计量:

Matlab std(x)返回 x 的标准差,var(x)返回方差,range(x)返回极差 。

上述标准差被(n-1)除是因为方差的无偏估计,若需要改为被n 除,Matlab 可用 std(x,1)var(x,1)来实现。

峰度可以用作衡量偏离正态分布的尺度之一 。

Matlab 中 moment(x,order)返回 x order 阶中心矩,order 为中心矩的阶数。 skewness(x)返回 x 的偏度,kurtosis(x)返回峰度。

对上面给出的学生身高和体重数据,用 Matlab 计算以上统计量,程序如下:

clc 
load data.txt; 
high=data(:,1:2:9);high=high(:); 
weight=data(:,2:2:10);weight=weight(:);
shuju=[high weight]; 
jun_zhi=mean(shuju);
zhong_wei_shu=median(shuju); 
biao_zhun_cha=std(shuju) ;
ji_cha=range(shuju) ;
pian_du=skewness(shuju) ;
feng_du=kurtosis(shuju);
f=[jun_zhi zhong_wei_shu biao_zhun_cha ji_cha pian_du feng_du];
disp('均值、中位数、标准差、极差、偏度、峰度')
disp(f);  

3.统计中几个重要的概率分布 

3.1正态分布 

3.2卡方分布 

3.3 t分布 

3.4 F分布 

3.5MATALB中的命令

Matlab 统计工具箱中有 27 种概率分布,这里只对上面所述 4 种分布列出命令的字符:

norm 正态分布;

chi2 卡方分布;

t t 分布;

f F 分布;

工具箱对每一种分布都提供 5 类函数,其命令的字符是: pdf 概率密度; cdf 分布函数; inv 分布函数的反函数; stat 均值与方差; rnd 随机数生成 。

如下:生成标准正态分布和N(0,4)的正态分布,并画出图像程序:

clc;clear;
x=-6:0.01:6;
y=normpdf(x);
z=normpdf(x,0,2); 
plot(x,y,x,z),
gtext('N(0,1)'),gtext('N(0,2^2)') 

4.正态总体统计量的分布 

用样本来推断总体,需要知道样本统计量的分布,而样本又是一组与总体同分布的随机变量,所以样本统计量的分布依赖于总体的分布。当总体服从一般的分布时,求某个样本统计量的分布是很困难的,只有在总体服从正态分布时,一些重要的样本统计量 (均值、标准差)的分布才有便于使用的结果。另一方面,现实生活中需要进行统计推断的总体,多数可以认为服从(或近似服从)正态分布。

下面是用均值和标准差构造的几个常用分布:

5.参数估计 

5.1 点估计 

点估计是用样本统计量确定总体参数的一个数值。评价估计优劣的标准有无偏性、 最小方差性、有效性等,估计的方法有矩法、极大似然法等。

5.2 区间估计 

置信区间越小,估计的精度越高;置信水平越大,估计的可信程度越高。但是这两个指标显然是矛盾的, 通常是在一定的置信水平下使置信区间尽量小。通俗地说,区间估计给出了点估计的误 差范围。 

5.3 参数估计的 Matlab 实现

Matlab 统计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的函数。 对于正态总体,命令是:

[mu,sigma,muci,sigmaci]=normfit(x,alpha)

其中 x 为样本(数组或矩阵),alpha 为显著性水平α (alpha 缺省时设定为 0.05),返 回总体均值 μ 和标准差σ 的点估计 mu 和 sigma,及总体均值 μ 和标准差σ 的区间估计 muci 和 sigmaci。当 x 为矩阵时,x 的每一列作为一个样本。

 6.假设检验

6.1 单个正态总体均值 μ 的检验

 6.2 方差已知,关于 μ 的检验( Z 检验)

在 Matlab 中 Z 检验法由函数 ztest 来实现,命令为 :

[h,p,ci]=ztest(x,mu,sigma,alpha,tail)

示例: 

x=[0.497 0.506 0.518 0.524 0.498... 0.511 0.520 0.515 0.512]; 
[h,p,ci]=ztest(x,0.5,0.015)

求得 h=1,p=0.0248,说明在 0.05 的水平下,可拒绝原假设,即认为这天包装机 工作不正常。 

6.3 方差未知,关于 μ 的检验(t 检验) 

 在 Matlab 中t 检验法由函数 ttest 来实现,命令为:

[h,p,ci]=ttest(x,mu,alpha,tail)

示例:

x=[159 280 101 212 224 379 179 264 ... 222 362 168 250 149 260 485 170]; 
[h,p,ci]=ttest(x,225,0.05,1)

求得 h=0,p=0.2570,说明在显著水平为 0.05 的情况下,不能拒绝原假设,认为元件的平均寿命不大于 225 小时。

6.4两个正态总体均值差的检验(t 检验)

还可以用t 检验法检验具有相同方差的 2 个正态总体均值差的假设。在 Matlab 中 由函数 ttest2 实现,命令为:

[h,p,ci]=ttest2(x,y,alpha,tail)

与上面的 ttest 相比,不同处只在于输入的是两个样本 x,y(长度不一定相同), 而不是一个样本和它的总体均值;tail 的用法与 ttest 相似。

示例:

x=[78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3]; 
y=[79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1]; 
[h,p,ci]=ttest2(x,y,0.05,-1) 

求得 h=1,p=2.2126e-04。表明在α = 0.05 的显著水平下,可以拒绝原假设,即认为建议的新操作方法较原方法优。 

也可以做方差不相等的假设检验,使用格式为: h = ttest2(x,y,alpha,tail, 'unequal')

 7.分布拟合检验

在实际问题中,有时不能预知总体服从什么类型的分布,这时就需要根据样本来检 验关于分布的假设。

示例:

程序:

clc 
x=[141 148 132 138 154 142 150 146 155 158 ... 
150 140 147 148 144 150 149 145 149 158 ... 
143 141 144 144 126 140 144 142 141 140 ... 
145 135 147 146 141 136 140 146 142 137 ... 
148 154 137 139 143 140 131 143 141 149 ... 
148 135 148 152 143 144 141 143 147 146 ... 
150 132 142 142 143 153 149 146 149 138 ... 
142 149 142 137 134 144 146 147 140 142 ... 
140 137 152 145]; 
mm=minmax(x) 
hist(x,8) %画直方图
fi=[length(find(x<135)),... length(find(x>=135&x<138)),... length(find(x>=138&x<142)),... length(find(x>=142&x<146)),... length(find(x>=146&x<150)),... length(find(x>=150&x<154)),... length(find(x>=154))] %各区间上出现的频数
mu=mean(x),sigma=std(x) 
fendian=[135,138,142,146,150,154] %区间的分点
p0=normcdf(fendian,mu,sigma) 
p1=diff(p0) 
p=[p0(1),p1,1-p0(6)] 
chi=(fi-84*p).^2./(84*p) 
chisum=sum(chi);
x_a=chi2inv(0.9,4) %chi2分布的0.9分位数

 

求得皮尔逊统计量chisum= 2.2654,

故在 水平0.1下接受 H0 ,即认为数据来自正态分布总体。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/44293.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Apache Doris:下一代实时数据仓库

Apache Doris&#xff1a;下一代实时数据仓库 概念架构设计快速的原因——其性能的架构设计、特性和机制基于成本的优化器面向列的数据库的快速点查询数据摄取数据更新服务可用性和数据可靠性跨集群复制多租户管理便于使用半结构化数据分析据仓一体分层存储 词条诞生 概念 Apa…

Security认证要点速记

登录校验流程 springSecurity已经为我们默认实现了一个用不着的登录功能&#xff0c;我们需要自己实现个符合我们需求的登录功能&#xff0c;所以我们需要去了解默认登录功能的流程&#xff0c;对其中的部分进行替换 SpringSecurity底层就是过滤器链&#xff0c;包含实现了各种…

HarmonyOS Next应用开发之系统概述

一、鸿蒙系统概述 鸿蒙系统可以分为华为鸿蒙系统&#xff08;HUAWEI HarmonyOS&#xff09;和开源鸿蒙系统&#xff08;OpenHarmony&#xff09;&#xff0c;华为鸿蒙系统是基于OpenHarmony基础之上开发的商业版操作系统。他们二者的关系可以用下图来表示&#xff1a; 1.1、…

使用Go编写的持续下行测速脚本,快速消耗流量且不伤硬盘

介绍 使用go语言编写的持续下行测速脚本,可用于任意平台使用,通过指定URL清单文本文件自动遍历测速,支持多线程,支持多平台 特性 轻量级,无依赖采用内存进行缓存数据,不占用磁盘(如果内存较小请使用gcd项目)&#xff0c;最大程度减少磁盘IO,保护硬盘寿命可自定义最大下载文件…

30米全国地表覆盖数据分享

我们在《136G全国1m土地覆盖数据》一文中&#xff0c;为你分享过全国1米土地覆盖数据。 现在再为你分享30米全国地表覆盖数据&#xff0c;你可以在文末查看该数据的领取方法。 30米全国地表覆盖数据 土地覆盖数据是各项研究中经常使用的数据。 它不仅可以帮助我们快速进行用…

开发个人Go-ChatGPT--6 OpenUI

开发个人Go-ChatGPT–6 OpenUI Open-webui Open WebUI 是一种可扩展、功能丰富且用户友好的自托管 WebUI&#xff0c;旨在完全离线运行。它支持各种 LLM 运行器&#xff0c;包括 Ollama 和 OpenAI 兼容的 API。 功能 由于总所周知的原由&#xff0c;OpenAI 的接口需要密钥才…

【南京蓝领新材料】水力颗粒分离器工作原理

水力颗粒分离器工作原理 在装置内部设有一个具有一定空间的滤网&#xff0c;雨水从进水管流入&#xff0c;先进入滤网过滤&#xff0c;雨水中的悬浮物和漂浮物将被拦截在此滤网内。 在装置底部有三个腔室&#xff0c;当雨水中小的颗粒物流到每个腔室挡墙前时&#xff0c;颗粒物…

CTFShow的36D杯

神光 还是想了一下&#xff0c;但那个异或搞不出来&#xff0c;都是对dword_41A038操作&#xff0c;想起开头就给了 key &#xff0c;还有反调试应该是要调试的 输出的应该就是 flag &#xff0c;只是为什么是乱码呢&#xff1f; 放 od 再试试&#xff0c;直接就出 flag 了&am…

最受老板欢迎的监控员工电脑软件推荐!(6款真实测评)

你有没有遇到以下这种情况&#xff1a; 早晨刚到公司打开电脑&#xff0c;老板对着旁边同事大发雷霆突然发问&#xff1a; 小丽&#xff0c;你昨天上班期间刷抖音了&#xff1f; 你吓得瑟瑟发抖&#xff0c;老板咋知道的呢&#xff1f; 跟其他同事讨论才晓得&#xff0c;原…

AI绘画杀死了设计师!?恰恰相反……

与大多数人想象的不同&#xff0c;ChatGPT等各种AI工具爆火之后&#xff0c;受到冲击最大的居然是设计师、作家、翻译等具有创造性的工作&#xff0c;以体力劳动为主的蓝领反而最不易被替代。 以城市数据团做过的一项研究为例&#xff0c;他们对中国1639种职业进行了GPT替代风险…

网页报错err_connection_timed_out 怎么办?教你快速修复错误代码

遇到网页错误提示“ERR_CONNECTION_TIMED_OUT”时&#xff0c;通常表示你的网络浏览器无法在规定时间内从服务器获取数据。这种错误不仅会阻碍你访问特定网站&#xff0c;而且可能会引起一些疑惑和不便。首先&#xff0c;这个问题可能是由于网络连接问题、服务器响应延迟或配置…

Python 轻松生成多种条形码、二维码 (Code 128、EAN-13、QR code等)

条形码和二维码是现代信息交换和数据存储的重要工具&#xff0c;它们将信息以图形的形式编码&#xff0c;便于机器识别和数据处理&#xff0c;被广泛应用于物流、零售、医疗、教育等各领域。 本文将介绍如何使用Python快速生成各种常见的条形码如Code 128、EAN-13&#xff0c;…

从传统到智能:安全帽AI检测算法助力工地/矿山/工厂/电力巡检安全监管

随着科技的快速发展&#xff0c;人工智能&#xff08;AI&#xff09;技术已经渗透到我们生活的方方面面&#xff0c;特别是在建筑工地这一对安全要求极高的领域中&#xff0c;AI技术的应用更是显得尤为重要。其中&#xff0c;安全帽AI检测算法以其高效、准确的特性&#xff0c;…

c++ 多边形 xyz 数据 获取 中心点方法,线的中心点取中心值搞定 已解决

有需求需要对。多边形 获取中心点方法&#xff0c;绝大多数都是 puthon和java版本。立体几何学中的知识。 封装函数 point ##########::getCenterOfGravity(std::vector<point> polygon) {if (polygon.size() < 2)return point();auto Area [](point p0, point p1, p…

Quartus程序烧录

1. .sof文件烧录&#xff08;断电丢失&#xff09; &#xff08;1&#xff09;Programmer&#xff08;程序设计&#xff09; &#xff08;2&#xff09;Hardware Setup...&#xff08;硬件设置&#xff09; &#xff08;如无USB-Blaster[USB-0]&#xff0c;在Hardware Setup..…

buuctf被嗅探的流量

下载出来是一个流量分析题 因为题目说了是联网状态下 嗅探到 所以一定有http协议 这里设置过滤器 一个一个去找吧 目前感觉wireshark的题都是http,太难的也不会

Linux--深入理与解linux文件系统与日志文件分析

目录 一、文件与存储系统的 inode 与 block 1.1 硬盘存储 1.2 文件存取--block 1.3 文件存取--inode 1.4 文件名与 inode 号 ​编辑 1.5 查看 inode 号码方法 1.6 Linux 系统文件的三个主要的时间属性 1.7 硬盘分区结构 1.8 访问文件的简单了流程 1.9 inode 占用 1.…

适配各种IT场景的零信任沙箱

在当今数字化时代&#xff0c;网络安全威胁层出不穷&#xff0c;传统的安全防御策略已难以应对日益复杂的网络攻击。零信任与沙箱技术的结合&#xff0c;作为一种新兴的安全防护策略&#xff0c;正逐渐受到企业和组织的青睐。本文将深入探讨零信任结合沙箱技术所能解决的问题及…

odoo视图继承

odoo视图继承 在模型时候&#xff0c;不对视图、菜单等进行修改&#xff0c;原视图和菜单等视图数据仍然可以使用&#xff0c;不需要重新构建 form视图继承案例 model&#xff1a;为对应模型 inherit_id&#xff1a;为继承的视图&#xff0c;ref:为继承视图的id&#xff0…

高考完的假期想学c语言要注意那些问题?

c语言算是现代编程语言里面比较简单的一个&#xff0c;对于高考刚考完的学生来说确实很适合刚好我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「c语言的资料从专业入门到高级教程」&#xff0c; 点个关注在评论区回复“888”之后私信回复“888”&#xff0c;全…