用Python做数据分析之数据统计

接下来说说数据统计部分,这里主要介绍数据采样,标准差,协方差和相关系数的使用方法。

1、数据采样
Excel 的数据分析功能中提供了数据抽样的功能,如下图所示。Python 通过 sample 函数完成数据采样。

2、数据抽样
Sample 是进行数据采样的函数,设置 n 的数量就可以了。函数自动返回参与的结果。
1#简单的数据采样
2df_inner.sample(n=3)

3、简单随机采样
Weights 参数是采样的权重,通过设置不同的权重可以更改采样的结果,权重高的数据将更有希望被选中。这里手动设置 6 条数据的权重值。将前面 4 个设置为 0,后面两个分别设置为 0.5。
1 #手动设置采样权重
2 weights = [0, 0, 0, 0, 0.5, 0.5]
3 df_inner.sample(n=2, weights=weights)
手动设置采样权重1:从采样结果中可以看出,后两条权重高的数据被选中。
手动设置采样权重2:Sample 函数中还有一个参数 replace,用来设置采样后是否放回。
1 #采样后不放回
2 df_inner.sample(n=6, replace=False)

4、描述统计
Excel 中的数据分析中提供了描述统计的功能。Python 中可以通过 Describe 对数据进行描述统计。
Describe 函数是进行描述统计的函数,自动生成数据的数量,均值,标准差等数据。下面的代码中对数据表进行描述统计,并使用 round 函数设置结果显示的小数位。并对结果数据进行转置。
1#数据表描述性统计
2df_inner.describe().round(2).T

5、标准差
Python 中的 Std 函数用来接算特定数据列的标准差。
1 #标准差
2 df_inner[‘price’].std()
3 1523.3516556155596

6、协方差
Excel 中的数据分析功能中提供协方差的计算,python 中通过 cov 函数计算两个字段或数据表中各字段间的协方差。
Cov 函数用来计算两个字段间的协方差,可以只对特定字段进行计算,也可以对整个数据表中各个列之间进行计算。
1#两个字段间的协方差
2df_inner[‘price’].cov(df_inner[‘m-point’])
317263.200000000001

7、相关分析
Excel 的数据分析功能中提供了相关系数的计算功能,python 中则通过 corr 函数完成相关分析的操作,并返回相关系数。

1)相关系数
Corr 函数用来计算数据间的相关系数,可以单独对特定数据进行计算,也可以对整个数据表中各个列进行计算。相关系数在-1 到 1 之间,接近 1 为正相关,接近-1 为负相关,0 为不相关。
1 #相关性分析
2 df_inner[‘price’].corr(df_inner[‘m-point’])
3 0.77466555617085264

8、数据输出
第九部分是数据输出,处理和分析完的数据可以输出为 xlsx 格式和 csv 格式。

1)写入 excel
1#输出到 excel 格式
2df_inner.to_excel(‘excel_to_python.xlsx’, sheet_name=‘bluewhale_cc’)

2)写入CVS
1 #输出到 CSV 格式
2 df_inner.to_csv(‘excel_to_python.csv’)
在数据处理的过程中,大部分基础工作是重复和机械的,对于这部分基础工作,我们可以使用自定义函数进行自动化。以下简单介绍对数据表信息获取自动化处理。
1 #创建数据表
2 df = pd.DataFrame({‘id’:[1001,1002,1003,1004,1005,1006],
3’date’:pd.date_range(‘20130102’, periods=6),
4’city’:['Beijing ', ‘SH’, ’ guangzhou ', ‘Shenzhen’, ‘shanghai’, 'BEIJING '],
5 ‘age’:[23,44,54,32,34,32],
6 ‘category’:[‘100-A’,‘100-B’,‘110-A’,‘110-C’,‘210-A’,‘130-F’],
7 ‘price’:[1200,np.nan,2133,5433,np.nan,4432]},
8 columns =[‘id’,‘date’,‘city’,‘category’,‘age’,‘price’])
9
10 #创建自定义函数
11 def table_info(x):
12 shape=x.shape
13 types=x.dtypes
14 colums=x.columns
15 print(‘数据维度(行,列):\n’,shape)
16 print(‘数据格式:\n’,types)
17 print(‘列名称:\n’,colums)
18
19 #调用自定义函数获取 df 数据表信息并输出结果
20 table_info(df)
21
22 数据维度(行,列):
23 (6, 6)
24 数据格式:
25 id int64
26 date datetime64[ns]
27 city object
28 category object
29 age int64
30 price float64
31 dtype: object
32 列名称:
33 Index([‘id’, ‘date’, ‘city’, ‘category’, ‘age’, ‘price’], dtype=‘object’)

以上就是如何用Python做数据统计的全部内容了。

文章来源:网络 版权归原作者所有
上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/126264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GB28181协议如何注册

前言 GB28181协议是视频监控领域的国家标准,本文将解析如何在FFmpeg中增加对GB28181协议的支持,使其可以与支持GB28181协议的设备进行通信与控制,实现设备的注册、保活以及流媒体的传输。 1.背景介绍 GB28181协议指的是国家标准GB/T 28181…

自定义类型结构体(上)

目录 结构体类型的声明结构体的概念结构体的声明特殊的声明结构的自引用 结构体变量的创建和初始化结构成员访问操作符 感谢各位大佬对我的支持,如果我的文章对你有用,欢迎点击以下链接 🐒🐒🐒 个人主页 🥸🥸&#x1…

2023年【R1快开门式压力容器操作】报名考试及R1快开门式压力容器操作实操考试视频

题库来源:安全生产模拟考试一点通公众号小程序 R1快开门式压力容器操作报名考试是安全生产模拟考试一点通总题库中生成的一套R1快开门式压力容器操作实操考试视频,安全生产模拟考试一点通上R1快开门式压力容器操作作业手机同步练习。2023年【R1快开门式…

BurpSuite超详细安装教程-功能概述-配置-使用教程---(附下载链接)

一、介绍 BurpSuite是渗透测试、漏洞挖掘以及Web应用程序测试的最佳工具之一,是一款用于攻击web 应用程序的集成攻击测试平台,可以进行抓包、重放、爆破,包含许多工具,能处理对应的HTTP消息、持久性、认证、代理、日志、警报。 二…

Windows11无法打开Photoshop CC 2017问题解决

情况描述: Windows11上,双击Photoshop CC 2017没反应 解决办法: 此时需要启动Windows的“事件查看器”来确认问题出在哪里。可以直接通过开始菜单搜索启动,也可以通过右键点击“此电脑”->“管理”,然后找到事件查…

代码随想录算法训练营第三十六天 | LeetCode 738. 单调递增的数字、贪心算法总结

​ 代码随想录算法训练营第三十六天 | LeetCode 738. 单调递增的数字、贪心算法总结 文章链接:单调递增的数字 贪心算法总结 视频链接:单调递增的数字 1. LeetCode 738. 单调递增的数字 1.1 思路 本题的贪心思路是什么?举个例子 32&#x…

Vue 2 vs Vue 3: 响应式系统的比较 ⚖️

Vue 2 vs Vue 3: 响应式系统的比较 ⚖️ Vue.js 是一个极为流行的前端框架,其响应式系统是其强大特性之一。然而,在 Vue 2 和 Vue 3 中,响应式系统的实现方式有所不同。Vue 2 使用 Object.defineProperty 实现数据劫持,而 Vue 3 …

java基础+数据库基础+系统+JVM问题

的哎的哎 1、基础部分 java线程池 队列的选择 答&#xff1a; SingleThreadPool:适用于多个任务顺序执行的场景。 它使用的是LinkedBlockingQueue<>()&#xff0c;无界的阻塞队列&#xff0c;就意味着会有内存溢出的风险。 FixedThreadPool: 适用于任务量固定耗时长的…

Find My移动硬盘|苹果Find My技术与移动硬盘结合,智能防丢,全球定位

当今已经是数据的时代&#xff0c;各种东西需要保存下来的很多&#xff0c;电脑、手机等设备更换频率也快&#xff0c;确实每个人都需要一个自己的"数据库"&#xff0c;而移动硬盘无疑是最有性价比、最简单使用的选择。移动硬盘一直是我们生活中不可或缺的存储工具&a…

DevChat:VSCode中基于大模型的AI智能编程助手

#AI编程助手哪家好&#xff1f;DevChat“真”好用# 文章目录 1. 前言2. 安装2.1 注册新用户2.2 在VSCode中安装DevChat插件2.3 设置Access Key 3. 实战使用4. 总结 1. 前言 DevChat是由Merico公司精心打造的AI智能编程助手。它利用了最先进的大语言模型技术&#xff0c;像人类…

WebSocketClient objects are not reuseable

好久没写东西&#xff0c;夜深了来冒个泡&#xff0c;先啰嗦几句。今天测试 Android App 的时候&#xff0c;发现推到后台不到一分钟再唤醒直接闪退&#xff0c;初次以为网络和GPS信号弱导致的&#xff08;当时是在地铁上进行的测试&#xff09;&#xff0c;之后在网络与GPS 信…

IDEA在service面板中不显示微服务的项目

在.idea文件夹下的workspace文件中的project标签内添加如下代码段&#xff0c;&#xff0c;重启idea即可看到所有服务出现在了service面板中 <component name"RunDashboard"><option name"configurationTypes"><set><option value&q…

干货来袭 只需套用模板就能制作的电子相册的网站

随着科技的不断发展&#xff0c;电子相册已经成为了我们生活中不可或缺的一部分。但是&#xff0c;制作电子相册的过程却往往让人感到头疼。那么&#xff0c;有没有一种简单易用的方法来制作电子相册呢&#xff1f;今天&#xff0c;就给大家介绍一款只需套用模板就能制作的电子…

opencv c++ canny 实现 以及与halcon canny的对比

Opencv和C实现canny边缘检测_opencv边缘增强-CSDN博客 一、canny实现步骤 1、图像必须是单通道的&#xff0c;也就是说必须是灰度图像 2、图像进行高斯滤波&#xff0c;去掉噪点 3、sobel 算子过程的实现&#xff0c;计算x y方向 、梯度&#xff08;用不到&#xff0c;但是…

使用springboot对Elasticsearch 进行索引的增、删、改、查

一 SpringBoot Elasticsearch 项目环境搭建 1.1 修改pom文件添加依赖 目前使用spring-boot-starter-parent版本为2.2.8.RELEASE 对应spring-data-elasticsearch版本为2.2.8.RELEASE&#xff0c;版本对应可以自行百度&#xff0c;如果不行直接用elasticsearch-rest-high-lev…

FlinkCDC系列:数据同步对部分字段的处理,只更新部分字段

在flinkCDC源数据配置中&#xff0c;只对表中的部分字段关注&#xff0c;通过监控部分字段进行数据更新或者不更新&#xff0c;对数据进行同步。主要通过以下两个参数&#xff1a; column.exclude.list 默认: 空字符串 一个可选的、以逗号分隔的正则表达式列表&#xff0c;与…

预安装win11的电脑怎么退回正版win10?

对于新购的笔记本 通常来讲预装的系统是全新安装的&#xff0c;是没有之前Windows10系统文件的&#xff0c;无法回退。 可以打开设置-----系统----恢复-----看下是否有该选项。 ------------------------------------------------------------------------------- 若是在上述…

Vue.js中的双向数据绑定(two-way data binding)

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 欢迎来到前端入门之旅&#xff01;感兴趣的可以订阅本专栏哦&#xff01;这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

Redis统计大法:挖掘数据的四重宝藏【redis第五部分】

Redis统计大法&#xff1a;挖掘数据的四重宝藏 前言第一&#xff1a;redis集合统计简介第二&#xff1a;聚合统计->数据的综合分析总和&#xff08;Sum&#xff09;&#xff1a;平均值&#xff08;Average&#xff09;中位数&#xff08;Median&#xff09; 第三&#xff1a…

RuoYi若依源码分析1 - security

Security springsecurity配置文件夹 security springsecurity总配置类 SecurityConfig.java SecurityConfig 总配置分析 首先看一下总配置&#xff0c;我们可以从总配置项里面大体的总结出springsecurity鉴权在ruoyi框架里面是如何执行的 自动装配关键处理类以及过滤器等…