Python数据分析与可视化笔记 三 了解数据 数据分类 集中趋势 离散程度 相关性测量 数据缺失 噪声 离群点

        数据分为定性数据和定量数据。

        定性数据包括两个基本层次,即定序(ordinal)定义(nominal)层次。定序变量是指该变量只是对某些特性的“多少”进行排序,但各等级之间的差别不确定。例如评价一个事物有“好”、“一般”、“不好”三个等级,但各个等级之间没有定量关系。名义变量则是指该变量只是测量某种特征出现或不出现。例如性别“男”、“女”,两者之间没有任何关系,不能排序或刻度化。

        定量数据包含离散变量连续变量两个层次。离散变量是通过计数方式取得的,连续变量是一直叠加上去的。

        

        数据分析者首先要考察每个变量的关键特征。有两个需要特别关注,即集中趋势(central tendency)离散程度(disperation)

1.集中趋势

        集中趋势的主要测度是均值中位数众数。对于定量数据,其均值、中位数和众数的度量都是有效的;对于定性数据,这三个指标所能提供的信息很少。

2.离散程度

        考虑变量的离散程度主要考虑变量的差别如何。常见的测度有极差方差标准差,另外还有四分位距、平均差和变异系数等。对于定量数据,极差代表数据所处范围的大小,方差、平均差和标准差代表数据相对均值的偏离情况,但方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响。变异系数修正了这个弊端,使用标准差除以均值得到一个相对量来反映数据集的变异程度或离散程度。

3.相关性测量

        进行真正的数据分析之前,可以通过以下这些简单的统计方法计算变量之间的相关性。

(1)数据可视化处理

        绘制成折线图或散点图,做图表相关分析

(2)计算变量间的协方差

        协方差可以确定相关关系的正负,没有任何关于强度的信息。若变量测量单位发生变化,该值会发生变化,但实际变量间的相关关系没有发生变化。

(3)计算变量间的相关系数

(4)进行一元回归或多元回归分析

4.数据缺失

        数据集中不含缺失变量的称完全变量,含缺失值的变量称不完全变量。

5.噪声

        噪声是指被观测变量的随机误差或方差。数学形式表示为观测量(measurement)=真实数据(true data)+噪声(noise)

6.离群点

        数据集中的一些数据对象,与数据的一般行为或模型不一致,这样的对象称离群点。离群点属于观测值。

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/756805.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入剖析Apache Kafka Partition:结构、策略与影响

引言 Apache Kafka作为一款高性能、分布式的消息系统,其出色的吞吐量和持久化能力在大数据领域备受青睐。而Partition作为Kafka架构中的重要基石,不仅决定了系统的可扩展性和并行处理能力,而且对消息的有序性、可用性和容错性起到关键作用。…

认识DDR3

DDR:双倍速率同步动态随机存储器,特点为掉电无法保持数据,时钟上升沿和下降沿都会传输数据,突发长度伪8, 它的存储方式可以通过行地址,列地址,和bank数来确定, DDR的容量为&#x…

Lvs+keepalived+nginx搭建高可用负载均衡集群

环境配置 master主机192.168.199.149,虚拟IP192.168.199.148 back备机192.168.199.150 真实服务器1 192.168.199.155 真实服务器2 192.168.199.156 关闭防火墙和selinux master配置(149) 添加虚拟IP ip addr add 192.168.199.148/24 …

手机备忘录隐藏功能:生日纪念日重要日子倒计时天数和提醒

在日常使用手机时,我们经常会用到备忘录、便签或笔记等记事工具来记录生活的点点滴滴,无论是购物清单、工作任务还是学习笔记。然而,你可能不知道,手机备忘录中其实隐藏着一些非常实用的功能,比如记录生日、纪念日、重…

Java设计模式 | 简单工厂模式

概述 需求 设计一个咖啡店点餐系统设计一个咖啡类(Coffee);并定义其两个子类(美式咖啡AmericanCoffee和拿铁咖啡LatteCoffee);再设计一个咖啡店类(CoffeeStore),其具备…

12350安全生产举报热线系统解决方案

一、建设背景 1. 安全生产的重要性 在当今社会,安全生产是企业和社会发展中至关重要的一环。随着工业化的推进和技术的不断创新,各种生产活动中潜在的安全隐患也随之增加。为了及时发现和解决这些问题,各省市纷纷设立了安全生产举报热线。在…

Node.js常用命令:了解Node.js的核心命令和用法

学习目标: 理解Node.js和npm的概念及其在开发中的作用;掌握Node.js的核心命令,包括node、npm、npx等;学会使用node命令来执行JavaScript文件和模块;熟悉npm命令,包括安装、更新、卸载依赖包等操作&#xf…

openssl3.2 - exp - aes-128-cbc

文章目录 openssl3.2 - exp - aes-128-cbc概述笔记openssl 命令行实现简单直白的实现简单直白的实现 - 测试效果简单直白的实现 - 测试工程 周全灵活的实现周全灵活的实现 - 测试效果周全灵活的实现 - 测试工程 END openssl3.2 - exp - aes-128-cbc 概述 想将工程中用到的字符…

【Ubuntu】常用命令

一般操作 pwd(present working directory) 显示当前的工作目录/路径。 cd (change directory) 改变目录,用于输入需要前往的路径/目录。 有一些特殊命令也很常用 : 解释 前往同一级的另一个目录 cd ../directory name cd .. 表示进入上…

技术周刊 116 期:Visual Copilot、INP、Kimi 支持 200 万字上下文、Grok 开源、Figure 01、Open Sora 开源

美味值:🌟🌟🌟🌟🌟 口味:话梅排骨 食堂技术周刊仓库地址:https://github.com/Geekhyt/weekly 大家好,我是童欧巴。欢迎来到前端食堂技术周刊,我们先来看下…

STP环路避免实验(华为)

思科设备参考:STP环路避免实验(思科) 一,技术简介 Spanning Tree Protocol(STP),即生成树协议,是一种数据链路层协议。主要作用是防止二层环路,并自适应网络变化和故障…

unity学习(62)——emptyObject+昵称+血条

1.地图比较麻烦,先最后回头再做,地图是锦上添花的东西。 2.MapHandler中的使用技巧: 2.1.继承必须有,要不脚本绑不到相机上 2.2当场景被调用时触发函数OnLevelWasLoaded,这个和Start一样属于一个机制函数。 3.自己做…

长安链Docker Java智能合约引擎的架构、应用与规划

#功能发布 长安链3.0正式版发布了多个重点功能,包括共识算法切换、支持java智能合约引擎、支持后量子密码、web3生态兼容等。我们接下来为大家详细介绍新功能的设计、应用与规划。 在《2022年度长安链开源社区开发者调研报告》中,对Java合约语言支持是开…

分布式幂等性解决方案

分布式幂等性如何设计: 在高并发场景的架构里,幂等性是必须得保证的。比如说支付功能,用户发起支付,如果后台没有做幂等校验,刚好用户手抖多点了几下,于是后台就可能多次受到同一个订单请求,不…

51单片机—直流电机

1.元件介绍 2.驱动电路 3.电机调速 一般会保证一个周期的时间是一样的 应用&#xff1a; 1.LED呼吸灯 #include <REGX52.H>sbit LEDP2^0;void Delay(unsigned int t) {while(t--); } void main() {unsigned char Time,i;while(1){for(Time0;Time<100;Time){for(i0;…

【前端寻宝之路】学习和总结HTML的标签属性

&#x1f308;个人主页: Aileen_0v0 &#x1f525;热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法|MySQL| ​&#x1f4ab;个人格言:“没有罗马,那就自己创造罗马~” 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不…

Linux-Arm环境下配置编译qt-everywhere及交叉编译环境

前言 最近在搞交叉编译的事&#xff0c;手上拿了个同事的香橙派玩交叉编译&#xff0c;现在来到了第一步&#xff0c;就是先在arm上配置qt的开发环境。当然了Qt没有直接提供qt on arm&#xff0c;而是需要自行在arm环境下编译一个qt环境出来&#xff0c;所以这里需要使用到qt提…

【Linux】vim详细介绍(四)

文章目录 什么是 vimvim的主要功能&#xff1a;vim的三种模式.viminfo和.vimrc文件 什么是 vim 点击跳转至官网了解更多 Vim是一款功能强大的文本编辑器&#xff0c;适用于各种编程和文本处理任务&#xff0c;最初由Bram Moolenaar开发于1991年。它是Vi编辑器的增强版&#xf…

项目当中 签到功能 +多级缓存+介绍一下点赞功能

签到是怎么做的&#xff1f; 刚开始想用数据库做来着&#xff0c;后来发现用数据库数据量太大&#xff0c;就找解决方案&#xff0c;想到了用bitMap 位图。 bitMap 位图是什么 &#xff1f; 我们采用的是radis 里的bitMap结构 他本质是字符串 最大512mb 是使用01 来存储…

GitHub Copilot+ESP开发实战-串口

上篇文章讲了GitHub Copilot在应用中可能遇到的问题&#xff0c;接下来小启就简单介绍下GitHub Copilot在ESP32开发中C语言实现串口功能&#xff0c;感兴趣的可以看看。 一、向Copilot提问&#xff1a; 1. ESP32用C语言实现串口初始化&#xff1b; 2.配置uart为1&#xff0c…