【hive】相关性函数进行相关性分析

文章目录

  • CORR
  • COVAR_POP
  • COVAR_SAMP
  • STDDEV_POP
  • STDDEV_SAMP

在Hive SQL中,使用类似的相关性函数进行相关性分析。常见的相关性函数包括CORR、COVAR_POP、COVAR_SAMP、STDDEV_POP、STDDEV_SAMP等。

CORR

举个例子,假设有一个表格sales,其中包含两列数据sales_amtadvertising_amt,我们可以使用CORR函数来计算这两列数据的相关性:

SELECT CORR(sales_amt, advertising_amt) as correlation
FROM sales;

这将返回一个值,表示sales_amt和advertising_amt之间的相关性,值范围从-1到1。

  • 如果结果为正,则表示两列数据之间呈正相关关系;
  • 如果结果为负,则表示两列数据之间呈负相关关系;
  • 如果结果接近于0,则表示两列数据之间几乎没有相关性。

COVAR_POP

COVAR_POP函数是用于计算总体协方差的Hive SQL函数。它用于衡量两个变量之间的线性关系强度及方向。

COVAR_POP函数的语法如下:

COVAR_POP(expression1, expression2)

其中,expression1和expression2是需要计算协方差的两个数值表达式或列名。COVAR_POP函数返回的是这两个变量的总体协方差。

总体协方差(Population Covariance)是基于整个总体的样本数据计算得出的协方差。它衡量了两个变量在总体层面上的线性关系。协方差的结果可以为正、负或零,正值表示正相关,负值表示负相关,零表示无相关性。

需要注意的是,COVAR_POP函数的结果不具有标准化,无法直接进行比较。如果需要进行比较,可以使用相关性函数(如CORR)来衡量两个变量之间的相关性强度。


COVAR_SAMP

COVAR_SAMP函数是用于计算样本协方差的Hive SQL函数。它用于衡量两个变量之间的线性关系强度及方向。

COVAR_SAMP函数的语法如下:

COVAR_SAMP(expression1, expression2)

其中,expression1和expression2是需要计算协方差的两个数值表达式或列名。COVAR_SAMP函数返回的是这两个变量的样本协方差。

样本协方差(Sample Covariance)是基于样本数据计算得出的协方差,它用于估计总体协方差。与总体协方差类似,样本协方差的结果可以为正、负或零,表示两个变量之间的线性关系情况。

需要注意的是,样本协方差是样本统计量,对总体协方差进行估计。在实际应用中,通常使用样本协方差来估计总体协方差,并结合其他统计指标进行综合分析。

STDDEV_POP

STDDEV_POP函数是用于计算总体标准差的Hive SQL函数。它用于衡量一组数据的离散程度或变异程度。

STDDEV_POP函数的语法如下:

STDDEV_POP(expression)

其中,expression是需要计算标准差的数值表达式或列名。STDDEV_POP函数返回的是这组数据的总体标准差。

总体标准差(Population Standard Deviation)是基于整个总体的样本数据计算得出的标准差。它衡量了数据点相对于均值的离散程度。标准差越大,表示数据点越分散;标准差越小,表示数据点越集中在均值附近。

总体标准差的计算公式为:[ \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2} ]

其中,N表示总体样本容量,(x_i) 表示每个样本数据点,(\mu) 表示总体均值。

在实际应用中,总体标准差常用于描述整个总体数据的离散程度,帮助分析数据的分布情况。

STDDEV_SAMP

STDDEV_SAMP函数是用于计算样本标准差的Hive SQL函数。它用于衡量一组样本数据的离散程度或变异程度。

STDDEV_SAMP函数的语法如下:

STDDEV_SAMP(expression)

其中,expression是需要计算标准差的数值表达式或列名。STDDEV_SAMP函数返回的是这组样本数据的样本标准差。

样本标准差(Sample Standard Deviation)是基于样本数据计算得出的标准差,用于估计总体标准差。它衡量了样本数据点相对于样本均值的离散程度。与总体标准差类似,样本标准差越大表示样本数据点越分散,越小表示样本数据点越集中在均值附近。

样本标准差的计算公式为:[ \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} ]

其中,n表示样本容量,(x_i) 表示每个样本数据点,(\bar{x}) 表示样本均值。

在实际应用中,样本标准差常用于描述样本数据的离散程度,帮助分析样本数据的分布情况,并通过样本标准差来估计总体标准差。需要注意的是,样本标准差通常用于对样本数据的统计推断,而总体标准差用于对整个总体的统计推断。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/657797.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

StarRocks-3.1.0 单节点部署

1. 相关环境准备 FE: /opt/starrocks BE: /opt/starrocks 安装包下载 wget https://releases.starrocks.io/starrocks/StarRocks-3.1.0.tar.gz解压缩 tar -zxvf StarRocks-3.1.0.tar.gz 安装jdk (v2.5 及以上版本建议安装 JDK 11,我们使用…

搭建WebGL开发环境

前言 本篇文章介绍如何搭建WebGL开发环境 WebGL WebGL的技术规范继承自免费和开源的OpenGL ES标准,从某种意义上说,WebGL就是Web版的OpenGL ES,而OpenGL ES是从OpenGL中派生出来的。他们的应用环境有区别,一般来说:…

C++20 高级编程

文章目录 前言前奏lambda浅谈std::ref的实现浅谈is_same浅谈std::function的实现std::visit 与 std::variant 与运行时多态SFINAE类型内省标签分发 (tag dispatching)编译时多态奇异递归模板模式 (Curiously Recurring Template Pattern,CRTP) 三路比较操作符 (飞船操作符) <…

Django视图函数技巧,从入门到实战

文章目录 Django视图函数1.request对象的方法2.视图函数的常用的返回对象&#xff08;1&#xff09;response对象&#xff08;2&#xff09;JsonResponse对象&#xff08;3&#xff09;redirect() &#xff1a;给浏览器了一个30x的状态码 3.设置响应头和状态码&#xff08;1&am…

Apache Flink文件上传漏洞(CVE-2020-17518)漏洞代码分析

漏洞复现参考如下文章 Apache Flink文件上传漏洞&#xff08;CVE-2020-17518&#xff09;漏洞复现分析_文件上传漏洞复现cve-CSDN博客 分析代码的话&#xff0c;首先找到漏洞修复的邮件 漏洞详情&#xff0c;可以看到漏洞概要&#xff0c;影响的版本&#xff0c;漏洞描述以及…

【Linux笔记】文件描述符与重定向

一、Linux关于文件操作的一些系统调用 1、open和close 我们在C语言阶段已经学过很多文件操作的函数&#xff0c;今天我们要来看看操作系统中对于文件是怎么操作的。 1.1、open与close的用法 C语言的库函数中有很多关于文件操作的接口&#xff0c;包括fopen、fclose、fprint…

Docker容器引擎镜像创建

目录 一、镜像的创建 &#xff08;一&#xff09;基于现有镜像创建 1.启动一个镜像&#xff0c;在容器里做修改 2.将修改后的容器提交为新的镜像 &#xff08;二&#xff09;基于本地模板创建 &#xff08;三&#xff09;基于Dockerfile 创建 1.联合文件系统&#xff08…

MR混合现实情景实训教学系统在石油化工课堂上的应用

在石油化工课堂中&#xff0c;MR混合现实情景实训教学系统为学生提供了一个真实的实训环境。学生可以在系统中模拟各种石油化工生产流程&#xff0c;从原料的提取、加工到产品的包装和运输&#xff0c;都可以在模拟环境中进行操作。同时&#xff0c;系统还会根据学生的操作反馈…

联通森林2

时间限制&#xff1a;1秒 内存限制&#xff1a;128M 题目描述 输入若干森林&#xff0c;保证数据合法&#xff0c;请你判断某两个点是否在同一棵树上。 输入描述 第一行两个数n,m和q (0<m<n<1000000)&#xff0c;(1<q<10000)表示当前森林的节点个数为…

配置alias(设置别名@)

Vite配置alias需要两步进行&#xff08;TS项目&#xff09; 1、修改vite.config.ts&#xff08;让程序支持&#xff09;2、修改tsconfig.json&#xff08;让编辑器支持&#xff09;修改vite.config.ts import { defineConfig } from vite import path from path ​ function…

五大架构之一:系统架构数据流风格

系统架构数据流风格详细介绍 系统架构数据流风格是一种软件体系结构风格&#xff0c;它强调了系统内部不同部分之间的数据流动。这种风格侧重于描述系统中的数据处理过程&#xff0c;以及数据是如何从一个组件传递到另一个组件的。以下是系统架构数据流风格的详细介绍&#xff…

redisTemplate.opsForValue()

redisTemplate ​在Spring Data Redis中&#xff0c;redisTemplate 是一个非常重要的组件&#xff0c;它为开发者提供了各种操作 Redis 的方法。对于 opsForValue() 方法&#xff0c;它是用来获取一个操作字符串值的操作对象。这意味着你可以使用它来执行各种字符串相关的操作…

[文本挖掘和知识发现] 02.命名实体识别之基于BiLSTM-CRF的威胁情报实体识别万字详解

作者于2023年8月新开专栏——《文本挖掘和知识发现》&#xff0c;主要结合Python、大数据分析和人工智能分享文本挖掘、知识图谱、知识发现、图书情报等内容。这些内容也是作者《文本挖掘和知识发现&#xff08;Python版&#xff09;》书籍的部分介绍&#xff0c;本书预计2024年…

0.1 qt的信号槽机制在pyside6中的应用

一、什么是信号/槽 Qt中QObject之间需要进行通信&#xff0c;信号槽就是这种通信机制。简单来说信号槽就像是电视机和遥控器&#xff0c;你按遥控器发出指令&#xff0c;电视机作出相应的反应。 在界面开发中拿按钮来举例&#xff0c;当你点击按钮的时候&#xff0c;“点击”就…

前端面试题-网络请求-http请求方式-http状态码-url地址到浏览器渲染过程-跨域-请求测试工具-http和https

前端面试题-网络请求-http请求方式-http状态码-url地址到浏览器渲染过程-跨域-请求测试工具 http请求方式http的状态码有哪些&#xff1f;分别代表什么意思&#xff1f;从输入一个url地址到浏览器完成渲染的整个过程解决跨域的三种方式请求测试工具-postman的使用http和https h…

公司人才招聘工作开展难点分析

某国有资本运营公司位于北方某省级城市。在2019年&#xff0c;北方某市的当地政府提出组建专业化国有资本投资运营公司&#xff0c;大力开展专业化资本运营&#xff0c;推动国有资本进退留转市场出清和专业化重组的政策方针。为提高国有资产的管理运营能力&#xff0c;该市成立…

KAFKA高可用架构涉及常用功能整理

KAFKA高可用架构涉及常用功能整理 1. kafka的高可用系统架构和相关组件2. kafka的核心参数2.1 常规配置2.2 特殊优化配置 3. kafka常用命令3.1 常用基础命令3.1.1 创建topic3.1.2 获取集群的topic列表3.1.3 获取集群的topic详情3.1.4 删除集群的topic3.1.5 获取集群的消费组列表…

透视AI的智慧之源-解锁可解释性AI(XAI)

可解释性AI&#xff08;XAI&#xff09;是指使人类用户能够理解并信任机器学习算法创建的结果和输出的技术和方法。它旨在将AI模型从黑盒转换为白盒&#xff0c;使人们能够理解AI模型如何做出决策&#xff0c;包括决策的原因、方法和内容。 一、可解释性AI的定义 可解释性AI的…

AutoSAR配置与实践(深入篇)12.2 Time Synchronization[Adaptive Autosar]

AutoSAR配置与实践(深入篇)12.2 Time Synchronization[Adaptive Autosar] Time Synchronization一、TS典型应用场景二、CP和AP时间同步对比三、时间同步基础知识四、TBR部分参数说明五、 TS功能说明5.1 基本说明5.2 时间纠正计算说明5.3 时间验证Time Synchronization ->…

001集—shapefile(.shp)格式详解——arcgis

一、什么是shapefile Shapefile 是一种用于存储地理要素的几何位置和属性信息的非拓扑简单格式。shapefile 中的地理要素可通过点、线或面&#xff08;区域&#xff09;来表示。包含 shapefile 的工作空间还可以包含 dBASE 表&#xff0c;它们用于存储可连接到 shapefile 的要…