数据分析------统计学知识点(三)

相关性分析

1.趋势分析与散点图

散点图可帮助我们发现和理解变量间的关系,可直观观察是否有相关性。

(1)散点图定义及组成要素

散点图是一种以点的形式在直角坐标系上表示两个数值变量间关系的图表

横坐标(x轴):代表独立变量,如广告预算

纵坐标(y轴):代表因变量,如销售额

数据点:表示记录的坐标点,反映变量间的关系

(2)散点图表意原则

正相关:点呈现从左下到右上的趋势,意味着一个变量的增加通常伴随着另一变量的增加。

负相关:点分布从左上到右下,一个变量的增加伴随着另一个变量的减少

非线性相关:点分布呈曲线形状,表明变量间的关系更复杂

(3)散点图洞察数据的技巧

为最大化散点图的价值,以下技巧是必需的

(a)使用趋势线:加入趋势线可帮助我们1更清晰地看到数据的整体方向和强度

(b)调整透明度:当数据点过多重叠时,调整点的透明度可以更好的显示分布情况

(c)考虑数据密度:使用颜色深浅或大小代表数据密集区域,可以更好的揭示聚类效应

(4)散点图分析注意事项

异常值:可能会影响趋势的判断,需仔细分析其背后的原因

聚类:数据聚类在某些区域可能会隐藏其他区域的特征

非因果相关:相关性并不代表因果关系,需要防止错误解读

(5)幸存者偏差及其影响

幸存者偏差指的是在分析过程中,只关注“幸存”的数据,而忽略了那些因各种原因而未被观察到的数据。在散点图分析中,这可能导致对关系的错误评估。

2.相关性分析概念

相关性分析是衡量两个变量间的关系强度和方向的统计手段,它帮助我们理解不同数据之间的相互作用。

3.常用计算方法

皮尔逊相关系数:衡量两个变量线性相关程度的指标,取值范围在-1到1之间,其中1表示完全正相关,-1表示完全负相关,0表示无线性相关。

斯皮尔曼等级相关系数:是一种非参数的相关性衡量方法,用来评价两个变量的等级或顺序间的相关性。

4.方法优缺点、适用条件和计算步骤

皮尔逊相关系数

优点:适用评估线性关系强度

缺点:对异常值敏感,只能用于连续变量

适用条件:两变量均为连续且大致呈正态分布

计算步骤:标准化变量,计算协方差,除以两变量的标准差的乘积

斯皮尔曼等级相关系数

优点:不要求数据正态分布,对异常值不敏感

缺点:只能捕捉单调关系

适用条件:至少有一个变量是有序分类变量

计算步骤:对每个变量进行等级排序,计算等级之间的皮尔逊相关系数

5.相关性分析的经典应用场景

①金融领域:分析股票价格与市场因素的相关性

②医学研究:探究生活习惯与健康状况的相关性

③社会科学:研究教育水平与收入水平的关系

④市场营销:评估广告投放与品牌知名度的相关性

6.鉴别相关性陷阱的建议

①多角度分析:结合其他图表和统计方法,全面了解数据

②数据清洗:识别并处理异常值和缺失数据

③专业知识:结合领域知识,合理解释数据关系

7.互联网场景下的相关性分析

相关性分析帮助企业从大数据中提取有价值的信息,实现精准营销和服务

电商:分析用户属性与购买行为的相关性

通过用户年龄、地域、历史购买数据等属性与其购买时间之间的相关性分析,可以实现个性化推荐,提高转化率

社交媒体:研究用户互动行为背后的相关因素

分析点赞、评论等用户互动行为与内容特征、发布时间等因素的关系,有助于优化内容推送策略

搜索引擎:挖掘搜索query与用户属性的相关性

关联用户的查询关键词与其个人信息,可以优化搜索算法,提高更为精准的搜索结果

在线广告:利用相关性分析给用户投放最感兴趣的广告创意

结合用户的浏览历史、点击行为与广告点击率进行相关性分析,可以帮助精准投放广告,增加广告效果。

标准差

1.标准差:数据离散程度的度量

反映了数据与其平均值之间的偏离程度。标准差越大,说明数据的离散程度越高;反之标准差越小,数据的离散程度越低。除标准差,还可以用离散系数来描述数据的离散程度。

离散系数是标准差与平均值的比值,通常用百分数表示,可以让我们更直观的比较不同的数据集的离散程度,尤其是当它们的量纲or平均值差异较大时

2.标准差的应用

①识别异常值:若某个数据点与平均值的偏差超过2-3个标准差,则通常可将其识别为异常值,离群值。

②构建置信区间:在一定置信水平(常用95%),我们可以用标准差构建一个区间,该区间有很大概率包含总体的真实参数。

③比较不同组别的数据:通过比较不同的组别数据的标准差,我们可以了解哪个组的数据更稳定,哪个组的数据波动更大。

3.标准误差:抽样误差的度量

实际工作通常无法获取全部总体数据,而只能通过抽样的方式来推断总体特征。标准误差就是用来描述由于抽样引入的误差。

公式:标准误差=标准差/根号n,n为样本量。样本量越大,标准误差越小,即抽样误差越小。

4.标准误差的应用

①估计总体参数

利用样本统计量和标准误差,可构建总体参数的置信区间,从而对总体参数进行估计。

②比较不同样本的差异

当想要比较两个或多个样本的均值时,可利用标准误差计算它们之间的差异是否具有统计学意义。

③确定样本量

在设计抽样调查时,可根据标准误差的大小来确定所需的样本量,以控制抽样误差在可接受的范围内。

5、互联网企业的应用场景

①用户行为分析:分析用户的活跃度、留存率、付费金额等指标时,可利用标准差来识别不同用户群体之间的差异,找出高价值用户or流失风险用户

②A/B测试:进行产品优化时,通常会将用户随机分成两组或多组,分别体验不同的产品版本,通过比较不同组别的关键指标(eg:转化率、点击率)的均值、标准误差,可判断哪个版本表现优

③广告效果评估:对于广告投放,我们需要评估不同广告创意或投放渠道的效果,利用标准差和标准误差,我们可以比较不同的广告或渠道的点击率、转化率等指标优化广告策略。

④异常检测:在实时监控系统的关键指标时,可利用标准差来设置异常阈值。当指标偏离平均值超过一定的标准差时,系统就会自动报警,提醒数据分析师及时处理潜在的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848034.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL小白10分钟快速入门

SQL(Structured Query Language)是一种用于管理关系型数据库的标准化编程语言。以下是SQL的入门基础教程,涵盖了一些基本概念和常用操作。 1. 数据库和表 数据库(Database):一个存储数据的容器。表&#…

【JavaScript脚本宇宙】领先的静态网站构建工具:全面对比

静态站点生成器大解析:找出哪一款最适合你 前言 本文将探讨六种不同的静态站点生成器和React框架,包括Gatsby,Next.js,Jekyll,Hugo,Hexo和Eleventy。这些工具各有特色,提供了丰富的功能和使用…

PEI转染试剂如何保存呢?

转染试剂是瞬时转染生产病毒载体的主要原材料之一。作为上游病毒生产的重要原物料之一,转染试剂对病毒载体的产能具有重要影响。而转染试剂的转染效率、稳定性都直接影响着大规模病毒载体生产的产能与周期。因此,了解PEI转染试剂正确的保存方法对于保障实…

实现k8s网络互通

前言 不管是docker还是k8s都会在物理机组件虚拟局域网,只不过是它们实现的目标不同。 docker:针对同一个物理机(宿主机) k8s:针对的是多台物理机(宿主机) Docker 虚拟局域网 K8S虚拟局域网 …

net::ERR_INCOMPLETE_CHUNKED_ENCODING 200

首先了解 proxy_buffers 是Nginx中用于配置代理服务器响应的缓冲区大小的指令,它对于优化Nginx服务器性能以及提升用户体验至关重要。通过合理设置proxy_buffers及其相关参数,可以有效地管理服务器资源,提高处理请求的效率,减少数…

借鉴与创新 台湾Apex齿轮减速机PII系列

台湾Apex Dynamics公司以其卓越的减速机技术,长期在全球机械传动领域占据着重要的地位。其中,齿轮减速机PII系列作为齿轮箱Apex基线的新成员,更是凭借其独特的性能和设计受到了广泛的应用。 APEX齿轮减速机PII系列在重量,尺寸&…

CANoe仿真工程Switch控件关联dbc信号出现的问题及解决思路

小白学习CANoe仿真,参考CANoe-第2个仿真工程-XVehicle—1总线数据库设计(思路)_canoe vehicle-CSDN博客 CANoe-第2个仿真工程-XVehicle1总线数据库设计(操作)_canoe factor 参数什么意思-CSDN博客CANoe-第2个仿真工程…

【计算机网络】对应用层HTTP协议的重点知识的总结

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

mysql服务默认仅允许本机访问,其他计算机是无法远程连接的,如果您想远程连接mysql需要做一下操作

mysql服务默认仅允许本机访问,其他计算机是无法远程连接的,如果您想远程连接mysql需要做一下操作 打开命令行或终端,进入移动平台安装根目录,执行以下命令 windows:dbsvr\mysql\bin\mysql -P 4806 -u root -p linux&…

多语言接入淘宝API抓取淘宝数据库数据获取详情页信息评论数据等,打造个性化营销策略

在数字化时代,个性化营销已成为品牌与消费者建立联系的关键。淘宝API作为强大的工具,能够帮助商家深入挖掘消费者需求,实现精准营销。本文将探讨如何通过淘宝API提升营销效果,增强用户体验。 消费者洞察: 淘宝API提供丰…

深拷贝的实现方式

深拷贝的实现方式主要有以下几种,这些方式在处理不同的情况时各有优劣: 递归函数实现: 原理:通过递归的方式遍历对象的所有属性,如果属性是基本类型则直接复制,如果属性是引用类型 则继续递归拷贝。示例…

三.网络编程套接字_TCP

一.序言 在上一章中,我们已经实现了用udp来实现网络编程,这一节我们用tcp来实现网络编程,通过对比两者编写过程的区别,来加深对udp,tcp的理解! (两者其实差别不大!有了udp的基础,学习起来tcp会…

记录Object.defineProperty使用以及Proxy的使用

1.Object.defineProperty使用: // 本体 const obj1 {a: 1,b: 2,c: 3, };// 通过代理对象 来监听本体修改 const definePropertyObj {}; // 使用Object.defineProperty监听对象 for (const key in obj1) {Object.defineProperty(definePropertyObj, key, {get() {c…

按摩师 | 打家劫舍 | 删除并获得点数 | 动态规划

1.按摩师(打家劫舍 I) 题目连接:面试题 17.16. 按摩师 一个有名的按摩师会收到源源不断的预约请求,每个预约都可以选择接或不接。在每次预约服务之间要有休息时间,因此她不能接受相邻的预约。给定一个预约请求序列&am…

java基础filter servlet interceptor controller之间的关系

servlet Servlet是运行在Web服务器上的Java类。它们主要用于处理HTTP请求和响应。 Servlet可以接收来自客户端(例如浏览器)的HTTP请求并生成响应,这些响应通常是HTML页面、XML文档或其他格式的数据。Servlet通常被设计用来扮演Web应用的控制…

selenium 输入框、按钮,输入点击,获取元素属性等简单例子

元素操作 nput框 输入send_keys, input框 清除clear(), 按钮 点击click() 按钮 提交submit() 获取元素, tag_name、 class属性值、 坐标尺寸 """ input框 输入1次,再追加输入一次, 清除&#xff0c…

PyQt5学习系列之基础知识“字典”

PyQt5学习系列之基础知识——字典” 啰嗦字典使用字典取值与赋值其他使用 总结 啰嗦 在项目中使用到解析数据存放在字典中,对字典中的数据进行数据转化。即需要使用到字典,并对字典中的数据取值。 字典 一种可变容器模型存储任意类型对象每个键值对&am…

视频监控管理平台智能边缘分析一体机安防管理平台客流统计检测算法商场的场景应用方案

随着科技的不断发展,智能化技术已经广泛应用于各个领域。在商业领域,智能边缘分析一体机作为一种新兴的技术手段,为商场提供了一种高效、准确的客流统计方法。本文将探讨智能边缘分析一体机在商场客流统计中的应用方案。 商场作为人们日常生活…

【c语言】自定义类型-结构体

结构体 结构体的声明与使用结构体的声明与初始化结构体的自引用 结构体的内存对齐对齐规则为什么存在内存对齐修改默认对齐数 结构体的传参结构体实现位段什么是位段位段的内存分配位段的跨平台问题位段使用的注意事项 结构体:是一个自定义的类型,成员可…

利用CY3-COOH的羧基官能团标记蛋白质-星戈瑞

蛋白质作为生命体系中的关键分子,参与众多生物过程。因此,对蛋白质进行特异性标记和追踪是生物学研究中不可或缺的一环。CY3-COOH作为一种带有羧基官能团的荧光染料,具有强烈且稳定的荧光性质,被应用于蛋白质的标记和可视化。 标…