数据分析方法

数据分析方法

什么是数据分析

从数据到信息的这个过程,就是数据分析。数据本身并没有什么价值,有价值的是我们从数据中提取出来的信息。

分类

分类分析的目标是:给一批人(或者物)分成几个类别,或者预测他们属于每个类别的概率大小。

  举个栗子:“京东的用户中,有哪些会在618中下单?”这就是个典型的二分类问题:买or不买。

  分类分析(根据历史信息)会产出一个模型,来预测一个新的人(或物)会属于哪个类别,或者属于某个类别的概率。结果会有两种形式:

  形式1:京东的所有用户中分为两类,要么会买,要么不会买。

  形式2:每个用户有一个“会买”,或者“不会买”的概率(显然这两个是等效的)。“会买”的概率越大,我们认为这个用户越有可能下单。

  如果为形式2画一道线,比如0.5,大于0.5是买,小于0.5是不买,形式2就转变成形式1了。
  

回归

回归任务的目标是:给每个人(或物)根据一些属性变量来产出一个数字(来衡量他的好坏)。

举个栗子:每个用户在618会为京东下单多少钱的?

注意回归和分类的区别在:分类产出的结果是固定的几个选项之一,而回归的结果是连续的数字,可能的取值是无限多的。

聚类

聚类任务的目标是:给定一批人(或物),在不指定目标的前提下,看看哪些人(或物)之间更接近。

注意聚类和上面的分类和回归的本质区别:分类和回归都会有一个给定的目标(是否下单,贷款是否违约,房屋价格等等),聚类是没有给定目标的。

举个栗子:给定一批用户的购买记录,有没有可能分成几种类型?(零食狂魔,电子爱好者,美妆达人……)

相似匹配

相似匹配任务的目标是:根据已知数据,判断哪些人(或物)跟特定的一个(一批)人(或物)更相似。

举个栗子:已知一批在去年双十一下单超过10000元的用户,哪些用户跟他们比较相似?

频繁集发现

频繁集发现的目标是:找出经常共同出现的人(或物)。这就是大名鼎鼎的“啤酒和尿布”的例子了。这个例子太容易扩展,就不再举栗子啦。

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

统计(属性、行为、状态)描述

统计描述任务的目标是最好理解的:具有哪些属性的人(或物)在什么状态下做什么什么事情。

举个栗子:5月份一个月内每个用户在京东7天内无条件退货的次数

统计描述常常用户欺诈检测,试想一个用户一个月退货100+次,这会是一种什么情况?

连接预测

连接预测的目标是:预测本应该有联系(暂时还没有)的人(或物)。

举个栗子:你可能认识xxx?你可能想看xxx?

数据压缩

数据压缩的目的是:减少数据集规模,增加信息密度。

举个栗子:豆瓣想分析用户关于国外电影的喜好,将国内电影的评分数据都排除

大数据,也不是数据越多越好,数据多带来的信息多,但是噪声也会变多。

因果分析

顾名思义,因果分析的目标是:找出事物间相互影响的关系。

举个栗子:广告的效果提升的原因是广告内容好?还是投放到了更精准的用户?

这里最常见的手段就是A/B test。

在运营过程中,AB测试用得更加普遍,比如发送邮件或者广告,先拿小样本,测试多个版本,数据表明哪一个广告或邮件的转化率高,就用哪一个邮件或广告。

1 什么是A/B测试?

A/B测试是一种流行的网页优化方法,可以用于增加转化率注册率等网页指标。简单来说,就是为同一个目标制定两个方案(比如两个页面),将产品的用户流量分割成 A/B 两组,一组试验组,一组对照组,两组用户特点类似,并且同时运行。试验运行一段时间后分别统计两组用户的表现,再将数据结果进行对比,就可以科学的帮助决策。比如在这个例子里,50%用户看到 A 版本页面,50%用户看到 B 版本页面,结果 A 版本用户转化率 23%,高于 B 版本的 11%,在试验流量足够大的情况下,我们就可以判定 A 版本胜出,然后将 A 版本页面推送给所有的用户。

AB测试本质上是个分离式组间实验,以前进行AB测试的技术成本和资源成本相对较高,但现在一系列专业的可视化实验工具的出现,AB测试已越来越成为网站优化常用的方法。

A/B测试其实是一种“先验”的实验体系,属于预测型结论,与“后验”的归纳性结论差别巨大。A/B测试的目的在于通过科学的实验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的实验结论,并确信该结论在推广到全部流量可信。

相关连接

  1. A/B 测试
  2. 啤酒与尿布
  3. 什么是A/B测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/536075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RAID阵列基础知识

RAID阵列基础知识 独立硬盘冗余阵列 (RAID, Redundant Array of Independent Disks),旧称廉价磁盘冗余阵列(Redundant Array of Inexpensive Disks),简称磁盘阵列。 RAID的种类 这里我们只介绍比较常用的RAID类型&am…

timeshift备份你的Linux系统

timeshift备份你的Linux系统 安装 打开终端(ctrl alt T)并逐个执行以下命令 sudo apt-add-repository -y ppa:teejee2008/ppa sudo apt-get update sudo apt-get install timeshift 创建 点击Create按钮 默认不能备份用户下的文件,所以…

Go语言vscode环境配置

Go语言vscode环境配置 此教程在GO已经安装成功的前提下。 安装vscode扩展 在vscode扩展里面搜索go,然后下载扩展。 安装go 插件 在$GOPATH目录下创建bin,pkg,src切换到$GOPATH/bin目录下,打开终端输入以下命令,不需要翻墙: go…

Angular实现悬浮球组件

Angular实现悬浮球组件 在手机 App 上,我们经常会看到悬浮球的东东,用着可能很舒服,但是 web 网页上却很少见,今天我们就通过 Angular 来实现,当然使用其他框架也是可以的。 功能要求: 支持设置直径支持点击触发信号支持设置鼠标按压时间实现的过程中省略的部分天填坑过…

Docker+Nginx部署Angular国际化i18n

Docker+Nginx部署Angular国际化i18n 在Angular项目中添加default.conf文件 default.conf 为了支持局域网,增加一个域名,即本地的局域网ip地址。 server {listen 80;server_name localhost;server_name 192.168.2.172;location / {root /usr/share/nginx/html;lo…

消息队列-Message Queue

消息队列-Message Queue 目前随着互联网的普及以及上网用户的增多,拥有一套 安全、稳定、低耦合、高性能的内部通信工具尤为重要。 什么是消息队列? 消息队列(英语:Message queue)是一种进程间通信或同一进程的不同线…

Angular 第一章 开始

第一章 开始 用 JavaScript 开发应用程序是一个很大的挑战。由于它的延展性和缺少类型检查,在 JavaScript 中构建一个适当大小的应用程序是很困难的。除此之外,我们对所有类型的处理都使用JavaScript,例如用户界面(UI),操作、客户端-服务器交互和业务处理/验证。因此,我们…

Typescript实现单例之父类调用子类

Typescript实现单例之父类调用子类 设计要求 在程序中,需要一个对象可以全局使用,并且只有一个实例Breakpoint 类是一个可以被继承的类,然后子类必须实现 updateView函数updateView 这个函数可以被自动调用,当窗口发生变化的时候构思 UML 图 Layout 是一个单例类,也就是全局只…

Angular性能优化之脏检测

Angular性能优化之脏检测 当我们在使用 Angular 框架搭建项目时,随着组件越来越多,页面也来越复杂,性能会越来越低,主要表现在 CPU 使用率 很高。所以我们要对项目做一定的优化。 Angular脏检查(Change Detection)机制 Angular 的脏检测主要是指 zone.js,这是一个开源的…

第一章、第一节 Angular基础

第一章、第一节 Angular基础 让我们先来看看Angular是如何实现组件模式的。 组件模式 Angular 应用程序使用组件模式。你可能听说过这个模式,它不仅用于软件开发,还用于制造、建筑和其他领域。简单地说,它涉及到将更小的、离散的构建块组合…

Angular Chart.js第三方库ng-chartjs基础使用

Angular Chart.js第三方库ng-chartjs基础使用 项目github地址 这个项目支持基本的Chart.js图表,并且支持内联插件和全局插件的使用。 Demo地址 支持图表类型 linebarradarpiepolarArea安装 npm install ng-chartjs --save npm install chart.js --save导入 正常导入模块i…

linux一键安装node+npm

分享一个linux下一键安装nodenpm脚本。 使用方式为: ./install-node.sh,然后输入版本号,node.js版本查询 切记不需要加 sudo 执行!!! 默认安装10.15.0。 #! /bin/bash############################################################ # …

Angular Material 阴影使用

Angular Material 阴影使用 依托于 Angular Material 库,可以直接使用通用的符合 Material Design 风格的阴影。 使用 使用方式有两种: 外联样式设定,即在css或scss中设定通过class名称设定,即 元素的class名称方式一:外联样式使用 在scss或css文件中导入@import ~@ang…

typescript或javascript深拷贝Object json

typescript或javascript深拷贝Object json Object的json对象很多时候我们需要深拷贝,我写了两个工具函数,供大家参考。 deepCopyObject 深拷贝一个Object对象,返回深复制的对象。 /** * method 深复制一个json对象 * param source 需要深复制的对象 * return 返…

linux安装zsh终端

linux安装zsh终端 ZSH 已经被收录到了 Ubuntu 18.04 LTS 的官方软件包存储库中了 sudo apt install zshZSH Shell 安装好之后,可以使用如下命令查看其版本: zsh --version取代bash,设为默认shell sudo usermod -s /bin/zsh username也可以…

HTML meta使用

HTML meta使用 meta标签是什么? meta标签是HTML语言head区的一个辅助性标签。 meta标签是干什么用的? meta标签用来描述一个HTML网页文档的属性,例如作者、日期和时间、网页描述、关键词、页面刷新等。它提供的信息虽然用户不可见&#x…

共享图片方案

共享图片方案 安装chrome插件 极简图床安装,链接地址 插件使用 使用阿里云 OSS 存储图片 阿里云 OSS 提供了安全、低成本、高可靠的云存储服务,极简图床针对阿里云 OSS 做了整合,通过简单的设置,即可方便地将图片上传到阿里…

javascript复制到黏贴板之完美兼容

javascript复制到黏贴板之完美兼容 很多时候我们需要给用户方便,提供一键复制的功能,但是在实现的过程中遇到各式各样的坑。 原生解决方案 document.execCommand()方法 MDN上的定义: which allows one to run commands to manipulate the contents of the edita…

制作windows启动盘-大于4GB镜像

制作windows启动盘-大于4GB镜像 制作一个 Windows 安装 U 盘是很容易的,使用 UltraISO 这样的刻录工具量产一个 iso 镜像文件到 U 盘即可。然而随着 Windows 10 版本号的提升,镜像变得越来越大,终于 FAT32 文件系统不再能够容纳得下安装镜像…

DIY 主机 所有AMD IntelCPU及主板

DIY 主机 所有AMD IntelCPU及主板 查看intel的cpu及amd的cpu或者对应的主板可以查看这个项目。diy-pc