AB测试最小样本量

1.AB实验过程

常见的AB实验过程,分流-->实验-->数据分析-->决策:
分流:用户被随机均匀的分为不同的组
实验:同一组内的用户在实验期间使用相同的策略,不同组的用户使用相同或不同的策略。
数据收集:日志根据实验系统为用户打标记,用于记录用户行为,然后数据计算系统根据带有实验标记的体制计算用户的各种实验数据指标。
数据分析和决策:实验者去理解和分析不同的策略对用户起了什么样的作用。

2.中心极限定理

将策略推全来验证策略效果是比较危险的,因此AB实验的对象是从总体当中去抽样数据,总体的分布可能会有多种形态,如正态分布、偏态分布、严重偏态分布等,总体的数据量也有多有少。‘
AB实验是用小样本去推断整体,这就会有一个问题:抽样的样本至少多少能保证统计的科学性?

样本均值的分布,趋近于正态分布,正态分布曲线由均值和方差决定,该分布均值的均值E( ̅x)趋近于总体均值u。就算总体分布不是正态分布,依然可以通过抽样得到样本均值的分布,近似正态分布,这样就可以使用正态分布来估计置信区间,从而实现参数检验(如t检验)

3. 样本容量

当每次从总体中抽样数据时,计算均值会得到一个数,抽样同样的数据量,计算均值,也会得到一个数,两个数大概率不会一样,因此,当抽样多次,计算的均值就会形成一个分布。
当总体分布是正态分布时,样本容量n为任意数,u的抽样分布都是正态分布
当总体非正态,如指数分布、均匀分布等,样本容量n>30,  \bar{x}近似为正态分布
当总体非正态,分布为严重偏态或有异常值,样本容量n>50,\bar{x}近似为正态分布

上文说的样本容量,即每个随机样本中个体的数量,用n表示,当按照样本量抽取多次的时候,才能得到正态分布,抽样的次数,叫样本量。E( \bar{x}) = u 与样本容量无关,样本标准差\delta _{\bar{x}}和样本容量有关(总体标准差=样本标准差/\sqrt{n}),样本容量越大,样本标准差\delta _{\bar{x}} 越小。假设样本容量=总量,那最后就成一条线。
基于均值分布,就能计算出 \bar{x}在均值u附近一定举例的概率,反之根据概率,也可以得到置信区间。

4.最小样本量


   在正态分布中置信区间为[\bar{x} - Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}},\bar{x} + Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}]

   \alpha为显著性水平,置信水平是1-\alphaZ_{\frac{\alpha }{2}}为标准正态概率分布上侧面积为\frac{\alpha }{2}时的Z值,Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}为边际误差,边际误差的含义是在统计学中,业务人员主观上可以接受的误差范围。
   总体均值u,样本均值 ̅x ,两者之间的误差ε,u =  \bar{x} + ε

    误差ε与边际误差存在对应关系。

    指标主要有两种:均值类和比率类,有不同的边际误差计算方法。

    均值类指标\varepsilon =Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}},计算得到n=\frac{Z_{\frac{\alpha }{2}}^2{\sigma ^2}}{\epsilon ^2}

    含义:在当前的方差水平下,要以1-\alpha的把握检测出边际误差不大于ε的变化,样本量至少需要n个。

    从公式中可以看到,当边际误差减少为原来的\frac{1}{2}时,所需的样本容量变为原来的4倍,是指数级关系。因此,在满足业务需求的情况下,尽量采用较大的边际误差,由于边际误差是业务需要检测的最低变化幅度,所以又称为最小样本量。

    对比率类指标\bar{p}的方差计算与均值有所不同,方差=\bar{p}(1-\bar{p}),所以置信区间为:

[\bar{p}-Z_{\frac{\alpha }{2}}\sqrt\frac{\bar{p} (1-\bar{p})}{n},\bar{p}+Z_{\frac{\alpha }{2}}\sqrt\frac{\bar{p} (1-\bar{p})}{n}]

方差可以使用经验值或者小样本抽取,还可以\bar{p}=0.5,这样得到的n是一个最大值,因为我们知道当\bar{p}=0.5时,\bar{p}(1-\bar{p})能取到最大。

因此解出来的n为n=\frac{Z_{\frac{\alpha }{2}}^2{\bar{p}(1-\bar{p}})}{\epsilon ^2}

  
   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/688134.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HOOPS发布全新CAD文件支持以及改进的API性能版本!增加了对Navisworks和C#支持!

全球工程软件开发工具包的领先提供商Tech Soft 3D今天宣布推出HOOPS Exchange 2024(支持30多种文件格式的领先CAD数据转换SDK)和HOOPS Publish 2024,用于发布交互式3D PDF、3D HTML和3D CAD数据的领先工具包。 HOOPS Exchange现在支持Navisw…

C++day6

模拟跟随导演去动物园&#xff1a; #include <iostream>using namespace std; class Animal { private:string name; public:Animal(){}Animal(string name):name(name){}virtual void perform(){cout << name << "为我们讲解,说&#xff1a;" &…

php 数组函数

php 数组函数 1. 常用的php数组函数 1. 常用的php数组函数 array_pop() 删除数组中最后一个元素 array_push() 将一个或多个元素插入到数组的末尾 array_keys <?php $arr array("刘岩" > 30, "范冰冰" > 31, "娜扎" > 31);$…

~汉诺塔~(C语言)~

引言 汉诺塔&#xff08;Hanoi Tower&#xff09;&#xff0c;又称河内塔&#xff0c;源于印度一个古老传说。大梵天创造世界的时候做了三根金刚石柱子&#xff0c;在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘。大梵天命令婆罗门把圆盘从上面开始按大小顺序重新摆放在…

npm run serve启动报错npm ERR! Missing script: “serve“

启动项目的时候用npm run serve发现报了以下的错误 解决方法&#xff1a; 1.一般情况下&#xff0c;这个问题是因为package.json文件里面确实没有 这里没有可能因为你的脚手架版本比较低&#xff0c;如果不想换&#xff0c;可以用 这里面有的 npm run dev去启动也是可以的 n…

精工电联:定制精工线缆,赋能科技互联---致力于为客户提供卓越的连接线缆和连接器产品

精工电联 “定制精工线缆 &#xff0c;赋能科技互联”&#xff0c;精工电联致力于为高科技产业提供全方位、多维度的集成线缆解决方案。凭借深厚的研发实力和丰富的行业经验&#xff0c;精工电联已经成功地在工控设备、医疗设备、人工智能、新能源领域、轨道交通和超声波设备等…

分享一个学英语的网站

名字叫&#xff1a;公益大米网​​​​​​​ Freerice 这个网站是以做题的形式来记忆单词&#xff0c;题干是一个单词&#xff0c;给出4个选项&#xff0c;需要选出其中最接近题干单词的选项。 答对可以获得10粒大米&#xff0c;网站的创办者负责捐赠。如图 触发某些条件&a…

el-form validator的校验提示遮盖下边的内容

问题&#xff1a;表单的validator校验&#xff0c;无法自动撑起tip提示的高度&#xff0c;导致遮盖了下边内容 解决方式&#xff1a;将tip提示的样式的定位设置为遵循正常的文档流对象&#xff0c;实现自适应高度。 .el-form-item .el-form-item__content .el-form-item__err…

数据库MySQL中出现乱码和表格不对齐怎么解决

MySQL中出现乱码问题及解决办法&#xff1a; 情况类似&#xff1a; 首先进入到数据库中&#xff0c;命令&#xff1a;mysql -h localhost -uroot -p或者mysql -uroot -p;进入数据库后选择一个你的数据库查看表中的中文是否乱码 以上是数据库中表格出现乱码情况&#xff0c;原…

Cesium 问题——加载 gltf 格式的模型之后太小,如何让相机视角拉近

文章目录 问题分析问题 刚加载的模型太小,如何拉近视角放大 分析 在这里有两种方式进行拉近视角, 一种是点击复位进行视角拉近一种是刚加载就直接拉近视角// 模型三加载 this.damModel = new Cesium.Entity({name: "gltf模型",position:</

Redis:常用数据类型及其应用场景

Redis中常见的数据类型有五种&#xff1a;String&#xff08;字符串&#xff09;&#xff0c;Hash&#xff08;哈希&#xff09;&#xff0c;List&#xff08;列表&#xff09;&#xff0c;Set&#xff08;集合&#xff09;、Zset&#xff08;有序集合&#xff09;。下面我来分…

Java 基于 SpringBoot+Vue 的高校招生系统,附源码

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

[计算机网络]---Http协议

前言 作者&#xff1a;小蜗牛向前冲 名言&#xff1a;我可以接受失败&#xff0c;但我不能接受放弃 如果觉的博主的文章还不错的话&#xff0c;还请点赞&#xff0c;收藏&#xff0c;关注&#x1f440;支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 本期学习&#xf…

C++智能指针的知识!

个人主页&#xff1a;PingdiGuo_guo 收录专栏&#xff1a;C干货专栏 大家好呀&#xff0c;我是PingdiGuo_guo&#xff0c;今天我们来学习一下智能指针。 文章目录 1.智能指针的概念 2.智能指针的思想 3.智能指针的作用 3.1 自动内存管理 3.2 共享所有权 3.3 避免悬挂指针…

【多线程】线程的概念与创建

多线程 1. 认识线程&#xff08;Thread&#xff09;线程是什么为啥要有线程进程和线程的区别Java 的线程 和 操作系统线程 的关系 2.第⼀个多线程程序3.创建线程⽅法1 继承 Thread 类⽅法2 实现 Runnable 接⼝方法3 匿名内部类创建 Thread ⼦类对象方法4 匿名内部类创建 Runnab…

python-自动化篇-办公-批量新建文件夹并保存日志信息

文章目录 说明代码效果 说明 因为业务需要&#xff0c;每天都需要按当天的日期创建很多新文件夹。把这种重复又繁重的操作交给Python来做&#xff0c;一直是我的目标。先说下要求&#xff1a; 默认在桌面新建文件夹。文件夹命名方式&#xff0c;“月.日-1”&#xff0c;比如7…

transformer 最简单学习1 输入层embeddings layer

词向量的生成可以通过嵌入层&#xff08;Embedding Layer&#xff09;来完成。嵌入层是神经网络中的一种常用层&#xff0c;用于将离散的词索引转换为密集的词向量。以下是一个典型的步骤&#xff1a; 建立词表&#xff1a;首先&#xff0c;需要从训练数据中收集所有的词汇&…

Instagram 账号被封如何申诉?ins账号解封经验分享

不知道各位在玩转海外社媒平台时有没有遇到过Instagram账号异常的情况&#xff0c;比如会出现账号受限、帖子发不出去、账号被封号等情况?Instagram账号如果被封不用马上弃用&#xff0c;我们可以先尝试一下申诉&#xff0c;看看能不能把账号解封。所以今天将会出一篇Instagra…

开工大吉!秀一下我们假期の战绩

开工大吉&#xff0c;新年新气象 首先祝大家开工大吉&#xff0c;新年新气象。 祝我的粉丝股东们都能&#xff1a;顺利上岸&#xff0c;升职加薪&#xff0c;日进斗金&#xff01; 开工就要冲冲冲&#xff01; 春节假期我是好好放松了&#xff0c;在努力克制自己不要像之前…

VSCODE上使用python_Django

接上篇 https://blog.csdn.net/weixin_44741835/article/details/136135996?csdn_share_tail%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22136135996%22%2C%22source%22%3A%22weixin_44741835%22%7D VSCODE官网&#xff1a; Editing Python …