1. A/B Test

文章目录

      • 1、什么是A/B Testing ?
      • 2、A/B Testing 的用途?
      • 3、如何设计 A/B Testing?
      • 4、如何分析实验数据,得出结论?
      • 5、如何发行新产品并持续监测?
      • 学习链接

1、什么是A/B Testing ?

A/B Testing 是一种在互联网or科技公司常见的,帮助我们判断产品改善方案是否可行的、在线的一种统计实验工具。类似于初中生物学的对照实验。
举例:比如我们当前现存一个产品版本A,同时根据单一变量P原则 ,设计出一个改善后的版本B。接下来对实验用户分组,一组用户使用A、一组用户使用B。然后,在相同的时间维度内,观测两组用户的实验数据和反应。最后,根据假设检验原理,判断B版本相较于A版本而言,是否带来了统计学意义上的显著差异。同时,需要确定这些差异是否最终将带来商业价值。

实验中应遵循的原则(两个假设前提条件):

  • 单一变量原则:设计改善后的方案B时,只能改变一个变量。如果同时改变多个变量,假设最后的实验数据让我们得出的结论是,方案B带来了统计学意义上的显著改变,但此时我们很难说明这些改变应该归咎于哪个变量的改善。
  • 随机原则:将实验用户分到A组和B组时,应遵循随机原则,尽量减少样本选择偏差。可以提高最终实验结论的准确性。同时,将实验复制到更大规模的实验群体中时,尽可能保证实验结果是可复制的。最后,帮助我们制定更加准确和可靠的商业决策。

2、A/B Testing 的用途?

用途:帮助我们了解,就产品目前状态而言,哪种改善方案是更优的,以帮助我们将产品的表现从1提升到100(产品优化)。
相对而言不能帮助我们将产品表现从0提升到1,也就是创造出一个新产品。

不适用 A/B Testing 的场景:

  • 将产品表现从0提升到1,也就是创造出一个新产品。
  • 实验需要运行非常长的时间才能得出结果。因为实验要遵循单一变量原则,如果时间跨度较长,将不能保证变量单一。

When A/B Testing is not useful,we can:

  • 分析用户活动日志
  • 进行回顾性分析
  • 进行用户体验研究
  • 焦点小组和调查
  • 人工评价

3、如何设计 A/B Testing?

步骤:
1、确定指标:
a、不变指标(invariant metrics):对于实验组和对照组而言,恒定不变的指标。eg. 分配到两组中的用户数量是否相当;用户的分布情况是否相当;用户的语言系统是否相当。
b、评估指标(evaluation metrics):评价我们的优化方案是否得到了具体改善的指标。eg.人均收入;点击率;转化率。挑选评估指标时,需要注意指标的稳定性和敏感性。这样才能将实验的变化结果归因到变量P的变化上。

  • 稳定性:指标不会随着其他变量(非P变量)的变化有明显的波动
  • 敏感性:指标会随着变量P的变化发生相应的变化

2、确定显著性水平、统计功效、实际显著性水平
3、确定样本量
先确定,从哪个总体中选择样本。
Simple count(实验组样本量=对照组样本量)≈16*(Sigma)^ 2/(Delta)^ 2。Sigma为评估指标在总体中的标准差;Delta为评估指标需要在实验组和对照组之间形成的差异。
4、确定实验时长
采用逐次累加的方案进行实验。需要注意首位效应(privacy effect)和新奇效应(novelty effect)的影响。
假设每天的用户流量为2000、选用其中10%作为实验用户,那每天的实验组样本量=对照组样本量=100。Simple count=1000,实验时长=Simple count/100=5天。

4、如何分析实验数据,得出结论?

步骤:
1、得到实验数据后,先进行完整性检查(Sanity Check)。其中不变指标可帮我们进行完整性检查。只有通过完整性检查后,才可去分析数据、得出结论。
2、分析数据、得出结论。通过实验数据得出的结论为:

  • 差异不显著:找到不显著的具体原因。
  • 差异显著:对实验数据做细致化分析,分组分类,看改善出在哪个细分小组,避免辛普森悖论的存在。

5、如何发行新产品并持续监测?

先将新产品发行给小量的用户,再逐渐增加用户的流量和比例,直到完成100%的发行。

学习链接

https://www.bilibili.com/video/BV1Vx4y1E7dV

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/1163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入了解PBKDF2:密码学中的关键推导函数

title: 深入了解PBKDF2:密码学中的关键推导函数 date: 2024/4/20 20:37:35 updated: 2024/4/20 20:37:35 tags: 密码学对称加密哈希函数KDFPBKDF2安全密钥派生 第一章:密码学基础 对称加密和哈希函数 对称加密:对称加密是一种加密技术&…

[阅读笔记15][Orca]Progressive Learning from Complex Explanation Traces of GPT-4

接下来是微软的Orca这篇论文,23年6月挂到了arxiv上。 目前利用大模型输出来训练小模型的研究都是在模仿,它们倾向于学习大模型的风格而不是它们的推理过程,这导致这些小模型的质量不高。Orca是一个有13B参数的小模型,它可以学习到…

Java中的四种引用类型

6.Java中的引用类型 1.强引用 一个对象A被局部变量、静态变量引用了就产生了强引用。因为局部变量、静态变量都是被GC Root对象关联上的,所以被引用的对象A,就在GC Root的引用链上了。只要这一层关系存在,对象A就不会被垃圾回收器回收。所以只…

计算机视觉——OpenCV Python位运算与图像掩码

概述 位运算与图像掩码的结合允许对图像的特定区域进行精确的操作。通过使用位运算(如AND、OR、XOR和NOT),可以基于掩码的选择性地修改图像数据。位运算与图像掩码结合使用的一些关键点和应用场景: 选择性修改: 通过位…

内网云盘如何内网穿透实现公网访问

云盘是一种专业的互联网存储工具,是互联网云技术的产物,它通过互联网为企业和个人提供信息的存储、读取、下载等服务,具有安全稳定、海量存储的特点。随着企业信息化发展,云盘系统需求不断扩大,相关系统软件被广泛应用…

通用大模型研究重点之五:llama family

LLAMA Family decoder-only类型 LLaMA(Large Language Model AI)在4月18日公布旗下最大模型LLAMA3,参数高达4000亿。目前meta已经开源了80亿和700亿版本模型,主要升级是多模态、长文本方面工作。 模型特点:采用标准的…

IoC 思想简单而深邃

一、序言 本文跟大家聊聊 IoC 这一简单而深邃的思想。 二、依赖倒置原则 软件工程理论中共有六大设计原则: 单一职责原则:不存在多于一个的因素导致类的状态发生变更,即一个类只负责一项单一的职责。里氏替换原则:基类出现的地…

VSCode搭建内核源码阅读开发环境

0. 参考链接 使用VSCode进行linux内核代码阅读和开发_vscode阅读linux内核-CSDN博客 1. 搭建Linux内核源码阅读环境 现状,Linux内核源码比较庞大文件非常多,其中又包含的众多的宏定义开关配置选项,这使得阅读内核源代码称为一件头疼的事。 …

常见的七种排序

目录 一、插入排序 1、直接插入排序 2、希尔排序(缩小增量排序) 二、选择排序 3、直接选择排序 4、堆排序 三、交换排序 5、冒泡排序 6、快速排序 四、归并排序 7、归并排序 五、总结 一、插入排序 1、直接插入排序 思路: i 用来…

Lustre架构介绍的阅读笔记-客户端

本文是在阅读Introduction to Lustre* Architecture的Lustre File System – Clients时的笔记。 Lustre客户端部署在客户的计算节点上,工作时不占用本地的硬盘。 不使用本地硬盘作为缓存或者后备空间。对存储系统的访问均通过网络。 Lustre客户端作为Linux内核的…

文本溢出体验进阶:CSS 技巧实现单行/多行隐藏展示以及实际场景应用,确保内容可读性和布局整洁性

CSS文本溢出隐藏是一种常见的场景,它广泛应用于各种网页设计中,旨在确保内容的可读性和布局的整洁性,特别是在空间有限或需要适应不同屏幕尺寸的情况下。 一、文本溢出隐藏并显示省略号 1、单行文本溢出隐藏并显示省略号 对于单行文本&…

form的作用

HTML中的<form>标签主要用于收集用户输入的数据&#xff0c;并在用户提交表单时将这些数据发送到服务器进行处理。<form>标签及其内部的元素&#xff08;如<input>, <textarea>, <select>等&#xff09;一起构成了一个表单&#xff0c;用户可以通…

paho-mqtt 库揭秘

文章目录 **paho-mqtt 库揭秘**第一部分&#xff1a;背景介绍第二部分&#xff1a;paho-mqtt 是什么&#xff1f;第三部分&#xff1a;如何安装这个库&#xff1f;第四部分&#xff1a;库函数使用方法第五部分&#xff1a;场景应用第六部分&#xff1a;常见Bug及解决方案第七部…

【C语言笔记】dll库“__declspec”属性关键字总结,dllexport,dllimport

dll库“__declspec”属性关键字总结&#xff0c;dllexport&#xff0c;dllimport 一&#xff0c;简介二&#xff0c;介绍2.1 __declspec(dllexport)示例&#xff1a;1&#xff0c;extern "C"&#xff1a;2&#xff0c;__declspec(dllexport)&#xff1a; 2.2 __decls…

Swift-25-普通函数、闭包函数与Lamda表达式编程

函数 语法定义 先来看下swift中函数的定义&#xff0c;函数用关键字func来指定&#xff0c;语法相对复杂一点&#xff0c;主要有下列4种基本情况&#xff0c;还有比较复杂的&#xff0c;会在后续详细讲解。 无参函数定义 有参函数定义 一个简单的函数和函数调用示例如下&…

分类预测 | Matlab实现SCSO-SVM沙猫群优化算法优化支持向量机多特征分类预测

分类预测 | Matlab实现SCSO-SVM沙猫群优化算法优化支持向量机多特征分类预测 目录 分类预测 | Matlab实现SCSO-SVM沙猫群优化算法优化支持向量机多特征分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现SCSO-SVM沙猫群优化算法优化支持向量机多特征分类…

A1322 电烙铁发热芯热电偶温度与电压数据

就是这种四根线比较细的发热芯&#xff1a; 两根红色线是发热丝&#xff0c;另外两根是热电偶线&#xff0c;透明线是正极&#xff0c;不能搞错了。 非常粗略的测了一下&#xff0c;根本没有考虑误差。拿万用表直接测量热电偶的输出电压&#xff1b;用可调电源手动调节电压&am…

suse15 系统分区信息损坏修复案例一则

关键词 suse linux、系统分区fdisk、分区类型testdisk、grub2、bios There are many things that can not be broken&#xff01; 如果觉得本文对你有帮助&#xff0c;欢迎点赞、收藏、评论&#xff01; 一、问题现象 业务反馈一台suse服务器&#xff0c;因错误执行了fdisk分区…

TCP三次握手的原因

三次握手才可以阻止重复历史连接的初始化&#xff08;主要原因&#xff09;三次握手才可以同步双方的初始序列号三次握手才可以避免资源浪费为了确认双方的接收能力和发送能力都正常 为了实现可靠传输&#xff0c; 通信双方需要判断自己已经发送的数据包是否都被接收方收到&…

Linux 服务器硬件及RAID配置实战

服务器详解 服务器分类 可以分为&#xff1a;塔式服务器、机架服务器、刀片服务器、机柜服务器等。 其中以机架式居多 服务器架构 服务器品牌&#xff1a; 戴尔、AMD、英特尔、惠普、华为、华3&#xff08;H3C&#xff09;、联想、浪潮、长城 服务器规格&#xff1a; 规格…