异动分析技术解决方案—异动归因之指标拆解

简介:归因的方法有多种,这篇文章的重点是指标拆解,也是我们做业务分析时最常用到的方法。我们的目的是解放人力,将指标拆解实现自动化,一方面可以加快业务迭代速度,快速定位问题;另一方面可以对可能产生异动的维度进行全局量化,增强可比性,明确下一步的业务行动点的优先级。自动化异变归因的目的是为了尽快判断并抓住机遇,寻求以数据驱动作为灯塔指引业务航向。

作者 | 伊琏
来源 | 阿里技术公众号

一 前言

唯一不变的是变化,在拥抱它前,请事先探知、归因、并充分准备。

在相对完善的指标体系建设背景下,我们需要通过指标以及指标波动的解读来描述、追踪、推动业务。当一个指标波动时,我们首先需要从业务视角判断其波动是否异常,即异动检测,其次判断异常背后的原因是什么,即异动归因。

归因的方法有多种,这篇文章的重点是指标拆解,也是我们做业务分析时最常用到的方法。我们的目的是解放人力,将指标拆解实现自动化,一方面可以加快业务迭代速度,快速定位问题;另一方面可以对可能产生异动的维度进行全局量化,增强可比性,明确下一步的业务行动点的优先级。自动化异变归因的目的是为了尽快判断并抓住机遇,寻求以数据驱动作为灯塔指引业务航向。

二 目的

三 贡献率的拆解方法

1 加法拆解

举例针对绝对值指标的维度拆解都是加法拆解。绝对量指标的同比/环比变化,就是各个分指标变化的加权求和,例如访问uv总和等于各渠道uv加总, 那么总uv的变化下钻贡献率等于各渠道分别的变化除以上个月的总uv数。

2 乘法拆解

举例 漏斗模型,借助用户动线,拆解指标。

以全站商品详情页的浏览量(ipv)为例,其变动涉及流量、承接页到商品详情页的转化(uv-d转化)、商品详情页用户人均浏览量(人均pv),分别对应了用户增长、搜推场景承接以及私域用户活跃度等业务域或用户行为指标。借此对全站ipv的构成链路进行静态乘法拆解:

3 比率型指标拆解

4 实例应用

根据上文提到的不同指标的计算方法,支持全类型指标下钻求贡献的场景, 可根据先验业务输入搭建多层的归因逻辑模型, 层层下钻,最终将指标波动定位。

图二:计算贡献率之后的数据结果样式

以2011年某日ipv同比下跌的异动分析为例:

第一层拆解,借助用户动线,将存在异动变化的指标ipv构成链路进行乘法拆解,如下:

这里帮助我们定位到可能导致指标异动的关键节点,这有助于我们将问题定位到具体业务域,例如是uv的问题,转化的问题,还是人均ipv的问题?

第二层拆解,对关键节点处的多个维度进行下钻,将问题定位到某些维度的某些水平上,同时避免陷入辛普森悖论等陷阱,这有助于我们形成具体业务域有所行动, 例如如果是转化的问题,究竟是哪个渠道的转化减少了?

下图“异动分析拆解流程图”是根据先验的业务输入搭建的归因模型,根据其框架得以进行贡献率拆解与问题定位:

图三:指标拆解逐层归因

红色表示的链路指标或维度代表对总值下跌贡献率较大,经过一层一层的拆解定位到app端自然流量中转化的降低导致总转化下降。

基于流量跨端调控以及流量预算减投的业务背景,我们现将对ipv贡献最大的uv/duv根据端型、流量渠道类型、流量渠道、国家四个维度进行贡献率拆解。

在本实例中,通过本文对贡献率拆解方法与业务人工看数得到的问题定位基本一致,该方法可以实现异动贡献率量化与提效的目的,具体核心结论如下:

结论一 (第一层拆解)ipv下降主要影响因素是uv-d转化率的波动。

结论二 (第二层拆解)uv-d比率的波动主要由APP端与WAP端导致,两种端型贡献持平。

结论三 (第三/四层拆解)APP端的自然流量和wap端的付费流量是uv-d总比率波动的主要贡献维度。

结论四 (第五层拆解)APP端self-visit中美国对uv-d比率的波动贡献较大。

通过建立多层归因下钻维度模型, 用自动化的方式层层剥析,从而能尽求完善且正确的归因到某个维度,从而节省人力,提高准确和科学性。

四 多层下钻归因方案—决策树

本节重点在拆解求出贡献率之后,如何探查异动。我们已经把不同维度下,每个维值的贡献率求出, 下一步的目的是求出贡献最大(有异动的)的维度维值组合,测三种拆解方案,包括逐层下钻(同上文3.4的下钻方式)、多层同步下钻、 决策树模型,发现决策树模型效果最好。这里决策树输入为不同的维值组合,输出为贡献率,做的是回归预测。

主要做法是求贡献率的熵,找到信息增益最高切割方法。这里自然而然想到决策树模型,通过贪心算法,切割数据空间, 找到贡献率绝对值最高的维度组合空间。图四长方形整体表示数据空间,

表示两个维度,其下角标表示维度下的维值。下图具象的看出通过不同维值的组合,把数据空间切割成不同块,用不同的颜色代表。

图四:决策树对数据空间的切割可视化

1 剪枝

决策树存在过拟合的问题, 为了解决这个问题,我们决定了剪枝的方法,采用后剪枝(Post-pruning)。后剪枝就是先把整颗决策树构造完毕,然后自底向上的对非叶结点进行考察,若将该结点对应的子树换为叶结点能够带来泛华性能的提升,则把该子树替换为叶结点。

后剪枝的方法包括:REP-错误率降低剪枝, PEP-悲观剪枝, CCP-代价复杂度剪枝, MEP-最小错误剪枝。

图五:异动维数的个数与结点方差(熵)的关系

我们从图五的事例启发,按照CPP的方法, 找跃层增益较大的“拐点”,找到合适的图片进行剪枝。

五 模型表现

1 模拟数据

我们模拟的维度和维值如下,共4个维度(两两独立), 涉及维值共40个,4个维度维值组合(笛卡尔积 3123*4=744)共744个。模拟的时间对比为月环比,模拟指标为广告消耗。

无异动数据:用白噪音图片模拟无异动的维度组合的时间序列,见图六

图六:无异动的时间序列

有异动数据:用随机游走的累积和来模拟异动,公式如下,见图七

图七(a):有异动的时间序列1

2 模型评估

在上图四个维度(国家、渠道、端型、曝光档位),指定特定的维度和维值在3月有异动,通过决策树模型,测试是否找到正确异动点。模拟case考虑的主要是可能存在异动的真实情况:

  1. 某个PID数据录入异常,会影响单维度的异动(仅那个PID的数据)。
  2. 某个渠道且某个端型的减投,会影响多个维度组合的异动。由于指标异动涉及的业务繁杂,不同团队在不同方向的优化,影响到不同的维值组合。

例一:异动维度在两处

异动维值组合:

a. 国家=伊拉克, 渠道=免费, 端型='WAP', 曝光档位=[5:100]
b. 国家=法国, 渠道=免费, 端型='PC', 曝光档位=[0:5]

将贡献度算出,数据输入决策树模型, 结果见图八,可以看出决策树精确的找到异动的数据(共精确找到7个维值,共8个), 且这两组标红数据对于异动的贡献绝对值最大。我们自定义树结构找父节点的方法,自动剪掉冗余分支,只截取重点枝干呈现。

图八:决策树结果呈现

特征重要性也符合预期:

例二:异动维度在一处,只异动一个维度在付费上

异动维值组合:a. 渠道=付费

通过剪枝,模型成功找到一维信息,避免提供太多噪音令用户混淆。

更多

表一包含更多维值组合案例, 以及模型表现,包括F1-score,模型输出的结果,和特征重要性。已探索11个案例,平均F1-score达到91.9%。

下面的数量是异动的维值个数:

| Positive Prediction | Negative Prediction
Positive Class | True Positive (TP) 34 | False Negative (FN) 6
Negative Class | False Positive (FP) 0 | True Negative (TN) 0

最后结果:

Precision = 34 / (34 + 0) = 100%
Recall = 34 / (34 + 6) = 85%
F-1 Score Overall = 91.9%

六 局限

但此方法论还是有其局限性的,主要在于归因变量(下钻维度)有限,大多数情况下是按照业务的理解和先验的经验来判断。本方法只能识别业务已经认可的拆解维度和链路定位,拆解到的指标或维度都是已知业务系统内的指标,诸如工程问题、宏观政策等因素难以识别,需要辅以定性分析。具体来说,我们看到pv下降,下意识要去从渠道下钻,主要原因是我们因为渠道作为变量,是和pv数有正向(或者因果)关系的。举个极端的例子,有可能是服务器的故障,导致全平台的pv下跌。这样的潜在变量,如果和常用下钻变量彼此相互独立的条件下,是无法通过此方法论探查得到的。我们后续的工作将重点放在对相互独立的指标和相关事件的角度做进一步更全面的因果推断算法研究。

七 技术产品化

我们工作中月报和周报中通常分析的方法与此类似,不同的是,因为人力有限,数据庞杂,往往下钻维度和层数局限,比率类型指标不知道如何下钻等等,导致科学性和严谨性很难保持。这套方法实现了自动化,保证计算的准确性,节省人日。我们将此技术沉淀在内部数据产品“象数”上。象数中心是ICBU数据驱动的基石产品,是集数据资产定义与管理、A/B实验、洞察分析于一体的数据平台。它提供的核心价值在于好找、敢用、持续保鲜的数据资产,大规模、可信的端到端实验能力,以及因果、异动等智能化的分析工具。

八 附录

证明 加法贡献算法

已知 

贡献等于

证明 乘法贡献算法

已知 

贡献等于

目标波动

证明 比率贡献算法
已知

, 其中是当月的数据,为上个月(同比/环比)的数据。 

贡献等于

算法得到的贡献率依旧相互独立,符合MECE原则,且通过分别观测图片和图片有助于我们避开辛普森悖论带来的陷阱。

备注:

符合mece原则证明:相互独立:和的计算公式中不涉及其他分项的完全穷尽。

参考

Ang, Beng W., F. Q. Zhang, and Ki-Hong Choi. "Factorizing changes in energy and environmental indicators through decomposition." Energy 23.6 (1998): 489-495.
Ang B W . The LMDI approach to decomposition analysis: a practical guide[J]. Energy Policy, 2005, 33(7):867-871.
《波动解读—指标拆解的加减乘除双因素》《波动解读—指标拆解的加减乘除双因素》 - 知乎

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511082.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里巴巴云原生混部系统 Koordinator 正式开源

简介: 脱胎于阿里巴巴内部,经过多年双 11 打磨,每年为公司节省数十亿的混部系统 Koordinator 今天宣布正式开源。通过开源,我们希望将更好的混部能力、调度能力开放到整个行业,帮助企业客户改进云原生工作负载运行的效…

足不出户,确保交付——独家交付秘籍(第二回)

简介:在后疫情时代,遇到无法出差、无法访客时,如何保障交付按时保质的进行,做好运维质量的保障,从而不影响企业整体营收,已成为我们生死攸关的难题。小锤在遇到无法只通过远程就完成项目交付验收&#xff0…

如何使用 PTS 快速发起微服务压测

简介:本文讲阐述什么是微服务架构、微服务架构对系统稳定性带来的影响,以及用性能测试验证稳定性的必要性、用户进行微服务压测的痛点和 PTS 的独特优势、云上使用 PTS 快速发起微服务压测的步骤,以及压测完成后排查分析相关问题的 Tips。 作…

一首让计算机崩溃的歌曲!

大家好,我是轩辕。想象一个场景:手机里播放一首音乐,然后你带着手机从一台电脑旁经过,电脑就被你弄崩溃死机了。这是不是有点像电影里的桥段?一年前,我写过一篇文章:电脑关机了,黑客…

OpenYurt 之 Yurthub 数据过滤框架解析

简介:OpenYurt 是业界首个非侵入的边缘计算云原生开源项目,通过边缘自治,云边协同,边缘单元化,边缘流量闭环等能力为用户提供云边一体化的使用体验。在 Openyurt 里边缘网络可以使用数据过滤框架在不同节点池里实现边缘…

金融核心系统云原生转型的三个挑战、六个误区和四个步骤

嘉宾 | 马振雄出品 | CSDN云原生近年来,云原生技术发展如火如荼,IT系统云原生转型已成共识,留给各行各业的只是何时云原生、怎样云原生的时间和方式问题。金融行业作为各类转型历来的排头兵,在推进云原生转型上同样不逞多让。金融…

Java 定时任务技术趋势

简介:定时任务是每个业务常见的需求,比如每分钟扫描超时支付的订单,每小时清理一次数据库历史数据,每天统计前一天的数据并生成报表等等。 作者:黄晓萌(学仁) Java 中自带的解决方案 使用 Ti…

从再造到赋能——360数科举办第二届技术开放日

8月31日,360数科在北京举办“从再造到赋能——2022年技术开放日”。这是360数科的第二届开放日,全面展示了公司在金融科技业务全环节的精细化运营成果,呈现了360数科从市场连接者到流程再造者的技术演化历程,展望了其成为行业赋能…

EventBridge 特性介绍|以 IaC 的方式使用 EventBridge

简介:本文将重点介绍 EventBridge 和 IaC 的重点概念和特性,然后演示如何应用 IaC 理念自动化部署 EventBridge 来使用这些概念和特性。 作者:王川(弗丁) 引言 EventBridge 作为构建 EDA 架构的基础设施&#xff0c…

如何使用 Serverless Devs 部署静态网站到函数计算(上)

简介:部署个静态网站到函数计算~ 前言 公司经常有一些网站需要发布上线,对比了几款不同的产品后,决定使用阿里云的函数计算(FC)来托管构建出来的静态网站。 FC 弹性实例自带的500 Mb 存储空间对静态网站来说简直是太充足了 。 函…

盛邦安全创始人权晓文入选IDC中国CSO名人堂十大人物

在近日举办的IDC 2022 CSO全球网络安全峰会(中国站)上,盛邦安全入选API领域推荐厂商,盛邦安全创始人权晓文入选“中国CSO名人堂(十大人物)”,展现了盛邦安全在网络安全创新方面的不断进取和突出…

硬核调试实操 | 手把手带你实现 Serverless 断点调试

简介:本文将借助 Serverless Devs 工具,对函数计算 (FC)应用的断点调试步骤进行详细指导,手把手带你实现 Serverless 的断点调试,并从以下四个方面为你厘清“硬核调试”的脉络步骤,干货满满。 导读&#x…

兑现 Service Mesh 的新价值:精确控制“爆炸半径”

简介:本文分享了阿里云内部所沉淀的全链路流量打标与路由的能力,做出服务网格技术新体验的同时,很好地兑现了服务网格的新价值。 作者:至简 软件是以持续迭代的方式去不断演进的。某种程度上,我们并不担心软件不完善…

15M安装包就能玩《原神》,带你了解云游戏背后的技术秘密

简介:对于大多数玩家来说,云游戏已经不是一个陌生的概念,它经常和秒玩、不吃设备、大屏临场感、上手门槛低、真香等字眼一起出现在评论留言区。的确,对于既想尝试高品质游戏大作又不想一直卷装备的玩家来说,云游戏做到…

ref绑定dom的三种写法

1、字符串形式 这种字符出串写法因为效率不好&#xff0c;所以不推荐使用 语法 标签上使用ref"name" 进行绑定 方法中this.refs.name拿到dom <input ref"input1" type"text" placeholder"点击按钮弹出内容" /> <button onC…

一文看懂边缘云在广电行业的应用

简介&#xff1a;随着中国广电的5G布局在不断加速&#xff0c;各地广电运营商均已开展面向边缘云建设和业务探索。边缘云作为5G网络架构中关键一环&#xff0c;具有广覆盖、低时延、大带宽的技术特点&#xff0c;是打通智慧广电建设的“经脉”&#xff0c;对未来开展4K/8K超高清…

2022 互联网中秋月饼大赏,腾讯送火腿,字节寓意圆满,你最钟爱哪款呢?(文末有抽奖)...

整理 | 梦依丹出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;配图来自视觉中国又是一年花好处&#xff0c;人月中秋两团圆&#xff01;今年的中秋&#xff0c;你是在家乡还是在他乡度过呢&#xff1f;无论在何处&#xff0c;只要心在一起&#xff0c;多远都不是距…

宜搭小技巧|自动计算日期时长,3个公式帮你敲定

简介&#xff1a;使用「时间函数」实现日期时长自动计算功能&#xff0c;让表单填写更轻松。 上一期&#xff0c;我们学会了如何巧用日期组件保证时间填写不出错。 今天&#xff0c;宜小搭要出差&#xff0c;由于公司要根据出差时长发放补贴&#xff0c;但手动计算出差天数太…

构造函数、实例、原型对象、继承

一、构造函数与原型对象之间的关系&#xff1a; 有一个Star构造函数&#xff0c;每一个构造函数里面都有一个原型对象&#xff0c;是通过构造函数的prototype指向这个原型对象的 同样在这个原型对象里面也有一个属性叫constructor&#xff0c;它又指回了构造函数 可以把构造函…

从中心走向边缘——深度解析云原生边缘计算落地痛点

简介&#xff1a;边缘计算平台的建设&#xff0c;以 Kubernetes 为核心的云原生技术体系&#xff0c;无疑是当前最佳的选择与建设路径&#xff1b;但是云原生体系庞大&#xff0c;组件复杂&#xff0c;将体系下沉至边缘会面临很大的挑战与困难&#xff0c;同时充满巨大的机遇及…