成为AI产品经理——模型评估指标

目录

一、模型评估分类

1.在线评估

2.离线评估 

二、离线模型评估

1.特征评估

① 特征自身稳定性

② 特征来源稳定性

③ 特征成本

2.模型评估

① 统计性评估

覆盖度

最大值、最小值

分布形态

② 模型性能指标

分类问题

回归问题

 ③ 模型的稳定性


模型评估指标分五小节课程,这节课全局讲述模型评估指标有什么,下三节课重点讲解模型性能指标,了解他们的计算;最后一节课,详细讲解模型的稳定性指标。

一、模型评估分类

模型评估分为:离线评估和在线评估两类。

1.在线评估

在线评估通常是将模型部署上线后,使用线上真实数据对模型进行评估。通常会采取ABTest方式来评估业务的表现。

ABTest的操作方式是先导入一部分流量到模型中,使得一部分用户使用模型训练后的商品页面,而一部分用户看到原来的界面,这两部分用户互相独立,测试1周或1天,观察两者点击率或者购买转化率的差异,判断模型是否达到业务预期。

如果想继续了解ABTest,请查看详情:

产品经理需要懂的AB测试 - 知乎 (zhihu.com)

如何避免产品开发的致命陷阱?AB测试是你不可或缺的救命稻草! | 人人都是产品经理 (woshipm.com)

2.离线评估 

离线评估是模型在上线之前进行的验证和评估工作,如果验收不通过,算法同学要进行模型的调整和优化。

离线评估更关注模型指标,如:准确率、稳定性等;而上线评估更加关注业务指标,如:用户转化率、优惠劵的核销率。

接下来我们为了讲述模型指标,主要关注离线模型的评估。

二、离线模型评估

离线模型评估分为特征评估模型评估两类。

特征是模型的基础,所以我们不仅要对模型最终效果进行评估,还要对特征进行评估。

1.特征评估

对于特征评估我们并不是对所有的特征进行评估,我们只对重要特征进行评估。那么我们就需要和算法同学进行沟通,了解哪些特征比较重要。

特征评估包括三点:特征自身稳定性、特征来源稳定性、特征成本

① 特征自身稳定性

特征自身稳定性我们会使用PSI指标进行评估。PSI指标(模型随着时间推移发生变化而不稳定的指标)。特征自身稳定性会影响模型的整体效果,所以我们需要测评重要特征是否达到稳定指标。

② 特征来源稳定性

特征一般分为:内部来源和外部来源

如果特征是从集团内部接入的,那我们需要看他从哪条业务线获取的,这个业务的稳定性如何,业务方是否有可能中止共享数据或者收回数据。

如果特征是从集团外部接入的,我们需要审核外部公司的资质是否合法,技术储备是否完善

③ 特征成本

不同来源的特征可能成本也不相同,如果特征来源是集团内部业务,可能不需要成本或者需要年终进行成本均摊。如果是外部购买的特征数据,那就正常支付就好了。

作为产品经理,我们在进行评估的时候要充分考虑到付费特征在模型中产生的增益是否大于成本,如果成本过高,那么我们考虑是否可以替换特征或者使用数据缓存的方式减少调用

2.模型评估

模型评估也包括三部分:统计性评估、模型性能指标和模型的稳定性。

① 统计性评估

 在进行模型性能指标和稳定性评估之前,我们首先要对统计性能进行评估。包括:覆盖度、最大值、最小值、分布规律。

覆盖度

计算公式:打分的人数/需要打分的人数

结果越大,覆盖度越大。比如我们要做一个用户逾期还款预测的模型,如果覆盖率只有60%,那么银行就没有办法按照这个模型进行决策,这个模型就是没有用的。

最大值、最小值

我们需要对最大值和最小值进行评估。

如果最大值和最小值相隔太近,例如:0-100作为一个信用划分的区间,用户很容易集中在一个分数段,难以进行用户的区分。如果将0-100作为一个划分的总区间,相当于过去大的1份区间被细化成为现在的10份,就会更便于划分用户。

分布形态

我们的预测结果和我们的人群行为的分布应该符合一定的规律。

比如:预测用户消费能力,人群的分布情况应该满足应该满足正态分布。 

业务场景不同,需要重点观察的统计性能指标也不同。

② 模型性能指标

根据问题的差异被分为:回归问题和分类问题。

模型被分为:分类模型和回归模型。不同类型的模型评估指标不相同。

分类问题

主要指标:混淆矩阵、KS、AUC。

将混淆矩阵作为基础工具,我们可以计算出召回率、准确率。评判模型的区分能力。我们也可以计算出TPR、FPR,从而计算出AUC和KS等相关指标。

因此,混淆矩阵是二分类问题的基础工具。

回归问题

主要指标:MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)、R方等。 

这些指标主要预测数值回归问题。

 ③ 模型的稳定性

最后,我们需要评估模型整体效果的稳定性。主要使用PSI指标进行评估。

这节课我们主要从全局角度了解模型评估,评估指标计算方法后面文章会详细说明。

今天的知识思维导图如下所示:

参考文献:刘海丰——《成为AI产品经理》 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/166436.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

配置mvn打包参数,不同环境使用不同的配置文件

方法一: 首先在/resource目录下创建各自环境的配置 要在不同的环境中使用不同的配置文件进行Maven打包,可以使用Maven的profiles特性和资源过滤功能。下面是配置Maven打包参数的步骤: 在项目的pom.xml文件中,添加profiles配置…

第一个Mybatis项目

(一)为什么要用Mybatis? (1)Mybatis对比JDBC而言,sql(单独写在xml的配置文件中)和java编码分开,功能边界清晰,一个专注业务,一个专注数据。 (2&…

【C++】:多态

朋友们、伙计们,我们又见面了,本期来给大家解读一下有关多态的知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! C 语 言 专 栏:C语言:从入门到精通 数据结…

Linux(CentOS7)上安装mysql

在CentOS中默认安装有MariaDB(MySQL的一个分支),可先移除/卸载MariaDB。 yum remove mariadb // 查看是否存在mariadb rpm -qa|grep -i mariadb // 卸载 mariadb rpm -e --nodeps rpm -qa|grep mariadb yum安装 下载rpm // 5.6版本 wge…

XML映射文件

<?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE mapperPUBLIC "-//mybatis.org//DTD Mapper 3.0//EN""http://mybatis.org/dtd/mybatis-3-mapper.dtd"> <mapper namespace"org.mybatis.example.BlogMapper&q…

conan 入门(三十二):package_info中配置禁用CMakeDeps生成使用项目自己生成的config.cmake

conanfile.py中定义的package_info()方法用于向package的调用者(conumer)提供包库名&#xff0c;编译/连接选项&#xff0c;文件夹等等信息&#xff0c;有了这些信息构建工具的generator就可以根据它们生成对应的文件&#xff0c;用于调用者引用package. 比如基于cmake的CMakeD…

安全地公网访问树莓派等设备的服务 内网穿透--frp 23年11月方法

如果想要树莓派可以被公网访问&#xff0c;可以选择直接网上搜内网穿透提供商&#xff0c;一个月大概10块钱&#xff0c;也有免费的&#xff0c;但是免费的速度就不要希望很好了。 也可以选择接下来介绍的frp&#xff0c;这种方式不需要付费&#xff0c;但是需要你有一台有着公…

vue3自定义拖拽指令

<template><div v-move class"box"></div> </template><script setup lang"ts"> import { Directive } from vue const vMove:Directive (el:HTMLElement) >{const mousedown (e:MouseEvent) >{// 鼠标按下const s…

【Golang】解决使用interface{}解析json数字会变成科学计数法的问题

在使用解析json结构体的时候&#xff0c;使用interface{}接数字会发现变成了科学计数法格式的数字&#xff0c;不符合实际场景的使用要求。 举例代码如下&#xff1a; type JsonUnmStruct struct {Id interface{} json:"id"Name string json:"name"…

Linux 的性能调优的思路

Linux操作系统是一个开源产品&#xff0c;也是一个开源软件的实践和应用平台&#xff0c;在这个平台下有无数的开源软件支撑&#xff0c;我们常见的apache、tomcat、mysql等。 开源软件的最大理念是自由、开放&#xff0c;那么Linux作为一个开源平台&#xff0c;最终要实现的是…

uniApp微信支付实现

后端&#xff1a;小程序下单 - 小程序支付 | 微信支付商户文档中心 服务端需要请求&#xff1a;https://api.mch.weixin.qq.com该地址获取微信支付Api接口需要的参数。 服务端请求接口需要的Body参数&#xff1a; 客户端&#xff08;前端&#xff09;需要调用&#xff1a;wx.…

12V降3.3V100mA稳压芯片WT7133

12V降3.3V100mA稳压芯片WT7133 WT71XX系列是一款采用CMOS工艺实现的三端高输入电压、低压差、小输出电流电压稳压器。 它的输出电流可达到100mA&#xff0c;输入电压可达到18V。其固定输出电压的范围是2.5V&#xff5e;8.0V&#xff0c;用户 也可通过外围应用电路来实现可变电压…

加载minio中存储的静态文件html,不显示样式与js

问题描述:点击链接获取的就是纯静态文件,但是通过浏览器可以看到明明加载了css文件与js文件 原因:仔细看你会发现加载css文件显示的contentType:text/html文件,原来是minio上传文件时将所有文件的contentType设置成了text/html 要在上传时指定文件,根据文章的类型指定的Conten…

win10开机黑屏只有鼠标?这份指南帮你轻松解决!

win10是一个出色的操作系统&#xff0c;但有时用户可能会遇到开机后只有鼠标显示在屏幕上的问题&#xff0c;这种情况可能会让人感到困惑和沮丧。在本文中&#xff0c;我们将介绍三种解决win10开机黑屏只有鼠标的方法&#xff0c;以帮助您快速恢复正常的桌面环境。 方法1&#…

Ubuntu18.4中安装wkhtmltopdf + Odoo16配置【二】

deepin Linux 安装wkhtmltopdf 1、先从官网的链接里下载linux对应的包 wkhtmltopdf/wkhtmltopdf 下载需要的版本&#xff0c;推荐版本&#xff0c;新测有效&#xff1a; wkhtmltox-0.12.4_linux-generic-amd64.tar.xz 2、解压下载的文件 解压后会有一个wkhtmltox文件夹 3…

CTA-GAN:基于生成对抗性网络的主动脉和颈动脉非集中CT血管造影 CT到增强CT的合成技术

Generative Adversarial Network–based Noncontrast CT Angiography for Aorta and Carotid Arteries 基于生成对抗性网络的主动脉和颈动脉非集中CT血管造影背景贡献实验方法损失函数Thinking 基于生成对抗性网络的主动脉和颈动脉非集中CT血管造影 https://github.com/ying-f…

可自行DIY单TYPE-C接口设备实现DRP+OTG功能芯片

随着USB-C接口的普及&#xff0c;欧盟的法律法规强制越来越多的设备开始采用这种接口。由于 USB-C接口的高效性和便携性&#xff0c;使各种设备之间的连接和数据传输变得非常方便快捷&#xff0c;它们不仅提供了强大的功能&#xff0c;还为我们的日常生活和工作带来了极大的便利…

ssm+vue的企业文档管理系统(有报告)。Javaee项目,ssm vue前后端分离项目。

演示视频&#xff1a; ssmvue的企业文档管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;ssm vue前后端分离项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&…

Talk | 牛津大学博士后研究员边佳旺:SC-DepthV3-动态场景中的自监督单目深度估计

本期为TechBeat人工智能社区第550期线上Talk。 北京时间11月23日(周四)20:00&#xff0c;牛津大学博士后研究员—边佳旺的Talk已准时在TechBeat人工智能社区开播&#xff01; 他与大家分享的主题是: “SC-DepthV3&#xff1a;动态场景中的自监督单目深度估计”&#xff0c;介绍…

Vocoder,声码器详解——语音信号处理学习(十)

参考文献&#xff1a; [1] Vocoder (由助教許博竣同學講授)哔哩哔哩bilibili [2] Oord A, Dieleman S, Zen H, et al. Wavenet: A generative model for raw audio[J]. arXiv preprint arXiv:1609.03499, 2016. [3] https://deepmind.com/blog/article/wavenet-generative-mode…