机器学习模型评估之校准曲线

模型校准曲线(Calibration Curve),也称为可靠性曲线(Reliability Curve)或概率校准曲线(Probability Calibration Curve),是一种评估分类模型输出概率准确性的图形工具。它可以帮助我们理解模型的预测概率是否与实际标签的分布一致。校准曲线通常包括以下步骤:

  1. 计算模型预测概率:对于测试集中的每个样本,模型会输出一个概率值,表示样本属于正类的概率。

  2. 将数据分桶:将这些概率值分成若干个等宽的桶(例如10个桶),每个桶中的样本具有相似的预测概率。

  3. 计算每个桶的平均预测概率和实际正类比例:对于每个桶,计算桶内样本的平均预测概率和实际的正类比例(即标签为正的样本数除以桶内总样本数)。

  4. 绘制校准曲线:将每个桶的平均预测概率作为x轴,实际正类比例作为y轴,绘制散点图。理想情况下,这些点应该接近于一条斜率为1的直线,这表示模型的预测概率与实际标签完全一致。

  5. (可选)绘制理想校准曲线:绘制一条斜率为1的直线,作为理想校准曲线,以便与实际校准曲线进行比较。

在Python中,你可以使用scikit-learn库中的calibration模块来绘制校准曲线。以下是一个使用scikit-learn绘制校准曲线的示例代码:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.calibration import calibration_curve
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.calibration import CalibratedClassifierCV# 生成数据集
X, y = make_classification(n_samples=10000, n_features=20,n_informative=2, n_redundant=10,random_state=42)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)# 训练模型
# 这里使用RandomForestClassifier作为基础分类器
# 使用CalibratedClassifierCV进行概率校准
clf = RandomForestClassifier(n_estimators=100, random_state=42)
calibrated_clf = CalibratedClassifierCV(clf, method='isotonic', cv=5)clf.fit(X_train, y_train)
calibrated_clf.fit(X_train, y_train)# 获取预测概率
probabilities = clf.predict_proba(X_test)[:, 1]
calibrated_probabilities = calibrated_clf.predict_proba(X_test)[:, 1]# 计算校准曲线
fraction_of_positives, mean_predicted_value = calibration_curve(y_test, probabilities, n_bins=10)
calibrated_fraction_of_positives, calibrated_mean_predicted_value = calibration_curve(y_test, calibrated_probabilities, n_bins=10)# 绘制校准曲线
plt.figure(figsize=(10, 10))
plt.plot(mean_predicted_value, fraction_of_positives, "s-", label="未校准 (Area = %0.2f)" % np.mean(np.abs(fraction_of_positives - mean_predicted_value)))
plt.plot(calibrated_mean_predicted_value, calibrated_fraction_of_positives, "s-", label="校准 (Area = %0.2f)" % np.mean(np.abs(calibrated_fraction_of_positives - calibrated_mean_predicted_value)))# 绘制理想校准曲线
plt.plot([0, 1], [0, 1], "k:", label="完美校准")# 设置图表
plt.xlabel("平均预测概率")
plt.ylabel("实际正类比例")
plt.title('校准曲线')
plt.legend(loc="lower right")
plt.show()

在这个例子中,我们首先创建了一个合成数据集,并使用RandomForestClassifier训练了一个基础分类器。然后,我们使用CalibratedClassifierCV对分类器进行了概率校准。接着,我们计算了测试集上的预测概率,并绘制了校准曲线。最后,我们展示了未校准和校准后的校准曲线,以及理想校准曲线,以便进行比较。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/31171.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【python数据可视化】利用Python爬取天气数据并实现数据可视化,绘制天气轮播图

用Python爬虫抓取全年天气数据并绘制天气轮播图 一、运行结果: 二、代码展示: 由csv文件生成↓ 接下来是绘制天气轮播图 运行结果: 完整代码请看这里↓👇 提醒制作这个项目你需要执行以下几个步骤: 确定数据源&#x…

OTN分层结构变成什么样了?

传统OTN的三层架构包括光传输段层(OTS)、光复用段层(OMS)和光通道层(OCh),它们共同构成了OTN的三层结构。 其中: 光传输段层(OTS):OTS是OTN中最高…

React是如何渲染元素和组件的

元素的概念 元素是构成 React 应用的最小单位。元素描述了你在屏幕上想看到的内容。React 元素是创建开销极小的普通对象。React DOM 会负责更新 DOM 来与 React 元素保持一致。 将一个元素渲染为 DOM 假设我们的 HTML 文件有一个根元素 <div>该节点内的所有内容都将由 …

鸿蒙 Web组件的生命周期(api10、11、12)

概述 开发者可以使用Web组件加载本地或者在线网页。 Web组件提供了丰富的组件生命周期回调接口&#xff0c;通过这些回调接口&#xff0c;开发者可以感知Web组件的生命周期状态变化&#xff0c;进行相关的业务处理。 Web组件的状态主要包括&#xff1a;Controller绑定到Web组…

力扣SQL50 平均售价 ifnull SUM 连表查询

Problem: 1251. 平均售价 &#x1f468;‍&#x1f3eb; 参考题解&#xff08;题目数据增强&#xff0c;代码只能过90%的点&#xff09; &#x1f37b; AC code SELECT p.product_id, ROUND(ifnull(SUM(units * price) / SUM(units), 0),2) AS average_price FROM prices a…

初学51单片机之数字秒表

不同数据类型间的相互转换 在C语言中&#xff0c;不同数据类型之间是可以混合运算的。当表达式中的数据类型不一致时&#xff0c;首先转换为同一类型&#xff0c;然后再进行计算。C语言有两种方式实现类型转换。一是自动类型转换&#xff0c;另外一种是强制类型转换。 转换的主…

2024GLEE生活暨教育(上海)博览会,8月20-22日,国家会展中心(上海)

2024GLEE生活暨教育(上海)博览会将于8月20-22日在中国国家会展中心&#xff08;上海&#xff09;举行&#xff0c;博览会总面积近万平方米&#xff0c;设有美好生活和教育产品两大主力展区&#xff0c;全面覆盖婴幼儿、学龄前、小学、初中、高中、大学、中年、老年各个年龄段的…

数据库复习重点

第一章通常涵盖数据库系统的基础概念&#xff0c;这里将概述数据库、数据库系统、数据库管理系统的基本概念&#xff0c;数据库系统的三级模式结构&#xff0c;以及数据模型的三要素。 基本概念 数据&#xff08;Data&#xff09;&#xff1a; 数据是描述事物的符号记录&#…

Nvidia Isaac Sim搭建仿真环境 入门教程 2024(4)

Nvidia Isaac Sim 入门教程 2024 版权信息 Copyright 2023-2024 Herman YeAuromix. All rights reserved.This course and all of its associated content, including but not limited to text, images, videos, and any other materials, are protected by copyright law. …

银行数仓项目实战(六)--基础层(完成存款的明细表---宽表)

文章目录 熟悉业务模型设计梳理映射关系加工宽表测试提交 FDM基础层&#xff1a;根据主题&#xff08;需求&#xff09;&#xff0c;将源数据加工集成&#xff0c;形成业务明细表–宽表 熟悉业务 当我们的工作来到基础层&#xff0c;我们首先要做的是跟甲方沟通&#xff0c;要…

未完工数据和系统数据对比分析

select * FROM ( select a.db_close_systime AS a_db_close_systime, -- 订单关闭时间 u.db_close_systime AS u_db_close_systime, -- 订单关闭时间 COALESCE( u.db_close_systime,a.db_close_systime) AS db_close_systime_coalesced ,-- 取非空值的订单关闭时间 a.i…

Harmony设计模式-单例模式

Harmony设计模式-单例模式 前言 软件设计模式&#xff08;[Design pattern](https://baike.baidu.com/item/Design pattern/10186718?fromModulelemma_inlink)&#xff09;&#xff0c;又称设计模式&#xff0c;是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经…

动态网页制作技术

动态网页制作技术是一种利用脚本语言、数据库和服务器端程序来生成动态内容的网页技术。以下是常用的动态网页制作技术&#xff1a; 1.PHP&#xff1a;PHP是一种广泛使用的服务器端脚本语言&#xff0c;可以嵌入到HTML中&#xff0c;用于生成动态网页内容。它可以与各种数据库进…

使用Kafka框架发送和接收消息(Java示例)

Kafka是一个开源的分布式流处理平台&#xff0c;以其在大数据和实时处理领域的广泛应用而闻名。以下是Kafka的关键特性以及它在消息传输方面的优势&#xff1a; 高吞吐量与低延迟&#xff1a;Kafka能够每秒处理数百万条消息&#xff0c;具有极低的延迟&#xff0c;这使得它非常…

前端调试技巧

1、利用console打印日志 2、利用debugger关键字&#xff0c;浏览器f12调用到方法debugger处会断点住&#xff0c;可以利用浏览器调试工具查看变量 a.监视表达式可以添加想要观察的变量 b.调用堆栈可以观察方法调用链 3、xhr断点 请求地址包含v1.0/banner_theme/pagelist&a…

Spacedrive:一个开源的跨平台文件管理器

文章目录 Spacedrive简介1.1 什么是Spacedrive&#xff1f;1.2 Spacedrive的核心功能1.3 Spacedrive的开发状态 Spacedrive的功能与特点2.1 文件存储在哪里&#xff1f;2.2 与传统文件管理器的区别2.3 与云存储服务的区别2.4 跨设备文件管理2.5 文件分类与过滤 Spacedrive的技术…

中科大和字节AI视频生成CamTrol杀疯了!运动可控,效果惊艳!

大家好&#xff0c;我是阿潘&#xff0c;今年堪称视频生成的爆发的一年&#xff0c;sora 2024年2月15日发布&#xff0c;让全世界都震惊了。openai 有一次成为了行业标杆。从生成的效果来看&#xff0c;比起以往抽象的生成结果&#xff0c;有了巨大的提升。 今天和大家分享中科…

DevExpress WPF中文教程:Grid - 如何将更改发布到数据库(设计时)?

DevExpress WPF拥有120个控件和库&#xff0c;将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序&#xff0c;这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…

c++设计模式之一创建型模式

1、创建型模式&#xff08;常见的设计模式&#xff09; Factory 模式&#xff08;工厂模式&#xff0c;被实例化的子类&#xff09; 在面向对象系统设计中经常可以遇到以下的两类问题&#xff1a; 下面是第一类问题和代码示例&#xff1a;我们经常会抽象出一些类的公共接口以…

1547. 切棍子的最小成本

Problem: 1547. 切棍子的最小成本 文章目录 思路解题方法复杂度Code 思路 本题的目标是在给定长度为 n 的棍子上&#xff0c;根据预设的切割点 cuts 进行切割&#xff0c;使得总的切割成本最小。每次切割的成本等于切割后两段棍子的长度之和。由于切割点可以任意选择&#xff0…