数据挖掘模型生命周期管理

为成功地利用预测模型,您需要从开发阶段直至生产环境对模型进行全面管理。模型生命周期管理是由以下阶段组成的高效交替过程:

    • 确定业务目标

    • 访问和管理数据

    • 开发模型

    • 验证模型

    • 部署模型

    • 监控模型

确定业务目标

第一步确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模型的使用方法。

典型模型包括用于客户行为、风险管理和信用评分的预测建模模型。应用领域包括客户保有、信贷发放、交易验证、欺诈检测和促销等。这些因素推动数据采集和模型开发过程。

访问和管理数据

第二步是管理大量增长的数据。数据管理和数据质量是挖掘流程的要素。这需要对涉及多种平台,含有多种数据源 (例如,应收账、应付账、呼叫报告、人口数据、财务数据、持卡人数据和征信局数据等) 的系统进行整合,并同步为清晰一致的格式。

这种数据管理过程需要保持分析模型开发和生产部署两种环境相对应,以生成一致性的数据,保证模型生命周期过程中使用单一版本的真实信息。SAS提供集成的数据质量例程和数据管理转换功能,生成单一版本真实信息,同时最大化整个分布式环境的灵活性和扩展性。

开发预测模型涉及收集相应数据、抽样、合并数据属性、进行细分分析和其他深层数据分析。例如,大量异构来源的数据源可能需要按客户和账户进行合并,可包括计费和付费交易数据、人口统计数字、财务数据等。然后进行转换,进一步丰富数据。转换包括:

 计算累积变量,如给定客户所有账户的最大余额和总余额。

 计算间隔变量,如某人成为客户已有多长时间,最后一次采购的价值等。

 对严重偏斜数据进行对数计算,如中等家庭收入。

 将多种模型分布转换为分类值。

 过滤异常点,替换缺失值。

 按共同属性将客户细化为分组。

 创建交互条件。

许多企业尽力为所有建模活动创建标准数据源。这样有利于审计活动、标准化最佳实践和简化部署,并取得了不同程度的成功。对于不变的业务目标,这种方法非常有效。不过,当出现新的目标变量时,数据建模人员往往需要返回原始数据系统,收集模型培训数据集市中不存在的新数据。最有效的方针是同时支持两种活动,为获取新数据采集逻辑并将其结合到模型培训数据集市中提供工具。

开发模型

第三步根据数据管理阶段定义的相应培训数据源构建模型。这个过程涉及采用挖掘统计和虚拟化技术、变量转换、过滤异常、数据替换、细分、聚合、预测建模运算和模型验证等。

这些技术可根据业务目标来使用。应用信用评分模型时,数据的使用和模型形式应严格遵守美国公平放贷规定和新巴塞尔协定(Basel II)的规定。行为信用评分模型用于计算现有贷款组合费率,应遵守 Basel II 和萨班斯 .奥克斯利法案(Sarbanes-Oxley)的规定。许多企业有各自的最佳实践方针,规定了必须包含某些变量、必须排除的其他变量,以及必须遵守的既定细分机制。

因变量的定义可以有多种形式 (这种情况下一般指贷款违约),如自上次付款后的时间、迟付次数、应计利息比或正式贷款取消。客户获得和交叉销售模型以某个期间段和/或某些渠道以前促销活动的响应为基础。制造根源分析可以上报的单位批次故障率为基础。为随着时间按准确率跟踪模型性能,定义的应变量在时间跨度内必须是一致的。如果应变量定义发生变化,应注明为新的模型形式,并生成一套新的跟踪统计。

模型输入条件有类似的规定和部署限制。构建模型使用的数据必须是最新的,并可在模型部署生命周期和评分过程中调用。人口统计和交易数据源可能在模型生命周期期间改变它们的域定义和代码。因此,建模人员应构建具有可靠缺失值、缺失范围以及值校验逻辑的模型。避免使用已知不可靠或可能不一致的条件。

高度相关的输入变量会导致模型灵敏度问题,这种情况下,数据域相关值微小的变化会不可避免地造成预测值出现很大的偏差。这是模型准备长期投入生产环境中使用时,需要引起关注的一个典型问题。先进的变量选择、采用探索相关统计和变量聚合,可以有效地减少长期不稳定性。

许多企业采用优选备选策略。优选的往往是已在生产中使用,并以过去多个时间段数据为基础的模型。从不根据最近时间段的数据构建备选模型。在生成数千个模型的高吞吐量环境下,功能表几乎是固定的,只对模型进行重新培训。其他环境下,数据建模人员开发一套新的备选模型可能需要几周的时间。

对于模型监控和业务审计来说,优选模型和备选模型应同时在模型数据库中备案。应该根据代表最新的或最稳定样本的盲测数据对它们进行比较。

验证模型

随着越来越多地采用分析方法支持业务决策,预测模型已被视为企业的重要智能资产。每一种模型都是重要的,对企业利润水平、法规遵从和规避法律/经济风险具有重要作用。这种情况促使越来越多的企业将模型验证作为常规业务流程。

验证模型不是一次性工作,而是一个持续的过程,一般包括以下主要任务:

 验证预判特征是否存在法律问题。尽管某些变量可以成为很好的预判特征,但用于预测模型时,它们会给企业带来风险。例如,出于法律因素考虑,建模过程中不能使用年龄、性别和/或种族等变量。

 验证数据分布。为确定分布随时间的变化,了解目标和预判变量初始分布特征是很重要的。如果检测到分布偏移,有必要根据新数据重新培训模型。

 验证分析算法。选择生成模型的算法需要进行验证,以确定是否可以用于预测模型。例如,某些模型(如决策树)可给出易于理解的结果。它们可帮助您解答“为什么拒绝这个客户信贷”等问题。其他模型(如神经网络)不能给出这类简单的解释,因此可能不适用于某些应用。这个阶段必须认真权衡判别度与预测精度。

 比较模型预测精度。对于特定数据挖掘项目,建模人员可采用多种工具生成一套潜在模型。利用工具很难比较模型,可能需要根据非模型生成过程中使用的独立数据源对模型进行比较。

 检查验证过程。验证过程会随时间而变化。一定要记录每一步验证过程。例如,谁何时输入何种模型;谁选择何种模型作为优选模型,何时选择以及为什么选择;谁检查优选模型是否符合监管规定;谁何时向何处发布优选模型。

 执行部署前评分测试。发布优选模型进行生产部署前,企业可能需要检测模型是否存在运行错误。这种部署前检验是很重要的,特别是模型部署在实时评分环境下时。10生产环境下预测模型管理最佳实践

 监控模型性能。优选模型发布后,可以在生产环境下反复部署。一般情况下,模型性能会随着时间而下降。企业需要系统化地检查性能下降,以便淘汰过时的模型,建立新模型。监控自动化一开始设计不当,模型性能监控流程会耗费时间,并且容易出错。

模型验证是一种业务流程。没有良好的软件工具不可能以高效和可管理的方式进行验证。

部署模型

经验证后,企业需要将模型部署到生产环境中。这需要实施评分系统,将模型功能应用于没有应变量的新数据。大部分评分系统是批次型的,成千上百万条纪录输入到一个或多个模型中。如果企业有高效定义的通用建模数据集,一项数据构成作业可组成一个表单用于大量模型。开展直销促销活动时,这项工作可由建模或IT人员来完成,将计分发送给促销执行人员。为进行监控,在有应变量新值的情况下,可每月对模型进行一次评分,将实际性能与预期性能进行比较。

监控模型

最后一步是管理生产环境下的模型,包括在操作平台上运行、执行模型性能报告、发布生成的报表和重新验证模型。当客户群的发展需要新的抽样数据,或预测因素发生变化时,需要在模型生命周期过程中定期重复进行数据管理。

优选预测模型在生产环境中部署一段期间后,其预测性能往往会随着时间而下降。当性能下降到某一阈值时,应淘汰选装的模型。因此,模型监控应成为一项例行工作,及时识别达不到性能要求的模型,避免因模型过时产生问题。当有大量在用生产模型时,会带来以下问题:“企业如何经济高效地管理模型性能监控工作?”出色的模型监控工具可以为此提供支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/293153.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

.NET 编码的基础知识

点击上方蓝字关注我们.NET 编码的一些基本概念和分析简单的类型概念Hex (16进制)byte 字节 范围是:0~255,二进制下的范围就是00000000~11111111,相当于1字节。byte[] 字节数组bit 比特,只有2种状态&#xf…

Android之android.os.NetworkOnMainThreadException异常

今天用handler.post(Runnable);的时候出现了android.os.NetworkOnMainThreadException Runnable里面使用的访问网络请求,网络请求是不可以放在主线程里面的,所以出现了这个问题 因为我想执行 handler.post(runnable); Runnable runnable new Runnable(…

什么是MVC?MVC框架的优势和特点

目录 一、什么是MVC 二、MVC模式的组成部分和工作原理 1、模型(Model) 2、视图(View) 3、控制器(Controller) 三、MVC模式的工作过程如下: 用户发送请求,请求由控制器处理。 …

每日英语:The First Day On A Job Is Tough Work

Why is the first day on the job often the worst?New employees tend to be greeted with stacks of benefits paperwork, technology hassles and dull presentations about company culture. hassle:激战,争辩,麻烦事    But some c…

docker没有下载完全_会用Docker的人都别装了,这多简单呐

学术又官方的说法Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器或Windows 机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。没用过的人能看懂这段话&#xf…

数据挖掘领域十大经典算法初探

一、C4.5 C4.5,是机器学习算法中的一个分类决策树算法, 它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法 ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。 决策树构造方法其实就…

WPF MVVM实例三

在没给大家讲解wpf mwm示例之前先给大家简单说下MVVM理论知识:WPF技术的主要特点是数据驱动UI,所以在使用WPF技术开发的过程中是以数据为核心的,WPF提供了数据绑定机制,当数据发生变化时,WPF会自动发出通知去更新UI。我们使用模式…

linux命令chown和chmod什么区别

chown一般用来 更改属主。也就是文件所属用户。chmod功能要比chown要强大。可更改文件所有属性和权限。只有管理员账户才有权限用此命令。chown 是修改文件的所有者(owner),和所属组(group)chmod 是修改文件的执行属性(所属组,所属者以及其他人所有的权限,比如 读,写,执行)

stringcstdlibctimecstdargctimectypecmathclimits

转载地址&#xff1a;http://blog.csdn.net/kz_ang/article/details/7767335 <string>头文件 string构造函数 string s  生成一个空字符串s string s(str)  拷贝构造函数,生成str对象的复制品 string s(str,stridx)  将字符串str对象内"始于位置stridx"…

背包模板

背包模板&#xff0c;自己总结&#xff0c;做题可直接套用。 0-1背包 有N件物品和一个容量为V的背包。第i件物品的费用是c[i]&#xff0c;价值是w[i]。求解将哪些物品装入背包可使价值总和最大。 公式&#xff1a; f[i][v]max{f[i-1][v],f[i-1][v-c[i]]w[i]} 伪代码&#xff1a…

C3P0 释放连接 的问题

2019独角兽企业重金招聘Python工程师标准>>> 记录一下使用C3P0 时犯的低级错误&#xff0c;没有关闭connection 达到连接池最大限制后造成程序假死的现象&#xff0c;以后得仔细再仔细了&#xff01; 转载于:https://my.oschina.net/fusxian/blog/146700

python随机抽取人名_python的random

python的random函数更多的random用法可参阅&#xff1a;random --- 生成伪随机数 - Python 3.7.4 文档​docs.python.org以下使用了&#xff1a;洗牌&#xff1a;random.shuffle随机抽取元素&#xff0c;且元素不重复&#xff1a;random.sample随机抽取元素&#xff0c;且元素可…

PL/SQL Developer使用技巧总结

1、PL/SQL Developer记住登陆密码 在使用PL/SQL Developer时&#xff0c;为了工作方便希望PL/SQL Developer记住登录Oracle的用户名和密码&#xff1b; 设置方法&#xff1a;PL/SQL Developer 7.1.2 ->tools->Preferences->Oracle->Logon History &#xff0c; “…

Windows 11/10 正式版全新 ISO 镜像下载

微软现已发布 Windows 11/10 正式版&#xff08;版本 21H2&#xff09;全新 ISO 镜像。Windows 11 版本 21H2 全新镜像集成了 2021 年 10 月更新、11 月更新和 12 月更新。Windows 10 版本 21H2 全新镜像集成了 2021 年 11 月更新和 12 月更新。版本区别Windows 11/10 消费者版…

Android延时执行调用的几种方法

一、开启新线程 new Thread(new Runnable(){ public void run(){ Thread.sleep(XXXX); handler.sendMessage(); //告诉主线程执行任务 } }).start二、利用定时器 TimerTask task new TimerTask(){ public void run(){ //execute the task } }; Ti…

删除字符串中出现次数最少的字符

题目 描述: 实现删除字符串中出现次数最少的字符,若多个字符出现次数一样,则都删除。输出删除这些单词后的字符串,字符串中其它字符保持原来的顺序。 题目类别: 字符串 难度: 中级 运行时间限制: 10Sec 内存限制: 128MByte 阶段: 入职前练习 输入: 字符串只包含小写…

java web filter 之一 基础实现

本文主要对filter的基本使用进行了讲解&#xff0c;其中涉及到了 filter是什么 一个filter处理一个jsp 多个filter处理一个jsp filter是什么 Filter 是java下的一种过滤器 &#xff0c;能实现对java web程序 客户端和服务器端消息的过滤&#xff0c;也就是在服务器段接受reques…