《SAS编程与数据挖掘商业案例》学习笔记之十八

接着以前的《SAS编程与数据挖掘商业案例》,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明。

一:数据挖掘综述

衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标,有很多种方法,只有高效解决商业目标的方法才是最牛的方法,即使是看似简单的方法,只要能高效解决商业目标,我们就认为是牛的方法;

面对海量的数据,即使是使用了最先进的工具,最复杂的算法,但是如果挖掘出来的知识是无用的,或者挖掘的结果是无法解释的,那这种挖掘也是失败的。很多人对数据挖掘都有一个误解,认为一定要使用复杂的工具和复杂的算法,其实是一种误导。

数据挖掘流程:商业理解、数据收集、数据清洗、数据特征化、数据建模、模型打分、模型验证、模型实施、模型优化

描述分析:对已经发生的现象进行分析,主要分析技术有描述性分析、数据特征化、聚类分析、孤立点分析

因果分析:寻找发生的原因,主要技术有联机分析、相关性分析、回归分析、关联分析、因子分析

分类和预测:

主要分类技术:决策树、判别分析、贝叶斯分类、logistic回归分析、神经网络、支持向量机等

预测技术有:多元线性回归分析、广义线性回归分析、非线性回归分析、神经网络分析

二:商业目标:

1、评价活动的效果:比较分析

通过开展工作组和控制组进行比对。

2.特征分析

比如要分析高价值客户的特征,通过特征化数据(均值、方差、极值)、相关性度量(相关系数、卡方值、基尼系数、熵)、聚类分析、因子分析等发现表面的和潜在的数据特征。

3.市场细分

市场细分由业务主导,而不是技术主导。细分结果一定要以易于开展营销活动为目的。

4.响应

提高某个营销活动的响应度

5.风险

风险控制指标通常包括:资产负债情况、信用记录、工作稳定性、收入、教育程度、家庭人口结构

风险模型的建立在技术上类似于响应模型,但对于业务上有很大的区别,比如定义目标变量上,风险模型可能有很多因素决定,一个比较常见的定义:拖欠额度超过某一数值,并逾期超过3个月的客户作为风险客户(目标变量值为1,其余情况为0

6.流失

重点在于流失目标变量的定义;

7.提升销售和交叉销售

数据挖掘商业应用的最高原则是:“效率、效果”

3.需求文档

需求文档包括三部分

项目计划文档(ppt

商业目标、

技术目标、

计划内容、

项目路线图、给出分析团队如何实施项目的明确时间表和每一阶段的任务

资源:是每一个项目阶段所需要的参与项目人员

方法论设计文档(word

是解决商业需求的技术文档,是一个解决方案,最核心的内容是组合不同的算法,并给出最终能达到的理论目标

变量需求文档(excel

4.建模流程图

《SAS编程与数据挖掘商业案例》学习笔记之十八

 

5.logistic建模及结果详解

商业应用领域,logistic回归是应用最广泛的预测模型,神经网络存在过度拟合的嫌疑,而决策树可能存在预测结果的不稳定性,并且在大数据的情况下决策树存在失灵现象,因此logistic回归相对于另外两个是一个适度的模型,再加上输出结果有很好的解释性,应用很广泛

logistic变换:logit(p)=ln(p/1-p)   然后再与自变量进行线性拟合

logistic回归中,因变量y服从二项分布或多项分布,而线性回归分析中y是服从正态分布

logistic回归中不存在线性回归中的残差项,

logistic回归采用MLE(最大似然估计),而线性回归分析采用的是LSE(最小二乘估计)

LSE的原理是假设残差独立同分布,然后构造样本函数,使得因变量的观测值和模型估计值之间的离差平方和最小。

MLE的原理,是构造似然函数,对于二值型的logistic回归来说,服从二点分布,

评价模型好坏的指标:

1)拟合优度

拟合优度是衡量预测值和观测值之间的总体一致性,但是在评价模型时,实际上测量的是预测值和观测值之间的差别,实际上是模型预测的“劣度”,即拟合不佳检验,常用的指标是HL(hosmer-lemeshow)IM(information measures)

HL是一种类似于皮尔逊-卡方统计量的指标,对应的统计假设H0是预测值概率和观测值之间无显著差异,因而如果HL有较大的P值,则接受原假设,说明统计结果不显著,因而,不能拒绝关于模型拟合数据很好的假设,即模型很好的拟合了数据。可以通过调用lackfit选项命令实现

IM指标中比较显著的是AICSCAIC越小标示拟合模型越好,sc是对aic指标的一种修正,与AIC同向作用

2)卡方统计

卡方统计监测的是模型中所包含的自变量对因变量有显著的解释能力,在多元线性回归和ANOVA中,常用F检验达到目的,在logistic中用似然比检验,相当于F检验,在sas输出结果中就是likelihood ratio对应的值,

:卡方值和拟合优度是两个完全不同的概念,前者度量的是自变量和因变量的ODDS自然对数线性相关,而后者度量的是预测值和观测值之间的一致性,所以,最好是模型卡方统计性显著而拟合优度统计性不显著。

3)预测准确性

预测准确性问题是:检验所有x变量到底能解释多少Y变量的波动

RSQUAREY变异中被解释的比例,

C统计量:度量的是观测值和条件预测概率之间的相对一致性;

指标越高,表示预测概率与观测反应变量之间的关联越密切。

总结如下:

统计量

趋势

作用

sas命令

备注

C统计量

越大越好

度量的是观测值和条件预测概率之间的相对一致性

自动输出

 

似然比卡方

越大越好

类似于F检验,度量回归平方和,自变量对因变量的显著解释能力

自动输出

P值越小越好

AIC

越小越好

类似于多远回归残差平方和

自动输出

 

RSQUARE

越大越好

Y变异中被解释的比例

RSQ

 

HL统计量

越小越好

度量观测值与预测值总体的一致性

LACKFIT

P值越大越好

商业实战中,一般考虑前两种,因为logistic回归是一个分类模型,目标变量的值只是一个分类标示,因而更关注观测值和预测值之间的相对一致性,而不是绝对一致性,因而分析师更关注于模型预测概率值的排序,而lift图也正是从概率排序结果得到的。

应用举例和输出结果的解释

Proc  logistic  data=lg.remission  desc;                 *按目标变量降序输入建模数据集

     model  remiss =cell  smear  infil  li blast  temp 

            / selection=stepwise

               slentry=0.3   slstay=0.35   details   lackfit  stb;    *设置进入阈值和保留阈值,并输出详细结果,输出HL统计量,输出标准化数                                  

                                                                                                         据后的模型参数

            output  out=pred  p=phat;                              *设置预测概率变量为phat

Run;

 

在输出结果association of predicted probabilities and observed responses中最后一列的C统计量,一般大于0.7以上就可以用该模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/293511.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源软件的痛点

| 作者:Bob Jiang| 编辑:刘雪洁| 责编:王玥敏| 设计:宋传琪开篇我是 Bob Jiang (个人博客:https://www.bobjiang.com/),开源软件领域的新人。我从2018年加入区块链领域开始认识和了解开源。当时我创立了HiB…

SQLite入门之数据类型

2019独角兽企业重金招聘Python工程师标准>>> SQLite入门之数据类型 2011-05-23 16:47:47 来源:SeaYee 最近在开发一个可以记录日志的程序,要求效率高,需要能做简单的查询和统计。经过同事介绍,看上了SQLite。首先了解…

【Tika基础教程之一】Tika基础教程

一、快速入门 1、Tika是一个用于文本解释的框架,其本身并不提供任何的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等。 使用Tika,可以提取文件中的作者、标题、创建时间、正文等内容,相比于java.io自…

它是世界上最轻的固体!1000℃下不会熔化,上过火星,还能进你家......

全世界只有3.14 % 的人关注了爆炸吧知识小果冻大难关开学了,8岁表妹逮着这个机会讹了我一大箱果冻,超模君糊里糊涂就进了这只神兽的套。今天估计是一口气吃了太多,腻了,一边用手敲着果冻一边问超模君:“这果冻这么软&a…

使用C#快速生成二维码 | 真正跨平台方案

前言二维码(QR Code),与传统的一维码,比如条形码,二维码具有存储的数据量更大;可以包含数字、字符,及中文文本等混合内容;有一定的容错性(在部分损坏以后还可以正常读取&…

制作一个类似苹果VFL的格式化语言来描述UIStackView

在项目中总是希望页面上各处的文字,颜色,字体大小甚至各个视图控件布局都能够在发版之后能够修改以弥补一些前期考虑不周,或者根据统计数据能够随时进行调整,当然是各个版本都能够统一变化。看到这样的要求后,第一反应…

[Android] TextView 分页功能的实现

为什么80%的码农都做不了架构师?>>> 分页功能是阅读器类软件的基本功能之一, 也是自己之前写阅读器时遇到的第一个问题. 尝试了不少办法才解决, 现在把其中最容易实现的一个方法记录下来, 也方便大家参考. 基本思路如下: 从文件中读取 8000 个字符至缓冲…

把男朋友变成儿子你只需要一秒

1 别人以为的我▼2 幸好有监控,差点就没法和老婆解释了!▼3 为了卖化妆品我已经不止一次假装我有一群舔狗了▼4 这么多年下来班主任的这些套路谁还不清楚呢?▼5 司机同志们注意啦要主动停车接受检查▼6 让男友变儿子你只需要一秒钟▼7 …

容器界的新“朋友”

微软中国MSDN 点击上方蓝字关注我们Ignite 2021 上,微软发布了Azure Container Apps,这是一种以无服务器应用程序为中心的托管服务,用户看不到或无需管理任何底层 VM、协调器或其他云基础架构。Azure Container Apps支持打包在容器中的任何应…

史上最“可怕”的数学科普,能全都看懂的只有天才!

▲ 点击查看我们在生活中,或许最常听到的一句话就是:“数学是工具”。在《数学家的眼光》一书的开篇中,张景中院士却举了一个颠覆我们平常认知的例子:大数学家陈省身有一次在北京大学的讲座中语惊四座:“人们常说三角形…

.NET6之MiniAPI(五):选项

选项是配置一个升级版,一般情况下是把一个范围内的配置包装成类型,以供使用,比如下面的RedisSetting,是Redis的配置参数:{"Logging": {"LogLevel": {"Default": "Information"…

Android之项目中调用已有.so库

注意该.so库指的是android平台的,非一般linux、unix平台; 1、现有库libcom_ycan_testLib.so 2、新建android项目TestLib2 3、添加新类: 类名:testLib 包路径:参考现有库名,应为com.ycan 4、在新类中声明库的…

iNeuOS工业互联网操作系统,矿山动态产量计量系统和铁路车辆识别系统应用场景案例...

目 录1. 概述... 22. 平台演示... 23. 矿山动态产量计量系统... 24. 铁路车辆识别系统... 41. 概述iNeuOS工业互联网操作系统增加矿山动态产量计量和铁路车辆识别系统,提高矿山动态产量计量精度和完全避免产量核实误差的情况&#xff1…

85元一个万能工具箱,配齐24种螺丝刀+扳手,媲美德国工艺,家庭必备

▲ 点击查看对当代的男生来说,有什么技能是必须掌握的?自然是修理各种各样的东西啦~除了修电脑,还要修各种电器啊、家具啊之类的,讲真,会修理的男人都很帅!实用性能也满分,相当于女孩子会做饭一…

poj1505

题意:给出一个数列有n个数,要求用分割分把这个数列分成m段,不能改变原数列的顺序。每段至少一个数。求使得加和最大的那段的加和最小的划分方案。如果有多组解的话先要保证第一段和尽量小,若仍有多组解,要先保证第二段…

mysql出现连接错误不识别 utf8mb4

2019独角兽企业重金招聘Python工程师标准>>> 出现这样的错误,指的是不识别该字符集。 可能是 数据库 里面配置 或者是 连接属性 配置了该字符集那么修改回来即可。 还有一种情况就是 ,java-connert-sql连接包,版本太低了。比如 低…

一行代码完成定时任务调度,基于Quartz的UI可视化操作组件 GZY.Quartz.MUI

前言之前发布过第一个版本,有兴趣的可以去看看: NET Core 基于Quartz的UI可视化操作组件 GZY.Quartz.MUI 简介GitHub开源地址:l2999019/GZY.Quartz.MUI: 基于Quartz的轻量级,注入化的UI组件 总而言之,这个组件主要想做的就是:像swaggerUI一样,项目入侵量小,仅需要在Startup中注…

越绿自己,就会越强?

1 我们要求不高的(素材来源网络,侵删)▼2 小区的猫竟然通过监控抓老鼠(素材来源网络,侵删)▼3 不同职业的相亲对象(素材来源网络,侵删)▼4 别人家的年终奖&#xff0c…

Lync Server 2010迁移至Lync Server 2013部署系列 Part18:开启Lync 2013 Mobility

当我们将内部Lync 功能开通后,我们除了需要发布边缘开启外部登录功能外,我们还需要向用户提供Lync 手机登录功能,那么在今天的博文中我们就介绍一下关于如何开启Lync Mobility功能,就Lync 2013来讲,我个人认为开启Mobi…

使用springfox 集成swagger 与spring mvc

2019独角兽企业重金招聘Python工程师标准>>> 创建一个maven 模块 将springfox相关的配置都配置在一个单独的api模块中&#xff0c;可以把这个模块当成web应用跑起来。 <pluginRepositories> <pluginRepository> <id>jcenter-snapshots</id>…