【数据挖掘】挖掘建模-回归分析(1)

参考文献:《Python数据分析与挖掘实战》

分类与预测

一、实现过程

  1. 分类:构造分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。属于有监督的学习。
  2. 预测:建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
  3. 分类实现过程:
    学习:通过归纳分析训练样本集来建立分类模型得到分类规则。
    分类:用已知的测试样本集评估分类规则的准确率,若结果可接受则用样本集进行预测。
  4. 预测实现过程:
    通过训练集建立预测数值型属性的函数模型。
    在模型通过检验后进行预测或控制。

二、常用的分类和预测算法

算法描述
回归分析预测数值型属性(线性回归、非线性回归、逻辑回归、岭回归、主成分回归、偏最小二乘回归)
决策树自顶向下的递归方式,内部节点进行属性值比较,根据不同属性值从节点向下分支,最终得到的叶节点为学习划分的类
人工神经网络反映神经网络的输入和输出变量之间关系的模型
贝叶斯网络不确定知识表达和推理领域最有效的理论模型
支持向量机通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法

回归分析

一、常用回归模型

模型适用条件
线性回归因变量和自变量是线性关系
非线性回归因变量和自变量不都是线性关系
逻辑回归因变量有0/1两种取值
岭回归参与建模的自变量之间有多重共线性
主成分回归参与建模的自变量之间有多重共线性

二、逻辑回归模型

  1. 逻辑函数
    假设有n个独立的自变量,x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn
    假设y=1的概率p(y=1)=p=P(y=1∣X)p(y=1)=p=P(y=1|X)p(y=1)=p=P(y=1X),y=0的概率是p(y=0)=1-p
    则概率之比为p1−p\frac{p}{1-p}1pp,取自然对数得到逻辑变换Logit(p)=ln(p1−p)Logit(p) = ln(\frac{p}{1-p})Logit(p)=ln(1pp)
    令Logit§=z,则p=11+e−zp=\frac{1}{1+e^{-z}}p=1+ez1即为逻辑函数

  2. 逻辑回归模型
    定义:建立ln(p1−p)ln(\frac{p}{1-p})ln(1pp)与自变量的线性回归模型,即:
    ln(p1−p)=β0+β1xi+......+βnxn+ϵln(\frac{p}{1-p})=\beta_0+\beta_1x_i+......+\beta_nx_n+\epsilonln(1pp)=β0+β1xi+......+βnxn+ϵ
    g(x)=β0+β1xi+......+βnxng(x)=\beta_0+\beta_1x_i+......+\beta_nx_ng(x)=β0+β1xi+......+βnxn,则有:
    p=P(y=1∣X)=11+e−g(x)p=P(y=1|X)=\frac{1}{1+e^{-g(x)}}p=P(y=1X)=1+eg(x)1
    1−p=P(y=0∣X)=1−11+e−g(x)=11+eg(x)1-p=P(y=0|X)=1-\frac{1}{1+e^{-g(x)}}=\frac{1}{1+e^{g(x)}}1p=P(y=0X)=11+eg(x)1=1+eg(x)1

3.逻辑回归建模步骤
(1) 设置自变量和因变量,收集数据,筛选特征。
(2) 用p1−p\frac{p}{1-p}1pp和自变量列出线性回归方程,估计出模型中的回归系数。
(3) 进行模型检验(正确率、混淆矩阵、ROC、KS)
(4) 模型应用:输入自变量的取值得到预测变量的值。

filename = "../data/bankloan.xls"
data = pd.read_excel(filename)
x = data.iloc[:, :8].as_matrix()
y = data.iloc[:, 8].as_matrix()
rlr = RLR()
rlr.fit(x, y)
rlr_support = rlr.get_support()
support_col = data.drop('违约', axis=1).columns[rlr_support]
print("rlr_support_columns: {columns}".format(columns=','.join(support_col)))
x = data[support_col].as_matrix()
lr = LR()
lr.fit(x, y)
print("lr: {score}".format(score=lr.score(x, y)))

【这里存在一个问题没有解决:from sklearn.linear_model import RandomizedLogisticRegression as RLR找不到RandomizedLogisticRegression,后按照网上教程import stability_selection.randomized_lasso import RandomizedLogisticRegression as RLR,这时RLR可以成功导入,但是这个类没有get_support()方法,暂时还不知道怎么解决这个问题。】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481135.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Step-by-step to LSTM: 解析LSTM神经网络设计原理

Ps:喂喂喂,你萌不要光收藏不点赞呀_(:з」∠)_emmmm... 搞清楚LSTM中的每个公式的每个细节为什么是这样子设计吗?想知道simple RNN是如何一步步的走向了LSTM吗?觉得LSTM的工作机制看不透?恭喜你打开了正确的文章&#…

【论文翻译】用知识图谱的多任务特征学习来增强推荐

Wang H, Zhang F, Zhao M, et al. Multi-task feature learning for knowledge graph enhanced recommendation[C]//The World Wide Web Conference. 2019: 2000-2010. 原文链接:https://arxiv.org/pdf/1901.08907.pdf 代码实现:https://github.com/hwwa…

LeetCode-二叉树算法总结-层次遍历,路径总和等

版权声明&#xff1a;本文为博主原创文章&#xff0c;欢迎转载&#xff0c;但请注明出处&#xff0c;谢谢愿意分享知识的你~~ https://blog.csdn.net/qq_32690999/article/details/80484440 </div><link rel"stylesheet" href"https://csdnimg.…

记录一次闲鱼维权事件

-----2017.11.16 最后一次更新----- 小夕也真的没有想到&#xff0c;在万般绝望之时竟然得到了这么多人的帮助。在本文发出后&#xff0c;多位阿里人员积极联系我了解了情况&#xff0c;很感激一位阿里的专家帮我将此事递交给相关部门&#xff0c;让专业的客服直接受理和重审此…

百度作业帮-产品分析

一、商业模式分析 1.1、问答时期&#xff08;2014年2月-2015年1月&#xff09; 商业模式之作业帮V1.0.png两点值得注意&#xff1a; 作业帮的出现有明显的历史原因&#xff0c;即由百度知道团队出品&#xff0c;因此切入K12教育初期&#xff0c;采取的是之前的问答模式&#xf…

【Python自然语言处理】中文分词技术——统计分词

中文分词方法 本文参考自书籍《Python自然语言处理实战&#xff1a;核心技术与算法》 用做个人的学习笔记和分享 1. 规则分词 规则分词的详细笔记 2. 统计分词 2.1 一般步骤 建立统计语言模型。句子划分为单词&#xff0c;对划分结果进行概率分析&#xff0c;获得概率最大的…

你的模型真的陷入局部最优点了吗?

小夕曾经收到过一个提问&#xff1a;“小夕&#xff0c;我的模型总是在前几次迭代后很快收敛了&#xff0c;陷入到了一个局部最优点&#xff0c;怎么也跳不出来&#xff0c;怎么办&#xff1f;”本文不是单纯对这个问题的回答&#xff0c;不是罗列工程tricks&#xff0c;而是希…

如何与深度学习服务器优雅的交互?(长期更新)

0. 故事序言 如果有人问小夕&#xff1a;"小夕&#xff0c;要是人工智能的就业岗位一夜之间消失了&#xff0c;你会去转行做什么呢&#xff1f;" 答曰&#xff1a;"当然是去做Linux运维啊23333" 小夕有一台自己负责的GPU服务器&#xff0c;她可让小夕操碎了…

风控模型师面试准备--技术篇(逻辑回归、决策树、集成学习)

原文地址&#xff1a;https://zhuanlan.zhihu.com/p/56175215 编辑于2019-02-12&#xff0c;持续更新中&#xff0c;有风控建模工作经验的&#xff0c;或者想转行风控建模的小伙伴可以互相交流下... 一.算法 逻辑回归决策树集成学习&#xff08;随机森林&#xff0c;Adaboost&…

【Tensorflow】打印输出tensor张量和变量的方法

打印输出张量的值的方法 import tensorflow as tfzeros tf.zeros([3,3])# 方法1 with tf.Session():print(zeros.eval())# 方法2 sess tf.Session() print(sess.run(zeros))打印输出tensor变量的值的方法 import tensorflow as tfonestf.Variable(tf.ones([3,3]))# 方法1 I…

step-by-step: 夕小瑶版神经网络调参指南(上)

距离上一篇文章已经过去好久好久好久啦。闭关几个月后&#xff0c;其实早有继续码文章的打算&#xff0c;先后写了一下核函数与神经网络的一些思考、文本预处理tricks、不均衡文本分类问题、多标签分类问题、tensorflow常用tricks、噪声对比估算与负采样等文章&#xff0c;结果…

斯坦福NLP组最新报告:自然语言处理中的学习挑战(附149页报告全文下载

斯坦福NLP组最新报告&#xff1a;自然语言处理中的学习挑战&#xff08;附149页报告全文下载&#xff09; https://mp.weixin.qq.com/s/oQaOZx6rT_nMWPzXMLLtWQ 原始链接 https://nlp.stanford.edu/seminar/details/sswayamdipta.shtml

【Tensorflow】小白入门实战基础篇(上)

代码包含内容&#xff1a;创建张量、使用占位符和变量、矩阵计算 import tensorflow as tf import numpy as np# 创建张量 zeros tf.zeros([3, 3]) ones np.ones([3, 3])# 创建变量 ones_var tf.Variable(ones) # 变量初始化 sess tf.Session() # 创建图会话 init_op tf.…

谷歌发布端到端AI平台,还有用于视频和表格的AutoML、文档理解API等多款工具

谷歌又有了大动作。在大洋彼岸的谷歌Cloud Next conference大会上&#xff0c;谷歌一口气发布了多款AI新品和工具&#xff0c;主要包括&#xff1a; 端到端的AI平台 用于处理视频和表格数据的AutoML Tables和AutoML Video 文档理解API 联络中心AI 视觉产品搜索 对于开发者…

跨性别,你所不知道的事

今晚原计划在订阅号里推送南溪妹子前几天录制的跨性别科普视频&#xff0c;没想到今天收到南溪的私信&#xff0c;说不做科普了&#xff0c;还是算了吧。急忙去了解了一下原因 (http://www.zhihu.com/pin/963101597957644288) &#xff0c;才知道南溪因这段视频所遭受的无故攻击…

【Tensorflow】小白入门实战基础篇(下)

import tensorflow as tf import numpy as npsess tf.Session()# 一、矩阵运算# div返回的是商的向下取整 数据类型与输入数据类型一致 print(sess.run(tf.div(3,4))) # truediv在除法前强制转换整数为浮点数 print(sess.run(tf.truediv(3,4))) # 对浮点数进行整数除法&#x…

文本分类问题不需要ResNet?小夕解析DPCNN设计原理(上)

历史回顾回顾一下图像和文本的发展史&#xff0c;似乎这就是一场你追我赶的游戏。在上一阶段的斗争中&#xff0c;朴素贝叶斯、最大熵、条件随机场这些理论完备的统计机器学习模型使得文本分类、中文分词、NER等诸多自然语言处理问题取得了差强人意&#xff08;释义&#xff1a…

【Tensorflow】TensorFlow的嵌入layer和多层layer

计算图中的操作 # python 3.6 import tensorflow as tf import numpy as npsess tf.Session()# 将张量和占位符对象组成一个计算图&#xff0c;创建一个简单的分类器# 一、计算图中的操作 # 1. 声明张量和占位符&#xff0c;创建numpy数组&#xff0c;传入计算图操作 x_vals …

匈牙利算法-指派问题、二分图问题等

维基百科&#xff1a;匈牙利算法 https://zh.wikipedia.org/wiki/匈牙利算法