机器学习实战(一)——员工离职预测

文章目录

  • 员工离职预测——逻辑回归的应用
    • 1 读取文件
    • 2 独热编码
    • 3 划分数据集
    • 4 归一化
    • 5 逻辑回归预测
    • 6 模型预测及评估

员工离职预测——逻辑回归的应用

开始这个案例之前,请先点击这里的数据集进行下载:HR_comma_sep.zip - 蓝奏云 (lanzout.com)

1 读取文件

我们使用pandas来读取输出并且进行预处理。首先是导入代码所需的包。

import numpy as np
import pandas as pd

接下来写一个函数用于读取CSV文件。

def load_data():"""加载数据集"""data = pd.read_csv("./HR_comma_sep.csv") # 读取文件return data
data = load_data()
data

out:

image-20220508093701736

2 独热编码

从数据集中可以看到。有一些数据是非数值的,我们要将他转为数值型数据才能进行下面的工作。

from sklearn.preprocessing import OneHotEncoder
def one_hot(data):"""将原数据中的非数值转为数值类型"""oh = OneHotEncoder() # 实例化转换器result = oh.fit_transform(data[["sales"]])# 转换salesre = pd.DataFrame(result.toarray(),columns = oh.categories_[0],index =  data.index)result1 = oh.fit_transform(data[["salary"]])# 转换salaryre1 = pd.DataFrame(result1.toarray(),columns = oh.categories_[0] , index =  data.index)data_final  = pd.concat([data, re, re1],axis = 1)data_final.drop('sales',inplace = True,axis = 1)data_final.drop('salary',inplace = True,axis = 1)return data_final
data = one_hot(data)
data

out:

image-20220508134040229

3 划分数据集

将数据集中的非数值数据转为独热编码后,下一步就是要将数据集划分为训练集和测试集了。

def split_data(data):"""划分数据集"""target = data.loc[:,'left'] # 分离标签data = data.drop(['left'],axis = 1) # 分离数据x_train,x_test,y_train,y_test = train_test_split(data,target,random_state=88)return x_train,x_test,y_train,y_test
x_train,x_test,y_train,y_test = split_data(data)
x_train

out:

image-20220508134207394

4 归一化

对于非标签数据来说,这些数据有些数值大,有些数值小,使得模型的收敛速度变慢,为此,我们需要进行归一化操作。

from sklearn.preprocessing import MinMaxScaler
def normalize(x_train,x_test):"""归一化处理"""transfer = MinMaxScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)return x_train,x_test
x_train,x_test = normalize(x_train,x_test)
x_train,x_test

out:

image-20220508134354733

5 逻辑回归预测

当所有准备工作做完后,我们就要使用sklearn自带的包来训练模型了。

from sklearn.linear_model import LogisticRegression
"""利用逻辑回归来预测员工离职"""
estimitor = LogisticRegression()
estimitor.fit(x_train,y_train)

out:

image-20220508134533653

6 模型预测及评估

当模型训练完成后,我们需要对模型进行预测和评估。

from sklearn.metrics import accuracy_score, classification_report
# 模型预测及评估
y_pred = estimitor.predict(x_test)
print('Accuracy:', accuracy_score(y_test,y_pred))
print('Classification Report')
print(classification_report(y_test, y_pred))

out:

image-20220508134632695

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/398533.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mac版Anaconda安装Tweepy包

Anaconda官网给出的tweepy包安装方法:https://anaconda.org/conda-forge/tweepy 查阅Anaconda官方文档,可以通过以下控制台命令安装Tweepy包。 conda install -c conda-forge tweepy 在控制台执行后,系统可能会提示未找到conda指令&#xff…

iOS 证书与签名 解惑详解

iOS 证书与签名 解惑详解 分类: iPhone2012-06-06 19:57 9426人阅读 评论(1) 收藏 举报iosxcodecryptographyappleiphone测试目录(?)[] 教程截图: 下面是一篇有澳洲墨尔本的一名全职iOS开发者提供的文章。他在论坛上是一个很摩登的年轻人 – Adam Eberb…

Julia学习笔记(一)——入门

文章目录1 入门1.1 启动与退出1.1.1 启动1.1.2 退出1.2 编译文件1.3 变量1.3.1 基本介绍1.3.2 重定义1.3.3 变量名合法性1 入门 1.1 启动与退出 1.1.1 启动 在没有任何IDE的帮助下,使用cmd启动黑窗口来尝试julia是一种最简单的方法。我们称进入julia后的黑窗口为…

从地址栏中敲入一个网址,到网页显示出来,这个过程经历了什么

这个问既考察技术深度又考察技术广度,其实要答好是相当难的。 在地址栏中敲入一个网址后,浏览器向服务器发出请求,请求对应网址页面的内容;然后服务器收到请求以后对这个请求进行处理,处理之后以HTML文件的形式把处理结…

mac上nginx静态页面访问403

第一天配置好的nginx可以正常的访问静态页面,第二天通过网络云盘下载的index.html文件之后,再次访问出现了403forbidden的问题。 查看文件的权限: -rwxr-x--x 1 hu staff 6351 4 12 21:10 bluePlan.js -rwxr-x--x 1 hu staff 113 4 12…

PHP JSON 操作总结

PHP JSON 操作总结 原文:PHP JSON 操作总结由于JSON可以在很多种程序语言中使用,所以我们可以用来做小型数据中转,如:PHP输出JSON字符串供JavaScript使用等。在PHP中可以使用 json_decode() 由一串规范的字符串解析出 JSON对象,使…

Linux学习宝典

文章目录1 虚拟机1.1 简介1.2 Linux版本1.2.1 内核1.2.2 发行版1.3 文件和目录1.3.1 单用户操作系统和多用户操作系统1.3.2 window文件系统1.3.3 Linux下的文件系统2 概述2.1 为什么要学习命令2.2 一些基本操作和说明3 指令和选项4 基础指令4.1 ls指令4.1.1 讲解4.1.2 选项4.1.…

《华为工作法读后感》

开篇 首先不得不说《华为工作法》是一本很好的书籍。感谢我们领导的照顾和用心,才使得我们又有了一些对社会 对工作 对生活等等的认知 。 之前的我是不怎么读书的,因为个人原因读的慢,每句话都要了解其中寓意之后才继续读下去,还有就是工作…

Redis发布与订阅——PUBLISH SUBSCRIBE

2019独角兽企业重金招聘Python工程师标准>>> Redis发布与订阅——PUBLISH & SUBSCRIBE 一般来说,发布与订阅(又称pub/sub)的特点是订阅者(listener)负责订阅频道(channel&…

Android 网络通信架构学习

最近跟着云课堂上的极客学院做安卓APP,学习了课程里面介绍的一种网络通信架构。清晰明了,比我自己东一块西一块拼凑出来的要好很多。在这里记录一下。 云课堂的连接:http://study.163.com/course/courseMain.htm?courseId917001 目录&#x…

网络爬虫(二)——Xpath和Selenium的使用

文章目录2 网络爬虫进阶2.1 Xpath2.1.1 Xpath解析原理2.1.2 信息提取2.1.2.1 获取所有结点2.1.2.2 获取子节点2.1.2.3 获取父节点2.1.2.4 获取文本2.1.3 属性匹配2.1.3.1 单个属性匹配2.1.3.2 多个属性匹配3.1 Selenium3.1.1 概述3.1.2 安装3.1.3 元素定位3.1.4 元素信息3.1.5 …

hdu-1176(dp)

解题思路:用dp做的,dp[i][j]表示在i时刻,j点的最大馅饼。a[i][j]表示在i这个时刻j点同时掉落的馅饼; 每个点除了0和10之外,都有三种状态; 1、没有移动,这样值就为dp[i][j]max(dp[i][j],dp[i-1][…

lintcode:买卖股票的最佳时机 III

买卖股票的最佳时机 III 假设你有一个数组,它的第i个元素是一支给定的股票在第i天的价格。设计一个算法来找到最大的利润。你最多可以完成两笔交易。 样例 给出一个样例数组 [4,4,6,1,1,4,2,5], 返回 6 解题 尝试参考买卖股票的最佳时机 II 提交运行发现错误&#…

session 学习

Session模型简介Session 是什么呢?简单来说就是服务器给客户端的一个编号。当一台WWW服务器运行时,可能有若干个用户浏览正在运正在这台服务器上的网站。当每个用户首次与这台 WWW服务器建立连接时,他就与这个服务器建立了一个Session&#x…

julia学习笔记(二)——基本数据类型

文章目录2 数据类型2.1 整数2.2 浮点数2.3 机器精度2.4 舍入模式2.5 数值字面量系数2.6 零和一的字面量2 数据类型 2.1 整数 如果想要在julia中输入整数字面值。如下: julia> 34 7至于你的整数字面值默认是什么数据类型,这取决于目标系统是32位还是…

微信(支付宝)小程序蓝牙4.0线上项目

需求 : 微信(支付宝)小程序链接BLE4.0 ,发送指令到蓝牙硬件过程 : 小程序分为安卓和ios两套系统,支持连接BLE 蓝牙 ,其中会遇到机型问题(其中安卓,华为荣耀机型,小米,问题…

团队项目计划BACKLOG

团队名称: 铁大老司机 团队成员: 组长:杨超群 组员:杨涛 杜文星 张家军 计划会议过程: 我们小组在周三下午进行了团队会议,会议召开在图书馆大厅,主要内容是进行项目的总体计划安排&#xff0…

pyc文件

学习自:http://blog.csdn.net/sislcb/article/details/4002414 Python解释器:源代码-->字节码-->机器语言不同版本编译后的pyc文件是不同的python提供了内置库文件来实现将python编译成pyc文件。 import py_compile py_compile.compile(rH:/game/test.py) pyc…

C++从0到1的入门级教学(八)——通讯录管理系统

文章目录8 通讯录管理系统8.1 系统需求8.2 菜单功能8.3 退出功能8.4 添加联系人8.4.1 设计联系人结构体8.4.2 设计通讯录结构体8.4.3 main函数中创建通讯录8.4.4 封装添加联系人函数8.5 显示联系人8.5.1 封装显示联系人函数8.5.2 调用显示联系人函数8.6 删除联系人8.6.1 封装检…

【Data Cluster】真机环境下MySQL数据库集群搭建

真机环境下MySQL-Cluster搭建文档 MySQL Cluster简介 MySQL cluster 和 Oracle RAC 完全不同,它采用 无共享架构Shared nothing(shared nothing architecture)。整个集群由管理节点(ndb_mgmd),处理节点(mysqld)和存储节点(ndbd)组…