[Kesci] 新人赛 · 员工满意度预测

文章目录

    • 1. 导入工具包
    • 2. 读取数据
    • 3. 特征处理
      • 3.1 数字特征归一化
      • 3.2 文字特征处理
      • 3.3 特征合并
    • 4. 定义模型训练
    • 5. 预测
    • 6. 新人赛结果

竞赛地址

使用 sklearn Pipeline 模板

1. 导入工具包

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['figure.facecolor']=(1,1,1,1) # pycharm 绘图白底,看得清坐标
import pandas as pd
import seaborn as sns
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression as lr
from sklearn.ensemble import RandomForestRegressor as rf
from sklearn.model_selection import train_test_split,cross_val_score
from sklearn.metrics import *
from sklearn.preprocessing import OneHotEncoder,LabelEncoder,OrdinalEncoder

2. 读取数据

在这里插入图片描述

# 读取数据
tr_data = pd.read_csv("train.csv",index_col='id')
X_test = pd.read_csv("test.csv",index_col='id') # test不含标签tr_data.head(10)
tr_data.corr() # 相关系数
sns.regplot(x=tr_data.index, y=tr_data['satisfaction_level'])

在这里插入图片描述
可以看出 上一次的评分、有没有工伤、过去5年有没有晋升 跟 满意度 呈正相关系数
在这里插入图片描述
可以看出 id 跟满意度,没有特别强的关系,可以不作为特征

3. 特征处理

# X丢弃标签
X = tr_data.drop(['satisfaction_level'], axis=1) 
y = tr_data['satisfaction_level']# 切分数据
X_train, X_valid, y_train, y_valid = train_test_split(X, y,test_size=0.2,random_state=1)# 特征列名
feature = X_train.columns
print(feature)# 查看文字特征列
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)
print(object_cols)# 查看标签数据
y_train
# 查看标签值,是一系列的浮点数
pd.unique(y_train)

3.1 数字特征归一化

  • 对数字特征归一化,避免量纲不一样造成的权重差异
# 数字特征,丢弃文字特征列
num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)
num_X_test = X_test.drop(object_cols, axis=1)# 定义归一化转换器
X_scale = preprocessing.StandardScaler()
X_scale.fit_transform(num_X_train)# 转化后的数据是 numpy 数组
num_X_train_data = X_scale.fit_transform(num_X_train)
num_X_valid_data = X_scale.transform(num_X_valid)
num_X_test_data = X_scale.transform(num_X_test)# 转换后的 numpy 数组,转成 pandas 的 DataFrame
num_X_train_scale = pd.DataFrame(num_X_train_data)
# 特征列名称也要重新填上
num_X_train_scale.columns = num_X_train.columnsnum_X_valid_scale = pd.DataFrame(num_X_valid_data)
num_X_valid_scale.columns = num_X_valid.columnsnum_X_test_scale = pd.DataFrame(num_X_test_data)
num_X_test_scale.columns = num_X_test.columns# index 丢失,重新赋值
num_X_train_scale.index = num_X_train.index
num_X_valid_scale.index = num_X_valid.index
num_X_test_scale.index = num_X_test.index

3.2 文字特征处理

  • 先检查数据集之间的特征的数值种类是否有差异,防止编码转换出错
# 检查是否有列中,数据集之间的值的种类有差异,防止编码transform出错,经检查没有bad
good_label_cols = [col for col in object_cols ifset(X_train[col]) == set(X_valid[col])]# Problematic columns that will be dropped from the dataset
bad_label_cols = list(set(object_cols)-set(good_label_cols))good_label_cols = [col for col in object_cols ifset(X_train[col]) == set(X_test[col])]# Problematic columns that will be dropped from the dataset
bad_label_cols = list(set(object_cols)-set(good_label_cols))

经检查,数据集之间的值没有独自特有的,可以放心使用

# 文字特征
cat_X_train = X_train[good_label_cols]
cat_X_valid = X_valid[good_label_cols]
cat_X_test = X_test[good_label_cols]
# 文字特征转换成数字特征
labEncoder = LabelEncoder()
for f in set(good_label_cols):cat_X_train[f] = labEncoder.fit_transform(cat_X_train[f])cat_X_valid[f] = labEncoder.transform(cat_X_valid[f])cat_X_test[f] = labEncoder.transform(cat_X_test[f])

3.3 特征合并

  • 处理后的数字特征与文字特征合并
# 同样的,index需要重新赋值,不操作此步,合并后的数据由于index不一样,行数变多
cat_X_train.index = X_train.index
X_train_final = pd.concat([num_X_train_scale, cat_X_train], axis=1)cat_X_valid.index = X_valid.index
X_valid_final = pd.concat([num_X_valid_scale, cat_X_valid], axis=1)cat_X_test.index = X_test.index
X_test_final = pd.concat([num_X_test_scale, cat_X_test], axis=1)

4. 定义模型训练

  • 定义随机森林回归模型
model1 = rf(n_estimators=100)
model1.fit(X_train_final, y_train)
# cross_val_score(model1,X_train_final,y_train,cv=10,scoring='neg_mean_squared_error')
y_pred_valid = model1.predict(X_valid_final)
mean_absolute_error(y_pred_valid, y_valid)
# 验证集上的误差
0.1364085458333333

5. 预测

  • 对 test 数据集进行预测
y_pred_test = model1.predict(X_test_final)
result = pd.DataFrame()
result['id'] = X_test.index
result['satisfaction_level'] = y_pred_test
result.to_csv('firstsubmit.csv',index=False)

6. 新人赛结果

  • 误差暂时最小,位列第一名
    在这里插入图片描述
Public分数版本变化
0.030955617695980337数字特征无归一化,随机森林n=100
0.03099638771607572数字特征归一化,随机森林n=100
0.05741940132765499数字特征无归一化,逻辑斯谛回归
0.05741940132765499数字特征归一化,逻辑斯谛回归

数字特征归一化对LR模型没有影响???

归一化都无效,可能跟实际情况相关;有效无效,得从训练速度+测试结果来衡量。

  • 比如,存在严重的特征淹没问题,归一化就有效
  • 不存在特征淹没问题,归一化就无效

归一化的价值在于两点:(1)提升训练速度;(2)克服特征淹没问题。

特征淹没,一般存在与线性模型中;树模型,各个特征不同时使用,可能真不存在特征淹没问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475682.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

webusercontrol ajax,ASP.NET页面使用AjaxPro2完成JS调用后台方法

一、首先下载AjaxPro.2.dll(附下载地址)百度网盘链接:https://pan.baidu.com/s/1r87DE1Tza9F4NbJwTCS1AQ提取码:10p6二、在Visual studio中创建空Web项目,并将AjaxPro.2.dll复制到bin目录下,包括在项目中三、打开Web.config文件&a…

LeetCode 1109. 航班预订统计(差分思想)

1. 题目 这里有 n 个航班,它们分别从 1 到 n 进行编号。 我们这儿有一份航班预订表,表中第 i 条预订记录 bookings[i] [i, j, k] 意味着我们在从 i 到 j 的每个航班上预订了 k 个座位。 请你返回一个长度为 n 的数组 answer,按航班编号顺…

ajax点击事件无法触发,解决jQuery Ajax动态新增节点无法触发点击事件的问题_婳祎_前端开发者...

在写ajax加载数据的时候发现,后面添加进来的demo节点元素,失去了之前的点击事件。为什么点击事件失效,我们该怎么去解决呢?其实最简单的方法就是直接在标签中写οnclick””,但是这样写其实是有点low的,最好的方式还是…

OSS音频编程概述(DSP部分)

一、 音频概念 音频信号是一种连续变化的模拟信号,但计算机只能处理和记录二进制的数字信号,由自然音源得到的音频信号必须经过一定的变换,成为数字音频信号之后,才能送到计算机中作进一步的处理。 对于OSS编程来说,需…

LeetCode 853. 车队(排序)

1. 题目 N 辆车沿着一条车道驶向位于 target 英里之外的共同目的地。 每辆车 i 以恒定的速度 speed[i] (英里/小时),从初始位置 position[i] (英里) 沿车道驶向目的地。 一辆车永远不会超过前面的另一辆车&#xff…

测试服务器性能常用算法,服务器性能剖析(profiling)之——简介

性能剖析(profiling)是专注于测量服务器时间花费在哪里的一种技术,这里“性能即响应时间”。测量是一项很有挑战性的工作,并且分析结果也同样有挑战性,测出时间花在哪里,和知道为什么花在那里是两码事……性能剖析一般有两个步骤&…

LeetCode 815. 公交路线(最少换乘,BFS)

1. 题目 我们有一系列公交路线。每一条路线 routes[i] 上都有一辆公交车在上面循环行驶。 例如,有一条路线 routes[0] [1, 5, 7],表示第一辆 (下标为0) 公交车会一直按照 1->5->7->1->5->7->1->… 的车站路线行驶。 假设我们从 …

王者荣耀8月15日服务器维护,王者荣耀8月15日更新维护到什么时候 王者荣耀8月15日更新时间分享...

《王者荣耀》5V5英雄公平对战手游,腾讯最新MOBA大作!5V5、3v3、1v1,多样模式一键体验,海量英雄随心选择!10秒实时跨区匹配,与好友组队...类型:动作冒险大小:792.06M语言:…

第五章 基元类型、引用类型、值类型 CLR学习第五课

一、基元类型:编译器直接支持的数据类型称为基元类型(如int类型其对于的是system。int32)。二、类型溢出,可以用checked 和unchecked进行类型溢出检查和不进行类型溢出检查。一个奇怪的问题,2个byte类型相加的结果居然…

LeetCode 640. 求解方程(字符串)

1. 题目 求解一个给定的方程,将x以字符串"x#value"的形式返回。该方程仅包含’’,’ - 操作,变量 x 和其对应系数。 如果方程没有解,请返回“No solution”。 如果方程有无限解,则返回“Infinite solutio…

幻侠修仙服务器维护,幻侠修仙常见问题_幻侠修仙问答_疑难解答_九游手机游戏...

幻侠修仙官网安卓正式版带来震撼无限的修仙剧情模式,让你去体验无尽的冒险传说,带来真实的玄幻与小说的经典模式,还有特节等你还原出来;经历五行天劫的磨炼,我们的修仙之路一日千里,在挂机战斗的逍遥路途之…

LeetCode 84. 柱状图中最大的矩形(单调递增栈)

文章目录1. 题目2. 解题1. 题目 题目链接 给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积。 以上是柱状图的示例,其中每个柱子的宽度为 1&am…

option

The Tk command option acts on the "option database". [option add] pattern value ?priority? [option clear] option get window name class [option readfile] fileName ?priority?转载于:https://www.cnblogs.com/greencolor/archive/2011/04/10/…

LeetCode 30. 串联所有单词的子串(字符串哈希)

1. 题目 给定一个字符串 s 和一些长度相同的单词 words。找出 s 中恰好可以由 words 中所有单词串联形成的子串的起始位置。 注意子串要与 words 中的单词完全匹配,中间不能有其他字符,但不需要考虑 words 中单词串联的顺序。 示例 1: 输入…

水晶报表-控制结构-For 循环(Crystal 语法)

For 循环使您能够对一系列表达式多次求值。这不同于 If 和 Select 表达式,在 If 和 Select 语句中,程序在对公式求值时几乎同时传递每个语句。 如果事先知道需要对语句求值的次数,最好使用 For 循环。 使用 For 循环假设要反转 {客户.客户名…

LeetCode 57. 插入区间(一次遍历)

1. 题目 给出一个无重叠的 ,按照区间起始端点排序的区间列表。 在列表中插入一个新的区间,你需要确保列表中的区间仍然有序且不重叠(如果有必要的话,可以合并区间)。 示例 1: 输入: intervals [[1,3],[6,9]], newI…

Windows下usb接口驱动技术(一)

Windows下usb接口芯片的驱动技术一、 USB概述 USB的英文全称为Universal Serial Bus,中文含义是通用串行总线,是由Conpaq、DEC、IBM、Inter、Microsoft、NEC和Northen Telecom等公司为简化PC与外设之间的互连而共同研究开发的一种免费的标准化连接器&#x…

LeetCode 363. 矩形区域不超过 K 的最大数值和(DP+set二分查找)

1. 题目 给定一个非空二维矩阵 matrix 和一个整数 k,找到这个矩阵内部不大于 k 的最大矩形和。 示例: 输入: matrix [[1,0,1],[0,-2,3]], k 2 输出: 2 解释: 矩形区域 [[0, 1], [-2, 3]] 的数值和是 2, 且 2 是不超过 k 的最大数字(k 2…

实体框架的惨痛教训

个人评价:通过半年的开发,项目已经运营.但回想起来,整个项目中遇到了许多的问题,还好需求策划上一直很好(原因在于老板原来就是一个产品总监且目前的策划都很有逻辑性),所以对于开发人员而言没有吃苦.问题在于微软的实体框架EF让人简直痛恨至极(个人愚见),让我们浪费了大量时间…

LeetCode 第 27 场双周赛(1125/1966,前57.2%)

文章目录1. 比赛结果2. 题目1. LeetCode 5408. 通过翻转子数组使两个数组相等 easy2. LeetCode 5409. 检查一个字符串是否包含所有长度为 K 的二进制子串 medium3. LeetCode 5410. 课程安排 IV medium (Floyd-Warshall)4. LeetCode 5411. 摘樱桃 II hard…