python 逻辑回归准确率是1_python数据分析（三）—

python 逻辑回归准确率是1_python数据分析（三）——逻辑回归之学生成绩预测

Python数据分析项目

——学生成绩预测

一．数据源

阿里云天池公开数据集：学生成绩预测数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=6785

特征(Features)介绍：

Gender: 性别
Nationality: 国籍
PlaceofBirth：出生地
StageID：学校级别（小学，中学，高中）
GradeID：年级 (G01 - G12)
SectionID: 班级
Topic：学科科目
Semester: 学期（春学期，秋学期）
Relation: 孩子家庭教育负责人（父亲，母亲）
RaisedHands: 学生该学期上课举手的次数
VisitedResources: 学生浏览在线课件的次数
AnnoucementsView: 学生浏览学校公告的次数
Discussion: 学生参与课堂讨论的次数
ParentAnsweringSurvey: 家长是否填写了关于学校的问卷调查（是，否）
ParentSchoolSatisfaction: 家长对于学校的满意度（好，不好）
StudentAbsenceDays: 学生缺勤天数（大于7天，低于7天）

结果(Response Variable)介绍：

Class: 根据学生最后的学术评测分数，学生会被分为3个等级
Low-Level: 分数区间在0-60
Middle-Level:分数区间在70-89
High-Level:分数区间在90-100

二．数据预览

import pandas as pd

df=pd.read_csv('datalab/6785/students_data.csv')

df.head()

读了前五行，看看数据情况

三．数据预处理

看看数据是否有缺失值

df.isnull().sum()

没有缺失值

四．描述性统计

df.describe(include='all')

看看类别变量包含的内容：

print('gender',df.gender.unique())

看看数据集结果是否平衡:

import seaborn as sns

sns.countplot(x='Class',data=df)

五．可视化

可视化的目的是为了探索数据规律，发现数据之间的关系，比如特征与目标变量之间的相关性。

可视化可以使用seaborn和matplotlib库进行，不过我不喜欢编程，所有比较喜欢用tableau，类别变量的可视化结果为tableau做的效果。

首先看看类别变量：

性别与得分：

国籍与得分：

班级与得分：

数值型变量：

相关性分析：

corr=df[['raisedhands','VisITedResources','AnnouncementsView','Discussion']].corr()

corr

Discussion与其他三个相关性较低，其他三个变量的相关性都比较高

以上结论从热力图也可以看出来：

sns.heatmap(corr, xticklabels=corr.columns,yticklabels=corr.columns)

六．模型建立

使用逻辑回归模型进行预测，并计算准确率

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

#建立特征和目标变量

x=df.drop('Class',axis=1)

x= pd.get_dummies(x)#对类别变量进行one-hot编码，即建立虚拟变量

y=df['Class']

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size = 0.2,random_state = 10)#建立训练集和测试集

#模型训练

logit=LogisticRegression()

logit.fit(x_train,y_train)

#预测

predict=logit.predict(x_test)

print('predict',predict)

#准确率评分

Score = accuracy_score(y_test, predict)

Score

七．模型优化

从可视化图表探索发现SectionID与Class关系不大，所以尝试剔除再进行建模：

x=df.drop(['Class','SectionID'],axis=1)

x= pd.get_dummies(x)

y=df['Class']

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size = 0.2,random_state = 10)

logit=LogisticRegression()

logit.fit(x_train,y_train)

predict=logit.predict(x_test)

print('predict',predict)

Score = accuracy_score(y_test, predict)

Score

可以看到准确率得到提升。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/442623.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python 逻辑回归准确率是1_python数据分析（三）——逻辑回归之学生成绩预测

相关文章

向量数量积公式_多法 | 向量数量积相关最值问题的常见处理方法

kettle增加字段报错_【实战】使用 Kettle 工具将 mysql 数据增量导入到 MongoDB 中

增量同步_使用Kettle工具进行增量数据同步

mysql in优化_MySQL的一次优化记录（IN子查询和索引优化）

mysql sqlite转换_数据库转换工具(SqliteToMysql)

mysql 查看集群状态_MySQL数据库集群正确配置步骤

oschina mysql limit_MySQL 用 limit 为什么会影响性能？

在mysql中建立聚簇索引_给我一分钟，让你彻底明白MySQL聚簇索引和非聚簇索引...

根据从日期控件选定的时间以表格形式显示数据_VB项目开发FlexGrid控件使用讲解...

mysql爆内存_线上MySQL数据库机器内存爆掉原因分析与解决

mysql atlas更新问题_Atlas几种常见故障解决（不定期更新）

如何更改mysql服务名_技术小百科 |【云小课】数据复制服务如何实现对象名映射...

python 二维强度图_荐 python数据分析matplotlib库使用之二维图形绘制

python数据爬虫代码_python如何示例爬虫代码

kali linux查看网卡_CentOS7.6安装无线网卡驱动|Linux如何安装网卡驱动|Linux如何让配置网卡...

python本地编译器_Python学习札记（0）——Python开发环境搭载及推荐几款Python编译器...

如何将mysql的数据库渲染到页面_vue.js实现数据库的JSON数据输出渲染到html页面功能示例...

java模块_Java 9 揭秘（2. 模块化系统）

java reader_Java之字符输入流，Reader类的简单介绍

java redis brpop_Redis实战 | 5种Redis数据类型详解