泰坦尼克号数据集_机器学习入门—泰坦尼克号生存率预测

项目名称:泰坦尼克号生存率预测1.导入数据

这里使用kaggle kernel编写代码

数据下载地址为:https://www.kaggle.com/c/titanic

33f23a096d169fc971dab10d7d495875.png

2.数据统计分析

f4b647570ceb606609efc86708b9332f.png

通过describe和info方法,我们可以发现Age,Cabin,Embarked和Fare的数据都有不同程度的缺失,同时Age和Fare的数据存在错误的数据。

3.数据清洗

a)首先对数据类型缺失值的处理

这里使用fiilna方法进行填充,填充值为平均值。

c3a5815dc548ec4b629c746525815e6f.png

b)字符串类型缺失数据的处理

2ed25d5e677d0617a0d9839f116dd8c3.png

4.特征提取

数值类型:直接使用

时间序列:转成单独的年、月、日

分类数据:用数值代替类别,One-hot编码

这里分类数据又分为:有类别的以及字符串,有类别的包括Sex,Embarked以及Pclass,字符串则包括:Name,Cabin以及Ticket

分类数据的特征提取:性别

27be363427defc249a3b3960f141d14b.png

分类数据的特征提取:登船港口,客舱等级

这里使用get_dummies方法来进行one-hot编码

b24d368dbd05ad407e351b078d332682.png

分类数据的特征提取:姓名

先定义一个提取姓名中名称的函数,使用的是split方法

38dcaab4ae1c308415fff6c6dfed7e30.png

再用map和get_dummies函数进行处理

66f7d501bb42a9dafc2be83e00b49320.png

分类数据的特征提取:客舱号

63d980ee31b8e2c605da845ef7dfa3c9.png

分类数据的特征提取:家庭类别

这里通过分类,将家庭规模分为单个,小家庭以及大家庭并存储至familyDf数据集中

606349c9ab65aefbf55365220b32eff8.png

特征选择:使用corr分析各个数据

280f42ed170d843e7b49a50c7bcd43e7.png

这里将与生存率有关的相关系数进行降序排列,看看谁与生存率的关系最大

196626f9f2696c9860247eefca867571.png

5.构建模型

首先使用train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。

2b7705153729653768cb4ce39d6a3e8e.png

再使用LogisticRegression进行逻辑回归的模型进行训练

f71684202fe8f7479ddb83ede7edac0c.png

评估模型:这里使用model.score方法对模型进行评估,最终得到模型的准确率为0.8。

3fb6922935ae296f302bf95852ac5e8b.png

6.方案实施

6afcf943d497d153d746bd60e34fb1ca.png

041be2f85813597b175845e05d5aeb85.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/567643.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

firefox flash插件_巧用firefox下载视频资源

技术应用场景:1. 免广告播放视频(含vip)2. 下载各大视频网站的视频资源步骤:1.提前下载安装以下程序:火狐浏览器(Firefox)https://www.lanzous.com/i98jfne火狐flash插件 https://www.lanzous.com/i98jercVideo DownloadHelper插件 https://w…

sdr 软件_无线电爱好者系列-1.通过SDR获取周围无线电信号及应用

一、什么是SDR?SDR就是Software Defined Radio,即软件定义无线电。之前的无线电通信系统都是基于特殊的硬件元器件完成无线电信号的接收和解码,例如混频器、滤波器、放大器、调制器和解调器、检波器等。而SDR是基于计算机完成相同的工作,也就是把无线电…

c python 内存冲突_Python在计算内存时应该注意的问题?

我之前的一篇文章,带大家揭晓了 Python 在给内置对象分配内存时的 5 个奇怪而有趣的小秘密。文中使用了sys.getsizeof()来计算内存,但是用这个方法计算时,可能会出现意料不到的问题。 文档中关于这个方法的介绍有两层意思: 该方法…

notepad多行编辑_Windows 10 UWP 推荐 | 极具现代感的轻量化文本编辑器:Notepads

柒才也许你正在用VS Code, Notepad或者Sublime,但是相信很多小伙伴跟我一样,在快速记录笔记或者修改配置文件的时候还是会用Windows系统自带的记事本Notepad.exe(毕竟启动速度快,界面清爽)可是问题在于Windows 10自带的…

python中读取txt文件、统计其中所有字母出现的频度_Python编程小技巧:如何统计序列中元素的出现频度...

原标题:Python编程小技巧:如何统计序列中元素的出现频度实际案例 某随机序列中,找到出现次数最高的三个元素,他们的出现次数是多少? 对某英文文章的单词进行词频统计,找到出现次数最高的10个单词&#xff0…

adsl服务器客户端配置cisco_【干货】Cisco路由排错经典案例分析

关注我,你的眼睛会怀孕对于网工来说,熟悉与掌握路由排错的思路和技巧是非常必要的。接下来,将对三例典型的路由故障排错案例进行分析。一、不堪重负,路由器外网口关闭1、网络环境某单位使用的是Cisco路由器,租用电信30…

centos sudo不能运行_如何在Linux中配置sudo访问权限

Linux 系统中 root 用户拥有 Linux 中全部控制权力。Linux 系统中 root 是拥有最高权力的用户,可以在系统中实施任意的行为。如果其他用户想去实施一些行为,不能为所有人都提供 root 访问权限。因为如果他或她做了一些错误的操作,没有办法去纠…

html文件中文在浏览器中显示乱码问题解决

利用浏览器打开html文件时&#xff0c;中文显示乱码&#xff0c;如下是原文件的内容 1 <html> 2 <head> 3 <title>狗熊王</title> 4 </head> 5 6 <body> 7 <p>狗熊王…

highscore软件_软件|标准物质PDF卡片查找HighScore

有宝物的柜子实用、有趣、干货2019.5.15 前面&#xff0c;我们介绍了Jade软件|MDI Jade 安装包、安装教程、使用手册软件|CasaXPS安装包、安装教程、基本操作&#xff01;今天分享↓↓↓HighScore的安装与简单使用(如有侵权&#xff0c;联系后台删除&#xff01;)第一部分&am…

js图片转二进制流_V8是如何执行一段JS代码的?

汇编器 编译器 解释器解释执行和解释执行什么是V8&#xff1f;V8执行Js代码的过程汇编器 编译器 解释器众所周知&#xff0c;计算机只能理解机器语言&#xff0c;而我们平时编程用的通常是高级语言&#xff0c;所以源代码通常都要经过层层转换最终变成机器语言运行。早期只有汇…

mockito mock void方法_一文让你快速上手 Mockito 单元测试框架

前言在计算机编程中&#xff0c;单元测试是一种软件测试方法&#xff0c;通过该方法可以测试源代码的各个单元功能是否适合使用。为代码编写单元测试有很多好处&#xff0c;包括可以及早的发现代码错误&#xff0c;促进更改&#xff0c;简化集成&#xff0c;方便代码重构以及许…

vs winform常用函数_使用.net core3.0 正式版创建Winform程序

前阵子一直期待.net core3.0正式版本的出来&#xff0c;以为这个版本出来&#xff0c;Winform程序又迎来一次新生了&#xff0c;不过9.23日出来的马上下载更新VS&#xff0c;创建新的.net core Winform项目&#xff0c;发现并没有Winform窗体设计器。而微软目前则是通过插件的方…

VScode中编写运行C/html文件

VScode运行C程序的所需配置 VScode只是一个编辑器&#xff0c;并不自带C编译器&#xff0c;所以需要 下载mingw 下载安装版本或者压缩文件&#xff0c;解压缩后&#xff0c;配置系统的环境变量。 path中添加mingw/bin的路径 新建include变量&#xff0c;添加mingw/include的路径…

linq结果转换object_你知道Object.entries(),但你还知道有Object.fromEntries()吗?

我们得到 object.entries()&#xff0c;它转换一个object → array。但是&#xff0c;如果您想做相反的事情怎么办&#xff1f;不用再想了&#xff01; 使用 Object.fromEntries() 来array → object 。const keyValuePair [ [cow, ], [pig, ],];Object.fromEntries(keyValu…

C语言中数组越界访问造成死循环现象

大家请看这样一段代码&#xff08;工具&#xff1a;VC6.0&#xff09;&#xff1a; #include <stdio.h> int main(int argc, char *argv[]) { int i; int arr[10];/* 这里注意循环变量i与数组arr的定义顺序 */ for(i 0; i < 10; i)/* 这里越界了 */ …

java 同步锁_Java多线程:synchronized同步锁的使用和实现原理

作用和用法在多线程对共享资源进行并发访问方面&#xff0c;JDK提供了synchronized关键字来进行线程同步&#xff0c;实现多线程并发访问的线程安全。synchronized的作用主要体现在三个方面&#xff1a;(1)确保线程互斥地访问同步代码&#xff1b;(2)保证共享变量的线程可见性&…

java基础代码实例_基础篇:详解JAVA对象实例化过程

1 对象的实例化过程对象的实例化过程是分成两部分&#xff1a;类的加载初始化&#xff0c;对象的初始化要创建类的对象实例需要先加载并初始化该类&#xff0c;main方法所在的类需要先加载和初始化类初始化就是执行方法&#xff0c;对象实例化是执行方法一个子类要初始化需要先…

搭建webUI自动化及问题解决:Message: ‘chromedriver‘ executable needs to be in PATH.解决办法

搭建webUI自动化环境 1、conda install selenium即可。 若出现&#xff1a;Message: chromedriver executable needs to be in PATH.Please see https://sites.google.com/a/chromium.org/chromedriver/home。 报错原因&#xff1a;没有配置chrome浏览器的chromedriver 解决…

C语言-字符串处理函数strcpy

strcpy 原型&#xff1a;strcpy(char destination[], const char source[]); 功能&#xff1a;将字符串source拷贝到字符串destination中。此处将source中的字符串结束标志符‘\0’也一同复制。所以在输出时&#xff0c;切不可以用‘\0’&#xff0c;puts&#xff0c;printf输…

C语言-字符串处理函数strcat

strccat-字符串拼接函数 char*strcat(char* strDestination, const char* strSource); 参数说明&#xff1a; strDestination&#xff1a;目的字符串&#xff1b;strSource&#xff1a;源字符串。 strcat() 函数把 strSource 所指向的字符串追加到 strDestination 所指向的字…