泰坦尼克号数据集_机器学习入门—泰坦尼克号生存率预测

项目名称:泰坦尼克号生存率预测1.导入数据

这里使用kaggle kernel编写代码

数据下载地址为:https://www.kaggle.com/c/titanic

33f23a096d169fc971dab10d7d495875.png

2.数据统计分析

f4b647570ceb606609efc86708b9332f.png

通过describe和info方法,我们可以发现Age,Cabin,Embarked和Fare的数据都有不同程度的缺失,同时Age和Fare的数据存在错误的数据。

3.数据清洗

a)首先对数据类型缺失值的处理

这里使用fiilna方法进行填充,填充值为平均值。

c3a5815dc548ec4b629c746525815e6f.png

b)字符串类型缺失数据的处理

2ed25d5e677d0617a0d9839f116dd8c3.png

4.特征提取

数值类型:直接使用

时间序列:转成单独的年、月、日

分类数据:用数值代替类别,One-hot编码

这里分类数据又分为:有类别的以及字符串,有类别的包括Sex,Embarked以及Pclass,字符串则包括:Name,Cabin以及Ticket

分类数据的特征提取:性别

27be363427defc249a3b3960f141d14b.png

分类数据的特征提取:登船港口,客舱等级

这里使用get_dummies方法来进行one-hot编码

b24d368dbd05ad407e351b078d332682.png

分类数据的特征提取:姓名

先定义一个提取姓名中名称的函数,使用的是split方法

38dcaab4ae1c308415fff6c6dfed7e30.png

再用map和get_dummies函数进行处理

66f7d501bb42a9dafc2be83e00b49320.png

分类数据的特征提取:客舱号

63d980ee31b8e2c605da845ef7dfa3c9.png

分类数据的特征提取:家庭类别

这里通过分类,将家庭规模分为单个,小家庭以及大家庭并存储至familyDf数据集中

606349c9ab65aefbf55365220b32eff8.png

特征选择:使用corr分析各个数据

280f42ed170d843e7b49a50c7bcd43e7.png

这里将与生存率有关的相关系数进行降序排列,看看谁与生存率的关系最大

196626f9f2696c9860247eefca867571.png

5.构建模型

首先使用train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。

2b7705153729653768cb4ce39d6a3e8e.png

再使用LogisticRegression进行逻辑回归的模型进行训练

f71684202fe8f7479ddb83ede7edac0c.png

评估模型:这里使用model.score方法对模型进行评估,最终得到模型的准确率为0.8。

3fb6922935ae296f302bf95852ac5e8b.png

6.方案实施

6afcf943d497d153d746bd60e34fb1ca.png

041be2f85813597b175845e05d5aeb85.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/567643.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 爬虫利器一之 Requests 库的用法

简介 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,可以节约我们大量的工作。 一、安装 pip快速安装:pip install requests 二、使用 import requestsresp…

firefox flash插件_巧用firefox下载视频资源

技术应用场景:1. 免广告播放视频(含vip)2. 下载各大视频网站的视频资源步骤:1.提前下载安装以下程序:火狐浏览器(Firefox)https://www.lanzous.com/i98jfne火狐flash插件 https://www.lanzous.com/i98jercVideo DownloadHelper插件 https://w…

台式电脑-时间和日期无法更改,提示需要管理员授权

使用系统自带功能修改一直不成功,此时:使用进入bios后台的方式进行修改,即可完成。

sdr 软件_无线电爱好者系列-1.通过SDR获取周围无线电信号及应用

一、什么是SDR?SDR就是Software Defined Radio,即软件定义无线电。之前的无线电通信系统都是基于特殊的硬件元器件完成无线电信号的接收和解码,例如混频器、滤波器、放大器、调制器和解调器、检波器等。而SDR是基于计算机完成相同的工作,也就是把无线电…

程序语言功能

C语言 用来写操作系统 java 写B/S架构的内容 C 写游戏开发 C# windows应用程序 不流行:2014年起,手机销售量超过电脑销售量 Python 大数据 人工智能 算法处理 爬虫 数据分析 机器学习 达到千万级的并发量--使用分布式来减压

c python 内存冲突_Python在计算内存时应该注意的问题?

我之前的一篇文章,带大家揭晓了 Python 在给内置对象分配内存时的 5 个奇怪而有趣的小秘密。文中使用了sys.getsizeof()来计算内存,但是用这个方法计算时,可能会出现意料不到的问题。 文档中关于这个方法的介绍有两层意思: 该方法…

爬虫1-爬虫入门

爬虫 通过编写程序来获取到互联网上的资源 需求:用程序模拟浏览器 输入一个网址 从该网址中获取到资源或者内容 """ File: 01入门.py Author: chde_wang Date: 2021-04-19 14:30:31 Description: """ # 爬虫 通过编写程…

notepad多行编辑_Windows 10 UWP 推荐 | 极具现代感的轻量化文本编辑器:Notepads

柒才也许你正在用VS Code, Notepad或者Sublime,但是相信很多小伙伴跟我一样,在快速记录笔记或者修改配置文件的时候还是会用Windows系统自带的记事本Notepad.exe(毕竟启动速度快,界面清爽)可是问题在于Windows 10自带的…

爬虫2-web请求与http协议

1web请求 1服务器渲染 在服务器那边直接把数据和html整合在一起,统一返回给浏览器 在页面源代码中可以看到数据 2客户端渲染 第一次请求只拿到html骨架, 第二次请求拿到数据,进行数据分析 在页面源代…

python中读取txt文件、统计其中所有字母出现的频度_Python编程小技巧:如何统计序列中元素的出现频度...

原标题:Python编程小技巧:如何统计序列中元素的出现频度实际案例 某随机序列中,找到出现次数最高的三个元素,他们的出现次数是多少? 对某英文文章的单词进行词频统计,找到出现次数最高的10个单词&#xff0…

爬虫3-request的get与post简单使用

requests.get # 安装request pip install requests # import requests # url "http://www.sogou.com/web?query周杰伦" # resp requests.get(url) # 地址栏链接 一定是get方式提交 # print(resp) # print(resp.text) # 拿到网页源代码 访问被拦截# import requ…

adsl服务器客户端配置cisco_【干货】Cisco路由排错经典案例分析

关注我,你的眼睛会怀孕对于网工来说,熟悉与掌握路由排错的思路和技巧是非常必要的。接下来,将对三例典型的路由故障排错案例进行分析。一、不堪重负,路由器外网口关闭1、网络环境某单位使用的是Cisco路由器,租用电信30…

爬虫4-正则表达式及Python的re模块

正则表达式语法: # -*- coding: utf-8 -*- 元字符:具有固定含义的特殊符号 常用元字符:(一般一次匹配一个字符) . 匹配除换行符以外的任意字符 \w 匹配字母数字或下划线 \s 匹配任意的空白符 \n 匹配一个换行符 \t 匹配…

centos sudo不能运行_如何在Linux中配置sudo访问权限

Linux 系统中 root 用户拥有 Linux 中全部控制权力。Linux 系统中 root 是拥有最高权力的用户,可以在系统中实施任意的行为。如果其他用户想去实施一些行为,不能为所有人都提供 root 访问权限。因为如果他或她做了一些错误的操作,没有办法去纠…

html文件中文在浏览器中显示乱码问题解决

利用浏览器打开html文件时&#xff0c;中文显示乱码&#xff0c;如下是原文件的内容 1 <html> 2 <head> 3 <title>狗熊王</title> 4 </head> 5 6 <body> 7 <p>狗熊王…

highscore软件_软件|标准物质PDF卡片查找HighScore

有宝物的柜子实用、有趣、干货2019.5.15 前面&#xff0c;我们介绍了Jade软件|MDI Jade 安装包、安装教程、使用手册软件|CasaXPS安装包、安装教程、基本操作&#xff01;今天分享↓↓↓HighScore的安装与简单使用(如有侵权&#xff0c;联系后台删除&#xff01;)第一部分&am…

爬虫5-BeautifulSoup模块简解

1、html标记语言了解 <html> <meta http-equiv"Content-Type"content"text/html;charsetutf-8"> <h1>我的祖国</h1> <h1 align"center">我的祖国</h1> # h1 标签 # align 属性 # center 属性值 <标签 …

js图片转二进制流_V8是如何执行一段JS代码的?

汇编器 编译器 解释器解释执行和解释执行什么是V8&#xff1f;V8执行Js代码的过程汇编器 编译器 解释器众所周知&#xff0c;计算机只能理解机器语言&#xff0c;而我们平时编程用的通常是高级语言&#xff0c;所以源代码通常都要经过层层转换最终变成机器语言运行。早期只有汇…

爬虫5-BeautifulSoup模块简解2

1.BeautifulSoup简解2 from bs4 import BeautifulSoup import re file open("./baidu.html",rb) html file.read() bs BeautifulSoup(html,"html.parser") # 解析内容 解析器# 1 Tag 标签及其内容&#xff1a;拿到它所找到的第一个内容 print(bs.titl…

python lxml xpath_Python/lxml/Xpath:如何找到包含特定文本的行?

例如&#xff0c;要获得一个类似以下内容的输出&#xff0c;需要什么“现金和短期投资144841 169760 189252 86743 57379”&#xff1f;或者类似“物业、厂房和设备-总价值725104 632332 571467 538805 465493”&#xff1f;在我已经通过siteshttp://www.techchorus.net/web-sc…