【kaggle入门题一】Titanic: Machine Learning from Disaster

原题:

Start here if...

You're new to data science and machine learning, or looking for a simple intro to the Kaggle prediction competitions.

Competition Description

The sinking of the RMS Titanic is one of the most infamous shipwrecks in history.  On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out of 2224 passengers and crew. This sensational tragedy shocked the international community and led to better safety regulations for ships.

One of the reasons that the shipwreck led to such loss of life was that there were not enough lifeboats for the passengers and crew. Although there was some element of luck involved in surviving the sinking, some groups of people were more likely to survive than others, such as women, children, and the upper-class.

In this challenge, we ask you to complete the analysis of what sorts of people were likely to survive. In particular, we ask you to apply the tools of machine learning to predict which passengers survived the tragedy.

Practice Skills

  • Binary classification
  • Python and R basics

训练数据:

训练数据中的特征:

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
特征PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
解释乘客ID死亡0/幸存/1经济等级(1=high、2=middle、3=low)乘客姓名性别年龄船上的兄弟姐妹个数船上的父母孩子个数船票号码票价客舱号码登船港口

解决思路:加载样本->求出总数、总计、均值、方差->利用均值补全空白值->。。。->交叉验证(将训练数据做测试,123选中其二作为训练模型,剩下一个作为测试(原测试集不用),交叉训练验证取平均值)->线性回归->逻辑回归->随机森林

#coding=utf-8
import os
file_root = os.path.realpath('titanic')
file_name_test = os.path.join(file_root, "test.csv")
file_name_train = os.path.join(file_root, "train.csv")
import pandas as pd
#显示所有信息
pd.set_option('display.max_columns' , None)
titanic = pd.read_csv(file_name_train)
data = titanic.describe()#可以查看有哪些缺失值
titanic.info()
#缺失的Age内容进行取均值替换
titanic['Age'].fillna(titanic['Age'].median(), inplace=True)
data = titanic.describe()
print(data)#查看Sex下属性值,并替换
print("Sex原属性值", titanic['Sex'].unique())
titanic.loc[titanic['Sex'] == "male", "Sex"] = 0
titanic.loc[titanic['Sex'] == "female", "Sex"] = 1
print("Sex替换后的属性值", titanic['Sex'].unique())
#查看Embarked下属性值,并替换
print("Embarked原属性值", titanic['Embarked'].unique())
titanic["Embarked"] = titanic["Embarked"].fillna('S')
titanic.loc[titanic['Embarked'] == 'S', 'Embarked'] = 0
titanic.loc[titanic['Embarked'] == 'C', 'Embarked'] = 1
titanic.loc[titanic['Embarked'] == 'Q', 'Embarked'] = 2
print("Embarked替换后的属性值", titanic['Embarked'].unique())#线性回归模型预测
from sklearn.linear_model import LinearRegression
#交叉验证
from sklearn import model_selection
#特征值
predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]
#初始化
alg = LinearRegression()
#titanic.shape[0]:表示得到m和n的二元组,也就是样本数目;表示n_folds:表示做基层的交叉验证;
print("titanic.shape[0]:", titanic.shape[0])
# kf = model_selection.KFold(titanic.shape[0], n_folds=3, random_state=1)
kf = model_selection.KFold(n_splits=3, random_state=1, shuffle=False)
predictions = []
#n_folds=3遍历三层
for train, test in kf.split(titanic['Survived']):#把训练数据拿出来train_predictors = titanic[predictors].iloc[train,:]#我们使用样本训练的目标值train_target = titanic['Survived'].iloc[train]#应用线性回归,训练回归模型alg.fit(train_predictors, train_target)#利用测试集预测test_predictions = alg.predict(titanic[predictors].iloc[test,:])predictions.append(test_predictions)#看测试集的效果,回归值区间值为[0-1]
import numpy as np
#numpy提供了numpy.concatenate((a1,a2,...), axis=0)函数。能够一次完成多个数组的拼接。其中a1,a2,...是数组类型的参数
predictions = np.concatenate(predictions, axis=0)predictions[predictions > .5] = 1
predictions[predictions <= .5] = 0
accuracy = sum(predictions[predictions == titanic['Survived']]) / len(predictions)
print("线性回归模型: ", accuracy)
#输出:0.78...
#采用逻辑回归方式实现
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
import warnings
warnings.filterwarnings("ignore")
#初始化
alg = LogisticRegression(random_state=1)
#比较测试值
scores = model_selection.cross_val_score(alg, titanic[predictors], titanic['Survived'], cv=3)
print("逻辑回归模型: ", scores.mean())#采用随机森林实现:构造多颗决策树共同决策结果,取出多次结果的平均值。
#随机森林在这七个特征当中进行随机选择个数
from sklearn import model_selection
from sklearn.ensemble import RandomForestClassifier
pridictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]
#参数:随机数、用了多少树、最小样本个数、最小叶子结点个数
alg = RandomForestClassifier(random_state=1, n_estimators=50, min_impurity_split=4, min_samples_leaf=2)
kf = model_selection.KFold(n_splits=3, random_state=1, shuffle=False)
kf = kf.split(titanic['Survived'])
scores = model_selection.cross_val_score(alg, titanic[predictors], titanic['Survived'], cv=kf)
print("随机森林: ", scores.mean())

视频地址:https://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/video?lessonId=1004052091&courseId=1003551009

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508977.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

神经网络NN算法

1. 背景: 1.1 以人脑中的神经网络为启发&#xff0c;历史上出现过很多不同版本1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network)2.1 Backpropagation被使用在多层向前神经网络上2.2 多层向前神经网络由以下部分组成&a…

python利用jieba(textRank、TFIDF)提取关键字

from jieba import analyse print("tfidf: ") tfidf analyse.extract_tags text "线程是程序执行时的最小单位&#xff0c;它是进程的一个执行流&#xff0c;\是CPU调度和分派的基本单位&#xff0c;一个进程可以由很多个线程组成&#xff0c;\线程间共享进程…

神经网络算法实现

1. 关于非线性转化方程(non-linear transformation function) sigmoid函数(S 曲线)用来作为activation function:1.1 双曲函数(tanh)tanh是双曲函数中的一个&#xff0c;tanh()为双曲正切。在数学中&#xff0c;双曲正切“tanh”是由基本双曲函数双曲正弦和双曲余弦推导而来公式…

神经网络算法的实例

1.简单非线性关系数据集测试&#xff08;XOR)X: Y0 0 00 1 11 0 11 1 0Code:#!/usr/bin/env python #-*-coding:utf-8-*- #神经网络测试的例子 #简单非线性关系数据集测试(XOR)异或的运算 f…

线性回归模型

1. 简单线性回归模型举例&#xff1a; 汽车卖家做电视广告数量与卖出的汽车数量&#xff1a; 1.1 如何练出适合简单线性回归模型的最佳回归线/ 使sum of squares最小1.1.2 计算分子 (1-2)(14-20)(3-2)(24-20)(2-2)(18-20)(1-2)(17-20)(3-2)(27-20) 6 4 0 3 7 20分母 &…

多元线性回归模型

1. 与简单线性回归区别(simple linear regression)多个自变量(x)2. 多元回归模型yβ0&#xff0b;β&#xff11;x1β2x2 ... βpxpε其中&#xff1a;β0&#xff0c;β&#xff11;&#xff0c;β2... βp是参数ε是误差值3. 多元回归方程E(y)β0&#xff0b;β&#xff11;x…

常见分数值归一化方法

数据标准化&#xff08;归一化&#xff09;处理是数据挖掘的一项基础工作&#xff0c;不同评价指标往往具有不同的量纲和量纲单位&#xff0c;这样的情况会影响到数据分析的结果&#xff0c;为了消除指标之间的量纲影响&#xff0c;需要进行数据标准化处理&#xff0c;以解决数…

非线性回归

1. 概率&#xff1a; 1.1 定义 概率(P)robability: 对一件事情发生的可能性的衡量1.2 范围 0 < P < 11.3 计算方法&#xff1a; 1.3.1 根据个人置信1.3.2 根据历史数据1.3.3 根据模拟数据1.4 条件概率&#xff1a;2. Logistic Regression (逻辑回归)2.1 例子2.2 基本…

python dir()函数使用

您可以使用内置的dir()函数列出一个定义对象的标识符。例如&#xff0c;对于一个模块&#xff0c;包括在模块中定义的函数&#xff0c;类和变量。 当你给dir()提供一个模块名字时&#xff0c;它返回在那个模块中定义的名字的列表。当没有为其提供参数时, 它返回当前模块中定义的…

【链接保存】十分钟上手sklearn:特征提取,常用模型,交叉验证

原博客地址&#xff1a;http://blackblog.tech/2018/02/05/%E5%8D%81%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8Bsklearn-1/ 简书地址&#xff1a;https://www.jianshu.com/p/731610dca805

【链接保存】十分钟上手sklearn:安装,获取数据,数据预处理

简书地址&#xff1a;https://www.jianshu.com/p/a9168803edc6 博主地址&#xff1a;http://blackblog.tech/2018/02/05/%E5%8D%81%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8Bsklearn-1/

层次聚类

假设有N个待聚类的样本&#xff0c;对于层次聚类来说&#xff0c;步骤&#xff1a;1、&#xff08;初始化&#xff09;把每个样本归为一类&#xff0c;计算每两个类之间的距离&#xff0c;也就是样本与样本之间的相似度&#xff1b;2、寻找各个类之间最近的两个类&#xff0c;把…

常用软件包和环境配置(机器学习)

1. 常用软件包&#xff1a;TheanoPylearn2scikit-neuralnetworkCaffeDeeplearning4jTorchhttp://deeplearning.net/software_links/2. 环境配置Linux: UbuntuEclipsePyDevPythonCUDAGPU: https://developer.nvidia.com/cuda-gpus3. 神经网络算法 (neural networks)http://www.m…

(优秀文章保存)Quartz优秀文章保存

Quartz的基本使用之入门&#xff08;2.3.0版本&#xff09; 一、Quartz可以用来做什么 Quartz是一个强大任务调度框架&#xff0c;我工作时候会在这些情况下使用到quartz框架&#xff0c;当然还有很多的应用场景&#xff0c;在这里只列举2个实际用到的 餐厅系统会在每周四晚…

【使用注意】Jsoup的select方法

之前做了一个频道抓取&#xff1a;获取div Elements div_e;div_e doc.select("div");Iterator<Element> div_it div_e.iterator();while (div_it.hasNext()) {处理逻辑} 我是想通过select div块然后去遍历获取div里的内容&#xff0c;但是发现有的新闻网址频…

cross-entropy函数

我们理想情况是让神经网络学习更快假设简单模型: 只有一个输入,一个神经元,一个输出简单模型: 输入为1时, 输出为0初始 w 0.6, b 0.9 初始预测的输出 a 0.82, 需要学习学习率: 0.15演示: 初始: w 2.0, b 2.0, 初始预测输出: 0.98, 和理想输出0差点很远演示:神经网络的学…

DButils工具使用笔记以及常见问题总结

入门&#xff1a; https://www.cnblogs.com/smyhvae/p/4085684.html 一、字段名称和实体类命名不用 解决办法&#xff1a;给查询结果的显示字段取别名&#xff0c;如TEMPLATE_ID AS templateId select news_id as id, title from test where id1 二、DBUtils使用BeanListH…

Tensorflow报错:AttributeError: 'module' object has no attribute 'scalar_summary'

报错&#xff1a; tf.scalar_summary(l.op.name (raw), l) AttributeError: module object has no attribute scalar_summary 解决&#xff1a; tf.scalar_summary(images, images)改为&#xff1a;tf.summary.scalar(images, images) tf.image_summary(images, images)改为&…

python安装Scrapy踩过的坑以及安装指导

在pyCharm中的setting中直接添加包然后报错,然后利用window控制台pip install 报错异常&#xff1a; Command "python setup.py egg_info" failed with error code 1 第一步&#xff1a;准备更新pip&#xff0c;利用以下指令 python -m pip install --upgrade pip…

MyBatis之快速入门

MyBatis之快速入门 2017/9/30首先我要明确告诉大家的是MyBatis是一个java持久层框架&#xff0c;以前我们都是用jdbc来将我们的java程序与数据库相连接&#xff0c;而MyBatis是对jdbc的一个封装。 1.MyBatis框架的引入 我们来看看传统的编程方式中使用jdbc的问题: 1.数据库连接…