1、案例二:使用Pandas库进行进行机器学习建模步骤【Python人工智能】

在人工智能和机器学习项目中,数据处理是一个至关重要的环节。Pandas是Python中一个强大的数据处理库,它提供了高效、灵活的数据结构和数据分析工具。下面是一个使用Pandas库进行数据处理的例子,涉及数据清洗、特征工程和基本的统计分析。

示例:泰坦尼克号乘客生存预测

在这个例子中,我们使用著名的泰坦尼克号乘客数据集。我们的目标是通过数据处理和特征工程,为机器学习模型预测乘客是否能生存提供清洗后的数据。

1. 导入必要的库
import pandas as pd
import numpy as np
2. 加载数据
# 读取CSV文件到Pandas DataFrame
df = pd.read_csv('titanic.csv')

3. 数据预览

# 显示数据前几行
print(df.head())# 查看数据的基本信息
print(df.info())# 查看数据统计信息
print(df.describe())
4. 数据清洗
  1. 处理缺失值
    # 查看每列的缺失值
    print(df.isnull().sum())# 填充缺失的年龄(使用中位数)
    df['Age'].fillna(df['Age'].median(), inplace=True)# 填充缺失的登船港口(使用最常见的值)
    df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)# 舍弃包含大量缺失值的列(如客舱号)
    df.drop(columns=['Cabin'], inplace=True)
    

  2. 转换分类变量为数值型
    # 使用Pandas的get_dummies方法进行独热编码
    df = pd.get_dummies(df, columns=['Sex', 'Embarked'], drop_first=True)
    
    5. 特征工程
  • 创建新的特征
    # 创建家庭成员总数特征
    df['FamilySize'] = df['SibSp'] + df['Parch'] + 1# 创建是否独自一人旅行特征
    df['IsAlone'] = (df['FamilySize'] == 1).astype(int)
    

  • 特征选择

    # 选择有用的特征进行建模
    features = ['Pclass', 'Age', 'Fare', 'FamilySize', 'IsAlone', 'Sex_male', 'Embarked_Q', 'Embarked_S']
    X = df[features]
    y = df['Survived']
    
    6. 数据标准化
    from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
    X = scaler.fit_transform(X)
    
    7. 简单的统计分析
    # 计算各类乘客的生存率
    survival_rate = df.groupby('Pclass')['Survived'].mean()
    print(survival_rate)# 查看不同性别的生存率
    gender_survival_rate = df.groupby('Sex_male')['Survived'].mean()
    print(gender_survival_rate)
    
    8. 准备训练模型

    我们已经完成了数据清洗和特征工程,现在可以使用处理后的数据进行机器学习模型的训练。例如,使用逻辑回归模型:

    from sklearn.linear_model import LogisticRegression
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import accuracy_score# 分割数据集为训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 初始化和训练逻辑回归模型
    model = LogisticRegression()
    model.fit(X_train, y_train)# 预测和评估模型
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'模型准确率: {accuracy:.2f}')
    

    结论

    通过这个例子,我们展示了如何使用Pandas库进行数据加载、清洗、特征工程和简单的统计分析。这些步骤是进行机器学习建模的基础,能够帮助我们准备高质量的数据,为模型提供可靠的输入。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/37248.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI大模型怎么备案?

随着人工智能技术的飞速发展,生成式AI正逐渐渗透到我们的日常生活和各行各业中。从文本创作到艺术设计,从虚拟助手到智能客服,AI的身影无处不在。然而,技术的创新与应用,离不开法律的规范与引导。为进一步保障和监管AI…

cocos creator 调试插件

适用 Cocos Creator 3.4 版本,cocos creator 使用google浏览器调试时,我们可以把事实运行的节点以节点树的形式显示在浏览器上,支持运行时动态调整位置等、、、 将下载的preview-template插件解压后放在工程根目录下,然后重新运行…

kubernetes Deployment yaml文件解析

一、yaml文件示例 apiVersion: apps/v1 kind: Deployment metadata:labels:app: nginxname: nginxnamespace: mtactor spec:replicas: 4revisionHistoryLimit: 10selector:matchLabels:app: nginxstrategy:rollingUpdate:maxSurge: 25%maxUnavailable: 25%type: RollingUpdate…

C++:inline关键字nullptr

inline关键字 C中inline使用关键点强调 (1)inline是一种“用于实现的关键字”,而不是一种“用于声明的关键字”,所以关键字 inline 必须与函数定义体放在一起,而不是和声明放在一起 (2)如果希望在多个c文件中使用,则inline函数应…

树莓派4B_OpenCv学习笔记15:OpenCv定位物体实时坐标

今日继续学习树莓派4B 4G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: Opencv 版本是4.5.1: 今日学习 OpenCv定位物体实时位置,代码来源是…

阿里AIDC - 杭州 - 渗透测试岗

渗透测试岗 - 阿里AIDC - 杭州 面试开始 一、自我介绍 - 2分钟二、面试官提问与个人对答三、问面试官问题面试结束 结果:个人觉得悬,但是对方很有礼貌,说话态度也非常好总结:其实问题问的并不是特别难,主要是自己对攻击…

操作系统期末复习(对抽象概念的简单形象化)

操作系统 引论 定义与基本概念:操作系统是计算机硬件与用户之间的桥梁,类似于家中的管家,它管理硬件资源(如CPU、内存、硬盘),并为用户提供方便的服务(应用程序执行、文件管理等)。…

从 Linux 向 Windows 传文件和从 Windows 向 Linux 传文件的方法

这两种传递文件的方式是可行的,下面是对每种方式的具体说明和步骤: 1. 从 Linux 向 Windows 传文件 使用 Python 的 HTTP 服务器,可以在 Linux 端快速搭建一个简单的文件服务器。 步骤如下: 在 Linux 终端中,进入你…

IDEA SpringBoot整合SpringData JPA(保姆级教程,超详细!!!)

目录 1. 简介 2. 创建SpringBoot项目 3. Maven依赖引入 4. 修改application.properties配置文件 5. Entity实体类编写 6. Dao层接口开发 7. 测试接口开发 8. 程序测试 1. 简介 本博客将详细介绍在IDEA中,如何整合SpringBoot与SpringData JPA,以…

用于程序搜索的智能融合算法的设计与实现(C++,已用于程序中)

该程序搜索算法是我最近写的软件中使用到的算法,软件的项目地址如下:https://github.com/ghost-him/QuickLaunch/。建议打开源码,找到对应的代码后再阅读本文章。 该算法已经应用在软件中,并且取得了令我自己很满意的效果。 前言…

TIOBE 6月榜单出炉!编程语言地位大洗牌,谁才是王?

C历史上首次超越C!!! TIOBE 公布了 2024 年 6 月编程语言的排行榜:https://www.tiobe.com/tiobe-index/ 排行榜 以下列出的语言代表了第51至第100名。由于它们之间的差异相对较小,编程语言仅以字母顺序列出。 ABC, A…

如何实现HPC数据传输的高效流转,降本增效?

高性能计算(HPC)在多个行业中都有应用,涉及到HPC数据传输的行业包括但不限于: 1.科学研究:在物理学、化学、生物学、地球科学等领域进行模拟和建模。 2.工程和产品设计:进行复杂系统的设计和分析&#xf…

CesiumJS【Basic】- #023 加载webm文件(Entity方式)

文章目录 加载webm文件(Entity方式)1 目标2 代码2.1 main.ts3 资源文件加载webm文件(Entity方式) 1 目标 使用Entity方式加载webm文件 2 代码 2.1 main.ts /** @Author: alan.lau* @Date: 2024-06-16 11:15:48* @LastEditTime: 2024-06-16 11:43:02* @LastEditors: al…

江山欧派杯2024全国华佗五禽戏线上线下观摩交流比赛在亳州开幕

6月28日,2024全国华佗五禽戏线上线下观摩交流比赛在安徽省亳州市开幕。 此次比赛是由安徽省亳州市文化旅游体育局和安徽省非物质文化遗产保护中心主办、亳州市华佗五禽戏协会(国家级非遗华佗五禽戏保护单位)和亳州市传统华佗五禽戏俱乐部&…

linux 设置程序自启动

程序随系统开机自启动的方法有很多种, 这里介绍一种简单且常用的, 通过系统的systemd服务进行自启动。 第一步: 新建一个.service文件 sudo vim /etc/systemd/system/myservice.service[Unit] DescriptionMy Service #Afternetwork.target[…

【鸿蒙】稍微理解一下Stage模型

鸿蒙的Stage模型是HarmonyOS多端统一的应用开发框架中的一个核心概念,用于描述应用的界面层次结构和组件之间的关系。下面将详细解析Stage模型的主要组成部分和特点: 模型组成: UIAbility组件:这是应用中负责绘制用户界面的组件&a…

LeetCode:经典题之206、92 题解及延伸

系列目录 88.合并两个有序数组 52.螺旋数组 567.字符串的排列 643.子数组最大平均数 150.逆波兰表达式 61.旋转链表 160.相交链表 83.删除排序链表中的重复元素 389.找不同 1491.去掉最低工资和最高工资后的工资平均值 896.单调序列 206.反转链表 92.反转链表II 141.环形链表 …

【应用开发二】GPIO操控(输出、输入、中断)

1 操控GPIO方式 控制目录:/sys/class/gpio /sys/class/gpio目录下文件如下图所示: 1.1 gpiochipX目录 功能:当前SoC所包含的所有GPIO控制器 i.mx6ull一共包含5个GPIO控制器,分别为GPIO1~5分别对应gpiochip0、gpiochip32、gpi…

视频共享融合赋能平台LntonCVS安防监控平台现场方案实现和应用场景

LntonCVS国标视频融合云平台采用端-边-云一体化架构,部署简单灵活,功能多样化。支持多协议(GB28181/RTSP/Onvif/海康SDK/Ehome/大华SDK/RTMP推流等)和多类型设备接入(IPC/NVR/监控平台)。主要功能包括视频直…

【2024大语言模型必知】做RAG时为什么要使用滑动窗口?句子窗口检索(Sentence Window Retrieval)是什么?

目录 1. 传统的向量检索方法,使用整个文档检索,为什么不行? 2.句子滑动窗口检索(Sentence Window Retrieval)工作原理 3.句子滑动窗口检索(Sentence Window Retrieval)的优点 1. 传统的向量检…