【深度学习】S1 预备知识 P2 数据预处理

目录

  • 准备工作
  • 创建数据集
  • 读取数据集
  • 处理缺失值
    • 处理连续数据缺失值
    • 处理离散数据缺失值
  • 转换为张量格式

在应用深度学习技术解决实际问题时,数据的预处理步骤至关重要。在 Python 的各种数据分析工具中,我们选择了 pandas 库来进行这一工作,因为它能与张量兼容。在本篇博文中,我们将概述如何使用 pandas 对原始数据进行预处理,并将其转换成张量格式。


准备工作

本节博文通过调用 Python Pandas 库实现操作,需要读者预安装完成 Pandas 包:

conda install pandas
pip install pandas

创建数据集

如果读者没有初始数据集,可以通过 write 函数创建 csv 数据集。

import osos.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:f.write('NumRooms,Alley,Price\n')f.write('NA,Pave,127500\n')f.write('2,NA,106000\n')f.write('4,NA,178100\n')f.write('NA,NA,140000\n')

读取数据集

读取数据集,我们通过导入 pandas 并调用 read_csv 函数。上述数据集 house_tiny.csv 有四行三列,其中每行描述了房间数量 (NumRooms) ,巷子类型 (Alley) 以及房间价格 (Price);

import os
import pandas as pddata_file = os.path.join('..', 'data', 'house_tiny.csv')
data = pd.read_csv(data_file)
print(data)
   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000

至此,我们已经成功读取到了数据集 house_tiny.csv 中的数据。然而在读取到的结果中,我们注意到存在大量的 NaN 值,这些值代表着数据的缺失。下面将阐述数据缺失的处理办法。


处理缺失值

处理数据缺失的常见方法包括插值法和数据删除法。在插值法中,我们会用一个估计的数值来填补缺失的数据,其中一种常见的插值策略是利用周围非缺失数据的平均值来估计缺失值。然而,处理连续数据和离散数据的缺失值时,我们需要采用不同的策略。

处理连续数据缺失值

首先,以及房间数量(NumRooms)为例,我们将利用周围非缺失数据的平均值来估计缺失值。在这里,我们使用 mean() 函数。

numRooms = data.iloc[:, 0]
print(numRooms)
numRooms = numRooms.fillna(numRooms.mean())
print(numRooms)
0    NaN
1    2.0
2    4.0
3    NaN
Name: NumRooms, dtype: float64
0    3.0
1    2.0
2    4.0
3    3.0
Name: NumRooms, dtype: float64

处理离散数据缺失值

在对离散数据处理缺失值时,我们将 NaN 视作一个独立的类别。以“巷子类型”(Alley)为例,这一列只有两种可能的值:“Pave” 和 NaN。

借助 pandas 库,我们可以把这个列拆分成两列:“Pave” 和 “NaN”。在拆分后的两列中,如果巷子类型是 “Pave”,那么 “Pave” 列的值为 1,而 “NaN” 列的值为 0 ;如果巷子类型是 NaN,则反之。

为了实现这一点,我们使用了 get_dummies() 函数,并通过设置 dummy_na 参数来决定是否创建一个代表 NaN 的额外列。

alley = data.iloc[:, 1]
print(alley)
alley = pd.get_dummies(alley, dummy_na=True)
print(alley)
0    Pave
1     NaN
2     NaN
3     NaN
Name: Alley, dtype: objectPave    NaN
0   True  False
1  False   True
2  False   True
3  False   True

如上,我们将数据集 house_tiny.csv 中缺失的连续数据(房间数量)、离散数据(巷子类型)处理完成。


转换为张量格式

在对数据集处理完缺失值后,我们将其转换成张量格式。

完整代码如下:

import os
import pandas as pd
import torchdata_file = os.path.join('..', 'data', 'house_tiny.csv')
data = pd.read_csv(data_file)inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# print(inputs, outputs)
inputs['NumRooms'] = inputs['NumRooms'].fillna(inputs['NumRooms'].mean())
inputs['Alley'] = pd.get_dummies(inputs['Alley'], dummy_na=False)
# print(inputs)
X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))\print(X)
print(y)
tensor([[3., 1.],[2., 0.],[4., 0.],[3., 0.]], dtype=torch.float64)
tensor([127500., 106000., 178100., 140000.], dtype=torch.float64)

至此,我们使用 pandas 对原始数据进行预处理,读取数据集,处理缺失值;最后,将其转换为张量格式。


此上,如有任何为题,请留言或者联系,谢谢~

2024.2.12

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/680249.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣:376. 摆动序列

解题思路&#xff1a; 1.先规定好左坡值和右坡值&#xff0c;在计算当前节点比上一节点 的差值。如果左坡值>0且右坡值<0或者 左坡值<0且右坡值>0,符合摆动序列的条件sum加一&#xff0c;同时把右坡值的差值赋值个左坡值&#xff0c;这样就不断在更新左坡值的差值…

位运算+leetcode ( 2 )

题一&#xff1a;只出现一次的数字&#xff08;1&#xff09; 1.链接 136. 只出现一次的数字 - 力扣&#xff08;LeetCode&#xff09; 2.思想 借用位运算中异或操作符的特点&#xff0c;a^a0&#xff0c;0^aa先定义一个sum0就用一个循环来遍历这个数组&#xff0c;每次都进行…

Google Cloud 2024 年报告重点介绍了关键的网络威胁和防御

Google Cloud 的 2024 年威胁范围报告预测了云安全的主要风险&#xff0c;并提出了加强防御的策略。 该报告由 Google 安全专家撰写&#xff0c;为寻求预测和应对不断变化的网络安全威胁的云客户提供了宝贵的资源。 该报告强调&#xff0c;凭证滥用、加密货币挖矿、勒索软件和…

GO 的 Web 开发系列(五)—— 使用 Swagger 生成一份好看的接口文档

经过前面的文章&#xff0c;已经完成了 Web 系统基础功能的搭建&#xff0c;也实现了 API 接口、HTML 模板渲染等功能。接下来要做的就是使用 Swagger 工具&#xff0c;为这些 Api 接口生成一份好看的接口文档。 一、写注释 注释是 Swagger 的灵魂&#xff0c;Swagger 是通过…

C++ 广度优先搜索(bfs)(五十四)【第一篇】

今天我们来学习一下一个新的搜索&#xff0c;广度优先搜索。 1.广度优先搜索的前提 队列&#xff08;queue&#xff09; 是一种 操作受限制 的线性表&#xff0c;其限制&#xff1a; 只允许从表的前端&#xff08;front&#xff09;进行删除操作&#xff1b; 只允许在表的后端…

嵌入式Qt Qt 中的坐标系统

一.Qt中的坐标系统 实验1&#xff1a;窗口坐标大小 #include <QtGui/QApplication> #include <QPushButton> #include <QDebug> #include "widget.h" int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();qDebug()&…

[JavaWeb玩耍日记]Maven的安装与使用

目录 一.作用 二.安装 三.使用 2.对项目使用compile命令进行编译,看看新的文件会在哪里产生&#xff1f; 3.需要认识的命令 4.Maven对项目执行不同命令的生命周期特点&#xff1f; 5.如何导入工程外的Maven&#xff1f; 6.如何直观地查看Maven导入了哪些工程或哪些jar包…

蓝桥杯嵌入式第六届真题(完成)STM32G431

蓝桥杯嵌入式第六届真题&#xff08;完成&#xff09;STM32G431 题目部分 相关文件 main.c /* USER CODE BEGIN Header */ /********************************************************************************* file : main.c* brief : Main program b…

LeetCode:69.x的平方根

嗨嗨嗨&#xff0c;二分又来了&#xff0c;淦它&#xff0c; 这个题官解是&#xff0c;C函数法&#xff0c;二分&#xff0c;和牛顿迭代法&#xff08;暂且搁置&#xff09;&#xff0c; 当然还有暴力&#xff08;不必讨论&#xff0c;就从0开始一个一个试&#xff09;&#…

Spring Security 弃用 WebSecurityConfigurerAdapter 重写登录接口

springboot 版本高于 2.7 之后 弃用了 WebSecurityConfigurerAdapter 推荐使用组件化配置安全组件。 原版本的2.7版本的登录接口 功能&#xff1a; 通过/api/doLogin 进行登录 package cn.devops.config;import cn.devops.model.User; import cn.devops.response.RespBe…

Git 消除对某个文件的追踪

参考&#xff1a; &#xff08;尚未验证他的该方法&#xff09; https://www.golinuxcloud.com/git-remove-file-from-tracking/https://www.golinuxcloud.com/git-remove-file-from-tracking/

计网day1

RTT&#xff1a;往返传播时延&#xff08;越大&#xff0c;游戏延迟&#xff09; 一.算机网络概念 网络&#xff1a;网样的东西&#xff0c;网状系统 计算机网络&#xff1a;是一个将分散得、具有独立功能的计算机系统&#xff0c;通过通信设备与线路连接起来&#xff0c;由功…

[疑难杂症2024-001] java多线程运行时遇到java.util.ConcurrentModificationException的解决方案

本文由Markdown语法编辑器编辑完成。 1.背景 由于近日在改进一个医学图像的收图服务。之前的版本&#xff0c;我们采用了pynetdicom的服务。 https://pydicom.github.io/pynetdicom/stable/ 它的介绍为: pynetdicom is a pure Python package that implements the DICOM net…

【leetcode热题100】二叉树的中序遍历

难度&#xff1a; 中等通过率&#xff1a; 53.9%题目链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 题目描述 给定一个二叉树&#xff0c;返回它的中序 遍历。 示例: 输入: [1,null,2,3]1\2/3输出: [1,3,2] 进阶: 递归算法很简单…

[PyTorch]PyTorch中张量(Tensor)拼接和拆分操作

PyTorch深度学习总结 第四章 PyTorch中张量(Tensor)拼接和拆分操作 文章目录 PyTorch深度学习总结前言一、张量拼接二、张量拆分 前言 上文介绍了PyTorch中张量(Tensor)的切片操作&#xff0c;本文主要介绍张量的拆分和拼接操作。 一、张量拼接 函数描述torch.cat()将张量按…

一、基础数据结构——2.队列——3.双端队列和单调队列2

参考资料&#xff1a;《算法竞赛》&#xff0c;罗勇军 郭卫斌 著 本博客作为阅读本书的学习笔记&#xff0c;仅供交流学习。 建议关注 罗勇军老师博客 3. 单调队列与最大子序和问题 不限制子序列长度问题——贪心法或动态规划 HDOJ 1003 MAX SUM Max Sum Time Limit: 2000/10…

powershell using System.Net.Sockets;

在 PowerShell 脚本中&#xff0c;你不能直接使用 using System.Net.Sockets; 这样的语句来引入命名空间&#xff0c;因为 PowerShell 并不支持 C# 的 using 指令。PowerShell 是一种脚本语言&#xff0c;它有自己的语法和对象模型&#xff0c;而不是基于 .NET 框架的编译型语言…

第三百一十九回

文章目录 1. 概念介绍2. 使用方法2.1 基本用法2.2 管理缓冲 3. 示例代码4. 内容总结 我们在上一章回中介绍了"如何管理输入框中的光标"相关的内容&#xff0c;本章回中将介绍FadeInImage组件的用法.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 我们…

基于大语言模型的AI Agents

代理&#xff08;Agent&#xff09;指能自主感知环境并采取行动实现目标的智能体。基于大语言模型&#xff08;LLM&#xff09;的 AI Agent 利用 LLM 进行记忆检索、决策推理和行动顺序选择等&#xff0c;把Agent的智能程度提升到了新的高度。LLM驱动的Agent具体是怎么做的呢&a…

react18中,useState 和 useEffect有什么区别

useState 目的&#xff1a;useState用于在函数组件中添加状态。之前&#xff0c;只有类组件才能有自己的状态&#xff0c;但useState钩子使得函数组件也能够利用React的状态特性。 使用场景&#xff1a;当你需要在组件中存储、读取或更新一些数据时使用。例如&#xff0c;控制…