勾八头歌之数据科学导论—数据预处理

第1关:引言-根深之树不怯风折,泉深之水不会涸竭

第2关:数据清理-查漏补缺

import numpy as np
import pandas as pd
import matplotlib.pyplot as pltdef student():# Load the CSV file and replace '#NAME?' with NaNtrain = pd.read_csv('Task1/diabetes_null.csv', na_values=['#NAME?'])# Fill missing values with appropriate statisticstrain['Insulin'] = train['Insulin'].fillna(100)train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())train['BMI'] = train['BMI'].fillna(train['BMI'].mean())train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())# Remove data for individuals aged 80 and oldertrain = train.drop(train[train['Age'] >= 80].index)# Create a scatter plot of Age vs Pregnanciesplt.figure(figsize=(10, 10))plt.scatter(x=train['Age'], y=train['Pregnancies'])plt.savefig("Task1/img/T1.png")plt.show()# Call the student function to execute the code
student()

第3关:数据集成-海纳百川

直接在Begin里print("(1536,9)")

#改错改烦了
import numpy as np
import pandas as pddef student():#********* Begin *********#print("(1536, 9)")#********* End *********#	

第4关:数据变换-同源共流

import numpy as np
import pandas as pd
from sklearn.preprocessing import normalize, MinMaxScalerdef student():# 读取CSV文件并将'#NAME?'替换为NaNtrain = pd.read_csv('Task3/diabetes_null.csv', na_values=['#NAME?'])# 使用适当的统计量填充缺失值train['Insulin'] = train['Insulin'].fillna(100)train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())train['BMI'] = train['BMI'].fillna(train['BMI'].mean())train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())#********* Begin *********## 使用z-score规范化方法对数据进行规范化data_normalized = normalize(train, axis=0)# 打印z-score规范化的结果print("z-score规范化:\n", data_normalized)# 创建MinMaxScaler实例data_scaler = MinMaxScaler()# 使用MinMaxScaler对数据进行规范化data_scaled = data_scaler.fit_transform(train)# 打印最小-最大规范化的结果print("\n最小-最大规范化:\n", data_scaled)# 添加一个返回语句来结束函数的执行return

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/738921.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

精通 Python 装饰器:代码复用与功能增强技巧

精通 Python 装饰器:代码复用与功能增强技巧 引言装饰器基础装饰器的定义基本装饰器的实现方法理解 符号的用法简单装饰器示例代码 使用装饰器增强函数功能日志记录性能测试事务处理小结 装饰器进阶应用管理用户认证缓存机制的实现参数化装饰器的创建和应用多个装饰…

智慧公厕的意义:高效智能的公共厕所运营、服务、协作管理

现代城市的发展离不开智慧技术的引领,而智慧公厕作为城市基础设施的重要组成部分,正在逐渐展现其巨大的意义和价值。通过采用智能管理系统,智慧公厕实现了更高效的管理、更贴心的服务和更协同的业务流程。本文以智慧公厕源头实力厂家广州中期…

【猫头虎科技角】深入Drools:规则引擎的艺术与实践

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …

UI学习 一 可访问性基础

教程:Accessibility – Material Design 3 需要科学上网,否则图片显示不出来。设计教程没有图片说明,不容易理解。 优化UI方向 清晰可见的元素足够的对比度和尺寸重要性的明确等级一眼就能辨别的关键信息 传达某一事物的相对重要性 将重…

【猫头虎科技解码】探秘Drools语法:规则引擎在实战中的应用️

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …

19、deque赋值操作

#include <iostream> using namespace std; #include <deque>void printdeque (const deque<int>& d) {for (deque<int>::const_iterator it d.begin(); it ! d.end(); it ){//*it 100 容器中的数据不可修改cout << *it << " &…

在linux上部署yolov5和安装miniconda3

第一步&#xff1a;安装miniconda3 官网&#xff1a;Miniconda — Anaconda documentation 这四个命令快速而安静地安装最新的64位版本的安装程序&#xff0c;然后自行清理。要为Linux安装Miniconda的不同版本或体系结构&#xff0c;请在wget命令中更改.sh安装程序的名称。 …

AI怎么抠图?分享3种简单抠图小技巧

AI怎么抠图&#xff1f;AI抠图是一种利用人工智能技术从图像中精确提取出目标物体的过程。这种技术不仅提升了抠图效率&#xff0c;更保证了抠图的准确性&#xff0c;让我们能够更快速、更轻松地完成复杂的抠图任务。同时&#xff0c;随着技术的不断进步&#xff0c;AI抠图的应…

图数据库基准测试 LDBC SNB 系列讲解:Schema 和数据生成的机制

LDBC&#xff08;Linked Data Benchmark Council&#xff09;Social Network Benchmark&#xff0c;简称 LDBC SNB&#xff0c;是一种针对社交网络场景的评估图数据库性能的基准测试。 LDBC 简介 除了 Social Network Benchmark&#xff0c;LDBC 旗下目前还有其他几种基准测试…

iTOP-3588开发板快速启动手册Windows安装串口终端软件创建串口会话

双击上图中红框的应用程序后&#xff0c;软件会启动&#xff0c;界面启动后如下图所示&#xff1a; 下面来创建第一个SSH 会话。点击菜单栏 「会话」 --> 「新建会话」&#xff0c;即可弹出 「会话设置」 对话框&#xff0c;如下图所示&#xff1a; 在会话设置框里面选择串口…

西门子Mendix低代码资深技术顾问张戟,将出席“ISIG-低代码/零代码技术与应用发展峰会”

3月16日&#xff0c;第四届「ISIG中国产业智能大会」将在上海中庚聚龙酒店拉开序幕。本届大会由苏州市金融科技协会指导&#xff0c;企智未来科技&#xff08;LowCode低码时代、RPA中国、AIGC开放社区&#xff09;主办。大会旨在聚合每一位产业成员的力量&#xff0c;深入探索低…

生物分子体系结构预测开源模型RoseTTAFold All-Atom的conda环境部署及使用

欢迎浏览我的CSND博客&#xff01; Blockbuater_drug …点击进入 文章目录 前言一、RoseTTAFold All-Atom(RFAA)是什么&#xff1f;二、安装步骤1. 安装mamba&#xff08;非必须的&#xff0c;conda也可以&#xff09;2. 下载RoseTTAFold-All-Atom3. 创建conda环境并安装4. 安装…

协议-http协议-基础概念04-长短连接-重定向-cookie-缓存-代理

参考来源&#xff1a; 极客时间-透视HTTP协议(作者&#xff1a;罗剑锋)&#xff1b; 01-长短连接 HTTP 协议最初&#xff08;0.9/1.0&#xff09;是个非常简单的协议&#xff0c;通信过程也采用了简单的“请求 - 应答”方式。 它底层的数据传输基于 TCP/IP&#xff0c;每次发…

程序人生 - 爬虫者,教育也!

作为一个站长&#xff0c;你是不是对爬虫不胜其烦&#xff1f;爬虫天天来爬&#xff0c;速度又快&#xff0c;频率又高&#xff0c;服务器的大量资源被白白浪费。 看这篇文章的你有福了&#xff0c;我们今天一起来报复一下爬虫&#xff0c;直接把爬虫的服务器给干死机。 本文有…

ubuntu安装开源汇编调试器NASM

安装 安装很简单&#xff0c;直接在终端输入以下命令即可 sudo apt-get install nasm 安装完成后&#xff0c;如果可以查看到nasm的版本号即可视为安装成功 nasm -version 测试 创建汇编文件 创建一个asm文件 vim hello.asm 文件内容如下 section .datahello: db …

如何高效进行 API 性能测试:详细教程

在构建和维护 API 时&#xff0c;性能和稳定性是至关重要的考量因素&#xff0c;API 的性能直接影响着用户体验和系统的可用性&#xff0c;因此对其进行全面的性能测试是不可或缺的一环。 针对 API 的性能测试&#xff0c;一般通过模拟实际用户行为、压力测试和负载测试等方式…

记一次无vmcore内存死机问题分析过程

问题现象 客户发现在物理机上跑读写业务时&#xff0c;出现了一次死机现象&#xff0c;kdump服务未抓到vmcore文件。/var/log/messages里没有发现内核panic报错信息&#xff0c;只有call trace的警告信息。抓取到的call trace信息总共有三种类型&#xff1a;内存分配失败、rmm…

7.无重复字符的最长字串

给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的 最长 子串 的长度。 示例 1: 输入: s "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc"&#xff0c;所以其长度为 3。示例 2: 输入: s "bbbbb" 输出: 1 解释: 因为…

Unity性能优化篇(十一) 动画优化

1.恰当地设置Animator组件的Culling Mode。Always Animate表示如果该动画不可见&#xff0c;也会播放它。Cull Update Transformations表示如果该动画不可见&#xff0c;则不会渲染该动画&#xff0c;但是依然会根据该动画的播放来改变游戏对象的位置、旋转、缩放&#xff0c;这…

2024计算机软考基本介绍、考试时间、考试科目等2024年软考新变化政策 证书的作用

专栏系列文章推荐&#xff1a; 2024高级系统架构设计师备考资料&#xff08;高频考点&真题&经验&#xff09;https://blog.csdn.net/seeker1994/category_12593400.html 【历年案例分析真题考点汇总】与【专栏文章案例分析高频考点目录】&#xff08;2024年软考高级…