【Educoder数据挖掘实训】冗余值的处理

【Educoder数据挖掘实训】冗余值的处理

开挖

这个题就比较容易了,实训里的要求写的也比较清楚。
主要是讲解了 d r o p _ d u p l i c a t e s drop\_duplicates drop_duplicates函数,该函数补全如下:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

其中, s u b s e t subset subset是固定那些行, k e e p keep keep是针对冗余信息的处理方式, i n p l a c e inplace inplace是指是否对表格进行直接修改, i g n o r e _ i n d e x ignore\_index ignore_index表示是否重置索引。

题目还介绍了 r e s e t _ i n d e x reset\_index reset_index函数,只需要按照题目要求完成即可。

代码如下:

import pandas as pddata = pd.read_csv("src/death.csv", index_col='Unnamed: 0')data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]mode_list = 'FIPS Admin2'
for i in cols:if mode_list.find(i) != -1: data[i] = data[i].fillna(data[i].mode().iloc[0])else:data[i] = data[i].fillna(data.mean()[i])########## Begin ##########
df = pd.DataFrame(data = data)
#去除所有重复项
df = df.drop_duplicates(keep = False)
#重置索引,从0重新开始
data = df.reset_index(drop = True)########## End ##########print(data)

做一些补充

如果前几个实训有过尝试就会发现, d a t a data data本身就是一个 D a t a F r a m e DataFrame DataFrame类型的数据,所以我们根本不需要强制转换类型,也就是

df = pd.DataFrame(data = data)

这一步是完全没用的,直接对 d a t a data data操作即可。

代码更改为:

import pandas as pddata = pd.read_csv("src/death.csv", index_col='Unnamed: 0')data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]mode_list = 'FIPS Admin2'
for i in cols:if mode_list.find(i) != -1: data[i] = data[i].fillna(data[i].mode().iloc[0])else:data[i] = data[i].fillna(data.mean()[i])########## Begin ##########
#去除所有重复项
data = data.drop_duplicates(keep = False)
#重置索引,从0重新开始
data = data.reset_index(drop = True)########## End ##########print(data)

但是上述的 d r o p drop drop函数里有一个参数叫 i g n o r e _ i n d e x ignore\_index ignore_index,难道不可以直接对这个参数进行操作进而不需要 r e s e t _ i n d e x reset\_index reset_index了吗?
不可以,因为 E d u c o d e r Educoder Educoder上给出的 P a n d a s Pandas Pandas版本过于老旧,当时的 d r o p _ d u p l i c a t e s drop\_duplicates drop_duplicates函数还只有三个参数,并不能自行重置索引。

而在 r e s e t i n d e x reset_index resetindex函数中的 d r o p drop drop,则是是否保留原索引列。如果直接调用这个函数而不置 d r o p drop drop T r u e True True的话, d r o p drop drop默认为 F a l s e False False会单独将原索引列保留为一个普通列。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/721019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3DEXPERIENCE Works八大核心优势分析

云技术正在加速普及,助力各行各业数字化转型。根据IDC 2023年12月发布的报告,2023年全球云计算市场规模达到3329亿美元,同比增长19.4%。其中,公有云市场规模达到2587亿美元,同比增长21.5%;私有云市场规模达到742亿美元…

Spring Test 常见错误

前面我们介绍了许多 Spring 常用知识点上的常见应用错误。当然或许这些所谓的常用,你仍然没有使用,例如对于 Spring Data 的使用,,有的项目确实用不到。那么这一讲,我们聊聊 Spring Test,相信你肯定绕不开对…

hot100 -- 普通数组

目录 🎂最大子数组和 O(n) 暴力 O(n) 动态规划 🚩合并区间 O(nlogn) 排序 🌼轮转数组 O(n) 辅助数组 O(n) 环状替换 O(n) 数组翻转 🌼除自身以外数组的乘积 O(n) 前缀和 时间O(n) 空间O(1) 🌙缺失的…

【MySQL】数据库的操作(2)

【MySQL】数据库的操作(2) 目录 【MySQL】数据库的操作(2)创建表查看表结构修改表删除表 作者:爱写代码的刚子 时间:2024.3.5 前言:本篇博客将介绍数据库中表的基本操作 创建表 由于使用了不同的…

「Mybatis实战八」:Mybatis的dao层开发使用 - 传统开发方式

一、传统开发方式 1、基础工程代码 数据库环境 CREATE DATABASE mybatis_db; USE mybatis_db; CREATE TABLE user ( id INT(11) NOT NULL AUTO_INCREMENT, username VARCHAR(32) NOT NULL COMMENT 用户名称, birthday DATETIME DEFAULT NULL COMMENT 生日, sex CHAR(1) DEFAUL…

【2024】利用python爬取csdn的博客用于迁移到hexo,hugo,wordpress...

前言 博主根据前两篇博客进行改进和升级 利用python爬取本站的所有博客链接-CSDN博客文章浏览阅读955次,点赞6次,收藏19次。定义一个json配置文件方便管理现在文件只有用户名称,后续可加配置读取用户名称,并且将其拼接成csdn个人博客链接ty…

Gitlab 安装部署

目录 1、Jenkins 结合 Gitlab 构建 CI/CD 环境 CI/CD 介绍 CI/CD 流程 Jenkins 简介 GitLab 简介 项目部署方式 CI系统的工作流程 2、搭建 GitLab 安装 GitLab 配置 GitLab 修改root密码 访问 GitLab 开机自启 3、使用 GitLab 管理 GitLab 关闭 GitLab 注册功能…

Git问题处理汇总

问题1: 出现:Permission denied (publickey).fatal: Could not read from remote repository. 原因:服务器公钥(publickey)未添加至github, 所以无法识别。因而需要获取本地电脑公钥,然后登录github账号&a…

基于SpringBoot+Apache POI的前后端分离外卖项目-苍穹外卖(十九)

数据导出 1. 工作台1.1 需求分析和设计1.1.1 产品原型1.1.2 接口设计1.2.1 Controller层1.2.2 Service层接口1.2.3 Service层实现类1.2.4 Mapper层 1.3 功能测试 2. Apache POI2.1 介绍2.2 入门案例2.2.1 将数据写入Excel文件2.2.2 读取Excel文件中的数据 3. 导出运营数据Excel…

交友盲盒系统PHP开源的盲盒源码

源码介绍: 交友盲盒系统是一款基于PHP开发的开源免费盲盒系统,旨在为用户提供一个充满乐趣和惊喜的社交体验。该系统具有丰富的功能和灵活的扩展性,可以轻松地满足各种线上交友、抽奖活动等场景的需求。 安装说明: PHP版本&…

iptables中的SNAT、DNAT与Firewalld

目录 引言 一、SNAT与DNAT简介 (一)SNAT 1.SNAT的工作原理 2.SNAT的应用 (二)DNAT 1.DNAT的工作原理 2.DNAT的应用 二、实现NAT转换 (一)实现SNAT 1.配置网关服务器 2.修改网关 3.设置SNAT规则…

【leetcode】删除链接的倒数第N个节点

/*** Definition for singly-linked list.* function ListNode(val, next) {* this.val (valundefined ? 0 : val)* this.next (nextundefined ? null : next)* }*/ /*** param {ListNode} head* param {number} n* return {ListNode}*/ var removeNthFromEnd fun…

Linux内核基础 -- usermodehelper_disable函数

摘要 本文介绍了Linux内核usermodehelper_disable函数的作用、使用场景以及代码示例。 关键词 Linux内核 usermodehelper udev mdev 一、简介 在Linux内核中,usermodehelper_disable函数用于禁止用户空间程序通过udev或mdev等用户空间工具来管理内核模块。 二…

Java面试题总结8:springboot

Spring Boot自动配置原理 importConfigurationSpring spi 自动配置类由各个starter提供,使用ConfigurationBean定义配置类,放到META-INF/spring.factories下 使用Spring spi扫描META-INF/Spring.factories下的配置类 如何理解Spring Boot中Starter …

【刷题1】LeetCode 41. 缺失的第一个正数 java题解

https://leetcode.cn/problems/first-missing-positive/description/?envTypestudy-plan-v2&envIdtop-100-liked 置换 class Solution {public int firstMissingPositive(int[] nums) {int lennums.length;//nums[i]属于[1,len]for(int i0;i<len;i){while(nums[i]>…

java集合常见的错误

一、码出高效&#xff1a; 集合是开发中需要修改最多的地方&#xff0c;如&#xff1a;从数据库中取出多条数据是 List 结构&#xff0c;然后需要在 Service 进行层层处理&#xff0c;最终为前端展示提供 vo 对象&#xff0c;所以&#xff0c;很多集合使用的规范一定要弄明白。…

04-JNI函数

上一篇&#xff1a;03-JNI 类型和数据结构 本章是 JNI 函数的参考章节。它提供了所有 JNI 函数的完整列表。它还介绍了 JNI 函数表的具体布局。 注意&#xff1a;使用 "必须 "一词来描述对 JNI 程序员的限制。例如&#xff0c;当你看到某个 JNI 函数必须接收一个非 N…

7款炫酷的前端动画特效分享(三)(附效果图及在线演示)

分享7款好玩的前端动画特效 其中有CSS动画、SVG动画、js小游戏等等 下方效果图可能不是特别的生动 那么你可以点击在线预览进行查看相应的动画特效 同时也是可以下载该资源的 CSS3模仿四季交替动画 基于HTML5CSS3实现的卡通风格一年四季交替动画特效 以下效果图只能体现框架的…

超全Chat GPT论文修改指令

文献综述指令润色修改指令论文选题指令论文大指令研究理论指令论文致谢指令参考文献指令论文润色整体逻辑论文整体优化提问指令 1&#xff0e;文献综述指令 请你帮我写一份关于&#xff08;研究主题&#xff09;的文献综述。我的论文选题方向是 XXXX &#xff0c;我已经找到了…

Shell编程——条件测试(五)

在shell编程中&#xff0c;if语句本身不执行任何判断&#xff0c;它实际上接受一个程序作为参数&#xff0c;然后执行这个程序&#xff0c;并依据这个程序的返回值来判断是否执行相应的语句。 程序的返回值是0&#xff0c;则为真&#xff0c;反之则为假。 目录 test命令&…