python 的案例实战_python案例实战之一

分析思路:

1、明确分析目标;

2、导入库、导入数据;

3、简单查看下数据行列、整体情况;

4、数据清洗;

5、确定维度和指标;

6、分析并作图

1、查看整体数据情况

1.1引入使用的库

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

1.2加载数据文件

df = pd.read_csv('./FIFA_2018_player.csv')

1.3简单查看数据整体情况

df.head()

ec9f553714fa797824f7293533bb2549.png

数据表头说明:

ID:编号

name:球员姓名

full_name:球员全名

nationality:国籍

league:联赛

club:所属俱乐部

age:年龄

birth_date:出生日期

height_cm:身高

weight_kg:体重

eur_value:身价

eur_wage:周薪

df.describe()

07378ecf4011357103fffef7d6b6ef23.png

2、开始清理数据

数据清理-所有需要分析的数据都需要看下。

对于数值型,可以看下describe方法输出的信息,重点关注最大值,最小值,平均值,行数等。

2.1、查看整体数据量

f.count()

f8f98222083ce663c7e260aae1d1f683.png

2.2、对null值处理

通过查看各列数据量情况(非null值)发现,league字段和club字段与其他字段存在差异。存在253行的null值,对于一万条数据来说影响还好,可以删掉。

#删除数据一般放在后面进行,这里因为其他数据也是异常,所以可以先删掉

df.drop(df[df.league.isnull()].index,inplace=True)

再次查看数据情况

df.count()

6f20be91b42a043d92dd99e2fc63eb2d.png

每列数据量一致,不存在null值。

2.3、查看整体统计量情况,查看是否存在异常

df.describe()

7f374444814c2635d4f10fd8ba1b0b3f.png

此处的身价最小的为0,但工资为1000,因此存在数据失真情况。

df[df['eur_value']<100]

040cd05d7a5e71143a90ab477116f297.png

我们对身价小于100的数据进行查看,存在6行数据异常。

对此种情况可有三种处理方式:

1、由于异常数据量较少,可依次查询真实数据并重新赋值;

2、取整体平均值,对异常数据进行覆盖;

3、由于总体数据量大,可直接删除异常数据。

本案例中采取第二种方式处理

df['eur_value'].replace(0,df['eur_value'].mean(),inplace=True)

df[df['eur_value']<100]

用整体平均值对异常数据进行覆盖后,查看身价是否还存在小于100的

cf0bbd5acad325a7faa1a5e61bb43087.png

2.4、查看是否有重复数据

df[df['full_name'].duplicated()]

1266707a0ccfaea974676a4ed1b6a183.png姓名重复的数据为102行,可随便抽取一条查看

df[df['full_name']=='Moussa Dembélé']

71f925c677cb9bfce93c43abc0426c21.png

可以看到,虽姓名一致,但其他字段均不同,为重名但不同人的情况。

3、开始分析数据

3.1、整体数据量描述

df.count()

f0abb7ef36ca21db50d1839c45dc197e.png

3.2、对常用统计量做简单描述

df.describe()

624e625937eef511de992d35107964ed.png

明确维度和指标:每一列、每几列可以作为一个维度;各种统计值为指标。

对于离散型的维度,一般使用groupby分组使用;对于连续型的维度,一般分区间。

3.3、离散型维度-国家维度的运动员数量

国家维度的运动员数,为离散型,使用groupby分组,并计算总和

df.groupby('nationality',as_index=False).count()

为方便后续数据使用,因此不需要用nationality设置索引,因此使用as_index=False

bff0a1b39a6e40e97a9522c6cb30b93e.png

为方便查看,仅取国籍和数量两列,并根据球员数量进行排序

nationality_data = df.groupby('nationality',as_index=False).count()[['nationality','name']]

nationality_data.rename(columns={'name':'player_count'},inplace=True)

#按照player_count进行排序

nationality_data.sort_values('player_count',ascending=False)

b80188f272c7a0aaa66aaed924fb84e4.png

3.4、连续型维度-选取年龄为例,以年龄为维度,以不同年龄段人数为指标

bins = np.arange(15,50,5)

bins_data = pd.cut(df['age'],bins)

bin_counts = df['age'].groupby(bins_data).count()

bin_counts

8400d0960818275e51d5ae9c5df0097f.png

4、对分析结果进行可视化

bin_counts.plot(kind='pie')

fe32fb9273603cf763492759db57a72e.png

原文链接:https://blog.csdn.net/m0_46511764/article/details/105324932

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/566633.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

django 模板mysql_59 Django基础三件套 , 模板{{}}语言 , 程序连mysql Django项目app Django中ORM的使用...

主要内容:https://www.cnblogs.com/liwenzhou/p/8688919.html1 form表单中提交数据的三要素a : form标签必须要有action和method的属性b : 所有获取用户输入的标签必须放在form表单里,也必须要有那么name属性.因为往后端提交数据的时候name所对应的是关键字, input输入的值为va…

java不大于6位_末尾带4的完全平方数的数量并且打印输出_Java计算一个数加上100是完全平方数,加上168还是完全平方数...

题目&#xff1a;一个整数&#xff0c;它加上100后是一个完全平方数&#xff0c;加上168又是一个完全平方数&#xff0c;请问该数是多少&#xff1f;程序分析&#xff1a;在10万以内判断&#xff0c;先将该数加上100后再开方&#xff0c;再将该数加上268后再开方&#xff0c;如…

java使用Encoding导什么包_String getEncoding()

String getEncoding()描述 (Description)java.io.OutputStreamWriter.getEncoding()方法返回此流使用的字符编码的名称。如果编码具有历史名称&#xff0c;则返回该名称; 否则返回编码的规范名称。如果使用OutputStreamWriter(OutputStream&#xff0c;String)构造函数创建此实…

JAVA中增强循环中用线程_在Java中以循环方式运行线程

我是Java中的多线程和同步的新手。我正在尝试实现一项任务&#xff0c;其中给了我5个文件&#xff0c;每个文件将由一个特定线程读取。每个线程应从文件读取一行&#xff0c;然后将执行转发到下一个线程&#xff0c;依此类推。当所有5个线程都读取第一行时&#xff0c;然后再次…

java数据结构期末复习_java数据结构复习02

1.递归问题1.1计算阶乘packageinterview.recursion;importjava.util.Scanner;public classFact {public static voidmain(String[] args) {System.out.println("请输入n的值&#xff1a;");Scanner in newScanner(System.in);int n in.nextInt();int num fact(n);Sys…

java中methods方法_java中Class.getMethod方法

Method Class.getMethod(String name, Class>... parameterTypes)的作用是获得对象所声明的公开方法该方法的第一个参数name是要获得方法的名字&#xff0c;第二个参数parameterTypes是按声明顺序标识该方法形参类型。person.getClass().getMethod("Speak", null)…

centos6 yum快速安装mysql_centos6.10 yum安装mysql 5.6-Go语言中文社区

一、检查系统是否安装其他版本的MYSQL数据#yum list installed | grep mysql#yum -y remove 文件名二、安装及配置# wget http://repo.mysql.com/mysql-community-release-el6-5.noarch.rpm# rpm -ivh mysql-community-release-el6-5.noarch.rpm# yum repolist all | grep mysq…

java struts1_struts1.x

struts1.x摘要: 要想使用Struts&#xff0c;至少要依靠两个配置文件&#xff1a;web.xml和struts-config.xml。其中web.xml用来安装Struts框架。而struts-config.xml用来配置在Struts框架中要使用的资源。如Formbean、Action、插件等。如果使用了某些插件&#xff0c;如Validat…

java加花免杀_UPX加壳免杀添加花指令

UPX加壳、免杀、添加花指令是一款用于制作免杀的给力的工具。使用该软件可以进行软件的UPX加壳、E语言免杀、添加花指令。如果你正在为自己制作的软件过不了杀毒&#xff0c;那么赶快使用这款神器吧。加花方法&#xff1a;1.直接加花记住入口点---找零区域---NOP填充---记住新入…

java scanner转string,Java InputStream to String 转化

1. 概况这篇文章主要是讲怎样将InputStream转换为String。采用[weblink url"http://code.google.com/p/guava-libraries/"]Guava[/weblink]、[weblink url"http://commons.apache.org/proper/commons-io/"]Apache Commons IO [/weblink]以及普通Java代码实…

kafka php 教程,php的kafka踩坑(一)

最近项目上有一个需要用到消息队列的功能&#xff0c;从网上找了一些php相关的kafka使用的教程和博客&#xff0c;大抵都是安装php的拓展librdkafka(这里就不讲这个拓展的安装方法了&#xff0c;搜一下还是有很多教程的)&#xff0c;然后直接用这个拓展进行开发&#xff0c;但是…

二叉树两节点距离java,求二叉树中两个节点的最远距离

问题定义如果我们把二叉树看成一个图&#xff0c;父子节点之间的连线看成是双向的&#xff0c;我们姑且定义"距离"为两节点之间边的个数。写一个程序求一棵二叉树中相距最远的两个节点之间的距离。计算一个二叉树的最大距离有两个情况:情况A: 路径经过左子树的最深节…

php中update()函数,update_option()函数

update_option()函数的功能是更新wp_options表中指定的一条数据。可以使用此函数代替add_option函数&#xff0c;尽管它不够灵活。 update_option函数会检查并判断选项是否已经存在。如果不存在&#xff0c;用add_option (’option_name’, ‘option_value’)添加选项。除非用户…

java解析MT940报文,swift MT报文解析处理

swift 官方资料&#xff1a;https://www2.swift.com/knowledgecentre/publications/us5mc_20180720/2.0?topicalec.htm#genalecswift 百科&#xff1a;https://baike.baidu.com/item/SWIFT/1108075prowide - swift 报文处理 开源框架&#xff1a;https://www.prowidesoftware.…

php怎么实现匿名评论,PHP-匿名对象与匿名类的实现过程-0905

* 匿名类:* 1. php 7.0 才支持* 2. 类似于匿名函数,就是没有名称的类* 3. 匿名类适合于一次性的创建与引用* 4. 匿名类总是与: new 配套使用类的三种访问方式实例/*** 匿名类:* 1. php 7.0 才支持* 2. 类似于匿名函数,就是没有名称的类* 3. 匿名类适合于一次性的创建与引用* 4.…

php cli 编程,php-cli下编程如何分层架构、面向对象、统一入口文件?

以往写cli下运行的业务或者测试代码&#xff0c;总是新建文件&#xff0c;面向过程编写代码。几次之后&#xff0c;cli目录下好多文件&#xff0c;即便勉强在一个cli测试文件中写了一个类&#xff0c;也是让其中的一个方法自启动&#xff0c;要测试别的方法&#xff0c;总是要修…

matlab中平均函数用法,matlab中怎样在X的指定范围内求y的平均值

有两组数据&#xff0c;前面一组值设为x后面一组设为y。x是坐标的变化范围&#xff0c;y是每个坐标下力的大小&#xff0c;怎样在X的指定范围内求y的平均值&#xff1f;&#xff1f;比如下面x范围是从-18.19959641到-18.00003052之内的 怎样求得-18.19959641到-18.18049049这个…

php中gd为什么是乱码的,php gd库中文乱码怎么解决?

php gd库中文乱码怎么解决&#xff1f;,中文,乱码,字符,选项,字体php gd库中文乱码怎么解决&#xff1f;易采站长站&#xff0c;站长之家为您整理了php gd库中文乱码怎么解决&#xff1f;的相关内容。解决方法&#xff1a;1、网站整站使用UTF8编码&#xff0c;如果已使用GB2312…

php观察者模式和注册数模式,PHP观察者模式

观察者模式的核心是允许你的应用程序注册一个回调&#xff0c;当某个特定的事件发生时便会触发它。实现观察者模式&#xff0c;我们使用一个名为Event的类实现它&#xff0c;这个类有2个公共的方法。1. registerCallback() :这个方法允许你用规定的名称附加许多回调到一个事件中…

php实现飘窗,JS实现网站图片飘窗效果,JavaScript悬浮广告(附详细代码)

原标题&#xff1a;JS实现网站图片飘窗效果&#xff0c;JavaScript悬浮广告(附详细代码)JS实现网站图片飘窗效果&#xff0c;Java悬浮广告&#xff0c;郑州SEO提供以下代码&#xff0c;仅供参考&#xff1a;飘窗效果-丁光辉博客(www.dingguanghui.com)*{margin:0px;padding:0px…