python-数据分析-numpy、pandas、matplotlib的常用方法

一、numpy

import numpy as np

1.numpy 数组 和 list 的区别

输出方式不同
在这里插入图片描述

里面包含的元素类型
在这里插入图片描述

2.构造并访问二维数组

使用 索引/切片 访问ndarray元素

切片 左闭右开

np.array(list)

在这里插入图片描述

3.快捷构造高维数组

  • np.arange()

  • np.random.randn() - - - 服从标准正态分布- - - 数学期望 μ - - - 标准方差 s
    在这里插入图片描述
    使用matplotlib.pyplot模块验证标准正态分布
    在这里插入图片描述

  • np.random.randint(起始数,终止数(行,列))

4.改变数组的形状 几行几列 reshape

在这里插入图片描述

二、pandas

数据分析 - - - 数据清洗 - - - 控制过滤 - - - 异常值捕获

map分组 聚合

import numpy as np
import pandas as pd

pandas善于处理二维数据

1.数据结构 Series 和 DataFrame

Series

series类似于通过numpy产生的一维数据,但series包含索引(可以自己定)
在这里插入图片描述

在这里插入图片描述

DataFrame

DataFrame是一种二维表格数据结构

创建方法:

  1. 通过列表创建

    行索引是index,列索引是columns

    在这里插入图片描述

    先创建一个空的DataFrame,通过列表生成DataFrame

    在这里插入图片描述

  2. 通过字典创建

    在这里插入图片描述
    简单创建
    在这里插入图片描述
    将字典键变成行索引 - - - from_dict - - - orient(朝向)或者使用 T
    在这里插入图片描述

    data = {'a':[1,3,5],'b':[2,4,6]}
    pd.DataFrame(data = data)pd.DataFrame.from_dict(data,orient='index')
    

    在这里插入图片描述

  3. 通过二维数组创建

    在这里插入图片描述

    np.arange(12)	# array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
    

2.修改索引

set_index 把常规行变成索引列

不会修改原始数据,若希望修改,使用 inplace=True

data.set_index(‘index’, inplace=True)

在这里插入图片描述

修改列名称 rename

修改列名称,使用columns - - - 行 index
使用字典来表达映射关系 - - - {原始数据:新数据}
在这里插入图片描述

将行索引变成常规列 reset_index()

若想修改原始数据 使用reset_index(replace=True)
在这里插入图片描述

3.Excel或csv数据的读取和写入

pd.read_excel(file_name, sheet_name=0, index_col=0)
从左到右,第一个sheet索引是0,该函数返回该页内容 - - - 会将第一行变为列索引 - - - 行索引从0开始
index_col=0 :将第一列变成行索引
header=0:将第一行变成列索引 - - - header=[0,1] 将前两行变成列索引

xxx.to_excel(file_name):将数据写到新的Excel文件

pd.read_csv(file_name, sep=','):读取csv文件,sep默认逗号分隔
index_col - - - header
xxx.to_csv(file_name)

4.pandas数据的读取和筛选

df = pd.DataFrame(data=[[1,2,3],[4,5,6],[7,8,9]],index=['r1','r2','r3'],columns=['c1','c2','c3'])

在这里插入图片描述

  • 读取 列 xxx[‘xxx’]
    在这里插入图片描述
  • 读取 行 xx.loc[‘xxx’]

在这里插入图片描述

  • df.head()
    默认查看前5行,出入几查看几行

  • 查看特殊的数据 按照特定条件筛选

    在这里插入图片描述

5.数据整体情况查看

  • df.shape - - - 查看数据有几行几列
  • df.describe() - - - 查看一些统计指标 – 每一列的个数 均值 标准方差 最小值 最大值
  • df.info() - - - 查看表格数据的信息 - - - 每一列的个数 是否有空值 每一列的类型

在这里插入图片描述

  • df.value_counts() - - - df.loc[‘r2’].value_counts()
    查看某行或某列有哪些数据,以及这些次数出现的频次
    在这里插入图片描述

6.数据运算

  • 从已有的列,通过数据运算创造一个新的列
    在这里插入图片描述
  • sum 求和 mean 均值 axis=0 is 列(默认) axis=1 is 行
    求列方向的聚合值

7.数据映射 map()

map()根据列对数据进行映射

map是一个循环遍历的过程

people = pd.DataFrame(data={'身高':np.random.randint(130,180,10),'age':np.random.randint(18,23,10)
})

在这里插入图片描述
在这里插入图片描述

def map_high(x):if x >= 170:return '高'else:return '低'people['高/低'] = people['身高'].map(map_high)

在这里插入图片描述

在这里插入图片描述

8.空值的填充和查找

NaN空值·

写入空值

在这里插入图片描述

填充空值 fillna()

表格数据如果显示NaN,表示此处为空值fillna()函数,可以填充空值
inplace=True表示写入到数据内存

people.fillna(value=0, inplace=True)

将空值NaN使用value替换

在这里插入图片描述

查找空值 isnull()

是NaN,返回True - - - True is 1
不是返回False - - - False is 0

在这里插入图片描述
xxx.isnull().sum() 对布尔值进行列方向的求和 - - - - 求出每一列空值的个数

三、matplotlib

import numpy as np
import pandas as pdimport matplotlib.pyplot as plt
%matplotlib inline

1.折线图 plt.plot()

在这里插入图片描述

color 线的颜色
linewidth 线的宽度 像素
linestyle 线的风格

在这里插入图片描述
dashed 虚线 dashdot 虚线和点 dotted 点

在这里插入图片描述
在这里插入图片描述

# 可以省略,但建议写上,强制将前面的绘图代码渲染出来
plt.show()
x = [1,2,3]
y = [2,4,6]
plt.plot(x,y)a = [1,3,5]
b = [1,2,3]
plt.plot(a,b)
# 可以省略,但建议写上,强制将前面的绘图代码渲染出来
plt.show()

在这里插入图片描述

2.柱状图 plt.bar()

条形图的横轴可以是字符串,起标识作用

x = ['A','B','C','D']
y = [13,17,15,14]
# plt.bar(x,y, color=['red','blue'])
plt.bar(x,y,color=np.random.random((4,3)))

在这里插入图片描述

3.散点图 plt.scatter()

回归问题

# 横轴数据
x = [1.3, 4,5.8,7.4]
# 纵轴数据
y = [20,30,40,50]
# 大小  也可以表达第三维数据
size = np.array([1,4,9,16])
plt.scatter(x,y,s=size*10,c=(1,2,3,4))

在这里插入图片描述

四、pandas 自带的绘图函数

DataFrame

# 从10到100随机生成一个数据
np.random.randint(10,100)   # 74
# 10行3列
np.random.randint(10,100,size=(10,3))

在这里插入图片描述

df = pd.DataFrame(data=np.random.randint(10,100, size=(10,3)),columns=['A','B','C'])
df.plot(kind='bar')

kind默认是line
hist 直方图 - - - pie 饼图 - - - box 箱体图 - - - area 面积图
在这里插入图片描述
在这里插入图片描述
T转置操作
在这里插入图片描述
Series

df = pd.Series(data=np.random.randint(1,10,size=5),index=['A','B','C','D','E'])
df.plot(kind='bar',color='red')

在这里插入图片描述

1.添加文字说明 标题 坐标轴

np.random.random(3)
# array([0.62461037, 0.88015921, 0.78706271])
# 从0到2π拆分成100个数,等差数列
x = np.linspace(0,2*np.pi, num=100)
y = np.sin(x)
# label 是图例要展示的内容
plt.plot(x,y,color=np.random.random(3),label='line of sin',linestyle='--')
# 允许展示图例 loc参数可选
plt.legend(loc='lower right')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Y=sinX')

在这里插入图片描述

plt.plot(x,np.sin(x),label='sin')
plt.plot(x,np.cos(x),label='cos')
plt.legend(loc='upper right')

在这里插入图片描述

2.label中文报错解决方法

使用matplotlib画图,默认不支持中文显示

plt.rcParams		# 可以查看一些默认属性
plt.rcParams['font.sans-serif']='SimHei'	# 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False	# 解决符号'-'显示为方框的问题plt.plot(x,np.sin(x),label='正弦函数')
plt.plot(x,np.cos(x),label='余弦函数')
plt.legend(loc='upper right')
plt.title('函数')

在这里插入图片描述

五、绘制多个图表 subplot()

三个参数

plt.subplot(221) 两行两列第一个

# 调整图表大小
plt.figure(figsize=(12,8))ax1 = plt.subplot(221)
ax1.plot(x,np.sin(x))ax2 = plt.subplot(222)
ax2.plot(x,np.cos(x))ax3 = plt.subplot(223)
ax3.bar(['a','b','c'],[1,2,3])ax4 = plt.subplot(224)
# ax4.pie(sizes=[30,40,30],labels=['A','B','C'],colors=['red','blue','yellow'])
ax4.pie(np.array([10, 20, 30, 40]))plt.show()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/66982.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS 一个好玩的卡片“开卡效果”

文章目录 一、用到的一些CSS技术二、实现效果三、代码 一、用到的一些CSS技术 渐变 conic-gradientbox-shadowclip-path变换、过渡 transform、transition动画 animation keyframes伪类、伪元素 :hover、::before、::after …绝对布局。。。 clip-path 生成网站 https://techb…

Yjs + Quill 实现文档多人协同编辑器开发(基础+实战)

前言 多人协同开发确实是比较难的知识点,在技术实现上有一定挑战,但随着各种技术库的发展,目前已经有了比较成熟的解决方案。今介绍 Yjs 基于CRDT算法,用于构建自动同步的协作应用程序,与Quill富文本编辑器&#xff0c…

从零开始学习 Java:简单易懂的入门指南之Collection集合及list集合(二十一)

Collection集合及list集合 1.Collection集合1.1数组和集合的区别1.2集合类体系结构1.3Collection 集合概述和使用1.4Collection集合的遍历1.4.1 迭代器遍历1.4.2 增强for1.4.3 lambda表达式 2.List集合2.1List集合的概述和特点2.2List集合的特有方法2.3List集合的五种遍历方式2…

仓库运行状况如何得知?数据挖掘是关键!

库存、订单、出入库记录、物流信息、货物状态等数据,是仓库管理的重要组成部分。 仓库数据的重要性 做好仓库数据管理对企业的重要性不言而喻。通过有效地管理数据,企业可以更好地了解市场需求和库存情况,快速响应市场变化,提高库…

医院小程序如何在线搭建?实战解析

在当今数字化时代,移动应用程序成为我们生活中必不可少的一部分。特别是在医疗领域,移动应用程序的需求更为迫切。为了满足这一需求,开发一个医疗小程序成为了许多医疗机构的优先选择。 在本文中,我们将分享一个实战攻略&#xff…

iOS开发Swift-5-自动布局AutoLayout-摇骰子App

1.在iOS坐标系中,以向左、向下为正方向。图片以左上角为基准点。 2.打开之前的摇骰子App,对它的界面做一些适应所有iPhone机型的效果。 3.先对上方logo做一个y轴约束和一个宽高约束。 宽高约束: 水平居中: 对y轴进行约束。将虚线点…

WebDAV之π-Disk派盘 + 思源笔记

思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。 融合块、大纲和双向链接,重构你的思维。 π-Disk派盘 – 知识管理专家 派盘是一款面向个人和企业的本地云存储解决方案,它可以帮助用户打造“数字第二大脑”,并支持KMS知识管理系…

专访远航汽车远勤山:踏踏实实做好产品 直面挑战乘风远航

8月25日,第二十六届成都国际汽车展览会在中国西部国际博览城隆重开幕。车展举办期间,远航汽车董事长远勤山先生、产品研发总监王震先生向媒体分享了远航汽车品牌发展、产品研发、技术创新以及市场布局等内容。 “通过我们的付出和努力,让我们…

全网最新最全软件测试工程师面试题,看完金九银十还怕拿不到offer?

与开发工程师相比,软件测试工程师前期可能不会太深,但涉及面还是很广的。 在一年左右的实习生或岗位的早期面试中,主要是问一些基本的问题。 涉及到的知识主要包括MySQL数据库的使用、Linux操作系统的使用、软件测试框架问题、测试环境搭建问…

kafka 命令脚本说明以及在java中使用

一、命令行使用 1.1、topic 命令 1、关于topic,这里用window 来示例 bin\windows\kafka-topics.bat2、创建 first topic,五个分区,1个副本 bin\windows\kafka-topics.bat --bootstrap-server localhost:9092 --create --partitions 5 --replication-factor 1 -…

本地缓存、Redis数据缓存策略

目录 需求看似简单,一取一传但是,又出现了一个新的问题,数据丢了。 一、缓存缓存有哪些分类: 二、分析一下本地缓存的优势三、本地缓存解决方案?1、基于Guava Cache实现本地缓存2、基于Caffeine实现本地缓存3、基于Enc…

无涯教程-Flutter - Dart简介

Dart是一种开源通用编程语言,它最初是由Google开发的, Dart是一种具有C样式语法的面向对象的语言,它支持诸如接口,类之类的编程概念,与其他编程语言不同,Dart不支持数组, Dart集合可用于复制数据…

来和稚晖君做同事,校招内推、社招、实习

先上校招官网投递链接和内推码。 投递链接:http://www.agibot.com/ 我的内推码:MVKRCCW 智元机器人开始校招了,众多岗位如下: 公司正在不断发展壮大中,需要优秀的毕业生加入,一块来搞点有意思的事情。稚…

访问 GitHub 方法

访问 GitHub 方法 方法一:最常见的就是 fq,但这个是违法的行为,自己私下搞可以,不能教你们。 方法二:利用加速器,这是正规合法操作。这里推荐一个免费的加速器,下载安装 Watt Toolkit加速器,原名…

spark支持深度学习批量推理

背景 在数据量较大的业务场景中,spark在数据处理、传统机器学习训练、 深度学习相关业务,能取得较明显的效率提升。 本篇围绕spark大数据背景下的推理,介绍一些优雅的使用方式。 spark适用场景 大数据量自定义方法处理、类sql处理传统机器…

1+X智慧安防系统实施与运维技能等级证产教融合基地建设方案

一、系统概述 1X智慧安防系统实施与运维技能等级证产教融合体系统融合了产业需求、教育培训和技能认证,通过课程培训、实训基地和实习实训等方式培养学员的技能水平,并通过技能认证来评估其能力,以满足智慧安防行业对人才的需求,并…

迈向无限可能, ATEN宏正领跑设备切换行业革命!

随着互联网在各个领域的广泛应用,线上办公这一不受时间和地点制约、不受发展空间限制的办公模式开始广受追捧,预示着经济的发展正朝着新潮与活跃的方向不断跃进。当然,在互联网时代的背景下,多线程、多设备的线上办公模式也催生了许多问题:多设备间无法进行高速传输、切换;为保…

能直接运营的发接任务平台小程序搭建开发演示

有个项目估计做过互联网的小伙伴都听说过——发接任务平台。 基本每年都有发接任务平台关站,但又有新的平台出来,往复循环,无比热闹。这在互联网圈不常见,互联网项目很多都是风头过去了就结束了,但发接任务年年似乎都…

电商项目part10 高并发缓存实战

缓存的数据一致性 只要使用到缓存,无论是本地内存做缓存还是使用 redis 做缓存,那么就会存在数据同步的问题。 先读缓存数据,缓存数据有,则立即返回结果;如果没有数据,则从数据库读数据,并且把…

spring 错误百科

一、使用Spring出错根源 1、隐式规则的存在 你可能忽略了 Sping Boot 中 SpringBootApplication 是有一个默认的扫描包范围的。这就是一个隐私规则。如果你原本不知道,那么犯错概率还是很高的。类似的案例这里不再赘述。 2、默认配置不合理 3、追求奇技淫巧 4、…