聚合多个文件_python数据分析与挖掘(二十五)--- Pandas高级处理分组与聚合

分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况

想一想其实刚才的交叉表与透视表也有分组的功能,所以算是分组的一种形式,只不过他们主要是计算次数或者计算比例!!看其中的效果:

33364c3e2c4dc180e09e2f97a885efb0.png

4.10.1 什么是分组与聚合

57671be9823c29c8f8a8fca942574d6c.png

4.10.2 分组与聚合API

  • DataFrame.groupby(key, as_index=False)
    • key:分组的列数据,可以多个
  • 案例:不同颜色的不同笔的价格数据
col =pd.DataFrame({'color': ['white','red','green','red','green'], 'object': ['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.30,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})color    object    price1    price2
0    white    pen    5.56    4.75
1    red    pencil    4.20    4.12
2    green    pencil    1.30    1.60
3    red    ashtray    0.56    0.75
4    green    pen    2.75    3.15

进行分组,对颜色分组,price进行聚合

# 分组,求平均值
col.groupby(['color'])['price1'].mean()
col['price1'].groupby(col['color']).mean()color
green    2.025
red      2.380
white    5.560
Name: price1, dtype: float64# 分组,数据的结构不变
col.groupby(['color'], as_index=False)['price1'].mean()color    price1
0    green    2.025
1    red    2.380
2    white    5.560

4.10.3 星巴克零售店铺数据案例

现在我们有一组关于全球星巴克店铺的统计数据,如果我想知道美国的星巴克数量和中国的哪个多,或者我想知道中国每个省份星巴克的数量的情况,那么应该怎么办?

数据来源:Starbucks Locations Worldwide

d5a532ba69b75be5c40fd7e94ebaf5f0.png

1 数据获取

从文件中读取星巴克店铺数据

# 导入星巴克店的数据
starbucks = pd.read_csv("directory.csv")

2 进行分组聚合

# 按照国家分组,求出每个国家的星巴克零售店数量
count = starbucks.groupby(['Country']).count()

画图显示结果

count['Brand'].plot(kind='bar', figsize=(20, 8))
plt.show()

b2690bda59e1c4c89807139ffbaa0e15.png

假设我们加入省市一起进行分组

# 设置多个索引,set_index()
starbucks.groupby(['Country', 'State/Province']).count()

a339f7dc292299c96d10137d58fe6679.png

仔细观察这个结构,与我们前面讲的哪个结构类似??

与前面的MultiIndex结构类似

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/520412.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看完这些干货帖,大数据产品从入门到精通

欢迎来到“MVP教你玩转阿里云”系列教程,在这里,你将看到各行各业数字化转型的一线实践,学到资深开发者的经验结晶。 你将以云计算领域的技术领袖为师,加速了解阿里云技术产品和各行业数字化转型的场景。 点击关注,在…

物联网现状及落地难点

大家好,我是叶帆科技的创始人兼CEO,刘洪峰,非常高兴能和阿里云MVP项目组成员一起来制作《MVP 时间》内容,帮助物联网企业开发者了解物联网接入难点及解决方案。 下面简单做个自我介绍: 1、1995年开始做软件开发&#…

物联网落地三大困境破解

大家好,我是叶帆科技创始人兼CEO,阿里云 MVP。 第一章我们讲了物联网实施以及落地的三大难点。 本章节就来看一下就这三大难点进行解析,以及将有什么样的应对方案。 在第一章节中,第一大难点说到的是接口多,协议更多…

阿里如何做到百万量级硬件故障自愈?

随着阿里大数据产品业务的增长,服务器数量不断增多,IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断,成为稳定性影响的重要因素之一。本文详细解读阿里如何实现硬件故障预测、服务器自动下线、服务自愈以及集群的自平衡重建&#…

京东技术全景图首次展示 四大重磅智能技术驱动产业未来

近日主题为“突破与裂变”的2019京东全球科技探索者大会(JDDiscovery)在京盛大开幕,京东集团展示了完整的技术布局与先进而丰富的对外技术服务,对外明确诠释了“以零售为基础的技术与服务企业”的集团战略定位。 智能供应链国家人…

9008刷机怎么刷_手机刷机怎么刷

有人说玩安卓机不刷机就体验不到真正的乐趣,那么手机怎么刷机呢?下面小编会介绍方法给想刷机的朋友,一起来看看吧。手机刷机怎么刷步骤1:手机安装一款刷机软件【卓大师】,很多刷机软件都有一键ROOT的功能,刷…

阿里工业互联网平台“思考”:一场从0到1的蜕变

阿里云总裁胡晓明(花名孙权)曾在一场媒体采访中透露了自己的业务秘籍,说他永远记住两句话,一是“拓展商业边界”,二是“商业驱动技术进步”。 这句话不失为阿里的真实写照。的确,企业的安身立命之道&#…

JSON数据从MongoDB迁移到MaxCompute最佳实践

数据及账号准备 首先您需要将数据上传至您的MongoDB数据库。本例中使用阿里云的云数据库 MongoDB 版,网络类型为VPC(需申请公网地址,否则无法与DataWorks默认资源组互通),测试数据如下。 {"store": {"…

SpringBoot 整合 Shiro thymeleaf _01_Shiro概念

文章目录shiro简介以及功能描述shiro实现原理理解shiro的架构理解shiro认证功能(Authentication)流程Realmshiro 拦截器规则shiro简介以及功能描述 Shiro 是 Java 的一个安全框架。目前,使用 Apache Shiro 的人越来越多,因为它相…

中正则表达式详解_python :正则表达式/re库 超级详细de注释解释

首先要解释,什么是正则表达式:给定一串字符串,我们可以提取他的特征,把他抽象成一个类型。 下次遇到和这个字符串同类的字符串,我们只需要判断是否符合特征,就知道这个字符串是不是同类的。举个例子&#x…

打破多项世界记录  双11背后最大的力量是技术

双11是一次全球商业奇迹,同时也是一次技术奇迹。正是诸多世界顶尖的技术,助力双11一次又一次打破成交纪录,形成了独一无二的世界奇观。 阿里巴巴核心系统100%上云、每秒订单创建峰值54.4万笔、自研数据库POLARDB和OceanBase分别处理8700万、6…

阿里巴巴下一代云分析型数据库AnalyticDB入选Forrester Wave™ 云数仓评估报告 解读

前言 近期, 全球权威IT咨询机构Forrester发布"The Forrester WaveTM: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型数据库(AnalyticDB)成功入选 !AnalyticDB作为阿里巴巴自主研发的PB级实时云数据仓库,全面兼容MySQL协议以…

广州云栖大会:阿里云携手虎牙,首次落地直播行业边缘节点及云企业网服务

2018年11月22日,由阿里巴巴集团主办的广东省大数据开发者大会暨2018广东云栖大会在广州正式召开,其中以助力游戏企业畅游全球为主题的游戏云专场也在上午如期举办。 在游戏云专场中,阿里云高级商务专家李知明首先发言:边缘计算节点…

一行 Python 代码能实现这么多丧心病狂的功能?(代码可复制)

最近看知乎上有一篇名为《一行 Python 能实现什么丧心病狂的功能?》(https://www.zhihu.com/question/37046157)的帖子,点进去发现一行Python代码可以做这么多丧心病狂的功能!整理了一下知乎上这篇文章的内容&#xff…

测试私有方法_史上最轻量!阿里开源了新型单元测试Mock工具

点击上方蓝色字体,选择“设为星标”回复”666“获取面试宝典TestableMock是基于源码和字节码增强的Java单元测试辅助工具,包含以下功能:访问被测类私有成员:使单元测试能直接调用和访问被测类的私有成员,解决私有成员初…

阿里云云效如何保障双11大型项目管理

每一年双11对阿里巴巴来说都是一个练兵场,一次更大规模技术创新、产品迭代、协同研发的练兵场。在2018年双11的“练兵场上”,阿里云云效——一站式企业协同研发平台支持着阿里巴巴众多部门、百个核心产品、千个垂直项目、几千人共同协作完成双十一大促的…

揭秘天猫双11背后:20万商家600万张海报,背后只有一个鹿班

还记得去年双11,秋裤厂商带着“五彩斑斓的黑”需求找设计师的故事吗? 现在,已经有超过20万客户把这个AI设计师鹿班带回家。 今年,鹿班除了为天猫淘宝平台提供服务之外,还通过阿里云全面为各行业客户输出AI设计能力。…

华为开源数据虚拟化引擎HetuEngine;全球超算500强:中国上榜数量增加;谷歌收购云计算公司CouldSimple ……...

关注并标星星CSDN云计算 速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周两次,打卡即read更快、更全了解泛云圈精彩newsgo go go华为V30 渲染图:取消3.5mm耳机孔&…

三位数除以两位数怎么算竖式_青岛版三年级上册数学5.6三位数除以一位数(最高位商后有余数)微课知识点精讲+练习...

微课视频第一课时微课视频第二课时同步练习1、列竖式计算下面各题3753 2382 5884 62352、一片树林3年共增加了537棵树,平均每年增长多少棵树?3、新华小学一年级共报名448人,如果一年级预开设8个班,那每个班有多少人…