这十套练习,教你如何使用Pandas做数据分析

这十套练习,教你如何用Pandas做数据分析¶

Pandas是入门Python做数据分析所必须要掌握的一个库。本文内容由科赛网翻译整理自Github,建议读者完成科赛网 从零上手Python关键代码 和 Pandas基础命令速查表 教程学习的之后,点击本篇Notebook右上角的 Fork 按钮对本教程代码进行调试学习。

转载本文请联系 科赛网 取得授权,科赛网 是聚合数据人才和行业问题的在线社区,率先打造国内首款K-Lab 在线数据分析协作平台,为数据工作者的学习与工作带来全新的体验。

练习题索引¶

点击习题编号即可跳转至习题内容。

习题编号内容相应数据集
练习1 - 开始了解你的数据探索Chipotle快餐数据chipotle.tsv
练习2 - 数据过滤与排序探索2012欧洲杯数据Euro2012_stats.csv
练习3 - 数据分组探索酒类消费数据drinks.csv
练习4 -Apply函数探索1960 - 2014 美国犯罪数据US_Crime_Rates_1960_2014.csv
练习5 - 合并探索虚拟姓名数据练习中手动内置的数据
练习6 - 统计探索风速数据wind.data
练习7 - 可视化探索泰坦尼克灾难数据train.csv
练习8 - 创建数据框探索Pokemon数据练习中手动内置的数据
练习9 - 时间序列探索Apple公司股价数据Apple_stock.csv
练习10 - 删除数据探索Iris纸鸢花数据iris.csv

对应的数据集文件路径查看¶

In [231]:
ls ../input/pandas_exercise/exercise_data/
Apple_stock.csv  drinks.csv          second_cars_info.csv          wechart.csv
cars.csv         Euro2012_stats.csv  train.csv                     wind.data
chipotle.tsv     iris.csv            US_Crime_Rates_1960_2014.csv
</div>

练习1-开始了解你的数据¶

探索Chipotle快餐数据¶

image description

返回练习题索引

步骤1 导入必要的库¶

In [232]:
# 运行以下代码
import pandas as pd
</div>

步骤2 从如下地址导入数据集¶

In [233]:
# 运行以下代码
path1 = "../input/pandas_exercise/exercise_data/chipotle.tsv"    # chipotle.tsv
</div>

步骤3 将数据集存入一个名为chipo的数据框内¶

In [234]:
# 运行以下代码
chipo = pd.read_csv(path1, sep = '\t')
</div>

步骤4 查看前10行内容¶

In [235]:
# 运行以下代码
chipo.head(10)
Out[235]:
order_idquantityitem_namechoice_descriptionitem_price
011Chips and Fresh Tomato SalsaNaN$2.39
111Izze[Clementine]$3.39
211Nantucket Nectar[Apple]$3.39
311Chips and Tomatillo-Green Chili SalsaNaN$2.39
422Chicken Bowl[Tomatillo-Red Chili Salsa (Hot), [Black Beans...$16.98
531Chicken Bowl[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...$10.98
631Side of ChipsNaN$1.69
741Steak Burrito[Tomatillo Red Chili Salsa, [Fajita Vegetables...$11.75
841Steak Soft Tacos[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...$9.25
951Steak Burrito[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...$9.25
</div>

步骤6 数据集中有多少个列(columns)¶

In [236]:
# 运行以下代码
chipo.shape[1]
Out[236]:
5
</div>

步骤7 打印出全部的列名称¶

In [237]:
# 运行以下代码
chipo.columns
Out[237]:
Index(['order_id', 'quantity', 'item_name', 'choice_description','item_price'],dtype='object')
</div>

步骤8 数据集的索引是怎样的¶

In [238]:
# 运行以下代码
chipo.index
Out[238]:
RangeIndex(start=0, stop=4622, step=1)
</div>

步骤9 被下单数最多商品(item)是什么?¶

In [239]:
# 运行以下代码,做了修正
c = chipo[['item_name','quantity']].groupby(['item_name'],as_index=False).agg({'quantity':sum})
c.sort_values(['quantity'],ascending=False,inplace=True)
c.head()
Out[239]:
item_namequantity
17Chicken Bowl761
18Chicken Burrito591
25Chips and Guacamole506
39Steak Burrito386
10Canned Soft Drink351
</div>

步骤10 在item_name这一列中,一共有多少种商品被下单?¶

In [240]:
# 运行以下代码
chipo['item_name'].nunique()
Out[240]:
50
</div>

步骤11 在choice_description中,下单次数最多的商品是什么?¶

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480650.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

预训练模型超全知识点梳理与面试必备高频FAQ

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;JayLou娄杰来源&#xff1a;https://zhuanlan.zhihu.com/p/115014536预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日&#xff0c;邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-tr…

阿里P8架构师谈:MySQL数据库的索引原理、与慢SQL优化的5大原则

MySQL凭借着出色的性能、低廉的成本、丰富的资源&#xff0c;已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色&#xff0c;但所谓“好马配好鞍”&#xff0c;如何能够更好的使用它&#xff0c;已经成为开发工程师的必修课&#xff0c;我们经常会从职位描述上看到诸…

论文浅尝 | 利用类比推理优化知识图谱向量表示

链接&#xff1a;https://arxiv.org/pdf/1705.02426.pdf本文的主要创新点就是把类比推理应用到 KG embedding 中&#xff0c;通过对模型的 score function 添加某些约束来捕获 KG 中类比结构的信息&#xff0c;进而优化 KG 中实体和关系的 embedding 表示&#xff0c;并在 FB15…

推荐 10 个饱受好评且功能独特的开源人工智能项目

来自&#xff1a;开源中国链接&#xff1a;https://my.oschina.net/editorial-story/blog/1592254推荐 10 个饱受好评且功能独特的开源人工智能项目关于人工智能的项目&#xff0c;相信大家都看过或者用过不少了&#xff0c;但它们的大多数看上去都十分“高大上”&#xff0c;让…

如何以初学者角度写好一篇国际学术论文?

一只小狐狸带你解锁 炼丹术&NLP 秘籍人工智能顶会论文之争越来越激烈了&#xff0c;CVPR、AAAI、ICLR等各大会议虽然录取率逐年降低&#xff0c;但是投稿论文数量却在逐年增加。虽说发论文不是衡量一位学者的学术能力的唯一标准&#xff0c;但确是极为重要的标准。一篇好的…

领域应用 | 如何将知识图谱特征学习应用到推荐系统?

本文转载自公众号&#xff1a;微软研究院AI头条。 编者按&#xff1a;在上周发表的“推荐算法不够精准&#xff1f;让知识图谱来解决”一文中&#xff0c;我们为大家介绍了日常生活中几乎每天都会用到的推荐系统&#xff0c;以及用来提高推荐系统精准性、多样性和可解释性的推荐…

阿里P8架构师谈:MySQL行锁、表锁、悲观锁、乐观锁的特点与应用

我们在操作数据库的时候&#xff0c;可能会由于并发问题而引起的数据的不一致性&#xff08;数据冲突&#xff09;。如何保证数据并发访问的一致性、有效性&#xff0c;是所有数据库必须解决的一个问题&#xff0c;锁的冲突也是影响数据库并发访问性能的一个重要因素&#xff0…

谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了

在人工智能行业&#xff0c;2015-2016 出现了一个不同寻常的趋势&#xff1a;许多重量级机器学习项目纷纷走向开源&#xff0c;与全世界的开发者共享。加入这开源大潮的&#xff0c;不仅有学界师生&#xff0c;更有国内外的互联网巨头们&#xff1a;国内有百度和腾讯&#xff0…

推荐系统的发展与简单回顾

“本文结合百度和支付宝两段推荐系统相关的实习经历&#xff0c;针对工业界的模型发展做了简单梳理与回顾,涵盖表示学习&#xff0c;深度学习&#xff0c;强化学习知识图谱以及多任务学习”表示学习和深度学习在推荐系统中的应用是目前工业界比较成熟的&#xff0c;但是与强化学…

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析...

MaY, Peng H, Cambria E. Targeted aspect-based sentiment analysis via embedding commonsense knowledge into an attentive LSTM[C]//AAAI. 2018.任务简介特定目标的基于侧面的情感分析&#xff0c;在原来基于侧面的情感分析的基础上&#xff0c;进一步挖掘细粒度的信息&am…

阿里P8架构师谈:MySQL有哪些存储引擎,各自的优缺点,应用场景

经常面试都会问到MYSQL有哪些存储引擎&#xff0c;以及各自的优缺点。今天主要分享常见的存储引擎&#xff1a;MyISAM、InnoDB、MERGE、MEMORY&#xff08;HEAP&#xff09;、BDB&#xff08;BerkeleyDB&#xff09;等&#xff0c;以及最常用的MyISAM与InnoDB两个引擎 &#xf…

TensorFlow 全网最全学习资料汇总之TensorFlow的技术应用

谷歌于2015年11月发布了全新人工智能系统TensorFlow。该系统可被用于语音识别或照片识别等多项机器深度学习领域&#xff0c;主要针对2011年开发的深度学习基础架构DistBelief进行了各方面的改进&#xff0c;它可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行…

13个offer,8家SSP,谈谈我的秋招经验

本文转载自公众号“夕小瑶的卖萌屋”&#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后&#xff0c;回复以下口令&#xff1a; 回复【789】 &#xff1a;领取深度学习全栈手册&#xff08;含NLP、CV海量综述、必刷论文解读&#xff09; 回复【入群】&#xf…

领域应用 | 知识图谱的技术与应用

本文转载自公众号&#xff1a;贪心科技。作者 | 李文哲&#xff0c;人工智能、知识图谱领域专家导读&#xff1a;从一开始的Google搜索&#xff0c;到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统&#xff0c;无一不跟知识图谱相关。它在技术领域的…

阿里P8架构师谈:MySQL慢查询优化、索引优化、以及表等优化总结

MySQL优化概述 MySQL数据库常见的两个瓶颈是&#xff1a;CPU和I/O的瓶颈。 CPU在饱和的时候一般发生在数据装入内存或从磁盘上读取数据时候。 磁盘I/O瓶颈发生在装入数据远大于内存容量的时候&#xff0c;如果应用分布在网络上&#xff0c;那么查询量相当大的时候那么平瓶颈就…

医药领域知识图谱快速及医药问答项目

QABasedOnMedicaKnowledgeGraph self-implement of disease centered Medical graph from zero to full and sever as question answering base. 从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱&#xff0c;并以该知识图谱完成自动问答与分析服务。 项目介绍 本项…

一文详解深度学习在命名实体识别(NER)中的应用

近几年来&#xff0c;基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功&#xff0c;另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别&#xff08;Named Entity Recognition&#xff0c;NER&#xff09;的研究中&#xff0…

如何做机器学习项目规划?一个事半功倍的checklist

一只小狐狸带你解锁 炼丹术&NLP 秘籍前言在接到一个新项目的时候&#xff0c;对其进行合理的安排和规划往往会有事半功倍的效果。下面是从规划30 多个机器学习项目的经验中&#xff0c;提炼出的一个简单有效的checklist。一起来看看叭~项目动机明确你的项目的更广泛的意义。…

论文浅尝 | 一种用于新闻推荐的深度知识感知网络

Citation: Wang H, Zhang F, Xie X, et al. DKN: Deep Knowledge-Aware Networkfor News Recommendation[J]. 2018.Published at: The 27th International Conference on World Wide Web (WWW18)URL&#xff1a;https://arxiv.org/pdf/1801.08284.pdfMotivation推荐系统最初是为…

MySQL数据库主从同步的3种一致性方案实现,及优劣比较

数据主从同步的由来 互联网的很多业务&#xff0c;特别是在高并发的场景下&#xff0c;基本都是读远远大于写&#xff0c;如果数据库读和写的压力都同在一台主机上&#xff0c;这显然不太合理。 于是&#xff0c;把一台数据库主机分为单独的一台写主库&#xff08;主要负责写操…