数据分析第一天(pandas简单的对快餐店数据进行操作获得想要的信息,使用apply,groupby)

前言

数据保存在
https://github.com/harkbox/DataAnalyseStudy
数据名称:快餐数据.tsv
(tsv是用\t作为字符分隔符的文件格式;csv是逗号)
因此可以用pandas的read_csv函数读取数据

1.读取数据

import pandas as pd
import matplotlib.pyplot as plot
chipo=pd.read_csv(data_file_name,delimiter='\t')

2.获得数据的一些基本信息

# 查看数据的前5项
chipo.head()
chipo.info()
#产看数据的信息,尤其是缺失值
#产看摘要信息
chipo.describe()

从上述的信息可以发现价格的类型是字符,如果需要用价格进行计算的话,还需要将其转变为float

第一个问题:## 1.下单数最多的商品是什么

将商品按照item_name分组,求和,并且排序就能找到最多的商品是什么

chipo_=chipo[['item_name','quantity']].groupby(by='item_name').sum()
chipo_.sort_values('quantity',inplace=True,ascending=False)
chipo_.head()

在这里插入图片描述

第二个问题: 在item_name这一列中,一共有多少种商品被下单?

#分组后计数
chipo_.count()
#nunique
chipo['item_name'].nunique()
#unique
len(chipo['item_name'].unique())

第三个问题:将item_price转换为浮点数?


def convert_f(x):return float(x.strip().replace('$',''))chipo['item_price']=chipo['item_price'].apply(convert_f)
#2.使用字符串的规律
def convert_f(x):return float(x[1:-1])
#3.使用str函数里面的strip
chipo['item_price'] =chipo['item_price'].str.strip('$').astype(float)

第四个问题:在该数据集对应的时期内,收入(revenue)是多少?

生成一个新的列,代表总价

chipo['item_total']=chipo['quantity']*chipo['item_price']
chipo['item_total'].sum()

第五个问题: 每一单(order)对应的平均总价是多少?

先对order进行分组,然后计算平均值

chipo[['order_id','item_total']].groupby(by='order_id').mean()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/23634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kotlin 内联值类(@JvmInline value class)

文章目录 定义相等判定 我并不知道它的名字是不是这样翻译,以前是叫内联类(inline class),我感觉现在这样叫有点拗口,或者是“值内联类”?如果有错误,麻烦您花点时间告诉我一声,十分…

Hutool工具网络文件下载与文件压缩

1.下载文件 HttpUtil.downloadFile(url,dest) url 为网络文件路径 dest 为下载后文件 2.文件压缩 ZipUtil.zip(srcPath,zip path)

PCA算法

PCA算法 原创 小王搬运工 时序课堂 2024-06-06 19:16 四川 1. PCA算法 PCA算法称为主成分分析,是一种无监督学习算法,主要用于数据降维和特征提取。 PCA是一种数据降维模型,它的基本模型是通过线性变换将数据转换到新的空间,这…

聚焦热点-浙江省“十五五”规划重大前期研究选聘课题(学习借鉴)

聚焦热点-浙江省“十五五”规划重大前期研究选聘课题(学习借鉴) 浙江省在经济发展、规划编制等各个方面走在全国前列,全国各地应学习借鉴。下面就浙江省发展和改革委员会关于“十五五”规划重大前期研究课题选聘内容梳理如下: 四…

windows架设NTP时间服务器进行时间同步

一、windows架设NTP时间服务器 1.win11更改注册表 winR输入regedit 2.HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\Config,找到Config目录,双击Config目录下的AnnounceFlags,设为5。 3.HKEY_LOCAL_MACHINE\SYSTEM\Current…

【养老政策问答】银发经济你怎么看?

概述 养老政策问答是一个专门为老年人设计的一站式问答服务平台。该应用旨在为用户提供关于养老政策的全面信息和专业解答,帮助老年人理解和获取相关政策的详细内容,享受无忧的老年生活。用户可以通过此应用获取关于基本养老保险、养老保险的缴费与领取…

第二十六章CSS3续~

3.CSS3渐变属性 CSS3渐变(gradients)可以在两个或多个指定的颜色之间显示平稳的过渡。 以前,我们必须使用图像来实现这些效果。但是,通过使用CSS3渐变(gradients),可以减少下载的事件和宽带的使用。由于渐变(gradient)是由浏览器生成的&…

YOLOv3深入解析与实战:实时目标检测的高效多尺度架构网络

参考: https://arxiv.org/pdf/1804.02767.pdf https://blog.csdn.net/weixin_43334693/article/details/129143961 网上有很多关于yolo的文章,有些东西没讲清楚,基于自己对论文的理解,也做一个按照自己的想法做的理解。 1. 预测…

神经网络 torch.nn---损失函数与反向传播

torch.nn - PyTorch中文文档 (pytorch-cn.readthedocs.io) torch.nn — PyTorch 2.3 documentation Loss Function的作用 每次训练神经网络的时候都会有一个目标,也会有一个输出。目标和输出之间的误差,就是用Loss Function来衡量的。所以,…

Qt图像处理技术十一:得到QImage图像的马赛克图像

效果图 指数5 指数15 指数40 原理 马赛克的原理很简单,就是取一个值,让这个值作为一个方格子的长宽,如40*40px的格子,取这个区域的平均R G B值,然后这个区域的所有像素点都是这个RGB值即可 源码 QImage applyM…

js平滑滚动元素使其可见

直接上重点: let xpath "//*/div[idxxx]"; document.evaluate(xpath, document, null, XPathResult.FIRST_ORDERED_NODE_TYPE, null).singleNodeValue.scrollIntoView({ behavior: "smooth"})这段代码是JavaScript中使用XPath查询文档并执行平…

力扣2968.执行操作使频率分数最大

力扣2968.执行操作使频率分数最大 方法一&#xff1a;滑窗 前缀和 求前缀和数组s 求一个数组补齐到中位数的差值 枚举右端点 class Solution {public:int maxFrequencyScore(vector<int>& nums, long long k) {int res0,n nums.size();sort(nums.begin(),nums…

27-unittest之断言(assert)

在测试方法中需要判断结果是pass还是fail&#xff0c;自动化测试脚本里面一般把这种生成测试结果的方法称为断言&#xff08;assert&#xff09;。 使用unittest测试框架时&#xff0c;有很多的断言方法&#xff0c;下面介绍几种常用的断言方法&#xff1a;assertEqual、assert…

Vue可视化表单设计 FcDesigner v3.1.0 发布,新增 12 个组件,支持事件配置等

FcDesigner 是一款可视化表单设计器组件。可以通过拖拽的方式快速创建表单&#xff0c;提高开发者对表单的开发效率&#xff0c;节省开发者的时间。 本项目采用 Vue 和 ElementPlus 进行页面构建&#xff0c;内置多语言解决方案&#xff0c;支持二次扩展开发&#xff0c;支持自…

GBDT的优势:为什么选择梯度提升决策树

GBDT的优势&#xff1a;为什么选择梯度提升决策树 在机器学习的众多算法中&#xff0c;GBDT&#xff08;Gradient Boosting Decision Tree&#xff0c;梯度提升决策树&#xff09;因其在各类回归和分类任务中的卓越表现而备受关注。GBDT不仅在各种竞赛中屡获佳绩&#xff0c;还…

【cmake】cmake cache

cmake cache是什么 cmake cache是cmake在配置好后生成的一个CMakeCache.txt的文件&#xff0c;里面存储了一堆变量&#xff0c;这些变量一般都是关于项目的配置和环境的。 比如你用的什么编译器&#xff0c;编译器选项&#xff0c;还有项目目录。 例如&#xff08;在cmakelist…

前端工程化工具系列(九)—— mddir(v1.1.1):自动生成文件目录结构工具

mddir 是一个基于项目目录结构动态生成 Markdown 格式目录结构的工具&#xff0c;方便开发者在文档中展示文件和文件夹的组织结构。 1. 安装 全局安装改工具&#xff0c;方便用于各个项目。 pnpm i -g mddir2. 使用 在想要生成目录接口的项目内打开命令行工具&#xff0c;输…

算法学习笔记——算法和数据结构简介

算法和数据结构简介 硬计算类算法&#xff1a; 精确求解大厂算法和数据结构笔试、面试题、acm比赛或者和acm形式类似的比赛&#xff0c;考虑的都是硬计算类算法但是某些问题使用硬计算类的算法&#xff0c;可能会让计算的复杂度较高 软计算类算法&#xff1a; 更注重逼近解…

结式的两种定义以及相等证明

【定理】 设 A ( x ) ∑ i 0 m a i x i B ( x ) ∑ i 0 n b i x i ∈ R [ x ] A(x) \sum_{i 0}^{m}{a_{i}x^{i}}\ \ \ \ \ \ \ \ \ \ \ \ \ B(x) \sum_{i 0}^{n}{b_{i}x^{i}}\mathcal{\ \ \ \ \ \ \ \ \ \ \ \ \in \ \ \ \ \ \ \ \ \ \ \ \ \ R}\lbrack x\rbrack A(x)…

CSS中inset属性详细讲解

CSS 中的 inset 属性是一种用于定位和调整非 static 定位元素的缩略属性。它是四个单独属性的简写&#xff0c;这些属性是 top、right、bottom 和 left。通过 inset 属性&#xff0c;可以同时设置这些属性的值&#xff0c;简化代码书写。 1.属性语法 inset 属性的语法如下&am…