import pandas as pd
# 如遇到OSerror,可以稍等十几秒,等待数据加载完成即可读取df = pd.read_csv("./data/order.csv")
订单日期 | 年份 | 订单数量 | 产品ID | 客户ID | 交易类型 | 销售区域ID | 销售大区 | 国家 | 区域 | 产品类别 | 产品型号名称 | 产品名称 | 产品成本 | 利润 | 单价 | 销售金额 | |
0 | 2016/1/1 | 2016 | 1 | 528 | 14432BA | 1 | 4 | 西南区 | 中国 | 大中华区 | 配件 | Rawlings Heart of THE Hide-11.5 | 棒球手套 | 500.0 | 1199.0 | 1699.0 | 1699.0 |
1 | 2016/1/2 | 2016 | 1 | 528 | 18741BA | 1 | 4 | 西南区 | 中国 | 大中华区 | 配件 | Rawlings Heart of THE Hide-11.5 | 棒球手套 | 500.0 | 1199.0 | 1699.0 | 1699.0 |
2 | 2016/1/2 | 2016 | 1 | 528 | 27988BA | 1 | 4 | 西南区 | 中国 | 大中华区 | 配件 | Rawlings Heart of THE Hide-11.5 | 棒球手套 | 500.0 | 1199.0 | 1699.0 | 1699.0 |
3 | 2016/1/5 | 2016 | 1 | 528 | 25710BA | 1 | 4 | 西南区 | 中国 | 大中华区 | 配件 | Rawlings Heart of THE Hide-11.5 | 棒球手套 | 500.0 | 1199.0 | 1699.0 | 1699.0 |
4 | 2016/1/6 | 2016 | 1 | 528 | 14999BA | 1 | 4 | 西南区 | 中国 | 大中华区 | 配件 | Rawlings Heart of THE Hide-11.5 | 棒球手套 | 500.0 | 1199.0 | 1699.0 | 1699.0 |
# 删除重复值
# df.drop_duplicates(inplace=True)
df.drop_duplicates(inplace = True)
# 查看数据信息
<class 'pandas.core.frame.DataFrame'>
Int64Index: 60391 entries, 0 to 60397
Data columns (total 17 columns):# Column Non-Null Count Dtype
--- ------ -------------- ----- 0 订单日期 60391 non-null object 1 年份 60391 non-null int64 2 订单数量 60391 non-null int64 3 产品ID 60391 non-null int64 4 客户ID 60391 non-null object 5 交易类型 60391 non-null int64 6 销售区域ID 60391 non-null int64 7 销售大区 60391 non-null object 8 国家 60391 non-null object 9 区域 60391 non-null object 10 产品类别 60391 non-null object 11 产品型号名称 60391 non-null object 12 产品名称 60391 non-null object 13 产品成本 60391 non-null float6414 利润 60391 non-null float6415 单价 60391 non-null float6416 销售金额 60391 non-null float64
dtypes: float64(4), int64(5), object(8)
memory usage: 8.3+ MB
主管想了解 2013-2016 年各年份的总销售额情况,需要你统计各年份的销售金额,并依据年份降序输出各年的总销售额。
# 你的代码# 观察年份
df['年份'].unique() # array([2016, 2015, 2014, 2013])
# 直接根据年份根据销售金额统计总销售额
gmv_by_year = df.groupby(by = ['年份'])['销售金额'].sum().reset_index().sort_values(by = ['年份'],ascending = False)
年份 | 销售金额 | |
3 | 2016 | 22390338.42 |
2 | 2015 | 16063868.36 |
1 | 2014 | 182951.85 |
0 | 2013 | 106308.27 |
主管想了解在 2013-2016 年各月份的订单数量都有多少?
方法直接统计? 回答:订单数量只有1,意味着是每一单一行数据,sum()会漏掉空值,如果存在的空值的话,单纯计数使用size()会更好一些。
array([1], dtype=int64)
# 你的代码# 抽取月份信息
df['月份'] = pd.to_datetime(df['订单日期']).dt.strftime("%m")
# 分年分月汇总数据
gmv_by_month = df.groupby(by = ['年份','月份'])['销售金额'].size().reset_index().sort_values(by = ['年份'],ascending = False)
gmv_by_month.columns = ['年份','月份','订单数量']
年份 | 月份 | 订单数量 | |
36 | 2016 | 07 | 2209 |
35 | 2016 | 06 | 5544 |
34 | 2016 | 05 | 5515 |
33 | 2016 | 04 | 5088 |
32 | 2016 | 03 | 4706 |
# 使用idxmax()找到订单数量最多的行
max_order_index = gmv_by_month['订单数量'].idxmax()
# 根据上一步找到的索引,使用loc定位这一行
max_order_row = gmv_by_month.loc[max_order_index]
# 输出结果
主管想了解 2016 年各个国家的订单数量、销售额及利润详情;
需要你统计在 2016年间各国的订单数量、销售额及利润并依据年份输出结果。
# 你的代码
# 指定年份,分国家的订单数量汇总,销售额求和,利润求和
country_2016 = df[df['年份']==2016].groupby(by = ['国家'])['订单数量','销售金额','利润'].sum().reset_index()
国家 | 订单数量 | 销售金额 | 利润 | |
0 | 中国 | 11631 | 8127428.30 | 3525236.48 |
1 | 中国台湾 | 3579 | 2361700.11 | 969703.64 |
2 | 中国澳门 | 6757 | 4361739.64 | 1783523.75 |
3 | 中国香港 | 3061 | 1976666.78 | 803100.02 |
4 | 新加坡 | 2975 | 2083231.41 | 838558.78 |
5 | 韩国 | 4260 | 3479572.18 | 1538321.46 |
主管想了解在 2013-2016 年间哪些产品所带来的利润最高;
)分别输出不同类别产品订单数量最多的前 3 种产品。
# 你的代码
# 根据产品类别,产品名称分组,汇总订单数量。根据订单数量降序取前三
goods_grouped = df.groupby(by = ['产品类别','产品名称'])['订单数量'].sum().reset_index()
产品类别 | 产品名称 | 订单数量 | |
0 | 服装 | 击打手套 | 1430 |
1 | 服装 | 帽子 | 2190 |
2 | 服装 | 捕手护具 | 562 |
3 | 服装 | 棒球服 | 3332 |
4 | 服装 | 皮带 | 1019 |
5 | 服装 | 袜子 | 568 |
6 | 球 | 垒球 | 2167 |
7 | 球 | 硬式棒球 | 8068 |
8 | 球 | 软式棒球 | 4970 |
9 | 配件 | 三角网架 | 2121 |
10 | 配件 | 垒垫 | 908 |
11 | 配件 | 头盔 | 6439 |
12 | 配件 | 打击T座 | 249 |
13 | 配件 | 棒球手套 | 17327 |
14 | 配件 | 球棒与球棒袋 | 7980 |
15 | 配件 | 球网 | 328 |
16 | 配件 | 装备包 | 733 |
# 接着获取每个产品类别的前三订单数量的产品# 已产品类别继续分组,直接在分组的结果上应用nlargest()
goods_top3 = goods_grouped.groupby(by = ['产品类别']).apply(lambda x:x.nlargest(3,'订单数量')).reset_index(drop = True)
产品类别 | 产品名称 | 订单数量 | |
0 | 服装 | 棒球服 | 3332 |
1 | 服装 | 帽子 | 2190 |
2 | 服装 | 击打手套 | 1430 |
3 | 球 | 硬式棒球 | 8068 |
4 | 球 | 软式棒球 | 4970 |
5 | 球 | 垒球 | 2167 |
6 | 配件 | 棒球手套 | 17327 |
7 | 配件 | 球棒与球棒袋 | 7980 |
8 | 配件 | 头盔 | 6439 |
df.nlargest(3, '订单数量') df['订单数量'].nlargest(3)
任务5 (方法一:直接写逻辑,重点理解apply的用法)
# 你的代码
# 筛选中国的数据,按月汇总订单数量及利润
china_describe = df[df['国家']=='中国'].groupby(by = ['年份','月份'])['订单数量','利润'].sum().reset_index()
china_describe.head() # 观察数据
年份 | 月份 | 订单数量 | 利润 | |
0 | 2013 | 07 | 41 | 1710.0 |
1 | 2013 | 08 | 43 | 1890.0 |
2 | 2013 | 09 | 50 | 2160.0 |
3 | 2013 | 10 | 56 | 2380.0 |
4 | 2013 | 11 | 60 | 2640.0 |
年份 | 月份 | 订单数量 | 利润 | |
0 | 2013 | 07 | 41 | 1710.00 |
1 | 2013 | 08 | 43 | 1890.00 |
2 | 2013 | 09 | 50 | 2160.00 |
3 | 2013 | 10 | 56 | 2380.00 |
4 | 2013 | 11 | 60 | 2640.00 |
5 | 2013 | 12 | 91 | 3930.00 |
6 | 2014 | 01 | 67 | 2810.00 |
7 | 2014 | 02 | 34 | 1300.00 |
8 | 2014 | 03 | 73 | 3170.00 |
9 | 2014 | 04 | 76 | 3220.00 |
10 | 2014 | 05 | 93 | 3850.00 |
11 | 2014 | 06 | 82 | 3580.00 |
12 | 2014 | 07 | 96 | 1857.00 |
13 | 2014 | 08 | 98 | 1942.00 |
14 | 2014 | 09 | 50 | 976.00 |
15 | 2014 | 10 | 48 | 927.00 |
16 | 2014 | 11 | 58 | 1200.00 |
17 | 2014 | 12 | 86 | 1800.00 |
18 | 2015 | 01 | 61 | 1220.00 |
19 | 2015 | 02 | 62 | 1215.00 |
20 | 2015 | 03 | 51 | 1050.00 |
21 | 2015 | 04 | 72 | 1418.00 |
22 | 2015 | 05 | 93 | 2017.00 |
23 | 2015 | 06 | 86 | 1802.00 |
24 | 2015 | 07 | 440 | 90558.85 |
25 | 2015 | 08 | 1369 | 461863.99 |
26 | 2015 | 09 | 1309 | 396373.18 |
27 | 2015 | 10 | 1504 | 509619.29 |
28 | 2015 | 11 | 1543 | 528140.77 |
29 | 2015 | 12 | 1921 | 568262.25 |
30 | 2016 | 01 | 1580 | 486949.53 |
31 | 2016 | 02 | 1653 | 506787.84 |
32 | 2016 | 03 | 1686 | 491470.15 |
33 | 2016 | 04 | 1800 | 541664.95 |
34 | 2016 | 05 | 2104 | 598067.76 |
35 | 2016 | 06 | 1988 | 569919.58 |
36 | 2016 | 07 | 820 | 330376.67 |
# 计算上述两个维度的同比增长以及环比增长
def calculate_yoy(row, column_name):"""它需要当前行和列名称作为参数,并查找去年同月的数据。如果找到了去年的数据,它将计算增长率;否则返回 None。"""last_year = china_describe[(china_describe['年份'] == row['年份'] - 1) & (china_describe['月份'] == row['月份'])]if last_year.empty:return Nonereturn (row[column_name] - last_year[column_name].values[0]) / last_year[column_name].values[0] * 100def calculate_mom(row, column_name):last_month_year = row['年份']if row['月份'] == '01':last_month_month = '12'last_month_year -= 1else:last_month_month = str(int(row['月份']) - 1).zfill(2) # zfill() 方法返回指定长度的字符串,原字符串右对齐,前面填充0。last_month = china_describe[(china_describe['年份'] == last_month_year) & (china_describe['月份'] == last_month_month)]if last_month.empty:return Nonereturn (row[column_name] - last_month[column_name].values[0]) / last_month[column_name].values[0] * 100china_describe['订单数量同比'] = china_describe.apply(lambda row: calculate_yoy(row, '订单数量'), axis=1)
china_describe['订单数量环比'] = china_describe.apply(lambda row: calculate_mom(row, '订单数量'), axis=1)
china_describe['利润同比'] = china_describe.apply(lambda row: calculate_yoy(row, '利润'), axis=1)
china_describe['利润环比'] = china_describe.apply(lambda row: calculate_mom(row, '利润'), axis=1)
年份 | 月份 | 订单数量 | 利润 | 订单数量同比 | 订单数量环比 | 利润同比 | 利润环比 | |
0 | 2013 | 07 | 41 | 1710.00 | NaN | NaN | NaN | NaN |
1 | 2013 | 08 | 43 | 1890.00 | NaN | 4.878049 | NaN | 10.526316 |
2 | 2013 | 09 | 50 | 2160.00 | NaN | 16.279070 | NaN | 14.285714 |
3 | 2013 | 10 | 56 | 2380.00 | NaN | 12.000000 | NaN | 10.185185 |
4 | 2013 | 11 | 60 | 2640.00 | NaN | 7.142857 | NaN | 10.924370 |
5 | 2013 | 12 | 91 | 3930.00 | NaN | 51.666667 | NaN | 48.863636 |
6 | 2014 | 01 | 67 | 2810.00 | NaN | -26.373626 | NaN | -28.498728 |
7 | 2014 | 02 | 34 | 1300.00 | NaN | -49.253731 | NaN | -53.736655 |
8 | 2014 | 03 | 73 | 3170.00 | NaN | 114.705882 | NaN | 143.846154 |
9 | 2014 | 04 | 76 | 3220.00 | NaN | 4.109589 | NaN | 1.577287 |
10 | 2014 | 05 | 93 | 3850.00 | NaN | 22.368421 | NaN | 19.565217 |
11 | 2014 | 06 | 82 | 3580.00 | NaN | -11.827957 | NaN | -7.012987 |
12 | 2014 | 07 | 96 | 1857.00 | 134.146341 | 17.073171 | 8.596491 | -48.128492 |
13 | 2014 | 08 | 98 | 1942.00 | 127.906977 | 2.083333 | 2.751323 | 4.577275 |
14 | 2014 | 09 | 50 | 976.00 | 0.000000 | -48.979592 | -54.814815 | -49.742533 |
15 | 2014 | 10 | 48 | 927.00 | -14.285714 | -4.000000 | -61.050420 | -5.020492 |
16 | 2014 | 11 | 58 | 1200.00 | -3.333333 | 20.833333 | -54.545455 | 29.449838 |
17 | 2014 | 12 | 86 | 1800.00 | -5.494505 | 48.275862 | -54.198473 | 50.000000 |
18 | 2015 | 01 | 61 | 1220.00 | -8.955224 | -29.069767 | -56.583630 | -32.222222 |
19 | 2015 | 02 | 62 | 1215.00 | 82.352941 | 1.639344 | -6.538462 | -0.409836 |
20 | 2015 | 03 | 51 | 1050.00 | -30.136986 | -17.741935 | -66.876972 | -13.580247 |
21 | 2015 | 04 | 72 | 1418.00 | -5.263158 | 41.176471 | -55.962733 | 35.047619 |
22 | 2015 | 05 | 93 | 2017.00 | 0.000000 | 29.166667 | -47.610390 | 42.242595 |
23 | 2015 | 06 | 86 | 1802.00 | 4.878049 | -7.526882 | -49.664804 | -10.659395 |
24 | 2015 | 07 | 440 | 90558.85 | 358.333333 | 411.627907 | 4776.620894 | 4925.463374 |
25 | 2015 | 08 | 1369 | 461863.99 | 1296.938776 | 211.136364 | 23682.903708 | 410.015299 |
26 | 2015 | 09 | 1309 | 396373.18 | 2518.000000 | -4.382761 | 40512.006148 | -14.179674 |
27 | 2015 | 10 | 1504 | 509619.29 | 3033.333333 | 14.896868 | 54875.112190 | 28.570578 |
28 | 2015 | 11 | 1543 | 528140.77 | 2560.344828 | 2.593085 | 43911.730833 | 3.634376 |
29 | 2015 | 12 | 1921 | 568262.25 | 2133.720930 | 24.497732 | 31470.125000 | 7.596740 |
30 | 2016 | 01 | 1580 | 486949.53 | 2490.163934 | -17.751171 | 39813.895902 | -14.309013 |
31 | 2016 | 02 | 1653 | 506787.84 | 2566.129032 | 4.620253 | 41610.933333 | 4.073997 |
32 | 2016 | 03 | 1686 | 491470.15 | 3205.882353 | 1.996370 | 46706.680952 | -3.022505 |
33 | 2016 | 04 | 1800 | 541664.95 | 2400.000000 | 6.761566 | 38099.220733 | 10.213194 |
34 | 2016 | 05 | 2104 | 598067.76 | 2162.365591 | 16.888889 | 29551.351512 | 10.412859 |
35 | 2016 | 06 | 1988 | 569919.58 | 2211.627907 | -5.513308 | 31527.057714 | -4.706520 |
36 | 2016 | 07 | 820 | 330376.67 | 86.363636 | -58.752515 | 264.819860 | -42.031002 |
任务5 (方法二:简便方法,推荐)
# 筛选中国的数据,按月汇总订单数量及利润
china_describe2 = df[df['国家']=='中国'].groupby(by = ['年份','月份'])['订单数量','利润'].sum().reset_index()
china_describe2.head() # 观察数据
年份 | 月份 | 订单数量 | 利润 | |
0 | 2013 | 07 | 41 | 1710.0 |
1 | 2013 | 08 | 43 | 1890.0 |
2 | 2013 | 09 | 50 | 2160.0 |
3 | 2013 | 10 | 56 | 2380.0 |
4 | 2013 | 11 | 60 | 2640.0 |
china_describe2['订单数量环比'] = china_describe2['订单数量'].pct_change().fillna(0)*100
china_describe2['利润环比'] = china_describe2['利润'].pct_change().fillna(0)*100
china_describe2['订单数量同比'] = china_describe2.groupby(by = ['月份'])['订单数量'].pct_change().fillna(0)*100
china_describe2['利润同比'] = china_describe2.groupby(by = ['月份'])['利润'].pct_change().fillna(0)*100
年份 | 月份 | 订单数量 | 利润 | 订单数量环比 | 利润环比 | 订单数量同比 | 利润同比 | |
0 | 2013 | 07 | 41 | 1710.00 | 0.000000 | 0.000000 | 0.000000 | 0.000000 |
1 | 2013 | 08 | 43 | 1890.00 | 4.878049 | 10.526316 | 0.000000 | 0.000000 |
2 | 2013 | 09 | 50 | 2160.00 | 16.279070 | 14.285714 | 0.000000 | 0.000000 |
3 | 2013 | 10 | 56 | 2380.00 | 12.000000 | 10.185185 | 0.000000 | 0.000000 |
4 | 2013 | 11 | 60 | 2640.00 | 7.142857 | 10.924370 | 0.000000 | 0.000000 |
5 | 2013 | 12 | 91 | 3930.00 | 51.666667 | 48.863636 | 0.000000 | 0.000000 |
6 | 2014 | 01 | 67 | 2810.00 | -26.373626 | -28.498728 | 0.000000 | 0.000000 |
7 | 2014 | 02 | 34 | 1300.00 | -49.253731 | -53.736655 | 0.000000 | 0.000000 |
8 | 2014 | 03 | 73 | 3170.00 | 114.705882 | 143.846154 | 0.000000 | 0.000000 |
9 | 2014 | 04 | 76 | 3220.00 | 4.109589 | 1.577287 | 0.000000 | 0.000000 |
10 | 2014 | 05 | 93 | 3850.00 | 22.368421 | 19.565217 | 0.000000 | 0.000000 |
11 | 2014 | 06 | 82 | 3580.00 | -11.827957 | -7.012987 | 0.000000 | 0.000000 |
12 | 2014 | 07 | 96 | 1857.00 | 17.073171 | -48.128492 | 134.146341 | 8.596491 |
13 | 2014 | 08 | 98 | 1942.00 | 2.083333 | 4.577275 | 127.906977 | 2.751323 |
14 | 2014 | 09 | 50 | 976.00 | -48.979592 | -49.742533 | 0.000000 | -54.814815 |
15 | 2014 | 10 | 48 | 927.00 | -4.000000 | -5.020492 | -14.285714 | -61.050420 |
16 | 2014 | 11 | 58 | 1200.00 | 20.833333 | 29.449838 | -3.333333 | -54.545455 |
17 | 2014 | 12 | 86 | 1800.00 | 48.275862 | 50.000000 | -5.494505 | -54.198473 |
18 | 2015 | 01 | 61 | 1220.00 | -29.069767 | -32.222222 | -8.955224 | -56.583630 |
19 | 2015 | 02 | 62 | 1215.00 | 1.639344 | -0.409836 | 82.352941 | -6.538462 |
20 | 2015 | 03 | 51 | 1050.00 | -17.741935 | -13.580247 | -30.136986 | -66.876972 |
21 | 2015 | 04 | 72 | 1418.00 | 41.176471 | 35.047619 | -5.263158 | -55.962733 |
22 | 2015 | 05 | 93 | 2017.00 | 29.166667 | 42.242595 | 0.000000 | -47.610390 |
23 | 2015 | 06 | 86 | 1802.00 | -7.526882 | -10.659395 | 4.878049 | -49.664804 |
24 | 2015 | 07 | 440 | 90558.85 | 411.627907 | 4925.463374 | 358.333333 | 4776.620894 |
25 | 2015 | 08 | 1369 | 461863.99 | 211.136364 | 410.015299 | 1296.938776 | 23682.903708 |
26 | 2015 | 09 | 1309 | 396373.18 | -4.382761 | -14.179674 | 2518.000000 | 40512.006148 |
27 | 2015 | 10 | 1504 | 509619.29 | 14.896868 | 28.570578 | 3033.333333 | 54875.112190 |
28 | 2015 | 11 | 1543 | 528140.77 | 2.593085 | 3.634376 | 2560.344828 | 43911.730833 |
29 | 2015 | 12 | 1921 | 568262.25 | 24.497732 | 7.596740 | 2133.720930 | 31470.125000 |
30 | 2016 | 01 | 1580 | 486949.53 | -17.751171 | -14.309013 | 2490.163934 | 39813.895902 |
31 | 2016 | 02 | 1653 | 506787.84 | 4.620253 | 4.073997 | 2566.129032 | 41610.933333 |
32 | 2016 | 03 | 1686 | 491470.15 | 1.996370 | -3.022505 | 3205.882353 | 46706.680952 |
33 | 2016 | 04 | 1800 | 541664.95 | 6.761566 | 10.213194 | 2400.000000 | 38099.220733 |
34 | 2016 | 05 | 2104 | 598067.76 | 16.888889 | 10.412859 | 2162.365591 | 29551.351512 |
35 | 2016 | 06 | 1988 | 569919.58 | -5.513308 | -4.706520 | 2211.627907 | 31527.057714 |
36 | 2016 | 07 | 820 | 330376.67 | -58.752515 | -42.031002 | 86.363636 | 264.819860 |
当您将’ groupby() ‘与’ pct_change() ‘等操作结合使用时,结果数据仍然保留其原始顺序和索引,并且该操作应用于每个组。因此,即使在分组并应用’ pct_change() '方法之后,数据的顺序仍然保持不变,并且结果与原始数据正确地对齐。
df['订单数量_YoY '] = df.groupby(“月份”)(“订单数量的].pct_change () .fillna (0) * 100
- 数据按“月”进行分组。
- 在每个月份组中,’ pct_change() '方法计算同比变化。
- 结果保留了原始DataFrame的顺序和索引。
- 计算同比变化分配给新列”订单数量_YoY”。
- ** ’ groupby() ‘后面跟着转换(如’ pct_change() ')😗*
当您使用’ groupby() ‘和’ pct_change() '等转换函数时,生成的Series或DataFrame将保持与原始序列相同的形状和索引。这确保了转换后的数据与原始数据保持一致。
- ** ’ groupby() ‘后面跟着聚合(如’ sum() ')😗*
当您使用’ groupby() ‘后面跟着’ sum() ‘这样的聚合函数时,生成的Series或DataFrame通常更小(除非使用’ as_index=False '),因为它将数据聚合到组中。这意味着如果没有进一步处理,结果数据可能不会直接与原始数据对齐。
- ** ’ .fillna() '的作用:**
’ .fillna() ‘方法用于处理缺失值(nan)。在前面的代码中,它的主要作用是在计算’ pct_change() '时处理由每组中的第一个值产生的nan。它不会直接影响数据的形状或对齐方式。然而,重要的是要使用它来确保丢失的值得到适当的处理。
-对于像’ pct_change() ‘这样的转换,数据在’ groupby() ‘之后保持其形状,确保对齐。
-对于像’ sum() '这样的聚合,数据可能不会保持其原始形状,从而导致潜在的不对齐。
- ’ .fillna() '方法对于处理nan是必不可少的,但它本身并不影响数据对齐。
任务5 (方法三:方法二的进一步优化,推荐方法)
# 筛选中国的数据,按月汇总订单数量及利润
china_describe3 = df[df['国家']=='中国'].groupby(by = ['年份','月份'])['订单数量','利润'].sum().reset_index()
china_describe3.head() # 观察数据
# 计算同环比
china_describe3['订单数量环比'] = china_describe3['订单数量'].pct_change()*100
china_describe3['利润环比'] = china_describe3['利润'].pct_change()*100
china_describe3['订单数量同比'] = china_describe3['订单数量'].pct_change(periods = 12)*100
china_describe3['利润同比'] = china_describe3['利润'].pct_change(periods = 12)*100
年份 | 月份 | 订单数量 | 利润 | 订单数量环比 | 利润环比 | 订单数量同比 | 利润同比 | |
0 | 2013 | 07 | 41 | 1710.00 | NaN | NaN | NaN | NaN |
1 | 2013 | 08 | 43 | 1890.00 | 4.878049 | 10.526316 | NaN | NaN |
2 | 2013 | 09 | 50 | 2160.00 | 16.279070 | 14.285714 | NaN | NaN |
3 | 2013 | 10 | 56 | 2380.00 | 12.000000 | 10.185185 | NaN | NaN |
4 | 2013 | 11 | 60 | 2640.00 | 7.142857 | 10.924370 | NaN | NaN |
5 | 2013 | 12 | 91 | 3930.00 | 51.666667 | 48.863636 | NaN | NaN |
6 | 2014 | 01 | 67 | 2810.00 | -26.373626 | -28.498728 | NaN | NaN |
7 | 2014 | 02 | 34 | 1300.00 | -49.253731 | -53.736655 | NaN | NaN |
8 | 2014 | 03 | 73 | 3170.00 | 114.705882 | 143.846154 | NaN | NaN |
9 | 2014 | 04 | 76 | 3220.00 | 4.109589 | 1.577287 | NaN | NaN |
10 | 2014 | 05 | 93 | 3850.00 | 22.368421 | 19.565217 | NaN | NaN |
11 | 2014 | 06 | 82 | 3580.00 | -11.827957 | -7.012987 | NaN | NaN |
12 | 2014 | 07 | 96 | 1857.00 | 17.073171 | -48.128492 | 134.146341 | 8.596491 |
13 | 2014 | 08 | 98 | 1942.00 | 2.083333 | 4.577275 | 127.906977 | 2.751323 |
14 | 2014 | 09 | 50 | 976.00 | -48.979592 | -49.742533 | 0.000000 | -54.814815 |
15 | 2014 | 10 | 48 | 927.00 | -4.000000 | -5.020492 | -14.285714 | -61.050420 |
16 | 2014 | 11 | 58 | 1200.00 | 20.833333 | 29.449838 | -3.333333 | -54.545455 |
17 | 2014 | 12 | 86 | 1800.00 | 48.275862 | 50.000000 | -5.494505 | -54.198473 |
18 | 2015 | 01 | 61 | 1220.00 | -29.069767 | -32.222222 | -8.955224 | -56.583630 |
19 | 2015 | 02 | 62 | 1215.00 | 1.639344 | -0.409836 | 82.352941 | -6.538462 |
20 | 2015 | 03 | 51 | 1050.00 | -17.741935 | -13.580247 | -30.136986 | -66.876972 |
21 | 2015 | 04 | 72 | 1418.00 | 41.176471 | 35.047619 | -5.263158 | -55.962733 |
22 | 2015 | 05 | 93 | 2017.00 | 29.166667 | 42.242595 | 0.000000 | -47.610390 |
23 | 2015 | 06 | 86 | 1802.00 | -7.526882 | -10.659395 | 4.878049 | -49.664804 |
24 | 2015 | 07 | 440 | 90558.85 | 411.627907 | 4925.463374 | 358.333333 | 4776.620894 |
25 | 2015 | 08 | 1369 | 461863.99 | 211.136364 | 410.015299 | 1296.938776 | 23682.903708 |
26 | 2015 | 09 | 1309 | 396373.18 | -4.382761 | -14.179674 | 2518.000000 | 40512.006148 |
27 | 2015 | 10 | 1504 | 509619.29 | 14.896868 | 28.570578 | 3033.333333 | 54875.112190 |
28 | 2015 | 11 | 1543 | 528140.77 | 2.593085 | 3.634376 | 2560.344828 | 43911.730833 |
29 | 2015 | 12 | 1921 | 568262.25 | 24.497732 | 7.596740 | 2133.720930 | 31470.125000 |
30 | 2016 | 01 | 1580 | 486949.53 | -17.751171 | -14.309013 | 2490.163934 | 39813.895902 |
31 | 2016 | 02 | 1653 | 506787.84 | 4.620253 | 4.073997 | 2566.129032 | 41610.933333 |
32 | 2016 | 03 | 1686 | 491470.15 | 1.996370 | -3.022505 | 3205.882353 | 46706.680952 |
33 | 2016 | 04 | 1800 | 541664.95 | 6.761566 | 10.213194 | 2400.000000 | 38099.220733 |
34 | 2016 | 05 | 2104 | 598067.76 | 16.888889 | 10.412859 | 2162.365591 | 29551.351512 |
35 | 2016 | 06 | 1988 | 569919.58 | -5.513308 | -4.706520 | 2211.627907 | 31527.057714 |
36 | 2016 | 07 | 820 | 330376.67 | -58.752515 | -42.031002 | 86.363636 | 264.819860 |
主管想了解面向 中国
的订单中,哪个销售大区在 2016 年的订单数量以及利润最高?
# 你的代码
# 输出中国地区各销售大区2016年的订单数量以及最高利润
china_bigarea_2016 = df[(df['国家']=='中国') & (df['年份']==2016)].groupby(by = ['销售大区'])['订单数量','利润'].sum().reset_index()
print(f"中国2016年{china_bigarea_2016['销售大区'][china_bigarea_2016['订单数量'].idxmax()]}的订单数量最高,订单数量为:{china_bigarea_2016['订单数量'][china_bigarea_2016['订单数量'].idxmax()]};\n{china_bigarea_2016['销售大区'][china_bigarea_2016['利润'].idxmax()]}的利润最高,利润为:{china_bigarea_2016['利润'][china_bigarea_2016['利润'].idxmax()]}",'\n')
china_bigarea_2016_2 = df[(df['国家']=='中国') & (df['年份']==2016)].groupby(by = ['销售大区','产品类别'])['订单数量'].sum().reset_index()
# print(china_bigarea_2016_2,'\n')
# 不同销售大区订单数量最多的产品类型
china_bigarea_2016_2_max = china_bigarea_2016_2.groupby(by = ['销售大区']).apply(lambda x:x.nlargest(1,'订单数量')).reset_index(drop = True)
# 不同销售大区订单数量最少的产品类型
china_bigarea_2016_2_min = china_bigarea_2016_2.groupby(by = ['销售大区']).apply(lambda x:x.nsmallest(1,'订单数量')).reset_index(drop = True)
销售大区 订单数量 利润
0 东北区 15 6529.89
1 东南区 30 7592.59
2 中部 10 4207.80
3 西北区 4952 1583580.11
4 西南区 6624 1923326.09 中国2016年西南区的订单数量最高,订单数量为:6624;
西南区的利润最高,利润为:1923326.09 销售大区 产品类别 订单数量
0 东北区 配件 11
1 东南区 配件 20
2 中部 配件 8
3 西北区 配件 3316
4 西南区 配件 4273 销售大区 产品类别 订单数量
0 东北区 球 1
1 东南区 球 4
2 中部 服装 2
3 西北区 球 750
4 西南区 服装 1139
# 你的代码
# 获取服装品类的数据
cloth_cat_by_month = df[df['产品类别']=='服装'].groupby(by = ['年份','月份'])['订单数量'].sum().reset_index()
年份 | 月份 | 订单数量 | |
0 | 2015 | 07 | 179 |
1 | 2015 | 08 | 642 |
2 | 2015 | 09 | 684 |
3 | 2015 | 10 | 689 |
4 | 2015 | 11 | 677 |
5 | 2015 | 12 | 837 |
6 | 2016 | 01 | 776 |
7 | 2016 | 02 | 772 |
8 | 2016 | 03 | 772 |
9 | 2016 | 04 | 838 |
10 | 2016 | 05 | 848 |
11 | 2016 | 06 | 951 |
12 | 2016 | 07 | 436 |
# 绘图观察数据变化趋势
import pandas as pd
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False# Convert 年份 and 月份 to a single datetime column
cloth_cat_by_month['年月'] = pd.to_datetime(cloth_cat_by_month['年份'].astype(str) + '-' + cloth_cat_by_month['月份'].astype(str) )# Plot
plt.figure(figsize=(12, 6))
plt.plot(cloth_cat_by_month['年月'], cloth_cat_by_month['订单数量'], marker='o', linestyle='-')# Adding data labels
for idx, row in cloth_cat_by_month.iterrows():plt.annotate(row['订单数量'], (row['年月'], row['订单数量']), textcoords="offset points", xytext=(0,5), ha='center')plt.title('服装订单数量随时间变化趋势')
plt.tight_layout() # 自动调整子图的位置,在某些情况下,如果不使用tight_layout(), 图形元素可能会重叠或被剪裁。
基于任务7的输出结果,主管需要你统计在各年份订单数量最低的月份里,在 服装
# 你的代码# 获取服装名称的数据
cloth_goods_by_month = df[df['产品类别']=='服装'].groupby(by = ['年份','月份','产品名称'])['订单数量'].sum().reset_index()
# 获取7月数据,因为7月订单数量最低
cloth_goods_by_month_7 = cloth_goods_by_month[cloth_goods_by_month['月份']=='07']
# 获取订单数量最低的产品名称
cloth_goods_by_month_7.groupby(by = ['年份','月份']).apply(lambda x : x.nsmallest(1,'订单数量')).reset_index(drop = True)
年份 | 月份 | 产品名称 | 订单数量 | |
0 | 2015 | 07 | 皮带 | 5 |
1 | 2016 | 07 | 袜子 | 25 |
# 任务8补充,如果绘图数据展示不好分辨,还是需要判断订单数量最小的年月
# 筛选数据
cloth_goods_by_month_2 = df[df['产品类别']=='服装'].groupby(by = ['年份','月份'])['订单数量'].sum().reset_index()
# 找按年分组订单数量最小的索引
cloth_min_index = cloth_goods_by_month_2.groupby(by = ['年份'])['订单数量'].idxmin()
# 输出结果
cloth_min = cloth_goods_by_month_2.loc[cloth_min_index]
年份 | 月份 | 订单数量 | |
0 | 2015 | 07 | 179 |
12 | 2016 | 07 | 436 |
主管想知道在面向 中国
的 大中华区域
需要你先依据 客户ID
# 你的代码
# 该区域数据
dzh_of_china = df[(df['国家']=='中国') & (df['区域']=='大中华区')]
# 统计购物次数以及花费总金额
dzh_of_china_describe = dzh_of_china.groupby(by = ['客户ID'])['订单数量','销售金额'].sum().reset_index()
# 该区域客户总数
dzh_kehu_counts = len(dzh_of_china_describe)
# 每位客户的平均花费
dzh_of_china_describe['平均购物花销'] = dzh_of_china_describe['销售金额']/ dzh_of_china_describe['订单数量']
客户ID | 订单数量 | 销售金额 | 平均购物花销 | |
0 | 13033BA | 5 | 6965.90 | 1393.180000 |
1 | 13034BA | 5 | 3986.80 | 797.360000 |
2 | 13035BA | 6 | 4026.70 | 671.116667 |
3 | 13036BA | 3 | 442.99 | 147.663333 |
4 | 13037BA | 3 | 3902.99 | 1300.996667 |
... | ... | ... | ... | ... |
7814 | 31370BA | 2 | 1418.90 | 709.450000 |
7815 | 31371BA | 1 | 129.00 | 129.000000 |
7816 | 31373BA | 1 | 129.00 | 129.000000 |
7817 | 31374BA | 3 | 1458.80 | 486.266667 |
7818 | 31375BA | 1 | 129.00 | 129.000000 |
7819 rows × 4 columns
针对平均购物花费可将其划分为 "高"、"中"、"低"
之后再将两列结果进行合并,经过排列组合形成如 "高高"、"高中"
任务10 方法一:均等分箱
# 定义箱子
bins_order = [0,dzh_of_china_describe['订单数量'].quantile(0.33),dzh_of_china_describe['订单数量'].quantile(0.66),dzh_of_china_describe['订单数量'].max()+1]
labels_order = ['低','中','高']bins_cost = [0,dzh_of_china_describe['平均购物花销'].quantile(0.33),dzh_of_china_describe['平均购物花销'].quantile(0.66),dzh_of_china_describe['平均购物花销'].max()+1]
labels_cost = ['低','中','高']# 为消费频次等级和购物等级两列
dzh_of_china_describe['购物频次'] = pd.cut(dzh_of_china_describe['订单数量'],bins = bins_order,labels = labels_order,right = False)
dzh_of_china_describe['消费等级'] = pd.cut(dzh_of_china_describe['平均购物花销'],bins = bins_cost,labels = labels_cost,right = False)# 合并两种购物特征
dzh_of_china_describe['购物特征'] = dzh_of_china_describe['购物频次'].astype('str') + dzh_of_china_describe['消费等级'].astype('str')# 将购物特征合并到大众华区的数据上
merged_df = pd.merge(dzh_of_china,dzh_of_china_describe[['客户ID','购物特征']],on = '客户ID')# 输出偏好产品
# favorite_products = merged_df.groupby(by = ['购物特征'])['产品类别'].apply(lambda x : x.value_counts().nlargest(1))
favorite_products = merged_df.groupby(by = ['购物特征'])['产品类别'].apply(lambda x : x.value_counts().idxmax())
中中 配件
中低 球
中高 配件
低中 配件
低低 球
低高 配件
高中 配件
高低 球
高高 配件
Name: 产品类别, dtype: object
- 如果
(默认值):则每个区间的右边是闭合的,也就是说,区间会是这样的形式:[a, b]、[b, c]、[c, d] 等。 - 如果
:则每个区间的左边是闭合的,也就是说,区间会是这样的形式:(a, b]、(b, c]、(c, d] 等。
考虑一个简单的数据集:[1, 2, 3, 4, 5]
和一个区间边界[1, 3, 5]
- 使用
,数据将被分箱为:[1, 3] 和 [3, 5]。此时,数字3将属于第二个箱子。 - 使用
,数据将被分箱为:(1, 3] 和 (3, 5]。此时,数字3将属于第一个箱子。
任务10 方法二:聚类分箱
dzh_of_china_describe2 = dzh_of_china_describe[['客户ID','订单数量','销售金额','平均购物花销']].copy()
dzh_of_china_2 = dzh_of_china.copy()
from sklearn.cluster import KMeans# Using K-means for clustering binning on "订单数量"
kmeans_order = KMeans(n_clusters=3, random_state=0).fit(dzh_of_china_describe2[['订单数量']])
dzh_of_china_describe2['购物频次_cluster'] = kmeans_order.labels_# Map the cluster labels to the desired labels: '低', '中', '高'
order_centers = kmeans_order.cluster_centers_.flatten()
order_label_map = {i: '低' if center == min(order_centers) else '高' if center == max(order_centers) else '中' for i, center in enumerate(order_centers)}
dzh_of_china_describe2['购物频次'] = dzh_of_china_describe2['购物频次_cluster'].map(order_label_map)# Drop the cluster label column
dzh_of_china_describe2.drop('购物频次_cluster', axis=1, inplace=True)dzh_of_china_describe2
客户ID | 订单数量 | 销售金额 | 平均购物花销 | 购物频次 | |
0 | 13033BA | 5 | 6965.90 | 1393.180000 | 高 |
1 | 13034BA | 5 | 3986.80 | 797.360000 | 高 |
2 | 13035BA | 6 | 4026.70 | 671.116667 | 高 |
3 | 13036BA | 3 | 442.99 | 147.663333 | 中 |
4 | 13037BA | 3 | 3902.99 | 1300.996667 | 中 |
... | ... | ... | ... | ... | ... |
7814 | 31370BA | 2 | 1418.90 | 709.450000 | 低 |
7815 | 31371BA | 1 | 129.00 | 129.000000 | 低 |
7816 | 31373BA | 1 | 129.00 | 129.000000 | 低 |
7817 | 31374BA | 3 | 1458.80 | 486.266667 | 中 |
7818 | 31375BA | 1 | 129.00 | 129.000000 | 低 |
7819 rows × 5 columns
# Using K-means for clustering binning on "平均购物花销"
kmeans_cost = KMeans(n_clusters=3, random_state=0).fit(dzh_of_china_describe2[['平均购物花销']])
dzh_of_china_describe2['消费等级_cluster'] = kmeans_cost.labels_# Map the cluster labels to the desired labels: '低', '中', '高'
cost_centers = kmeans_cost.cluster_centers_.flatten()
cost_label_map = {i: '低' if center == min(cost_centers) else '高' if center == max(cost_centers) else '中' for i, center in enumerate(cost_centers)}
dzh_of_china_describe2['消费等级'] = dzh_of_china_describe2['消费等级_cluster'].map(cost_label_map)# Drop the cluster label column
dzh_of_china_describe2.drop('消费等级_cluster', axis=1, inplace=True)dzh_of_china_describe2
客户ID | 订单数量 | 销售金额 | 平均购物花销 | 购物频次 | 消费等级 | |
0 | 13033BA | 5 | 6965.90 | 1393.180000 | 高 | 中 |
1 | 13034BA | 5 | 3986.80 | 797.360000 | 高 | 中 |
2 | 13035BA | 6 | 4026.70 | 671.116667 | 高 | 中 |
3 | 13036BA | 3 | 442.99 | 147.663333 | 中 | 低 |
4 | 13037BA | 3 | 3902.99 | 1300.996667 | 中 | 中 |
... | ... | ... | ... | ... | ... | ... |
7814 | 31370BA | 2 | 1418.90 | 709.450000 | 低 | 中 |
7815 | 31371BA | 1 | 129.00 | 129.000000 | 低 | 低 |
7816 | 31373BA | 1 | 129.00 | 129.000000 | 低 | 低 |
7817 | 31374BA | 3 | 1458.80 | 486.266667 | 中 | 低 |
7818 | 31375BA | 1 | 129.00 | 129.000000 | 低 | 低 |
7819 rows × 6 columns
# 合并两种购物特征
dzh_of_china_describe2['购物特征'] = dzh_of_china_describe2['购物频次'].astype('str') + dzh_of_china_describe2['消费等级'].astype('str')# 将购物特征合并到大众华区的数据上
merged_df2 = pd.merge(dzh_of_china,dzh_of_china_describe2[['客户ID','购物特征']],on = '客户ID')# 输出偏好产品
# favorite_products2 = merged_df2.groupby(by = ['购物特征'])['产品类别'].apply(lambda x : x.value_counts().nlargest(1))
favorite_products2 = merged_df2.groupby(by = ['购物特征'])['产品类别'].apply(lambda x : x.value_counts().idxmax())
中中 配件
中低 配件
中高 配件
低中 配件
低低 配件
低高 配件
高中 配件
高低 配件
高高 配件
Name: 产品类别, dtype: object
- 获取这三个中心的值。
- 找到这三个值中的最小值、最大值和中间值。
- 将最小值映射到“低”,将最大值映射到“高”,将中间值映射到“中”。
order_centers = kmeans_order.cluster_centers_.flatten()
order_label_map = {i: '低' if center == min(order_centers) else '高' if center == max(order_centers) else '中' for i, center in enumerate(order_centers)}
df['购物频次'] = df['购物频次_cluster'].map(order_label_map)