[每日一练]按日期分组销售产品的最优解法

该题目来自于力扣的pandas题库,链接如下:

1484. 按日期分组销售产品 - 力扣(LeetCode)

题目要求:

表 Activities

+-------------+---------+
| 列名         | 类型    |
+-------------+---------+
| sell_date   | date    |
| product     | varchar |
+-------------+---------+
该表没有主键(具有唯一值的列)。它可能包含重复项。
此表的每一行都包含产品名称和在市场上销售的日期。

编写解决方案找出每个日期、销售的不同产品的数量及其名称。
每个日期的销售产品名称应按词典序排列。
返回按 sell_date 排序的结果表。
结果表结果格式如下例所示。

示例 1:

输入:
Activities 表:
+------------+-------------+
| sell_date  | product     |
+------------+-------------+
| 2020-05-30 | Headphone   |
| 2020-06-01 | Pencil      |
| 2020-06-02 | Mask        |
| 2020-05-30 | Basketball  |
| 2020-06-01 | Bible       |
| 2020-06-02 | Mask        |
| 2020-05-30 | T-Shirt     |
+------------+-------------+
输出:
+------------+----------+------------------------------+
| sell_date  | num_sold | products                     |
+------------+----------+------------------------------+
| 2020-05-30 | 3        | Basketball,Headphone,T-shirt |
| 2020-06-01 | 2        | Bible,Pencil                 |
| 2020-06-02 | 1        | Mask                         |
+------------+----------+------------------------------+
解释:
对于2020-05-30,出售的物品是 (Headphone, Basketball, T-shirt),按词典序排列,并用逗号 ',' 分隔。
对于2020-06-01,出售的物品是 (Pencil, Bible),按词典序排列,并用逗号分隔。
对于2020-06-02,出售的物品是 (Mask),只需返回该物品名。

代码实现: 

我本人能力有限,做出的答案执行效率太低,这里我们直接看官方的执行速度最快的代码吧。非原创。

import pandas as pddef categorize_products(activities: pd.DataFrame) -> pd.DataFrame:#这里使用特殊参数as_index不要让sell_date变为索引,省去了reset_index()的代码,对总体的数据进行分组grouped_df = activities.groupby('sell_date',as_index=False)#直接利用聚合函数来进行新列的建立df = grouped_df.agg(num_sold=('product','nunique'),products=('product',lambda x:','.join(sorted(set(x)))))return df.sort_values(by=['sell_date'])

这个代码主要在于groupby函数,agg函数,lambda函数的用法 

代码及特殊参数解释:

--首先在对全体函数进行分组时,groupby函数使用了一个重要的参数

  • as_index = True / False

代表是否把分组的键值设立为索引,默认是True。我们在之前编辑数据时,总是在分组聚合后使用reset_index()函数进行索引的重置,是因为分组聚合后的数据比较复杂,使用这个代码比较保险,而当对整个数据进行分组时,可以直接使用as_index参数,可以提高执行速度,精简代码。

--先进行分组在对数据进行聚合,这样做会将每个日期下的产品按照分组聚合到同一个格子里,但是同时保留了每个产品的信息。

--其次,在新建列并对数据进行编辑聚合时,可以直接使用agg聚合函数,方便且快捷。

  • agg函数使用形式:
  • agg(min_data=('sale_date',min),max_data=('sale_date',max)
  • .agg({'A': 'sum', 'B': 'mean', 'C': 'max'})

这里我们使用第一个使用形式。

--关于lambda函数的强大的遍历效果

我们在聚合函数内建立了products列后,要把表格中的数据都分组放在一个空间力,并对它们进行去重和按照词典排序,数据很多,使用lambda函数可以很快的遍历求解

#代码
df = grouped_df.agg(products=('product',lambda x:','.join(sorted(set(x)))))
  • lambda函数使用方法:
  • [ 捕获列表 ] (参数) -> 返回类型 {}

对product列的每个数据之间加入“,”分隔,由于已经分好组了,所以直接给数据传入set函数来去重,传入sorted函数进行字母排序。

--额外思考:

这个代码对于时间列的使用仅仅是用来分组,所以不需要将该列通过:to_datetime()转换为时间类型。但在我们面对大型数据时,还是建议提前对时间类进行清洗。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/19098.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jetpack架构组件_5.BindingAdapter

1.BindingAdapter介绍 Binding adapters 可以作为一个设置某个值的框架来使用,databinding 库可以允许指定具体的方法来进行相关值的设置,在该方法中可以做一些处理逻辑,Binding adapters 会最终给你想要的结果。Android Databinding框架中已…

embedding模型API启动

Embedding模型API启动 针对一些需要使用api调用的大模型框架(如fastGPT),可以用该方法启动Embedding模型 环境问题不过多赘述,代码如下 import uvicorn from pydantic import BaseModel # , Field from fastapi.middleware.co…

创建一个乘法练习题生成器 using Java

在教育软件和家庭学习辅助工具中,自动生成练习题是一种常见的需求,它能够帮助学生通过大量练习来巩固数学基础概念。本文将介绍如何使用Java编程语言创建一个简单的乘法练习题生成器,该程序不仅能够随机生成乘法题目,还能保证输出…

【本地运行chatgpt-web】启动前端项目和service服务端项目,也是使用nodejs进行开发的。两个都运行成功才可以使用!

1,启动web界面 https://github.com/Chanzhaoyu/chatgpt-web#node https://nodejs.org/en/download/package-manager # 使用nvm 安装最新的 20 版本。 curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.7/install.sh | bash source /root/.bashrc n…

自力更生:0依赖三方库,手把手教你打造专属C++测试框架

前言: 当人们谈到测试框架的时候,首先想到的就是 google 的 gtest, 想着怎么在代码中集成 gtest 的框架,来实现自身代码的测试。 然后就巴拉巴拉的费了老大劲将 gtest 嵌入到自己的代码中来。 诚然,在自身程序接口稳…

huggingface的self.state与self.control来源(TrainerState与TrainerControl)

文章目录 前言一、huggingface的trainer的self.state与self.control初始化调用二、TrainerState源码解读(self.state)1、huggingface中self.state初始化参数2、TrainerState类的Demo 三、TrainerControl源码解读(self.control)总结 前言 在 Hugging Face 中,self.s…

C语言实现十进制转任意进制(详解)

主要思路:运用一个数组,通过数字每次取任意进制模,存在数组中, 再通过倒取数组中的数值,来实现进制转换,如果遇到十六进制,利用ASCII码值 数字字符和大写字母 相差55的特性来解决 int main() {…

【芯片验证方法】

术语——中文术语 大陆与台湾的一些术语存在差别: 验证常用的英语术语: 验证:尽量模拟实际应用场景,比对芯片的所需要的目标功能和实现的功能 影响验证的要素:应用场景、目标功能、比对应用场景、目标功能&#xff…

内存泄露和内存溢出有什么不同

内存泄露和内存溢出是两个常见的内存问题,它们在程序运行过程中可能导致性能下降、系统不稳定甚至应用崩溃。虽然这两个术语经常被混用,但它们描述的是两种不同的问题: 内存泄露(Memory Leak) 内存泄露是指程序在分配…

华发股份:加强业务协同 新政下项目热销

“5.17”楼市政策出台后,各地密集落地执行。5月27—28日,上海、广州、深圳三个一线城市跟进落地“517”新政。上海发布《关于优化本市房地产市场平稳健康发展政策措施的通知》,共计9条调整政策,涵盖外地户籍、人才、单身、婚否、企…

一个生动的例子——通过ERC20接口访问Tether合约

生动的例子 USDT:符合ERC20标准的美元稳定币,Tether合约获得测试网上Tether合约地址通过自己写的ERC20接口访问这个合约 Tether合约地址:0xdAC17F958D2ee523a2206206994597C13D831ec7 IERC20.sol // SPDX-License-Identifier: GPL-3.0pra…

今日分享站

同志们,字符函数和字符串函数已经全部学习完啦,笔记也已经上传完毕,大家可以去看啦。字符函数和字符串函数and模拟函数 加油!!!!!

Unix环境高级编程--7-进程环境--7.1-7.2main函数-7.3进程退出

1、几个问题 ①main函数如何被调用? ②命令行参数如何传递给新程序?; ③典型储存空间布局是什么样的?; ④进程如何使用环境变量 ?; ⑤进程的各种终止方式? 2、main函数 当内核…

列表推导式(解析式)python

Python中的列表推导式(list comprehension)是一种简洁且强大的语法,用于创建新的列表。它允许你通过对现有列表中的元素进行操作或筛选来快速生成新列表。以下是列表推导式的基本语法和一些示例: 基本语法: new_list…

vue3的组件通信v-model使用

一、组件通信 1.props 》 父向子传值 props 主要用于父组件向子组件通信。再父组件中通过使用:msgmsg绑定需要传给子组件的属性值&#xff0c;然后再在子组件中用props接收该属性值 方法一 普通方式:// 父组件 传值<child :msg1"msg1" :list"list">…

Dinky MySQLCDC 整库同步到 Doris

资源&#xff1a;flink 1.17.0、dinky 1.0.2、doris-2.0.1-rc04 问题&#xff1a;Cannot deserialize value of type int from String &#xff0c;detailMessageunknowndatabases &#xff0c;not a valid int value 2024-05-29 16:52:20.136 ERROR org.apache.doris.flink.…

最长公共子序列问题的求解

假设有两个字符串A和B&#xff0c;A字符串的组成为 A A 0 A 1 A 2 . . . . . . A n − 1 A A_0A_1A_2......A_{n-1} AA0​A1​A2​......An−1​ B B 0 B 1 B 2 . . . . . . B m − 1 BB_0B_1B_2......B_{m-1} BB0​B1​B2​......Bm−1​ 要寻找这两个字符串的公共子序列还…

MS Excel: 高亮当前行列 - 保持原有格式不被改变

本文使用条件格式VBA的方法实现高亮当前行列&#xff0c;因为纯VBA似乎会清除原有的高亮格式。效果如下&#xff1a;本文图省事就使用同一种颜色了。 首先最重要的&#xff0c;【选中你期望高亮的单元格区域】&#xff0c;比如可以全选当前sheet的全部区域 然后点击【开始】-【…

06.深入学习Java 线程

1 线程的状态/生命周期 Java 的 Thread 类对线程状态进行了枚举&#xff1a; public class Thread implements Runnable {public enum State {NEW,RUNNABLE,BLOCKED,WAITING,TIMED_WAITING,TERMINATED;} } 初始(NEW)&#xff1a;新创建了一个线程对象&#xff0c;但还没有调用…

数据库学习笔记1-数据库实验1

文章目录 创建表格的时候出现的一些错误查询所有的表格实验一查询单个表格分块修改大学数据库表格创建大学数据库表格系课程教师课程段授课学生选课注意吐槽 修改大学数据库表格2&#xff08;英文版本&#xff09;abcde 自建项目-在线书店数据库 创建表格的时候出现的一些错误 …