本文为最近年来使用Pandas进行数据分析的实践笔记集锦,为了便于博主与爱好者查找相关内容,以及学习、应用过程,进行了初步简单梳理。内容包括:数据分析处理、可视化分析、数据库相关(ClickHouse、MongoDB、CSV、MySQL、HDF5)、基础入门(数据分析快速入门、时序数据实践)、应用、问题、其他等等。
目录
- 1. 数据分析处理
- 2. 可视化分析
- 3. 数据库相关
- 3.1. ClickHouse
- 3.2. MongoDB
- 3.3. CSV
- 3.4. MySQL
- 3.5. HDF5
- 4. 基础入门
- 4.1. 数据分析快速入门
- 4.2. 时序数据实践
- 5. 应用
- 6. 问题
- 7. 其他
1. 数据分析处理
Pandas数据中列表转换成列、随机抽样数据的方法实践经验两则. 2022.07.08
Pandas数据中列表转换成列、随机抽样数据的方法实践经验两则
Pandas大数据筛选数据经验教训一则. 2022.05.09
有经验的开发者都知道,整型计算、比较是计算机软件高级编程语言、数据库里较快的,对于Python及Pandas也不例外。本文通过整型数据比较筛选数据、整型数据字符串类型比较筛选数据、动态转换为整型字符串类型比较筛选数据对比实验来验证经验。
Pandas常用累计、同比、环比等统计方法实践案例. 2022-02-18
统计表中常常以本年累计、上年同期(累计)、当期(例如当月)完成、上月完成为统计数据,并进行同比、环比分析。如下月报统计表所示样例,本文将使用Python Pandas工具进行统计。
【精选】Pandas时间类型数据处理常用方法小结. 2021-11-19
在数据处理、特征工程时,往往需要按照时间段来统计特征,例如计算间隔天数、最近一个月、最近3个月、最近半年、最近一年某用户的行为数据,那么如何计算筛选这些时间点呢?
【精选】数据处理技术、技巧集锦(Pandas、Numpy、List). 2021-03-02
基于python pandas做数据集开发所遇到的表合并(横向合并与纵向合并)、数据行列处理、数据分组过滤、表内数据及特征处理、Mongo数据存取等需求,总结常用技术、技巧集锦。
基于Pandas实现皮尔逊相关与余弦相似度在工业大数据分析中的应用实践. 2020-08-06
获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。本文基于Pandas实现相关系数及其散点图分析。
2. 可视化分析
Python使用joypy绘制峰峦图案例. 2021-12-26
本文在分析客户流失过程中,采用峰峦图对各种客户状态(活跃、不活跃、濒临流失、流失)进行特征分析,使用python语言下的Joypy工具绘制。
Pandas高级数据分析快速入门之四——数据可视化篇. 2021-08-28
本篇为第四篇,基于数据表DataFrame进行数据可视化,绘图包括散点图、柱状图、条形图、直方图、密度图、饼状图、热力图、雷达图等。
3. 数据库相关
3.1. ClickHouse
Python使用ClickHouse实践与踩坑记. 2021-06-17
本文为初步使用ClickHouse做OLAP数据分析实践,并记录了数据库连接端口配置、接口返回值等问题。体会到ClickHouse的速度快。
3.2. MongoDB
通过Pandas批量快速读取MongoDB数据经验一则. 2020-10-12
对于处理读取大批量MongoDB数据的需求,一般采用通过游标分批读取数据,逐批按需求处理数据(数据治理)方案,这样过程思维清晰,缺点是大数据量时速度较慢,而且需要调优游标批量处理量(batch_size),例如我处理读取100万条数据时,耗费我大概5天时间,而直接采用Pandas工具一
Pandas(数据表)深入应用经验小结(查询、分组、上下行间计算等). 2020-08-08
分享以少量代码,站在Pandas肩膀上,实现大批量Mongo数据读取、数据计算处理等实践案例,以及所遇到的坑。
3.3. CSV
pandas读csv数据文件问题:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode …. 2023-05-05
原因是CSV数据文件不是 UTF8 编码,而系统默认采用 UTF8 解码。
3.4. MySQL
Pandas使用SQLAlchemy读写数据库及URL中特殊字符转义编码 . 2023.06.16
使用pandas直接对数据库进行增删改查是很方便的,这里简单的总结pandas.read_sql()和pandas.DataFrame.to_sql()使用,以及遇到的问题。
Pandas的to_sql()插入数据到mysql中所遇到的问题. 2023.06.09
使用pymysql驱动API,出现如下错误:DatabaseError: Execution failed on sql ‘SELECT name FROM sqlite_master WHERE type=‘table’ AND name=?;’: not all arguments converted during string formatting
3.5. HDF5
Python Pandas实践 HDF5高效二进制存储. 2020.10.13
Python大数据分析过程中,使用Pandas实践 HDF5高效二进制存储,以及使用vitables快速浏览H5格式二进制数据。
4. 基础入门
4.1. 数据分析快速入门
Pandas高级数据分析快速入门——全过程综述及案例集锦. 2021-10-14
Pandas高级数据分析快速入门包括开发环境、基础操作、数据挖掘与统计分析篇、数据可视化、机器学习特征工程、机器学习预测分析等培训内容综述与集成。(5次课,共计交流10小时,内附代码案例)
Pandas高级数据分析快速入门之一——Python开发环境篇. 2021-09-07
Pandas高级数据分析快速入门,包括:Python开发环境篇、基础篇、数据挖掘与统计分析篇、数据可视化篇、机器学习特征工程篇、机器学习预测分析篇。本篇为第一篇,Python工作环境部署,使用pip方式安装工具包,包括Jupter、Numpy+mkl、scipy、Pandas、Clickhouse等。
【精选】Pandas高级数据分析快速入门之二——基础篇. 2021-08-24
本篇为第二篇,数据表DataFrame读写基础操作及读写CSV、Clickhouse相关技术。
Pandas构成、从读取通用数据文件开始、对表(DataFrame)增减数据、把数据保存到CSV文件、DataFrame单元格操作、读取Clickhouse数据。
Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇. 2021-08-27
本篇为第三篇,基于数据表DataFrame进行数据挖掘和统计,扩展衍生交易特征,提取常用特征等简明实际案例操作。读取原数据、时序数据挖掘、数据计算、挖掘数据周期维度、表关联(merge)、常用特征提取——极限值与统计值、按周期统计分析数据。
Pandas高级数据分析快速入门之四——数据可视化篇. 2021-08-28
本篇为第四篇,基于数据表DataFrame进行数据可视化,绘图包括散点图、柱状图、条形图、直方图、密度图、饼状图、热力图、雷达图等。
【精选】Pandas高级数据分析快速入门之数据筛选——分组排序筛选实践笔记. 2021-10-08
Pandas常用分组排序筛选数据实际操作实践笔记,排序、 分组筛选、按条件筛选分组。
Pandas高级数据分析快速入门之六——机器学习预测分析篇. 2021.09.09
Pandas高级数据分析快速入门,包括:Python开发环境篇、基础篇、数据挖掘与统计分析篇、数据可视化篇、机器学习特征工程篇、机器学习预测分析篇。本篇为第六篇,通过XGBoost算法系统,预测客户流失,并给出预测过程分析,特征重要图、AUC曲线等。
4.2. 时序数据实践
Pandas时序数据分析实践—时序数据集. 2023.08.02
通过简洁明了且高效的案例,我们能够初步领略到Pandas的强大功能。在示例中,我们展示了如何读取数据、构建时序数据集、进行数据分析以及将分析结果进行可视化。整个过程代码量非常少,使得操作简便易行。
Pandas时序数据分析实践—概述. 2023.07.27
无论您是一位跑步爱好者,还是对时序数据分析感兴趣的数据科学家,本系列文章都将为您揭示时序数据分析的魅力。让我们一起踏上这段充满数据洞察力的跑步之旅,用数据为您的跑步训练增色添彩。让 Pandas 引领我们探索时序数据的无限可能!
5. 应用
Python+Streamlit+MongoDB GridFS构建低代码文档管理应用(Demo篇). 2022.04.17
基于Python和文档型数据库MongoDB,使用低代码Web框架Streamlit,直接在MongoDB GridFS上实现文档管理(Demo篇)
【精选】Python数据分析师使用低代码Streamlit实现Web数据可视化方法——Plotly可视化基础篇. 2022.01.22
Python数据分析师工作拓展助手,在不用掌握复杂的HTML、JavaScript、CSS等前端技术的情况下,也能快速做出来一个炫酷的Web APP,把数据分析结果可视化呈现出来!本文推荐Python界新秀,高速发展的开源Web框架Streamlit,与Python界较优秀交互式可视化工具Plotly,组合搭建的“Web数据可视化低代码纯python技术解决方案”。
Python数据分析师使用低代码Streamlit实现Web数据可视化方法——入门篇. 2022.01.21
谁能帮你不用懂得复杂的HTML、JavaScript、CSS等前端技术就能快速做出来一个炫酷的Web APP,把数据分析结果可视化呈现出来?本文推荐Python界新秀,高速发展的开源Web框架Streamlit,以及Python界较优秀交互式可视化工具Plotly。
6. 问题
pandas解决数据缺失、重复的方法与实践. 2023.06.17 ·
在数据预处理、数据分析过程中,经常遇到数据缺失、重复等问题,本文着重通过pandas解决数据缺失、重复的方法与实践
Pandas数据类型自行变换及数据类型转换失败情况分析与解决方法. 2022.08.22
Python中,Pandas整型自行变换为浮点型及时间类型转换失败情况分析与解决方法
pandas读csv数据文件问题:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode … 2023-05-05
原因是CSV数据文件不是 UTF8 编码,而系统默认采用 UTF8 解码。
Pandas缺失值inf与nan处理实践. 2022.08.09
实践Pandas对正负无穷inf、空值nan的缺失值处理。
【精选】Numpy与Pandas、Sklearn中one-hot快速编码方法. 2021-12-18
Numpy与Pandas、Sklearn中one-hot快速编码方法
pandas删除没有列名的列. 2021-11-24
pandas 没有列名一般是说原表中没有列名,但在pandas读出来的时候是有列名的,如何删除这样的列呢?
7. 其他
Python多CPU(核)并行数据处理解决方案. 2022.05.13
Python 进行数据处理的时候,因为有GIL锁,因此多线程也只能使用一个处理器,这样经常出现程序运行只使用了一个CPU核心在运算,导致数据处理需要比较长的时间。如果将多个CPU核心同时参与运算,可以大幅度运算速度,下面讨论原则上不修改程序而发挥多CPU效率方案。