Pandas数据分析开发实战博文集锦

本文为最近年来使用Pandas进行数据分析的实践笔记集锦,为了便于博主与爱好者查找相关内容,以及学习、应用过程,进行了初步简单梳理。内容包括:数据分析处理、可视化分析、数据库相关(ClickHouse、MongoDB、CSV、MySQL、HDF5)、基础入门(数据分析快速入门、时序数据实践)、应用、问题、其他等等。

目录

  • 1. 数据分析处理
  • 2. 可视化分析
  • 3. 数据库相关
    • 3.1. ClickHouse
    • 3.2. MongoDB
    • 3.3. CSV
    • 3.4. MySQL
    • 3.5. HDF5
  • 4. 基础入门
    • 4.1. 数据分析快速入门
    • 4.2. 时序数据实践
  • 5. 应用
  • 6. 问题
  • 7. 其他

1. 数据分析处理

Pandas数据中列表转换成列、随机抽样数据的方法实践经验两则. 2022.07.08
Pandas数据中列表转换成列、随机抽样数据的方法实践经验两则

Pandas大数据筛选数据经验教训一则. 2022.05.09
有经验的开发者都知道,整型计算、比较是计算机软件高级编程语言、数据库里较快的,对于Python及Pandas也不例外。本文通过整型数据比较筛选数据、整型数据字符串类型比较筛选数据、动态转换为整型字符串类型比较筛选数据对比实验来验证经验。

Pandas常用累计、同比、环比等统计方法实践案例. 2022-02-18
统计表中常常以本年累计、上年同期(累计)、当期(例如当月)完成、上月完成为统计数据,并进行同比、环比分析。如下月报统计表所示样例,本文将使用Python Pandas工具进行统计。

【精选】Pandas时间类型数据处理常用方法小结. 2021-11-19
在数据处理、特征工程时,往往需要按照时间段来统计特征,例如计算间隔天数、最近一个月、最近3个月、最近半年、最近一年某用户的行为数据,那么如何计算筛选这些时间点呢?

【精选】数据处理技术、技巧集锦(Pandas、Numpy、List). 2021-03-02
基于python pandas做数据集开发所遇到的表合并(横向合并与纵向合并)、数据行列处理、数据分组过滤、表内数据及特征处理、Mongo数据存取等需求,总结常用技术、技巧集锦。

基于Pandas实现皮尔逊相关与余弦相似度在工业大数据分析中的应用实践. 2020-08-06
获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。本文基于Pandas实现相关系数及其散点图分析。

2. 可视化分析

Python使用joypy绘制峰峦图案例. 2021-12-26
本文在分析客户流失过程中,采用峰峦图对各种客户状态(活跃、不活跃、濒临流失、流失)进行特征分析,使用python语言下的Joypy工具绘制。

Pandas高级数据分析快速入门之四——数据可视化篇. 2021-08-28
本篇为第四篇,基于数据表DataFrame进行数据可视化,绘图包括散点图、柱状图、条形图、直方图、密度图、饼状图、热力图、雷达图等。

3. 数据库相关

3.1. ClickHouse

Python使用ClickHouse实践与踩坑记. 2021-06-17
本文为初步使用ClickHouse做OLAP数据分析实践,并记录了数据库连接端口配置、接口返回值等问题。体会到ClickHouse的速度快。

3.2. MongoDB

通过Pandas批量快速读取MongoDB数据经验一则. 2020-10-12
对于处理读取大批量MongoDB数据的需求,一般采用通过游标分批读取数据,逐批按需求处理数据(数据治理)方案,这样过程思维清晰,缺点是大数据量时速度较慢,而且需要调优游标批量处理量(batch_size),例如我处理读取100万条数据时,耗费我大概5天时间,而直接采用Pandas工具一

Pandas(数据表)深入应用经验小结(查询、分组、上下行间计算等). 2020-08-08
分享以少量代码,站在Pandas肩膀上,实现大批量Mongo数据读取、数据计算处理等实践案例,以及所遇到的坑。

3.3. CSV

pandas读csv数据文件问题:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode …. 2023-05-05
原因是CSV数据文件不是 UTF8 编码,而系统默认采用 UTF8 解码。

3.4. MySQL

Pandas使用SQLAlchemy读写数据库及URL中特殊字符转义编码 . 2023.06.16
使用pandas直接对数据库进行增删改查是很方便的,这里简单的总结pandas.read_sql()和pandas.DataFrame.to_sql()使用,以及遇到的问题。

Pandas的to_sql()插入数据到mysql中所遇到的问题. 2023.06.09
使用pymysql驱动API,出现如下错误:DatabaseError: Execution failed on sql ‘SELECT name FROM sqlite_master WHERE type=‘table’ AND name=?;’: not all arguments converted during string formatting

3.5. HDF5

Python Pandas实践 HDF5高效二进制存储. 2020.10.13
Python大数据分析过程中,使用Pandas实践 HDF5高效二进制存储,以及使用vitables快速浏览H5格式二进制数据。

4. 基础入门

4.1. 数据分析快速入门

Pandas高级数据分析快速入门——全过程综述及案例集锦. 2021-10-14
Pandas高级数据分析快速入门包括开发环境、基础操作、数据挖掘与统计分析篇、数据可视化、机器学习特征工程、机器学习预测分析等培训内容综述与集成。(5次课,共计交流10小时,内附代码案例)

Pandas高级数据分析快速入门之一——Python开发环境篇. 2021-09-07
Pandas高级数据分析快速入门,包括:Python开发环境篇、基础篇、数据挖掘与统计分析篇、数据可视化篇、机器学习特征工程篇、机器学习预测分析篇。本篇为第一篇,Python工作环境部署,使用pip方式安装工具包,包括Jupter、Numpy+mkl、scipy、Pandas、Clickhouse等。

【精选】Pandas高级数据分析快速入门之二——基础篇. 2021-08-24
本篇为第二篇,数据表DataFrame读写基础操作及读写CSV、Clickhouse相关技术。
Pandas构成、从读取通用数据文件开始、对表(DataFrame)增减数据、把数据保存到CSV文件、DataFrame单元格操作、读取Clickhouse数据。

Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇. 2021-08-27
本篇为第三篇,基于数据表DataFrame进行数据挖掘和统计,扩展衍生交易特征,提取常用特征等简明实际案例操作。读取原数据、时序数据挖掘、数据计算、挖掘数据周期维度、表关联(merge)、常用特征提取——极限值与统计值、按周期统计分析数据。

Pandas高级数据分析快速入门之四——数据可视化篇. 2021-08-28
本篇为第四篇,基于数据表DataFrame进行数据可视化,绘图包括散点图、柱状图、条形图、直方图、密度图、饼状图、热力图、雷达图等。

【精选】Pandas高级数据分析快速入门之数据筛选——分组排序筛选实践笔记. 2021-10-08
Pandas常用分组排序筛选数据实际操作实践笔记,排序、 分组筛选、按条件筛选分组。

Pandas高级数据分析快速入门之六——机器学习预测分析篇. 2021.09.09
Pandas高级数据分析快速入门,包括:Python开发环境篇、基础篇、数据挖掘与统计分析篇、数据可视化篇、机器学习特征工程篇、机器学习预测分析篇。本篇为第六篇,通过XGBoost算法系统,预测客户流失,并给出预测过程分析,特征重要图、AUC曲线等。

4.2. 时序数据实践

Pandas时序数据分析实践—时序数据集. 2023.08.02
通过简洁明了且高效的案例,我们能够初步领略到Pandas的强大功能。在示例中,我们展示了如何读取数据、构建时序数据集、进行数据分析以及将分析结果进行可视化。整个过程代码量非常少,使得操作简便易行。

Pandas时序数据分析实践—概述. 2023.07.27
无论您是一位跑步爱好者,还是对时序数据分析感兴趣的数据科学家,本系列文章都将为您揭示时序数据分析的魅力。让我们一起踏上这段充满数据洞察力的跑步之旅,用数据为您的跑步训练增色添彩。让 Pandas 引领我们探索时序数据的无限可能!

5. 应用

Python+Streamlit+MongoDB GridFS构建低代码文档管理应用(Demo篇). 2022.04.17
基于Python和文档型数据库MongoDB,使用低代码Web框架Streamlit,直接在MongoDB GridFS上实现文档管理(Demo篇)

【精选】Python数据分析师使用低代码Streamlit实现Web数据可视化方法——Plotly可视化基础篇. 2022.01.22
Python数据分析师工作拓展助手,在不用掌握复杂的HTML、JavaScript、CSS等前端技术的情况下,也能快速做出来一个炫酷的Web APP,把数据分析结果可视化呈现出来!本文推荐Python界新秀,高速发展的开源Web框架Streamlit,与Python界较优秀交互式可视化工具Plotly,组合搭建的“Web数据可视化低代码纯python技术解决方案”。

Python数据分析师使用低代码Streamlit实现Web数据可视化方法——入门篇. 2022.01.21
谁能帮你不用懂得复杂的HTML、JavaScript、CSS等前端技术就能快速做出来一个炫酷的Web APP,把数据分析结果可视化呈现出来?本文推荐Python界新秀,高速发展的开源Web框架Streamlit,以及Python界较优秀交互式可视化工具Plotly。

6. 问题

pandas解决数据缺失、重复的方法与实践. 2023.06.17 ·
在数据预处理、数据分析过程中,经常遇到数据缺失、重复等问题,本文着重通过pandas解决数据缺失、重复的方法与实践

Pandas数据类型自行变换及数据类型转换失败情况分析与解决方法. 2022.08.22
Python中,Pandas整型自行变换为浮点型及时间类型转换失败情况分析与解决方法

pandas读csv数据文件问题:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode … 2023-05-05
原因是CSV数据文件不是 UTF8 编码,而系统默认采用 UTF8 解码。

Pandas缺失值inf与nan处理实践. 2022.08.09
实践Pandas对正负无穷inf、空值nan的缺失值处理。

【精选】Numpy与Pandas、Sklearn中one-hot快速编码方法. 2021-12-18
Numpy与Pandas、Sklearn中one-hot快速编码方法

pandas删除没有列名的列. 2021-11-24
pandas 没有列名一般是说原表中没有列名,但在pandas读出来的时候是有列名的,如何删除这样的列呢?

7. 其他

Python多CPU(核)并行数据处理解决方案. 2022.05.13
Python 进行数据处理的时候,因为有GIL锁,因此多线程也只能使用一个处理器,这样经常出现程序运行只使用了一个CPU核心在运算,导致数据处理需要比较长的时间。如果将多个CPU核心同时参与运算,可以大幅度运算速度,下面讨论原则上不修改程序而发挥多CPU效率方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/146867.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣刷题第二十五天--二叉树

前言 二叉树的第一天,掌握前序中序后序遍历,及对应的递归迭代,morris写法。难度一个比一个高是吧。。。 内容 一、二叉树的前序遍历 144.二叉树的前序遍历 给你二叉树的根节点 root ,返回它节点值的 前序 遍历。 递归 每次…

TensorFlow C++编译及推理

TensorFlow环境配置: Tensorflow c源码编译(踩坑版) tensorflow C服务开发指南 预测推理代码: C运行TensorFlow模型

【UE5】显示或隐藏物体轮廓线

效果 步骤 1. 先下载所需的材质文件“M_Highlight.uasset” 材质下载链接: 链接:https://pan.baidu.com/s/1rxmRhkUoXVq6-DkIKyBhAQ 提取码:55bv 2. 在视口中拖入后期处理体积 根据需求设置后期处理体积的大小或者直接设置无限范围&…

python爬取网站数据,作为后端数据

一. 内容简介 python爬取网站数据,作为后端数据 二. 软件环境 2.1vsCode 2.2Anaconda version: conda 22.9.0 2.3代码 链接: 三.主要流程 3.1 通过urllib请求网站 里面用的所有的包 ! pip install lxml ! pip install selenium ! pip install…

德迅云安全带您了解什么是虚拟内存 - 103.88.35.X

虚拟内存是一种内存管理技术,可以像主内存的一部分一样使用辅助内存。虚拟内存是计算机操作系统 (OS) 中使用的常用技术。 虚拟内存是用硬盘空间做内存来弥补计算机RAM空间的缺乏。当实际RAM满时(实际上,在RAM满之前),…

【Linux】U盘安装的cfg引导文件配置

isolinux.cfg文件 default vesamenu.c32 timeout 600display boot.msg# Clear the screen when exiting the menu, instead of leaving the menu displayed. # For vesamenu, this means the graphical background is still displayed without # the menu itself for as long …

ClickHouse查看执行计划

在clickhouse 20.6版本之前要查看SQL语句的执行计划需要设置日志级别为trace才能可以看到,并且只能真正执行sql,在执行日志里面查看。在20.6版本引入了原生的执行计划的语法。在20.6.3版本成为正式版本的功能。 本文档基于目前较新稳定版21.7.3.14。 1.基…

Java声明式事务实战!工作中用这几种就够了!

文章目录 1.几种常用的事务传播行为1.1 REQUIRED1.2 REQUIRES_NEW1.2 NESTED 2. 事务问题2.1 事务不生效?2.2 事务不回滚? 文章会分为两个部分来讲解,第一部分是声明式事务的几种使用场景。第二部分包含事务没有生效,没有回滚的情…

计算两个图形遮盖率

读取图像 首先,加载待处理的图像,可以使用图像处理库(例如OpenCV)来实现这一步。确保已加载正确的图像。 定义特定颜色范围 确定所需的特定颜色范围。这将是要检测的马赛克填充的颜色。需要指定颜色的下限值和上限值,通…

深度学习中文汉字识别 计算机竞赛

文章目录 0 前言1 数据集合2 网络构建3 模型训练4 模型性能评估5 文字预测6 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 深度学习中文汉字识别 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐&#xf…

快速搭建本地的chatgpt

快速搭建本地的chatgpt 参考:一篇文章教你使用Docker本地化部署Chatgpt(非api,速度非常快!!!)及裸连GPT的方式(告别镜像GPT)-CSDN博客 前提是linux下 已安装docker 命…

批量下载Sentinel数据脚本2023

批量下载Sentinel数据脚本2023 那些最好的程序员不是为了得到更高的薪水或者得到公众的仰慕而编程,他们只是觉得这是一件有趣的事情! 批量下载Sentinel数据脚本2023 批量下载Sentinel数据脚本2023🌿前言🌿脚本地址📧Su…

Leetcode—142.环形链表II【中等】

2023每日刷题(三十三) Leetcode—142.环形链表II 实现代码 /*** Definition for singly-linked list.* struct ListNode {* int val;* struct ListNode *next;* };*/ struct ListNode *detectCycle(struct ListNode *head) {struct ListNode* …

Codeforces Round 909 (Div. 3) 题解 A-E

目录 A - Game with IntegersB - 250 Thousand Tons of TNTC - Yarik and ArrayD - Yarik and Musical NotesE - Queue Sort A - Game with Integers 原题链接 题目描述 给定一个整数N,A和B都可以对这个整数进行加一或者减一操作,从A开始,如…

2023.11.18 - hadoop之zookeeper分布式协调服务

1.zookeeper简介 ZooKeeper概念: Zookeeper是一个分布式协调服务的开源框架。本质上是一个分布式的小文件存储系统 ZooKeeper作用: 主要用来解决分布式集群中应用系统的一致性问题。 ZooKeeper结构: 采用树形层次结构,没有目录与文件之分,ZooKeeper树中的每个节点被…

防止显卡掉卡的一种方法:nvidia-smi -pm 1

背景 服务器较老,里面的显卡在使用一段时间后会出现掉卡现象 解决方法 在终端输入:nvidia-smi -pm 1 nvidia-smi -pm 1是用于在NVIDIA GPU上启用持久性模式的命令。 NVIDIA GPU的持久性模式是一种能够保持 GPU 在全功率状态下运行的设置。通常情况下…

阿里巴巴java开发手册-编程规约

编程规约 命名风格常量定义代码格式OOP 规约日期时间集合处理并发处理控制语句注释规约前后端规约其他 命名风格 【强制】代码中的命名均不能以下划线或美元符号开始,也不能以下划线或美元符号结束。 反例:_name / name / n a m e / n a m e / n a m e…

Linux下安装部署redis(离线模式)

一、准备工作 1.下载redis的安装包 下载地址:Index of /releases/ 大家可以自行选择redis的版本,笔者选择的是最新的 2.上传到服务器 前提是我先在服务器上创建了一个目录redis7.2.3,我直接上传到这个目录下 二、安装redis 1.解压redis t…

Cloud

Spring Cloud 是基于 Spring Framework 构建的一套分布式系统开发工具集,旨在简化分布式系统的开发。它提供了一系列的组件和工具,帮助开发者快速搭建分布式系统中的常见模块,例如服务注册与发现、配置中心、断路器、网关等。以下是我对 Spri…

uniapp 跨页面传值及跨页面方法调用

uniapp 跨页面传值及跨页面方法调用 1、跨页面传值 使用全局方法监听uni.$emit、uni.$on、uni.$off 发布、监听、移除 methods: {addFun(){let data [1]uni.navigateBack({ // 返回上一页delta: 1})uni.$emit(successFun,{data}) // 传值} }监听页 onLoad() {uni.$on(succ…