python——ydata-profiling介绍与使用

ydata-profiling介绍与使用

  • ydata-profiling的作用
  • ydata-profiling的安装与简单使用
    • ydata-profiling的结果结构
  • ydata-profiling的实际应用场景
    • 1. 数据集比较
    • 2. 时间序列报告
    • 3. 对大型数据集进行概要分析
    • 4. 处理敏感数据
    • 5. 自定义报告的外观

ydata-profiling的作用

ydata-profiling的主要目标是提供一种简洁而快速的探索性数据分析(EDA)体验。就像pandas中的df.describe()函数非常方便一样,ydata-profiling可以对DataFrame进行扩展分析,并允许将数据分析导出为不同格式,例如html和json。

该软件包输出了一个简单而易于理解的数据集分析结果,包括时间序列和文本数据。

ydata-profiling的安装与简单使用

1. 安装

pip install ydata-profiling

2. 使用

import numpy as np
import pandas as pd
from ydata_profiling import ProfileReportdf = pd.DataFrame(np.random.rand(100, 5), columns=['a','b','c','d','e'])
profile = ProfileReport(df, title="Profiling Report")

ydata-profiling的结果结构

ydata-profiling的结果会使用一些关键属性:

  • 类型推断 (Type inference):自动检测列的数据类型(分类、数值、日期等)
  • 警告 (Warning):对数据中可能需要处理的问题/挑战的概要(缺失数据、不准确性、偏斜等)
  • 单变量分析 (Univariate analysis):包括描述性统计量(平均值、中位数、众数等)和信息可视化,如分布直方图
  • 多变量分析 (Multivariate analysis):包括相关性分析、详细分析缺失数据、重复行,并为变量之间的交互提供视觉支持
  • 时间序列 (Time-Series):包括与时间相关的不同统计信息,例如自相关和季节性,以及ACF和PACF图。
  • 文本分析 (Text analysis):最常见的类别(大写、小写、分隔符)、脚本(拉丁文、西里尔文)和区块(ASCII、西里尔文)
  • 文件和图像分析 (File and Image analysis):文件大小、创建日期、指示截断图像和存在EXIF元数据的指示
  • 比较数据集 (Compare datasets):一行命令,快速生成完整的数据集比较报告
  • 灵活的输出格式 (Flexible output formats):所有分析结果可以导出为HTML报告,便于与各方共享,也可作为JSON用于轻松集成到自动化系统中,还可以作为Jupyter Notebook中的小部件使用

报告还包含三个额外的部分:

  • 概述 (Overview):主要提供有关数据集的全局详细信息(记录数、变量数、整体缺失值和重复值、内存占用情况)
  • 警告 (Alerts):一个全面且自动的潜在数据质量问题列表(高相关性、偏斜、一致性、零值、缺失值、常数值等)
  • 重现 (Reporduction):分析的技术细节(时间、版本和配置)

ydata-profiling的实际应用场景

1. 数据集比较

ydata-profiling可以用于比较同一数据集的多个版本。当需要对比不同时间段(如两年)的数据时,这非常有用。另一个常见的场景是在机器学习中查看训练、验证和测试数据集的数据概况。例如:

from ydata_profiling import ProfileReporttrain_df = pd.read_csv("train.csv")
train_report = ProfileReport(train_df, title="Train")test_df = pd.read_csv("test.csv")
test_report = ProfileReport(test_df, title="Test")comparison_report = train_report.compare(test_report)
comparison_report.to_file("comparison.html")

比较报告使用设置中的标题属性作为标签。颜色在settings.html.style.primary_colors中进行配置。可以通过调整numeric precision参数settings.report.precision来获得报告中的一些额外空间。

当比较多个报告时:

from ydata_profiling import ProfileReport, comparecomparison_report = compare([train_report, validation_report, test_report])# Obtain merged statistics
statistics = comparison_report.get_description()# Save report to file
comparison_report.to_file("comparison.html")

请注意,此功能仅确保支持对两个数据集进行比较的报告。可以获取统计信息,但报告可能存在格式问题。其中一个可以更改的设置是settings.report.precision。根据经验,可以将值10用于单个报告,将值8用于比较两个报告。

2. 时间序列报告

pandas-profiling可以用于对时间序列数据进行快速的探索性数据分析。这对于快速了解与时间相关的变量的行为(如时间图、季节性、趋势和平稳性)非常有用。

结合profiling reports compare,您可以比较时间上的演变和数据行为,以时间序列特定统计信息(如PACF和ACF图)为基础。

以下语法可用于在假设数据集包含时间相关特征的情况下生成概要报告:

import pandas as pdfrom ydata_profiling.utils.cache import cache_file
from ydata_profiling import ProfileReportfile_name = cache_file("pollution_us_2000_2016.csv","https://query.data.world/s/mz5ot3l4zrgvldncfgxu34nda45kvb",
)df = pd.read_csv(file_name, index_col=[0])# Filtering time-series to profile a single site
site = df[df["Site Num"] == 3003]profile = ProfileReport(df, tsmode=True, sortby="Date Local", title="Time-Series EDA")profile.to_file("report_timeseries.html")

要生成时间序列报告,需要将ts_mode设置为“True”。如果设置为“True”,那些具有时间依赖性的变量将根据自相关的存在自动识别出来。时间序列报告使用sortby属性对数据集进行排序。如果未提供此属性,则假定数据集已经按顺序排列。

在某些情况下,您可能已经清楚哪些变量应该是时间序列,或者您只想确保您希望作为时间序列进行分析的变量被正确地进行概要分析:

import pandas as pdfrom ydata_profiling.utils.cache import cache_file
from ydata_profiling import ProfileReportfile_name = cache_file("pollution_us_2000_2016.csv","https://query.data.world/s/mz5ot3l4zrgvldncfgxu34nda45kvb",
)df = pd.read_csv(file_name, index_col=[0])# Filtering time-series to profile a single site
site = df[df["Site Num"] == 3003]# Setting what variables are time series
type_schema = {"NO2 Mean": "timeseries","NO2 1st Max Value": "timeseries","NO2 1st Max Hour": "timeseries","NO2 AQI": "timeseries","cos": "numeric","cat": "numeric",
}profile = ProfileReport(df,tsmode=True,type_schema=type_schema,sortby="Date Local",title="Time-Series EDA for site 3003",
)profile.to_file("report_timeseries.html")

3. 对大型数据集进行概要分析

默认情况下,ydata-profiling以最能提供数据分析洞察的方式全面总结输入数据集。对于小型数据集,这些计算可以准实时进行。对于较大的数据集,可能需要事先决定要进行哪些计算。一个计算是否适用于大型数据集不仅取决于数据集的确切大小,还取决于其复杂性以及是否可用快速计算。如果概要分析的计算时间成为瓶颈,ydata-profiling提供了几种解决方案来克服这一问题。

3.1 最小模式
ydata-profiling包含一个最小配置文件,默认情况下关闭了最费力的计算。这是处理较大数据集的推荐起点。

profile = ProfileReport(large_dataset, minimal=True)
profile.to_file("output.html")

3.2 对数据集取样
处理非常大型数据集的另一种方法是使用其中一部分数据生成概要分析报告。一些用户报告称,这是在保持代表性的同时缩短计算时间的好方法。

sample = large_dataset.sample(10000)profile = ProfileReport(sample, minimal=True)
profile.to_file("output.html")

报告的读者可能想了解概要分析是使用数据样本生成的。可以通过向报告添加描述来说明这一点。

description = "Disclaimer: this profiling report was generated using a sample of 5% of the original dataset."
sample = large_dataset.sample(frac=0.05)profile = sample.profile_report(dataset={"description": description}, minimal=True)
profile.to_file("output.html")

3.3 禁用费力的计算
为了减少特别大型数据集中的计算负担,但仍然保留可能来自它们的一些感兴趣的信息,可以仅针对某些列过滤一些计算。特别地,可以提供一个目标列表给Interactions,以便仅计算与这些特定变量有关的交互作用。

from ydata_profiling import ProfileReport
import pandas as pd# Reading the data
data = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
)# Creating the profile without specifying the data source, to allow editing the configuration
profile = ProfileReport()
profile.config.interactions.targets = ["Name", "Sex", "Age"]# Assigning a DataFrame and exporting to a file, triggering computation
profile.df = data
profile.to_file("report.html")

控制此设置的"interactions.targets" 可以通过多个接口进行更改(配置文件或环境变量)。

3.4 并发性
ydata-profiling是一个正在积极开发的项目。其中一个非常期望的功能是添加可扩展的后端,例如Modin或Dask。

4. 处理敏感数据

在某些数据敏感的背景下(例如,私人健康记录),分享包含样本的报告可能会违反隐私约束。以下配置简写将各种选项分组在一起,以便在报告中只提供聚合信息,而不显示个人记录:

report = df.profile_report(sensitive=True)

此外,pandas-profiling不会将数据发送到外部服务,因此非常适合处理私人数据。

4.1 样本和重复值
可以禁用显示数据集样本和重复行的功能,以确保报告不会直接泄漏任何数据:

report = df.profile_report(duplicates=None, samples=None)

或者,仍然可以显示一个样本,但以下代码片段演示了如何生成报告,但在数据集样本部分使用模拟/合成数据。请注意,name和caption键是可选的。

# Replace with the sample you'd like to present in the report (can be from a mock or synthetic data generator)
sample_custom_data = pd.DataFrame()
sample_description = "Disclaimer: the following sample consists of synthetic data following the format of the underlying dataset."report = df.profile_report(sample={"name": "Mock data sample","data": sample_custom_data,"caption": sample_description,}
)

4.2 数据集元数据、数据字典和配置

当与同事共享报告或在网上发布时,包含数据集的元数据(如作者、版权持有人或描述)可能很重要。ydata-profiling允许用这些信息来补充报告。受到schema.org的数据集启发,目前支持的属性有description、creator、author、url、copyright_year和copyright_holder。

以下示例展示了如何生成一个包含描述、版权持有人、版权年份、创作者和URL的报告。在生成的报告中,这些属性将出现在概述部分的“关于”下面。

report = df.profile_report(title="Masked data",dataset={"description": "This profiling report was generated using a sample of 5% of the original dataset.","copyright_holder": "StataCorp LLC","copyright_year": 2020,"url": "http://www.stata-press.com/data/r15/auto2.dta",},
)report.to_file(Path("stata_auto_report.html"))

除了提供数据集的详细信息外,用户在与团队成员和利益相关者分享报告时,通常希望包含针对每列的具体描述。ydata-profiling支持创建这些描述,以便报告中包含内置的数据字典。默认情况下,这些描述会在报告的概述部分中呈现,在每个变量旁边显示。

profile = df.profile_report(variables={"descriptions": {"files": "Files in the filesystem, # variable name: variable description","datec": "Creation date","datem": "Modification date",}}
)profile.to_file(report.html)

另外,列描述可以从一个JSON文件中加载:

   {column name 1: column 1 definition,column name 2: column 2 definition}
import json
import pandas as pd
import ydata_profilingdefinition_file = dataset_column_definition.json# Read the variable descriptions
with open(definition_file, r) as f:definitions = json.load(f)# By default, the descriptions are presented in the Overview section, next to each variable
report = df.profile_report(variable={"descriptions": definitions})# We can disable showing the descriptions next to each variable
report = df.profile_report(variable={"descriptions": definitions}, show_variable_description=False
)report.to_file("report.html")

除了提供数据集的详细信息,用户通常还希望包含设置类型模式。当将ydata-profiling生成与数据目录中已有的信息集成时,这一点尤为重要。当使用ydata-profiling的ProfileReport时,用户可以设置type_schema属性来控制生成的数据类型分析。默认情况下,type_schema会通过visions自动推断。

import json
import pandas as pdfrom ydata_profiling import ProfileReport
from ydata_profiling.utils.cache import cache_filefile_name = cache_file("titanic.csv","https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv",
)
df = pd.read_csv(file_name)type_schema = {"Survived": "categorical", "Embarked": "categorical"}# We can set the type_schema only for the variables that we are certain of their types. All the other will be automatically inferred.
report = ProfileReport(df, title="Titanic EDA", type_schema=type_schema)report.to_file("report.html")

5. 自定义报告的外观

在某些情况下,用户可能希望根据个人喜好或公司品牌来自定义报告的外观。ydata-profiling提供了两个主要的自定义方面:HTML报告的样式和其中包含的可视化和图表的样式

5.1 自定义报告的主题

报告的多个方面都可以进行自定义。下表显示了可用的设置:

参数类型默认描述
html.minify_htmlboolTrue如果为True,则使用htmlmin包对输出的HTML进行最小化处理。
html.use_local_assetsboolTrue如果为True,则所有资源(样式表、脚本、图片)将被存储在本地。如果为False,则使用CDN来提供部分样式表和脚本。
html.inlinebooleanTrue如果为True,则所有资源都包含在报告中。如果为False,则创建一个Web导出,其中所有资源都存储在“[REPORT_NAME]_assets/”目录中。
html.navbar_showbooleanTrue是否在报告中包含导航栏。
html.style.themestringNone选择开机自检主题。可选项:平坦(深色)和团结(橙色)
html.style.logostringbase64 编码的徽标,显示在导航栏中
html.style.primary_colorstring#337ab7报告中使用的主色调。
html.style.full_widthbooleanFalse默认情况下,报告的宽度是固定的。如果设置为 “True”,则使用屏幕全宽。

向底层 matplotlib 可视化引擎传递参数的一种方法是在计算剖面图时使用 plot 参数。可以使用关键对 image_format: “png”,并使用 dpi: 800 更改图像的分辨率。举例如下

profile = ProfileReport(planets,title="Pandas Profiling Report",explorative=True,plot={"dpi": 200, "image_format": "png"},
)

饼图用于绘制分类(或布尔)特征中的类别频率。默认情况下,如果一个特征的独特值不超过 10 个,则该特征被视为分类特征。这个阈值可以通过 plot.pie.max_unique 设置来配置。

如果特征未被视为分类特征,则不会显示饼图。因此,可以通过设置:plot.pie.max_unique = 0 来删除所有饼图。

饼图的颜色可以通过 plot.pie.colors 设置配置为任何可识别的 matplotlib 颜色。

profile = ProfileReport(pd.DataFrame([1, 2, 3]))
profile.config.plot.pie.colors = ["gold", "b", "#FF796C"]

相关矩阵和缺失值概览等可视化工具中使用的调色板也可以通过 plot 参数进行自定义。要自定义相关矩阵使用的调色板,请使用相关键:

from ydata_profiling import ProfileReportprofile = ProfileReport(df,title="Pandas Profiling Report",explorative=True,plot={"correlation": {"cmap": "RdBu_r", "bad": "#000000"}},
)

同样,缺失值的调色板也可以使用missing参数来更改:

from ydata_profiling import ProfileReportprofile = ProfileReport(df,title="Pandas Profiling Report",explorative=True,plot={"missing": {"cmap": "RdBu_r"}},
)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/64929.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kotlin 中 OkHttp 使用及解析

build.gradle dependencies {//OkHttpimplementation com.squareup.okhttp3:okhttp:4.9.0 } 简单使用例子 val okHttpClient OkHttpClient.Builder().connectTimeout(Duration.ofSeconds(10)).readTimeout(Duration.ofSeconds(10)).writeTimeout(Duration.ofSeconds(10)).re…

Python3不支持sqlite3的解决方法

先贴报错&#xff1a; >>> import sqlite3 Traceback (most recent call last):File "<stdin>", line 1, in <module>File "/usr/local/lib/python3.10/sqlite3/__init__.py", line 57, in <module>from sqlite3.dbapi2 impor…

Spark 【RDD编程(一)RDD编程基础】

RDD 简介 在Spark中&#xff0c;RDD是弹性分布式数据集&#xff08;Resilient Distributed Dataset&#xff09;的缩写。通俗来讲&#xff0c;RDD是一种抽象的数据结构&#xff0c;用于表示分布式计算中的数据集合。它是Spark中最基本的数据模型&#xff0c;可以看作是一个不可…

TiDB x 安能物流丨打造一栈式物流数据平台

作者&#xff1a;李家林 安能物流数据库团队负责人 本文以安能物流作为案例&#xff0c;探讨了在数字化转型中&#xff0c;企业如何利用 TiDB 分布式数据库来应对复杂的业务需求和挑战。 安能物流作为中国领先的综合型物流集团&#xff0c;需要应对大规模的业务流程&#xff…

JVM解密: 解构类加载与GC垃圾回收机制

文章目录 一. JVM内存划分二. 类加载机制1. 类加载过程2. 双亲委派模型 三. GC垃圾回收机制1. 找到需要回收的内存1.1 哪些内存需要回收&#xff1f;1.2 基于引用计数找垃圾(Java不采取该方案)1.3 基于可达性分析找垃圾(Java采取方案) 2. 垃圾回收算法2.1 标记-清除算法2.2 标记…

Hugging Face--Transformers

pipeline 在这里插入图片描述 AutoClass AutoClass 是一个能够通过预训练模型的名称或路径自动查找其架构的快捷方式. 你只需要为你的任务选择合适的 AutoClass 和它关联的预处理类。 AutoTokenizer AutoModel 保存模型 自定义模型构建 Trainer - PyTorch优化训练循环 参考资…

net start MongoDB 启动MongoDB服务时, 出现没有响应控制功能的解决方案

问题描述 管理员权限打开cmd后&#xff0c;输入net start MongoDB启动MongoDB服务&#xff0c;显示服务没有响应控制功能 检查 1、系统环境变量PATH中&#xff0c;MongoDB的bin文件夹路径是否正确 2、打开注册表&#xff0c;在HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\…

SpringCloud(十)——ElasticSearch简单了解(三)数据聚合和自动补全

文章目录 1. 数据聚合1.1 聚合介绍1.2 Bucket 聚合1.3 Metrics 聚合1.4 使用 RestClient 进行聚合 2. 自动补全2.1 安装补全包2.2 自定义分词器2.3 自动补全查询2.4 拼音自动补全查询2.5 RestClient 实现自动补全2.5.1 建立索引2.5.2 修改数据定义2.5.3 补全查询2.5.4 解析结果…

鸿鹄企业工程项目管理系统 Spring Cloud+Spring Boot+前后端分离构建工程项目管理系统源代码

鸿鹄工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离构建工程项目管理系统 1. 项目背景 一、随着公司的快速发展&#xff0c;企业人员和经营规模不断壮大。为了提高工程管理效率、减轻劳动强度、提高信息处理速度和准确性&#xff0c;公司对内部工程管…

如何在 iPhone 上检索已删除的短信

我厌倦了垃圾短信。当我例行公事地删除 iPhone 上的这些不需要的消息时&#xff0c;当我分散注意力时&#xff0c;我通过点击错误的按钮清除了所有消息。这些被删除的消息中包含两条团购验证信息。有什么办法可以从 iPhone 检索我的消息吗&#xff1f; 有时我们可能会不小心删…

jupyter常用的方法以及快捷键

选中状态 蓝色 按enter 进入编辑状态 编辑状态 绿色 按Esc 进入选中状态 Code模式运行是运行代码 Markdown模式运行是进入预览状态 - - - 是文本格式的一种精简的语法形式 Raw NBConvert 是默认文本状态 - - - 输入什么样 展示什么样 Y - - - 切换code模式 M - - - 切换Markdo…

9、监测数据采集物联网应用开发步骤(7)

源码将于最后一遍文章给出下载 监测数据采集物联网应用开发步骤(6) 串口(COM)通讯开发 本章节测试使用了 Configure Virtual Serial Port Driver虚拟串口工具和本人自写的串口调试工具&#xff0c;请自行baidu下载对应工具 在com.zxy.common.Com_Para.py中添加如下内容 #RS…

HOperatorSet.Connection 有内存泄漏或缓存

开发环境 Win7 VS2002 halcon12&#xff0c; 直接运行Debug的exe 宽高5000&#xff0c;单格1*1的棋盘占用内存 手动释放region regionConnect private void butTemp_Click(object sender, EventArgs e) { butTemp.Enabled false; HOperatorS…

[CISCN 2019初赛]Love Math

文章目录 前言考点解题过程 前言 感慨自己实力不够&#xff0c;心浮气躁根本做不来难题。难得这题对我还很有吸引力&#xff0c;也涉及很多知识。只能说我是受益匪浅&#xff0c;总的来说加油吧ctfer。 考点 利用php动态函数的特性利用php中的数学函数实现命令执行利用php7的特…

音频——I2S 标准模式(二)

I2S 基本概念飞利浦(I2S)标准模式左(MSB)对齐标准模式右(LSB)对齐标准模式DSP 模式TDM 模式 文章目录 I2S format时序图逻辑分析仪抓包 I2S format 飞利浦 (I2S) 标准模式 数据在跟随 LRCLK 传输的 BCLK 的第二个上升沿时传输 MSB&#xff0c;其他位一直到 LSB 按顺序传传输依…

Linux(实操篇三)

Linux实操篇 Linux(实操篇三)1. 常用基本命令1.7 搜索查找类1.7.1 find查找文件或目录1.7.2 locate快速定位文件路径1.7.3 grep过滤查找及"|"管道符 1.8 压缩和解压类1.8.1 gzip/gunzip压缩1.8.2 zip/unzip压缩1.8.3 tar打包 1.9 磁盘查看和分区类1.9.1 du查看文件和…

【C#】泛型

【C#】泛型 泛型是什么 泛型是将类型作为参数传递给类、结构、接口和方法&#xff0c;这些参数相当于类型占位符。当我们定义类或方法时使用占位符代替变量类型&#xff0c;真正使用时再具体指定数据类型&#xff0c;以此来达到代码重用目的。 泛型特点 提高代码重用性一定…

高阶MySQL语句

数据准备 create table ky30 (id int,name varchar(10) primary key not null ,score decimal(5,2),address varchar(20),hobbid int(5)); insert into ky30 values(1,liuyi,80,beijing,2); insert into ky30 values(2,wangwu,90,shengzheng,2); insert into ky30 values(3,lis…

3D步进式漫游能够在哪些行业应用?

VR技术一直以来都是宣传展示领域中的热门话题&#xff0c;在VR全景技术的不断发展下&#xff0c;3D步进式漫游技术也逐渐覆盖各行各业&#xff0c;特别是在建筑、房产、博物馆、企业等领域应用更加广泛&#xff0c;用户通过这种技术能够获得更加直观、生动、详细的展示体验&…

【大数据】Apache Iceberg 概述和源代码的构建

Apache Iceberg 概述和源代码的构建 1.数据湖的解决方案 - Iceberg1.1 Iceberg 是什么1.2 Iceberg 的 Table Format 介绍1.3 Iceberg 的核心思想1.4 Iceberg 的元数据管理1.5 Iceberg 的重要特性1.5.1 丰富的计算引擎1.5.2 灵活的文件组织形式1.5.3 优化数据入湖流程1.5.4 增量…