parquet介绍

概述

Apache Parquet 是一种开源的列式数据文件格式,旨在实现高效的数据存储和检索。它提供高性能压缩和编码方案(encoding schemes)来批量处理复杂数据,并且受到许多编程语言和分析工具的支持。

parquet-format

parquet-format 存储库托管 Apache Parquet 文件格式的官方规范,该规范定义了数据的结构和存储方式。此规范以及 Thrift 元数据定义和其他关键组件对于开发人员有效读取和写入 Parquet 文件至关重要。parquet-format 项目专门包含理解和正确使用 Parquet 文件所需的格式规范。

作为一个专注于规范的存储库,parquet 格式的存储库不包含源代码。

文件格式

应该将此文件和 thrift 定义一起阅读才能理解其格式。

在这里插入图片描述

在上面的例子中,该表有 N 列,分为 M 个行组。文件元数据包含所有列块(column chunks)起始位置的位置。有关元数据中包含的内容的更多详细信息,请参阅 Thrift 定义。

在这里插入图片描述

该格式明确设计用于将元数据与数据分离。这样可以将列拆分为多个文件,也可以让单个元数据文件引用多个 parquet 文件。

配置

行组大小

较大的行组允许较大的列块,从而可以进行较大的顺序 IO。建议使用较大的行组(512MB - 1GB)。

数据页大小

数据页应被视为不可分割的,因此较小的数据页允许更细粒度的读取(例如单行查找)。较大的页面大小会产生较少的空间开销(较少的页眉)和潜在的较少的解析开销(处理页眉)。建议页面大小为 8KB。

元数据

元数据有两种类型:文件元数据和页眉(page header)元数据。

文件元数据由FileMetaData结构描述,此文件元数据提供在浏览 Parquet 文件时有用的偏移量和大小信息。

页眉元数据(PageHeader以及图中的子元数据)与页面数据内联存储,并用于读取和解码所述数据。

所有 thrift 结构都使用 TCompactProtocol 序列化。这些结构的完整定义在 Parquet Thrift 定义中给出。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/44775.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ELK优化

ELK优化可以从以下几个方面进行: linux内核优化JVM优化ES配置优化架构优化(filebeat/fluentd代替logstash、加入kafka做消息队列) ES 作为日志存储时的特性: 高并发写读少接受 30 秒内的延时可容忍部分日志数据丢失 Logstash优…

如何配置yolov10环境?

本文介绍如何快速搭建起yolov10环境,用于后续项目推理、模型训练。教程适用win、linux系统 yolo10是基于yolo8(ultralytics)的改进,环境配置跟yolo8几乎一模一样。 目录 第1章节:创建虚拟环境 第2章节:…

【debug】keras使用基础问题

keras使用基础问题 一、下载报错报错详情解决方式忽略ssl检查提前将数据或者包下载到本地 参考 一、下载报错 报错详情 1、下载数据报错 (x_train, y_train_cats), (x_test, y_test_cats) cifar10.load_data()报错信息 Exception: URL fetch failure on https://www.cs.tor…

linux中,nohup ... ,改变输出目录

在Linux中,使用nohup命令结合&来在后台运行java -jar xxx.jar命令时,实际上每个nohup命令都会将其标准输出(stdout)和标准错误输出(stderr)重定向到一个名为nohup.out的文件中,除非你明确指…

Tita的OKR:最新20个HR人力资源OKR案例

OKR是一个目标设定框架,可以提高员工的参与度,同时帮助人们专注于最重要的事情。 然而,OKR最大的挑战之一是设定正确的目标,我与很多人力资源专业人士交谈过,他们证明他们的OKR并不完美。 这就是为什么我们收集了最佳…

git-打包指定提交文件.sh

#!/bin/bash # windows :git bash here read -p "请工程路径: " projdir cd $projdir read -p "请输入提交ID(至少7位): " select # latest$(git rev-parse HEAD) latest$(git rev-parse --short HEAD) # set latest$(git rev-parse HEAD) ech…

水文:CBA业务架构师

首先, 我们来了解一下什么是CBA业务架构师? CBA业务架构师认证是由业务架构师公会(Business Architecture Guild)授予的一种专业认证。标志着证书持有者已经掌握了业务架构的核心技能和知识,能够在实际工作中熟练运用业务架构技术和框架&…

Windows 安装Zookeeper

安装 下载地址:Apache ZooKeeper 我下载的版本:zookeeper-3.4.12 下载后,解压 配置 1、 在D:\zookeeper-3.4.12文件夹中创建一个“data”文件夹和“log”文件夹 2、 复制zoo_sample.cfg,改名:zoo.cfg 修改zoo.c…

Jetson-AGX-Orin 安装ROS2

Jetson-AGX-Orin 安装ROS2 确保Orin能够上网 1、安装依赖 sudo apt update sudo apt install curl gnupg2 lsb-release2、添加源 sudo curl -sSL https://raw.githubusercontent.com/ros/rosdistro/master/ros.key -o /usr/share/keyrings/ros-archive-keyring.gpgecho &q…

【C++课程学习】:new和delete为什么要配套使用,new,delete和malloc,free的比较

🎁个人主页:我们的五年 🔍系列专栏:C课程学习 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 🎡1.new,delete和malloc,free的区别: ⌚️相同点&…

Java的SpringBoot项目中为什么要注入接口XxxService而不是具体的实现类XxxServiceImpl

Java的SpringBoot项目中为什么要注入接口XxxService而不是具体的实现类XxxServiceImpl 在 Java 中,通常建议面向接口编程。注入一个接口而不是具体的实现类有以下几个好处: **解耦:**通过注入接口,实现了服务的调用者&#xff08…

“删错文件后如何高效挽救?两大恢复策略全解析“

在数字化日益深入生活的今天,数据已成为我们工作、学习和娱乐不可或缺的一部分。然而,删错文件的经历却如同数字世界中的一场“小插曲”,不经意间就可能让我们陷入数据丢失的困境。无论是误触删除键、清空回收站,还是软件故障导致…

GCN-LSTM实现时空预测

简介:现有的预测模型越来考虑时间和空间的相关性,统称为时空预测。这种预测模型往往比简单的序列模型(例如RNN、LSTM、GRU及其变体)、Transformer等效果更好。我使用Keras实现了该GCN-LSTM代码,因为Keras相比于torch更容易入手和理解。我实现了一个基于Keras的GCN网络层,…

Linux 宝塔常用命令教程

一、引言 在 Linux 服务器管理中,宝塔面板是一款非常实用的工具。然而,了解一些相关的命令可以让我们在特定情况下更高效地进行操作和管理。本文将为您介绍一些常用的 Linux 宝塔相关命令。 二、安装宝塔面板 首先,如果您还未安装宝塔面板…

数据结构(其一)--基础知识篇

目录 1. 数据结构三要素 1.1 数据结构的运算 1.2 数据结构的存储结构 2. 数据类型,抽象数据类型 3. 算法 3.1 时间复杂度T(n) 3.2 空间复杂度 1. 数据结构三要素 1.1 数据结构的运算 即,增删改查 1.2 数据结构的存储结构 2. 数据类型&#xff0…

企业微信群发限制的背后逻辑,一文读懂!

在数字化营销日益盛行的今天,企业微信作为一款专为企业设计的通讯与办公工具,凭借其与微信的无缝对接和丰富的功能,成为了众多企业开展私域流量运营的重要平台。然而,在使用企业微信的群发功能时,用户往往会遇到一定的…

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。 这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的能力。如果…

录屏软件免费推荐,拥有这4款,不花一分钱

在这个充满创意与活力的数字时代,录屏软件早已成为我们探索世界、分享生活的必备神器。但市面上却存在很多收费的录屏软件,让人望而却步。那么有没有一些录屏软件免费帮助我们轻松开启录影人生,尽情展现创意与才华呢? 本文就将带…

痉挛性斜颈是中医治疗好还是西医好呢?你有真正了解吗?

痉挛性斜颈是西医治疗好还是中医治疗好 痉挛性斜颈,是由于中枢神经系统异常冲动引起的颈部肌群阵发性不自主收缩,使头颈向一侧扭转或痉挛性倾斜。 痉挛性斜颈的病因,多数是由于脑深部的神经细胞病变引起的。这些病人可以有脑炎、出生时窒…

光电门验证动量守恒实验

本实验所需器件与第二个实验相同。但是连线方式有所区别,先将Arduino的电源输出接到两个光电门,然后再将光电门1的信号输出线接到Arduino的第10个端口,光电门2的信号输出线接到Arduino的第11个端口。对Arduino写入下列程序(只有主…