【flink】ColumnarRowData

列式存储

在调试flink读取parquet文件时,读出来的数据是ColumnarRowData,由于parquet是列式存储的文件格式,所以需要用一种列式存储的表示方式,ColumnarRowData就是用来表示列式存储的一行数据,它包含多个数组的数据结构,每个数组都代表一个列,并且数组中的元素是该列中的值,系统可以有效地加载和处理需要的列,从而提高查询性能,并减少不必要的数据访问和计算。

  • 行存储
    GenericRowDataColumnarRowData都是RowData的实现类,前者是标准的行存储,所有列的值保存在一维数组Object[] fields中,访问某一列只需要指定列的索引即可。

成员变量

  • vectorizedColumnBatch:VectorizedColumnBatch类型,一组行数据的集合,可以看成一个二维表,同一列的值保存在同一个数组中(ColumnVector)。因此,要访问某行某列的值,需要确定行索引rowId与列索引*pos
  • rowId:行索引,唯一表示某一行。不同的行数据ColumnarRowData中,rowId不同,vectorizedColumnBatch相同

根据不同列的类型,会使用对应的Vector进行存储

HeapBooleanVector
HeapBytesVector
HeapByteVector
HeapDoubleVector
HeapFloatVector
HeapIntVector
HeapLongVector
HeapShortVector
HeapTimestampVector

逻辑结构

在这里插入图片描述

ParquetColumnarRowSplitReader.nextRecord按行获取数据时,只是移动了rowId的偏移量,因为数据已经提前在nextBatch批量从parquet文件中加载到了VectorizedColumnBatch中。

示例

对于一个parquet文件,有如下数据

id(string)col1(int)name(string)create_date(string)col2(int)
201234520202023-07-1954321

生成的ColumnarRowData对象如下

在这里插入图片描述

默认以2048批量,所以底层数组初始长度都为2048

  • int类型对应HeapIntVector,底层用buffer:int[]存储,一个元素是一个列的值
  • string类型对应HeapBytesVector,底层用buffer:byte[]存储,第n行的列值由start[n-1]及length[n-1]可定位到对应的字节,第一行的name字节为[50,48,50,48],即“2020”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/7393.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从电商指标洞察到运营归因,只需几句话?AI 数智助理准备好了!

Lily 是名入职不久的电商运营助理,最近她想要根据 2022 年的客单价情况,分析品牌 A 在不同电商渠道的用户行为和表现,并提供一些有价值的洞察和建议给客户。然而在向技术人员提报表需求后,技术人员以需求排满为借口拒绝了。 Lily …

5分钟,结合 LangChain 搭建自己的生成式智能问答系统

伴随大语言模型(LLM,Large Language Model)的涌现,人们发现生成式人工智能在非常多领域具有重要意义,如图像生成,书写文稿,信息搜索等。随着 LLM 场景的多样化,大家希望 LLM 能在垂直…

记一次容器环境下出现 Address not available

作者:郑明泉、余凯 困惑的源地址 pod 创建后一段时间一直是正常运行,突然有一天发现没有新的连接创建了,业务上是通过 pod A 访问 svc B 的 svc name 的方式,进入 pod 手动去 wget 一下,发现报错了 Address not avai…

jar 更新 jar包内的 class,以及如何修改class

一、提取Jar 内文件 #提取jar内的配置文件jar -xvf a.jar META-INF\plugin.xml-已解压: META-INF/plugin.xml#提取jar内的class文件, 提示:反编译为java文件,修改后再使用javac xxx.java编译为class,jar -xvf a.jar io.config.**…

TCP长连接和短连接

tcp长连接和短连接 1. TCP短连接2. TCP长连接3. TCP长/短连接操作过程3.1 短连接的操作步骤3.2 长连接的操作步骤 4. TCP长/短连接的优点和缺点5. TCP长/短连接的应用场景 TCP在真正的读写操作之前,server 与 client之间必须建立一个连接,当读写操作完成…

Android中的ImageView设置图片显示有哪几种模式,有什么区别?

Android中的ImageView设置图片显示有哪几种模式,有什么区别? 在 Android 中,ImageView 是显示图像的视图控件,提供了多种图片显示模式(ScaleType)来控制图片的展示方式。不同的图片显示模式适用于不同的场…

全面解析缓存应用经典问题

1、前言 随着互联网从简单的单向浏览请求,发展为基于用户个性信息的定制化以及社交化的请求,这要求产品需要做到以用户和关系为基础,对海量数据进行分析和计算。对于后端服务来说,意味着用户的每次请求都需要查询用户的个人信息和…

使用frp实现公网使用https访问exsi控制台

目录 背景方法esxi配置上传替换证书重启相关服务 frp配置frps配置frpc配置重启服务 完成 背景 esxi控制台默认是通过https登陆的,但是因为它默认的证书是自签名的,所以在浏览器会标记为红色的叉;同时这对于配置安全的公网访问来说也是必须要…

单例模式类设计|什么是饿汉模式和懒汉模式

前言 那么这里博主先安利一些干货满满的专栏了! 首先是博主的高质量博客的汇总,这个专栏里面的博客,都是博主最最用心写的一部分,干货满满,希望对大家有帮助。 高质量干货博客汇总https://blog.csdn.net/yu_cblog/c…

Started CityManagementApplication in 0.982 seconds (JVM running for 1.97)

在pom文件里&#xff0c;添加依赖&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId> </dependency>参考了这个作者&#xff08;zhttp://t.csdn.cn/fo5J2&#xff0…

在Vue-Element中引入jQuery的方法

一、在终端窗口执行安装命令 npm install jquery --save执行完后&#xff0c;npm会自动在package.json中加上jquery 二、在main.js中引入&#xff08;或者在需要使用的页面中引入即可&#xff09; import $ from jquery三、使用jquery

【Ansible 自动化配置管理实践】01、Ansible 快速入门

目录 一、Ansible 快速入门 1.1 什么是 Ansible ​1.2 Ansible 主要功能 1.3 Ansible 的特点 1.4 Ansible 基础架构 二、Ansible 安装与配置 2.1 Ansible 安装 2.2 确认安装 三、Ansible 配置解读 3.1 Ansible 配置路径 3.2 Ansible 主配置文件 3.3 Ansi…

Spring系列一:spring的安装与使用

文章目录 &#x1f49e; 官方资料&#x1f34a;Spring5下载&#x1f34a;文档介绍 &#x1f49e;Spring5&#x1f34a;内容介绍&#x1f34a;重要概念 &#x1f49e;快速入门&#x1f34a;Spring操作演示&#x1f34a;类加载路径&#x1f34a;Debug配置&#x1f34a;Spring容器…

《Docker资源限制和调度策略:性能优化与资源管理,打造高效稳定的容器环境》

&#x1f337;&#x1f341; 博主 libin9iOak带您 Go to New World.✨&#x1f341; &#x1f984; 个人主页——libin9iOak的博客&#x1f390; &#x1f433; 《面试题大全》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33…

ubuntu qt 环境变量配置

ubuntu设置qt环境变量 qt 安装路径为&#xff1a;/home/ljn/Qt5.12 包含bin等目录的路经&#xff1a;/home/ljn/Qt5.14.2/5.14.2/gcc_64 环境变量配置 打开配置文件&#xff1a; sudo gedit /etc/profile在底部添加&#xff1a; export PATH"/home/ljn/Qt5.14.2/Tool…

【Nodejs】Puppeteer\爬虫实践

puppeteer 文档:puppeteer.js中文文档|puppeteerjs中文网|puppeteer爬虫教程 Puppeteer本身依赖6.4以上的Node&#xff0c;但是为了异步超级好用的async/await&#xff0c;推荐使用7.6版本以上的Node。另外headless Chrome本身对服务器依赖的库的版本要求比较高&#xff0c;c…

高速数据采集专家-FMC140【产品手册】

FMC140是一款具有缓冲模拟输入的低功耗、12位、双通道&#xff08;5.2GSPS/通道&#xff09;、单通道10.4GSPS、射频采样ADC模块&#xff0c;该板卡为FMC标准&#xff0c;符合VITA57.1规范&#xff0c;该模块可以作为一个理想的IO单元耦合至FPGA前端&#xff0c;8通道的JESD204…

enum枚举/union共用体

//联合体——共用体 // 所有成员共用同一块空间&#xff08;地址&#xff09; // 共用体占用的内存至少是最大成员的大小&#xff0c;单位 -字节 // 同一时刻只能用一个成员 // 当最大成员不是最大对齐数的整数倍&#xff0c;就要对齐到最大对齐数的整数倍 // union un { …

【jenkins】idea+jenkins+docker+dockerfile+compose流水线部署java应用

目录 整体架构 环境准备 安装docker以及docker-compose jenkins安裝 maven安装 portainer面板安装 sonarqube安装 在项目中增加dockerfile和compose.yml脚本 Dockerfile脚本内容 compose.yml脚本内容 jenkins安装必要插件 jenkins增加流水线任务 增加pipeline任务j…

iptables 防火墙

防火墙&#xff1a;隔离功能 部署在网络边缘或者主机边缘&#xff0c;在工作中&#xff0c;防火墙的主要作用&#xff0c;决定哪些数据可以被外网使用&#xff0c;以及哪些数据可以进入内网访问 主要工作在网络层 安全技术 1.入侵检测系统&#xff1a;检测出威胁&#xff0…