Spark SizeTrackingAppendOnlyMap 相关源代码分析

SizeTrackingAppendOnlyMap 在 ExternalAppendOnlyMap 中使用,当 map 中对象占用的内存大小超过一定阈值时,把 数据 spill 到磁盘。所以 SizeTrackingAppendOnlyMap extends AppendOnlyMap[K, V] with SizeTracker

AppendOnlyMap

AppendOnlyMap 是只能增加和修改元素的 Map,不能删除元素。key 可以为 null, key 为 null 的 value 专门用一个字段 nullValue 存储. 用一个字段 haveNullValue 标识是否包含 key 为 null 的 value. 其他数据用一个数组 data 存储。

AppendOnlyMap capacity 默认是 64。mask 为 catacity - 1. data 容量为 (2 * capacity),因为同时存储 key 和 value。 LOAD_FACTOR=0.7。当存储了 capacity * 0.7个元素时,构建新的 data 数组,capacity 翻倍。然后读取原来 data 中的内容,安照新的容量重新计算对应位置,然后放到新的数组里。

插入数据时,先计算 var pos = rehash(k.hashCode) & mask,key 存储在 data[2pos], value 存储在 data[2pos + 1]。如果已经有数据存在,则 pos + 1.

AppendOnlyMap 最多存储 375809638 个元素。

  • destructiveSortedIterator() 方法,提供按 key 排序的 Iterator,可以按原址排序,不需要额外的内存空间, 但是破坏了数据在 data 中的索引, 不能再插入数据。

SizeTracker

SizeTracker 跟踪估计的内存使用量。使用以下字段。

numUpdates: Map 总共插入和修改的次数。
nextSampleNum: 当 numUpdates 等于时,计算
SAMPLE_GROWTH_RATE: 1.1, 计算内存计算量后, nextSampleNum = nextSampleNum * SAMPLE_GROWTH_RATE
samples: 存储最后两次评估的数据。Sample 有两个字段 size: Long(占用内存), numUpdates: Long(更新次数)
bytesPerUpdate: 最后两次 samples 的每次 update 平均字节数。(latest.size - previous.size).toDouble / (latest.numUpdates - previous.numUpdates)

SizeEstimator.estimate 估计对象占用内存

评估一个 class 实例占用的内存,如果字段是基本类型,占用的内存大小如下表。

private val BYTE_SIZE = 1
private val BOOLEAN_SIZE = 1
private val CHAR_SIZE = 2
private val SHORT_SIZE = 2
private val INT_SIZE = 4
private val LONG_SIZE = 8
private val FLOAT_SIZE = 4
private val DOUBLE_SIZE = 8

如果字段是 object, 则最小是 8,根据是否64位系统和是否开启指针压缩,可能为 12 或者 16.

  • estimate 过程
    使用广度优先算法,需要遍历的 class 对象放到队列里。依次从队列里取 class 对象,
    先获取本 class 的 classInfo。拿到本对象的 fileds 的大小,然后把所有对象类型的字段,都放到队列里。
    基本数据类型的字段不需要。
val classInfo = getClassInfo(cls)
state.size += alignSize(classInfo.shellSize)
for (field <- classInfo.pointerFields) {state.enqueue(field.get(obj))
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/772720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ssh免密登陆实现

1. 本地客户端生成公钥和私钥 使用以下命令&#xff0c;然后一路按回车键使用默认值即可。 ssh-keygen -t rsa -C "My-SSH"// -t 表示ssh的密钥类型&#xff0c;常用的有&#xff1a;rsa、ed25519、dss。 // -C 名称标识&#xff0c;此值随意。 会在用户根目录下的…

基于springboot的交通管理在线服务系统的开发

传统办法管理信息首先需要花费的时间比较多&#xff0c;其次数据出错率比较高&#xff0c;而且对错误的数据进行更改也比较困难&#xff0c;最后&#xff0c;检索数据费事费力。因此&#xff0c;在计算机上安装交通管理在线服务系统软件来发挥其高效地信息处理的作用&#xff0…

【LAMMPS学习】四、运行 LAMMPS(4) Windows 运行 LAMMPS

4. 运行 LAMMPS 本部分解释了在安装可执行文件或下载源代码并构建可执行文件后如何运行 LAMMPS。命令文档页面描述了输入脚本的结构以及它们可以包含的命令。 4.1.运行 LAMMPS 的基础知识 4.2.命令行选项 4.3.屏幕和日志文件输出 4.4.在 Windows 上运行 LAMMPS 串行&am…

【数据结构】常见线性结构

1.线性表 线性表 &#xff08; linear list &#xff09; 是n个具有相同特性的数据元素的有限序列。 线性表是一种在实际中广泛使 用的数据结构&#xff0c;常见的线性表&#xff1a;顺序表、链表、栈、队列、字符串... 线性表在逻辑上是线性结构&#xff0c;也就说是连续的一…

结构体-C语言

目录 前言 一、定义结构 结构体变量的创建和初始化 二、结构的特殊声明 特别注意&#xff1a; 结构的⾃引⽤ 三、结构体内存对⻬ 对⻬规则 优化结构体 #pragma 结构体传参 四、结构体实现位段 位段的内存分配 位段的跨平台问题 前言 C 数组允许定义可存储相同类…

Fiddler抓包工具之fiddler的常用快捷键

一、常用三个快捷键 ctrlX :清空所有记录 CtrlF&#xff1a;查找 F12&#xff1a;启动或者停止抓包 使用 QuickExec Fiddler2 成了网页调试必备的工具&#xff0c;抓包看数据。Fiddler2自带命令行控制。 fiddler 命令行快捷键&#xff1a;ctrl q &#xff0c;然后 输入 help…

题目:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?

题目&#xff1a;有1、2、3、4个数字&#xff0c;能组成多少个互不相同且无重复数字的三位数&#xff1f;都是多少&#xff1f; There is no nutrition in the blog content. After reading it, you will not only suffer from malnutrition, but also impotence. The blog con…

约瑟夫环问题(队列,链表实现)- c++

1.关于约瑟夫问题 约瑟夫斯领导犹太人反抗罗马帝国的统治&#xff0c;在与罗马军队的激烈战斗中&#xff0c;与士兵们一同被困在一个山洞里。总共有41人&#xff0c;约瑟夫斯希望向罗马军队投降&#xff0c;但他的士兵们却坚决拒绝&#xff0c;宁愿死也不愿被敌人俘虏。面对这…

如何理解React的state、props、super()和super(props)

state 一个组件需要显示什么&#xff0c;怎么显示内容&#xff0c;都是由数据状态和外部参数决定的。 state就是这个数据状态。 当需要修改状态值的时候&#xff0c;通过调用setState&#xff0c;实现更新组件内部数据的问题。 setState的第一个参数有两种形式&#xff1a;…

电路常识:干接点、湿接点

1、干接点、湿接点的区别&#xff1a; 干接点和湿接点&#xff1a;是对开关量说的&#xff0c;即&#xff1a;通断。 干接点是一种无源开关&#xff0c;具有闭、合&#xff08;导通、断开&#xff09;两种状态&#xff0c;两个接触点之间没有极性可以互换。 常见的干接点&am…

数据分析---SQL基础

目录 什么是关系型数据库其他种类的数据库关系型数据库的基本操作数据库设计ER模型什么是关系型数据库 SQL(Structured Query Language)是用于管理关系型数据库的标准化查询语言。关系型数据库是一种基于关系模型(即表格)的数据库,它使用结构化查询语言(SQL)来管理和操作…

国家中英文名称、国家代码(地区代码)、国家域名、经纬度

因为要做世界地图对世界国家的标点&#xff0c;搜索使用到了世界各个国家的地理位置信息&#xff0c;此处做备份与学习。资源地址&#xff08;免费&#xff09; export default {"阿尔巴尼亚": {"m_longitude": "19.809","m_latitude&quo…

React项目打包优化-包体积分析

1、什么是包体积分析&#xff1f; 通过可视化的方式&#xff0c;直观的看到各种包打包之后的体积大小&#xff0c;方便后续针对体积情况做优化 2、怎么分析包&#xff1f; 借助插件 source-map-explorer&#xff0c; 1、先安装插件 npm install source-map-explorer 2、在p…

简明 Python 教程(第5章 函数)

本章介绍了函数的基本概念和使用方法&#xff0c;包括定义函数、传递参数、局部变量、全局变量、默认参数、关键字参数、返回值和文档字符串。 掌握这些概念对于编写结构化和可维护的Python代码至关重要。 定义函数 使用def关键字 定义函数始于def关键字&#xff0c;它告诉P…

php 快速入门(五)

一、文件上传 文件上传的基础知识&#xff1a; 首先&#xff0c;在客户端form表达设置&#xff0c;选择上传的文件然后&#xff0c;在服务器对上传文件进行操作处理 1.1 关于前台页面 必须设置 form 表单项&#xff1a; <html><head><title>文件上传<…

Python+Pytest+Allure搭建接口自动化测试框架

最近在用PythonPytestAllure搭建接口自动化测试框架 具体的框架要求&#xff1a; 1&#xff0c;使用Pytest进行测试用例编写和执行 2&#xff0c;使用Allure生成漂亮的测试报告 3&#xff0c;并且要求有断言方法 初步的框架设计如下&#xff0c;后期可以进一步添加很多功能…

Consul集群搭建看这篇就够了(consul cluster configuration )

Consul 是一种用于服务发现、配置和分布式一致性的开源工具和平台。它由 HashiCorp 公司开发和维护&#xff0c;旨在简化构建和维护分布式系统的任务。 Consul 提供了许多功能&#xff0c;包括&#xff1a; 服务发现&#xff1a;Consul允许服务注册和发现。当服务启动时&#…

《35岁,程序员的危机or转机?——深度剖析程序员职业发展之路》

一、引言 35岁,对于很多程序员来说是一个让人焦虑的年龄。在互联网行业,35岁往往被视为职业生涯的分水岭。许多程序员开始担心,随着年龄的增长,他们的职业发展是否会受到限制。这种担忧并非毫无根据。互联网行业瞬息万变,新技术层出不穷,对程序员的学习能力和适应能力提出了很高…

达梦查询text转换问题

bug&#xff1a;表字段为TEXT&#xff0c;数据返回页面时&#xff0c;打断点查看其为NClobProxyImpl对象 org.apache.catalina.core.ContainerBase.[Tomcat].[localhost].[/quality].[dispatcherServlet] -Servlet.service() for servlet [dispatcherServlet] in context with …

【 C++ 】如何查看项目中使用的c++版本

如何查看项目中使用的c版本 std::cout << __cplusplus << std::endl;在项目任一位置&#xff0c;创建.cpp文件&#xff08; C/C Source.File&#xff09; main.cpp #include <iostream>int main() {std::cout << "Hello World!\n";std::co…