Zero-Change Object Transmission for Distributed Big Data Analytics——论文泛读

ATC 2022 Paper

问题

分布式大数据分析在很大程度上依赖于Java和Scala等高级语言的可靠性和多功能性。然而,这些高级语言也为数据传输制造了障碍。要在Java虚拟机(JVM)之间传输数据,发送方应将对象转换为字节数组(序列化),接收方应将其转换回对象(反序列化),对象序列化和反序列化(OSD)阶段引入了相当大的性能开销。

现有方法局限性

先前的工作主要集中在优化OSD中的某些阶段,因此对象转换仍然是不可避免的。其中许多方法都需要额外的编程工作来注释序列化点,或更改原始的JVM间通信模。而且他们将传输的数据视为单片字节数组,而不是单个对象,这使得识别重复传输变得困难,并错过了优化机会。

本文方法

本文提出了零变化对象传输(ZCOT),使对象在JVM之间直接复制,而不需要任何转换。ZCOT可以在现有应用程序中使用,只需少量修改,其基于对象的传输可以用于重复数据消除。

  • 引入了名为交换空间的全局共享抽象,它是Java堆空间的一部分,可供分布式环境中的多个JVM访问。进一步采用了分布式类数据共享(DCDS)机制,该机制提供了统一的对象格式,使交换空间中的对象对所有JVM都是可解释的。为了与传统的基于操作系统的应用程序保持兼容,提出了两级传输机制,以弥合基于对象的复制和传统的基于字节的传输之间的差距。

  • 引入元数据服务器,可以存储对象的位置,并在JVM之间建立数据传输通道。支持基于组的对象管理,它将对象分组,大大减少元数据服务器和JVM之间的流量。还与单个JVM中触发的垃圾回收(GC)集成,并减少了GC暂停时间。

  • 提出了重复数据消除机制,以进一步优化数据传输。去重模块利用交换空间抽象来存储哪些对象已经被发送,并避免了将来不必要的对象传输。然而,重复数据消除可能会在不同的数据集之间引入引用(或依赖关系)。为此,扩展了分布式内存管理模块,以考虑组间依赖关系。

本工作在OpenJDK的长期支持版本OpenJDK 11的HotSpot JVM中实现了ZCOT。ZCOT与OpenJDK中的现有功能(如APPCDS[30])集成良好,对Java开发人员保持友好。

测试的结果表明,ZCOT优于其他OSD库,与最先进的OSD优化Naos[39]相比,速度提高了4.35倍。ZCOT在Spark和Flink中都优于默认OSD库,因此应用时间分别提高了23.6%和22.2%。

实验

实验环境:具有四个节点的集群,这些节点由100 Gbit/s的Mellanox ConnectX-5 NIC连,每个节点包含双Xeon E5-2650 CPU和128GB DRAM。

数据集:微基准测试、Spark、Flink(TPC-H)

实验对比:执行时间

实验参数:堆大小、块大小、数据集

总结

针对JVM虚拟机间数据传输的对象序列化和反序列化(OSD)开销。本文提出零变化对象传输(ZCOT),包括三个创新点:(1)引入名为交换空间的全局共享抽象。采用了分布式类数据共享(DCDS)机制,使交换空间中的对象对所有JVM都是可解释的。(2)引入元数据服务器,用于存储对象的位置,并在JVM之间建立数据传输通道。支持基于组的对象管理,减少元数据服务器和JVM之间的流量。与单个JVM中触发的垃圾回收(GC)集成,并减少了GC暂停时间。(3)提出了重复数据消除机制,利用交换空间抽象来存储已发送对象,并避免不必要的对象传输。扩展了分布式内存管理模块,以考虑组间依赖关系,避免重复数据消除在不同的数据集之间引入依赖关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/766403.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nvidia显卡如何安装cuda驱动

目录 查看显卡对应的cuda版本下载与你显卡匹配的CUDA Toolkit 查看显卡对应的cuda版本 按 微软 R 键,输入cmd 然后输入 nvidia-smi ,回车显示下面信息: 看到 CUDA Version 为 12.2 下载与你显卡匹配的CUDA Toolkit 打开网页&#xff1a…

iOS UIFont-新增第三方字体

背景 在项目中添加三方字体,是在开发中比较常见的需求,每次新增字体,都会遗忘其中某个步骤,又要去百度一下才能把字体添加使用成功。每次这样有点浪费时间和打击自信,于是便想着,自己好好来理一理新增字体…

谈谈MySQL的索引

索引其实是MySQL里面的内容,而且我感觉是很高频的。我看了好多关于索引的文章,但是总感觉很困惑,虽然我之前在面试的时候没有被问过,但是我总感觉这很重要。而且,我希望将这个知识点有条理、有逻辑的说出来&#xff0c…

Cmake和opencv环境安装

1 Cmake下载及安装 Download CMake 根据需要下载,历史版本下载方法如下 CMake 的版本号中的后缀 "rc1" 和 "rc2" 表示 Release Candidate 1 和 Release Candidate 2,它们都是候选版本,用于测试新功能和修复 bug。通常情…

突破编程_C++_C++11新特性(type_traits的属性类型特性以及操作类型特性)

1 type_traits 的属性类型特性 1.1 std::alignment_of std::alignment_of 是一个模板类&#xff0c;用于获取类型的对齐要求。对齐是指数据在内存中的位置&#xff0c;某些硬件平台可能要求特定类型的数据位于特定地址的边界上。 定义&#xff1a; template< class T &g…

Github 2024-03-23 Rust开源项目日报 Top10

根据Github Trendings的统计,今日(2024-03-23统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10Dart项目1RustDesk: 用Rust编写的开源远程桌面软件 创建周期:1218 天开发语言:Rust, Dart协议类型:GNU Affero General Public Li…

在离线的arm架构kylin v10服务器上使用Kuboard-Spray搭建K8S集群

在离线的arm架构kylin v10服务器上使用Kuboard-Spray搭建K8S集群 在内网项目中需要安装K8S集群&#xff0c;经过调研&#xff0c;选择使用Kuboard-Spray工具搭建K8S集群&#xff0c;降低学习成本&#xff0c;提高安装效率。 为了简化安装使用集群的过程&#xff0c;搭建了私有…

云计算 3月18号 (mysql安装及操作)

一、Mysql 1.1 MySQL数据库介绍 1.1.1 什么是数据库DB&#xff1f; DB的全称是database&#xff0c;即数据库的意思。数据库实际上就是一个文件集合&#xff0c;是一个存储数据的仓库&#xff0c;数据库是按照特定的格式把数据存储起来&#xff0c;用户可以对存储的数据进行…

Docker 容器中使用 RAM 角色实现云监控事件监控

准备工作 在开始之前,请确保您已经完成以下准备工作: 创建一个 RAM 角色,并为该角色授予 ​​AliyunCloudMonitorFullAccess​​ 权限。这将允许该角色执行云监控服务的所有操作,包括发送自定义事件。准备一个 Python 应用程序,用于发送自定义事件到云监控服务。您可以使用我们…

jupyter notebook和jupyter lab 找不到虚拟环境

文章目录 这里以环境Pytorch为例&#xff1a; 激活环境 conda activate Pytorch在你的环境中安装 ipykernel&#xff1a; conda install ipykernel将你的环境添加到 Jupyter 的内核列表中&#xff1a; python -m ipykernel install --user --namePytorch

spring boot高级运用:使用Spring Kafka集成Apache Kafka,实现消息的生产和消费。

使用Spring Kafka集成Apache Kafka&#xff0c;实现消息的生产和消费。 要使用Spring Kafka集成Apache Kafka来实现消息的生产和消费&#xff0c;您需要进行以下步骤&#xff1a; 添加Spring Kafka依赖&#xff1a; 在您的Spring Boot项目中&#xff0c;首先需要添加Spring …

Java面试题:结合设计模式与并发工具包实现高效缓存;多线程与内存管理优化实践;并发框架与设计模式在复杂系统中的应用

探索Java高级编程&#xff1a;综合性面试题解析 Java作为一门功能强大的编程语言&#xff0c;在企业级应用开发中占据着举足轻重的地位。本文将深入探讨Java设计模式、内存管理、多线程工具类、并发工具包和并发框架等高级知识点&#xff0c;通过三道综合性的面试题&#xff0…

Python 从0开始 一步步基于Django创建项目(4)应用Django shell查看数据模型

Django shell是Django提供的交互式环境&#xff0c;可以通过编程的方式查看数据模型中的数据。 在《Python 从0开始 一步步基于Django创建项目&#xff08;3&#xff09;》中已经向数据模型city&#xff0c;添加了两条数据&#xff1a;‘北京’、‘墨尔本’。又向数据模型entr…

2、事件修饰符、双向绑定、style样式使用、v-for循环遍历、v-if 和 v-show

一、事件修饰符 1、.stop 阻止冒泡事件 给谁加了阻止冒泡事件&#xff0c;谁下面的盒子就不会执行了 <div id"app"><div class"parent" click"log3"><div class"child" click"log2"><button click.…

AI:151-使用机器学习技术进行信用风险评估与管理

收录于专栏:精通AI实战千例专栏合集 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带关键代码,详细讲解供大家学习,希望可以帮到大家。正在不断更新中~ 一.机器学习在信用风险评估与管理中…

python蓝桥杯-算法训练 印章、拿金币、数字游戏

一、印章 问题描述 共有n种图案的印章&#xff0c;每种图案的出现概率相同。小A买了m张印章&#xff0c;求小A集齐n种印章的概率。 输入格式 一行两个正整数n和m 输出格式 一个实数P表示答案&#xff0c;保留4位小数。 样例输入 2 3 样例输出 0.7500 数据规模和约定 1≤…

pytest之yaml格式测试用例读写封装

pytest之yaml格式测试用例读写封装 pytest之parametrize&#xff08;&#xff09;实现数据驱动YAML格式测试用例读/写/清除/封装结构类型Maps类型数组类型 pytestparametrizeyamltest_api.pyget_token.yaml pytest之parametrize&#xff08;&#xff09;实现数据驱动 pytest.ma…

LeetCode_32_困难_最长有效括号

文章目录 1. 题目2. 思路及代码实现详解&#xff08;Java&#xff09;2.1 动态规划2.2 不需要额外空间的算法 1. 题目 给你一个只包含 ( 和 ) 的字符串&#xff0c;找出最长有效&#xff08;格式正确且连续&#xff09;括号 子串 的长度。 示例 1&#xff1a; 输入&#xff…

Oracle Data Guard常用命令

--查询数据库角色和保护模式 select database_role,switchover_status from v$database; --切换备库为主库&#xff08;切换后&#xff0c;主库为mount状态&#xff09; --TO PRIMARY alter database commit to switchover to primary; --SESSIONS ACTIVE alter database comm…

springcloud+nacos服务注册与发现

快速开始 | Spring Cloud Alibaba 参考官方快速开始教程写的&#xff0c;主要注意引用的包是否正确。 这里是用的2022.0.0.0-RC2版本的springCloud&#xff0c;所以需要安装jdk21&#xff0c;参考上一个文章自行安装。 nacos-config实现配置中心功能-CSDN博客 将nacos-conf…