使用 ChronicleMap 扩展高性能内存缓存

1.扩展内存缓存的挑战

我们用于与各种程序化和需求方平台 (DSP) 集成的应用程序之一是低延迟、高吞吐量的基于 JVM 的应用程序。这是 付款凭单(DV)付前前验证解决方案的核心组件。自多年前成功推出此解决方案以来,我们不断添加多项关键功能,同时保持严格的延迟 SLA 并每天处理数千亿个请求。

近年来,用于投标前评估的测量数据(欺诈、品牌安全等)的大小大幅增长。随着数据集的增长,我们的内存缓存的大小也在增长。有一次,我们面临着一个关键挑战,即扩展我们最大的内存缓存以支持可能将我们的缓存大小增加四倍的新功能发布。我们有严格的低延迟响应 SLA​​、要支持的各种部署选项,以及低于 32GB 的有限 JVM 分配以使用压缩对象指针。在评估了几个选项后,我们决定使用 Chronicle Software 的开源 ChronicleMap 作为我们的解决方案。

在这篇博文中,我将讨论我们评估各种开源和企业解决方案的过程,以及我们最终选择 ChronicleMap 的原因。我还将分享我们的最佳实践和经验教训。

2.当前的问题

由于上述原因,我们现有的缓存解决方案无法处理增加的工作负载,因此我们需要一种可以扩展且仍能满足严格的延迟和部署要求的新解决方案。该应用程序服务于两种主要类型的竞价前集成:— (1) 缓存解决方案,DSP 在其终端缓存我们的响应,因此没有严格的延迟要求;(2) 其他集成,相比之下,它们使用实时竞价流响应,要求端到端延迟小于 10 毫秒。

此应用程序需要在 付款凭单(DV)、云端甚至我们一些合作伙伴的本地托管,以使要求更加严格。我们可能拥有多个版本的应用程序,但决定只使用一个版本,以降低部署和维护的复杂性、我们的发布管道和可维护性。因此,我们选择的任何解决方案都需要符合上述要求。我们评估了几个选项,以找到最适合我们需求的选项。

3.评估各种开源和企业解决方案

为了找到满足我们要求的解决方案,我们评估了几种开源和企业选项,包括:

  • Redis — 一种流行的开源内存键值数据存储。
  • EhCache — 一种广泛使用的开源 Java 缓存。
  • Aerospike — 一种支持高吞吐量、低延迟缓存的企业级分布式缓存解决方案。
  • Hazelcast — 一种用于分布式计算和内存缓存的开源解决方案。
  • ChronicleMap — 一种专为低延迟和/或多进程应用程序设计的内存键值存储。

4.为什么我们决定使用 ChronicleMap?

我们研究并评估了上述选项的优点和局限性。虽然每种方案都有其优点,但我们需要针对我们独特的需求组合而制定非常具体的方法。

我们排除了需要进行进程外查找的任何解决方案,因为与访问本地 RAM 的速度相比,完成查找需要额外的时间。

这可能会破坏我们 10 毫秒的整体端到端延迟要求。此外,在每个地区为这些解决方案创建服务器集群会给我们增加大量的维护和基础设施成本开销,更重要的是,也会给托管我们应用程序的本地合作伙伴增加成本开销。因此,我们排除了 Redis 和 Aerospike。

虽然 Terracotta 的 EhCache 似乎为较小的缓存提供了良好的性能,但由于其在扩展大型缓存方面的局限性以及开源版本不支持堆外存储,它并不适合我们的需求。Terracotta 的堆外存储解决方案 BigMemory 仅作为商业解决方案提供。

Hazelcast 表现出良好的性能和可扩展性,但需要进行大量配置和调整才能实现最佳性能。此外,Hazelcast 的堆外解决方案高密度存储仅在商业上可用。

相比之下,ChronicleMap 脱颖而出,成为最适合我们需求的解决方案,因为它满足了我们的核心要求。

  • 它针对低垃圾收集进行了优化,并提供高性能数据存储、检索和迭代。
  • 它可以作为我们应用程序的一部分实施,使我们能够保持部署简单,而无需为外部缓存维护单独的服务器集群。
  • 它被实现为内存中的堆外解决方案,可以使用磁盘进一步扩展。由于它是堆外的,- 我们可以扩展内存缓存,同时将应用程序的堆内内存分配保持在 32GB 以下。
  • 开源版本中提供的功能似乎足以满足我们的要求 - 主要是内存、堆外映射和持久化到磁盘,以实现快速应用程序重启。

我们还发现,ChronicleMap 在全球银行和对冲基金的生产中被广泛使用,它们必须处理与 付款凭单(DV) 类似的规模。我们觉得它很合适。我们实施了概念验证 (POC),结果令人鼓舞。此时,我们对选择 ChronicleMap 来扩展我们的内存缓存充满信心。

5.经验和最佳实践

随着数据集的增长,我们能够扩展内存缓存,而不会牺牲低延迟响应时间。

以下是我们通过利用 ChronicleMap 提供的一些功能在应用程序中看到的显著改进:

  • 缩放数据集的能力。在我们成功将页面分类类别移至堆外缓存并启动依赖于扩展的功能后,我们开始迁移其他数据集。与原始 HashMap 的查找延迟相比,ChronicleMap 缓存的查找延迟增加了可忽略不计的额外时间(纳秒)。我们最终能够支持在需要时按多个因子扩展每个数据集,这是一个巨大的好处。
  • 改进的垃圾收集。在将许多数据集移至 ChronicleMap 后,我们注意到垃圾收集减少方面取得了显著进步。由于堆上的大部分内存被移至堆外,JVM 内存占用减少导致垃圾收集周期更少且速度更快。
  • 提高代码可维护性。在使用 ChronicleMap 之前,我们必须为每个内存缓存维护两个副本。一个是用于处理 API 请求的“主动”缓存,另一个是用于数据更新的“被动”缓存。由于应用程序使用无锁算法来降低延迟,因此我们需要保留单独的缓存,并在每个数据更新周期后以原子操作交换它们。 ChronicleMap 的优点之一是它能够以高性能处理并发访问,而不会阻塞。这使我们能够保留堆外缓存的单个副本并在保持低延迟的同时处理高吞吐量请求。我们能够重构并删除围绕维护两个副本并在每次数据更新后交换它们的所有冗余代码。
  • 降低代码复杂性。在使用 ChronicleMap 之前,我们被迫采用多种方法来优化内存利用率,即使要付出额外查找的代价。其中一个例子就是页面类别缓存的布局。由于每个分类的 URL 都分配了不同数量的类别,为了节省内存,我们根据 URL 的分布及其分配的类别数量创建了预先分配内存的存储桶,例如,500 万个 URL 的类别少于 10 个,属于一个存储桶。相比之下,少于 100 万的 URL 最多有 50 个类别,属于另一个存储桶。每个存储桶都是一个 HashMap,其中的键是 URL 哈希,值是连续数组的索引,该数组分为固定数量的类别。如果我们为每个 URL 使用单独的数组,则每个存储桶的大型连续数组旨在大幅减少所需的引用数量。如果没有这个,数百万次引用将大大延长任何完整的垃圾收集过程。还有另一个 HashMap 将 URL 映射到特定的存储桶。此外,正如上文所述,我们必须维护两个副本。我们可以使用更简单的 ChronicleMap 消除所有这些代码复杂性,因为我们不再需要担心内存问题。

6.优点

6.1.更快的启动速度

ChronicleMap 支持将内存缓存持久化到文件中。这样,数据就可以在创建过程结束后继续存在 — 例如,支持热应用程序重新部署。我们利用此功能快速重启应用程序,而无需对我们的缓存层进行 API 调用来加载初始数据。

6.2.共享缓存

在我们当前的设计中,每个 API 后端服务器都维护自己的 ChronicleMap 缓存。ChronicleMap 支持在不同的 JVM 进程之间共享相同的缓存。创建外部服务以将源数据移动到可在多个后端服务器之间共享的单个共置 ChronicleMap 缓存中将有助于我们降低网络利用率。

6.3.自动调整大小

可以自动调整 ChronicleMap 缓存的大小。

7.不足

7.1.根据估算进行预分配

我们评估的版本没有动态调整缓存大小的功能。我们需要预测数据集的增长并预先分配适当的内存量。对于上面提到的页面类别缓存,我们还需要估计每页的平均类别数并使用该数来分配内存。我们必须持续监控这一点以确保我们的假设成立。如果页面类别的分布发生剧烈变化,则需要重新配置和重新部署应用程序。

7.2.基准

当 ChronicleMap 保存的数据可以装入 RAM 中时,其性能最佳。但是,使用磁盘可以保存比 RAM 更大的数据。当数据无法装入 RAM 中时,查找速度会变慢。对各种配置进行基准测试对我们来说并不容易,我们必须构建一个自定义测试应用程序来针对不同场景运行多个测试。

7.3.文档

公开的产品文档并未涵盖所有细节。我们在源代码中发现了多个有用的配置设置,而 Javadoc 文档正是从这些设置中自动生成的。源代码还被划分为许多模块和项目,这让我们发现很难浏览。

7.4.处理自定义值

我们的要求之一是支持多映射,这是一种关联容器,其中可以关联多个值并返回给定键的值。我们必须编写代码来支持这一点。这还需要一个自定义序列化器代码,这是我们自己实现的。后来,我们在代码中发现了另一个可以扩展的类,于是我们改用这个类。不知道它的存在以及如何使用它,这延迟了我们的实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/41324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NoSQL 之 Redis 集群部署

前言: (1)主从复制:主从复制是高可用Redis的基础,哨兵和集群都是在主从复制基础上实现高可用 的。主从复制主要实现了数据的多机备份,以及对于读操作的负载均衡和简单的故障恢复。缺陷: 故障…

vue3+antd 实现文件夹目录右键菜单功能

原本的目录结构&#xff1a; 右键菜单&#xff1a; 点击菜单以后会触发回调&#xff1a; 完整的前端代码&#xff1a; <template><a-directory-treev-model:expandedKeys"expandedKeys"v-model:selectedKeys"selectedKeys"multipleshow-li…

在 Docker 容器中运行 Vite 开发环境,有这两个问题要注意

容器化开发给我们带来了很多便捷&#xff0c;但是在开发环境下也有一些问题要注意&#xff0c;如果不解决这些问题&#xff0c;你的开发体验不会很好。 容器启动正常&#xff0c;却无法访问 我们用 Docker 启动一个 Vite Vue3 项目的开发环境后&#xff0c;发现端口日志一切…

计算机如何存储浮点数

浮点数组成 在计算机中浮点数通常由三部分组成&#xff1a;符号位、指数位、尾数位。IEEE-754中32位浮点数如下&#xff1a; 上图32bit浮点数包含1bit的符号位&#xff0c;8比特的指数位和23bit的尾数位。对于一个常规浮点数&#xff0c;我们来看看它是如何存储和计算的。这里…

conda env pip install error:No space left on device

conda 环境 pip install error&#xff1a;No space left on device 文章目录 conda 环境 pip install error&#xff1a;No space left on device现象1 实验2 分析和解决办法 现象 非root用户的服务器&#xff0c;需要安装环境&#xff0c;安装的环境超过2GB sudo pip insta…

医疗机器人中的具身智能进展——自主超声策略模型的任务编码和局部探索

医疗机器人一直是具身智能的研究热点。医学图像、医疗触诊、血压血氧、心率脉搏和生物电信号等多模态生物医学信息&#xff0c;不断丰富着医疗机器人的感知范畴。 自主超声 “自主超声”属于具身智能医疗机器人领域中话题度较高的研究方向。作为临床检查的重要手段之一&#…

线性系统理论及应用GUI设计及仿真

目录 1.控制系统的状态空间模型 1.1.状态空间模型 1.2 传递函数模型 1.3 传递函数转换为状态空间模型 1.4.状态空间模型转换为传递函数 1.5.状态空间模型转化为约当标准型 2.线性系统的时域分析 2.1.矩阵指数函数的计算 2.2.线型定常连续系统的状态空间模型求解 3.线…

ubuntu24.04按关键字卸载不需要的apt包

使用的时候发现一个imagemagic无法正常读取文件&#xff0c;试图卸载 man apt经过尝试后&#xff0c;发现list的一个神奇关键字&#xff0c;用来显示已安装的软件包 sudo apt list --installed | grep image按image关键字过滤&#xff1a; 之后按软件名卸载即可 sudo apt pu…

开关电源——调制模式和工作模式

一、开关电源的调制模式 开关电源作为一种广泛应用于电子设备中&#xff0c;用于将一定电压和电流转换为另一种电压和电流的技术&#xff0c;以下是开关电源三种常见的调制模式&#xff1a; 脉冲宽度调制&#xff08;Pulse Width Modulation&#xff09; 脉冲频率调制&#xff…

高德地图 key 和安全密钥使用

参考高德地图&#xff1a;JS API 安全密钥使用 高德地图 key 和安全密钥使用 一、通过明文方式设置参数查看如下成功后返回的信息 二、通过代理服务器转发实验&#xff1a;通过本地地址转发返回错的错误信息&#xff0c;如下通过正确的项目的的服务地址&#xff0c;返回正常参数…

【VUE基础】VUE3第一节—vite创建vue3工程

什么是VUE Vue (发音为 /vjuː/&#xff0c;类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建&#xff0c;并提供了一套声明式的、组件化的编程模型&#xff0c;帮助你高效地开发用户界面。无论是简单还是复杂的界面&#xff0…

Java+MySQL8.0.36+ElementUI数字化产科信息管理系统之”五色管理”

JavaMySQL8.0.36ElementUI数字化产科信息管理系统之”五色管理” 一、数字化产科信息管理系统概述 数字化产科信息管理五色管理是一种基于孕产妇妊娠风险的分类管理方法&#xff0c;通过数字化手段实现孕产妇全周期的健康风险评估与管理。该方法将孕产妇按照风险等级分为绿色、…

DC-DC充放电原理

文章目录 前言1. 电子器件1.1 电容1.2 电感 2. 升压电路3. 降压电路4. 电压均衡电路4.1 被动均衡4.2 主动均衡 5. 我的疑问5.1 对于升压电路&#xff0c;怎么设计升压到多少V后&#xff0c;停止升压&#xff1f;5.2 什么是等效电阻&#xff1f;5.3 快充是如何实现的&#xff1f…

LightGlue: Local Feature Matching at Light Speed【文献阅读】

论文&#xff1a;LightGlue: Local Feature Matching at Light Speed 代码&#xff1a;https://github.com/cvg/LightGlue 作者&#xff1a;1 ETH Zurich__2 Microsoft Mixed Reality & AI Lab Abstract 提出的LightGlue是一个深度神经网络用于学习图像间的局部特征匹配。…

WAIC | 上海人形机器人创新中心 | 最新演讲 | 详细整理

前言 笔者看了7月4号的人形机器人与具身智能发展论坛的直播&#xff0c;并在7月5日到了上海WAIC展会现场参观。这次大会的举办很有意义&#xff0c;听并看了各家的最新成果&#xff0c;拍了很多照片视频&#xff0c;部分演讲也录屏了在重复观看学习 稍后会相继整理创立穹彻智…

算法系列--分治排序|归并排序|逆序对的求解

一.基本概念与实现 归并排序(mergeSort)也是基于分治思想的一种排序方式,思路如下: 分解:根据中间下标mid将数组分解为两部分解决:不断执行上述分解过程,当分解到只有一个元素时,停止分解,此时就是有序的合并:合并两个有序的子区间,所有子区间合并的结果就是原问题的解 归并…

第一节 网络安全概述

一.网络空间安全 网络空间&#xff1a;一个由信息基础设施组成相互依赖的网络。 ---- 海陆空天&#xff08;大海、陆 地、天空、航天&#xff09; 通信保密阶段 ---- 计算机安全 ----- 信息系统安全 ----- 网络空间安全 计算机安全&#xff1a;开始秉持着“严于律己&#x…

C语言 指针和数组—指针数组及其在字符串处理中的应用

目录 问题的提出 问题的解决 回头看——指针、数组及其他类型的混合 指针数组与指向数组的指针 字符串的排序 问题的提出 问题的解决 回头看——指针、数组及其他类型的混合  基本数据类型  int 、 long 、 char 、 short 、 float 、 double……  数组是一种从…

设计模式之模版方法

模版方法介绍 模版方法&#xff08;Template Method&#xff09;模式是一种行为型设计模式&#xff0c;它定义了一个操作&#xff08;模板方法&#xff09;的基本组合与控制流程&#xff0c;将一些步骤&#xff08;抽象方法&#xff09;推迟到子类中&#xff0c;使得子类可以在…

【UE5.1】Chaos物理系统基础——03 炸开几何体集

目录 步骤 一、通过径向向量将几何体集炸开 二、优化炸开效果——让破裂的碎块自然下落 三、优化炸开效果——让碎块旋转起来 四、优化炸开效果——让碎块旋转的越来越慢 步骤 一、通过径向向量将几何体集炸开 1. 打开上一篇中&#xff08;【UE5.1】Chaos物理系统基础—…