首届IEEE RAS峰会,为什么大厂阿里、字节、腾讯都参加了?

"RAS in Data Centers 2024" 首届IEEE RAS(Reliability, Availability, and Serviceability,即可靠性、可用性和可维护性)在数据中心峰会在2024年6月11日至12日举行,地点设在美国加利福尼亚州圣克拉拉市的圣克拉拉万豪酒店(Santa Clara Marriott)。这一峰会主要是为了探讨和交流数据中心领域中关于RAS的重要议题,尤其关注如何提升数据中心基础设施和服务的可靠性、确保系统的高可用性以及优化维护操作,以支持日益增长的云计算、大数据处理、人工智能等应用对数据中心提出的严格要求。

图片

随着数据中心规模的扩大和复杂性的增加,确保系统的RAS特性变得越来越重要。技术进步如量子计算、边缘计算、以及持续增长的数据流量对数据中心的硬件和软件架构提出了更高要求,需要新的策略和技术来应对潜在的故障点,减少停机时间,并简化维护流程。

我们先预览下这个峰会两天的行程:

第一天:6/11。主论坛,针对行业RAS的现状和发展、OCP标准等进行了一天的讨论与分享。该部分就简单略过了。

第二天:6/12。主要有6个分论坛:分别涵盖Data Center RAS、Memory and Interconnects(包括CXL RAS)、AI and RAS、Testing and Resilience四个主题的讨论。

图片

图片

图片

从参会者可以看到:主要是以Intel领衔,国外厂商包括Intel、Meta、AMD、Microsoft、Hynix等、国内厂商主要有:字节、阿里、腾讯、Scaleflux,还有一些国外大学。

会议还未开始,小编还未收集到这些topic的演讲材料。这里主要是从上面会议日程中,可以看到针对内存故障预测以及可靠性提升的话题,已经吸引了国内外大厂的目标,特别是以Intel为首,与各大互联网厂商都有相关合作,这里做一个简单总结,供大家参考。(声明:本文涉及信息均为公开信息,包括公开发表论文以及Intel官网,仅代表个人观点,不涉及任何组织或者机构,仅供学习交流

在数据中心的运维中,DRAM作为服务器的主要存储资源,因其速度和成本效益而备受青睐。然而,DRAM故障却可能导致计算错误,直接影响服务器的可靠性、可用性和可维护性(RAS),进而威胁数据中心的持续运营。传统上,内存故障往往直到服务器崩溃才被发现。

内存故障形式多样,包括单比特错误、单行错误和多数组错误,且每种错误都有其特定的频率模式。某些内存故障具有特定的受害模式,容易演变成不可纠正错误(UE),增加了风险。部分故障间歇出现,难以追踪,而另一些则可复制。

图片

目前,没有一劳永逸的方案能解决所有内存错误问题,例如,随机单比特错误可通过ECC修正,其他类型的错误则需采用不同技术,如系统ECC、SDDC、EDAC、PPR及英特尔MRT。

扩展阅读:

  • 深度好文|如何实现服务器内存故障监控与预测?

  • 一文读懂DDR内存基础知识|值得收藏

  • 如何利用CXL技术突破内存墙?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/25905.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python模块导入,别out了,看看这些高级玩法!

目录 1、基础导入:import语句 📚 1.1 直接导入模块 1.2 导入模块别名 1.3 从模块导入特定属性 2、高级导入:from...import 🧰 2.1 选择性导入模块成员 2.2 嵌套模块导入 2.3 避免命名冲突策略 3、动态导入:imp…

32位和64位的Windows7均不支持UEFI启动方式?试试看!

前言 今天小白突然想起:自己已经接近8年没有安装过32位的Windows系统了,这8年装的上百台电脑都是用的64位Windows。 今天 闲来无事 嗯……应该算是有小伙伴提出了个问题: 这位小伙伴表示:自己无论安装32位还是64位的Windows7都…

力扣2080.区间内查询数字的频率

力扣2080.区间内查询数字的频率 在下标上做二分 把所有下标存入哈希表在left,right的范围内做二分求个数 class RangeFreqQuery {unordered_map<int, vector<int>> pos;public:RangeFreqQuery(vector<int>& arr) {for(int i0;i<arr.size();i){pos[…

【机器学习系列】深入理解集成学习:从Bagging到Boosting

目录 一、集成方法的一般思想 二、集成方法的基本原理 三、构建集成分类器的方法 常见的有装袋&#xff08;Bagging&#xff09;和提升&#xff08;Boosting&#xff09;两种方法 方法1 &#xff1a;装袋&#xff08;Bagging&#xff09; Bagging原理如下图&#xff1a; …

vscode 访问容器的方式

方法一&#xff1a;先连服务器&#xff0c;再转入容器 配置客户机A M1. 客户机A通过 vscode 连接服务器B&#xff0c;再连接容器C 配置vscode的ssh配置文件&#xff1a;~.ssh\config&#xff08;当需要多个不同的连接时&#xff0c;使用 IdentityFile 指定公钥位置&#xff09;…

[Mdfs] lc3067. 在带权树网络中统计可连接服务器对数目(邻接表+图操作基础+技巧+好题)

文章目录 1. 题目来源2. 题目解析 1. 题目来源 链接&#xff1a;3067. 在带权树网络中统计可连接服务器对数目 2. 题目解析 挺有意思的一道题目&#xff0c;重点是要能够读懂题目&#xff0c;然后结合几个图相关的处理技巧即可拿下。 图存储&#xff1a;邻接表即可。无向无…

浅谈GNU LIBC的版本间的变化

多线程调试的意外发现 昨天笔者在协助朋友调试一个多线程文件传输的应用时&#xff08;传输代码不依赖开源库&#xff09;&#xff0c;发现会多次打开同一个文件。这样产生的一个结果是文件描述符泄露&#xff0c;应用运行一段时间后&#xff0c;就不能再创建新的文件描述符了…

MyBatis映射器:实现动态SQL语句

大家好&#xff0c;我是王有志&#xff0c;一个分享硬核 Java 技术的金融摸鱼侠&#xff0c;欢迎大家加入 Java 人自己的交流群“共同富裕的 Java 人”。 上一篇文章中&#xff0c;我们已经学习了如何在 MyBatis 的映射器中通过简单的 SQL 语句实现增删改查&#xff0c;今天我…

vue组件之间的通信方式有哪些

在开发过程中&#xff0c;数据传输是一个核心的知识点&#xff0c;掌握了数据传输&#xff0c;相当于掌握了80%的内容。 Vue.js 提供了多种组件间的通信方式&#xff0c;这些方式适应不同的场景和需求。下面是4种常见的通信方式&#xff1a; 1. Props & Events (父子组件通…

Alsa UCM

Alsa Use Case Manager&#xff08;用例管理器&#xff09;描述如何为某些用例&#xff08;如 “播放音频”、“通话”&#xff09;设置 mixer 混频器。它还描述如何修改 mixer 混频器状态以将音频路由到某些输出和输入&#xff0c;以及如何控制这些设备。 这基本上涵盖了 Pul…

1688商品库存查询

目录 下载安装与运行 功能简介 快速入门&#xff08;视频&#xff09; 当前支持的导出项 常用功能 历史商品是什么意思 粘贴商品有什么要求 导入商品需要什么样的模板 单个商品的查看 查看单个商品详情 下载安装与运行 下载、安装与运行 语雀 功能简介 最近一次测…

自下而上语法分析、自上而下语法分析和递归下降法、预测分析法、LL(1)和LR是什么关系

自下而上语法分析、自上而下语法分析、递归下降法、预测分析法、LL(1)和LR都是与语法分析&#xff08;语法解析&#xff09;相关的概念和技术。它们在编译原理中扮演着重要的角色&#xff0c;用于将源代码的字符流转换为语法树&#xff08;或抽象语法树&#xff0c;AST&#xf…

逆序队专题

逆序对的定义是&#xff0c;在一个数组中&#xff0c;对于下标 ( i ) 和 ( j )&#xff08;其中 ( i < j )&#xff09;&#xff0c;如果 ( a[i] > a[j] )&#xff0c;则称 ((a[i], a[j])) 为数组的一个逆序对。 换句话说&#xff0c;逆序对就是在数组中前面的元素大于后…

C++使用Sanp7 实现西门子s7通信

使用Snap7库可以实现与西门子S7系列PLC的通信。以下是一个基本的C示例&#xff0c;演示如何使用Snap7库来连接西门子S7 PLC并读取和写入数据。 环境准备 安装Snap7&#xff1a;从&#xff08;https://sourceforge.net/projects/snap7/files/1.4.2/&#xff09;Snap7官网下载并…

C++算法——埃氏筛

C判断素数&#xff1a;埃氏筛 思路 这个算法是利用打表的方法来计算的&#xff1a; 首先&#xff0c;我们要知道一个特性 就是一个质数的倍数&#xff0c;一定是一个合数 利用这个特性 我们可以写出以下代码 for (int i 2; i * i < n; i) {if (!prime[i] true){for (i…

每日两题7

文章目录 买卖股票的最佳时机含冷冻期买卖股票的最佳时机含手续费 买卖股票的最佳时机含冷冻期 分析&#xff1a; class Solution { public:int maxProfit(vector<int>& prices) {int n prices.size();vector<vector<int>> dp(n, vector<int>(3…

Python爬取城市空气质量数据并写入mysql数据库

Python爬取城市空气质量数据并写入mysql数据库 这篇文章介绍了如何爬取城市空气质量数据,下面的代码添加了数据库操作,包括使用pymysql创建数据库和数据表,并向数据库中写入数据,完整代码如下: import csv import time import requests # 导入网络请求库requests from bs4…

python为什么要字符串格式化

Python2.6 开始&#xff0c;新增了一种格式化字符串的函数 str.format()&#xff0c;它增强了字符串格式化的功能。相对于老版的%格式方法&#xff0c;它有很多优点。 1.在%方法中%s只能替代字符串类型&#xff0c;而在format中不需要理会数据类型&#xff1b; 2.单个参数可以…

Qt 简易Word

Ui界面如下&#xff1a; 查找和替换界面&#xff1a; 具体代码&#xff1a; GitHub : 简易Word Gitee : 简易Word

【java11】java11新特性之Predicate接口API改进

Java 11向Predicate接口引入了新方法not()来否定类似于negate方法的现有谓词&#xff0c;进一步增强了其功能&#xff0c;使得条件判断和组合更加灵活和方便。 Predicate.not() Predicate.not方法用于创建一个取反的谓词&#xff08;predicate&#xff09;&#xff0c;即返回…