1、摘要
2023年5月11日,浪潮信息全国巡展广州站正式启航。会上,重磅发布新一代分布式融合存储AS13000G7,其采用极致融合架构设计理念,实现同一套存储满足四种非结构化数据的“All In One”高效融合,数据存力提升300%,IO性能提升100%;同时,实现四种非结构化协议无损访问,实现多元场景的“All In One”,加速释放数据要素的价值。
2、引言
智算时代,算力是生产力,数据是核心生产要素,也是支撑AI训练和智慧应用的基础。在AIGC、智能驾驶、智能制造、智慧医疗等万千智慧应用场景中,PB级乃至EB多模态数据是支撑智慧应用的关键要素。例如,最近爆火的AI大模型,参数量呈现多元、海量且快速增长的态势。
GPT-3语言大模型拥有1750亿的参数量,而到了最近的GPT-4,参数量已突破万亿规模,同时数据类型变得更加丰富,除了文本外,还需要图像、音频、视频等多样化数据。面对千行百业的海量多态的数据场景,企业需要化繁为简的极致存储。
在自动驾驶、天文观测、基因测序等场景下,一次数据处理过程通常涉及文件、对象、大数据多种协议的数据存储和访问方式。以天文观测场景为例,一次完整的天文观测数据处理涉及到数据采集、数据预处理、数据分析和成果保存四个步骤,不同阶段使用了不同的访问协议。传统分布式存储仅支持单一协议访问,即客户需要同时部署多套存储系统,并且不同协议处理时,需要进行数据转换和拷贝,造成存储空间浪费和存储成本增加的同时,极大程度降低数据的处理效率。
3、架构介绍
新一代分布式融合存储实现了一套集群系统同时支持文件、对象、大数据、视频四种协议,实现数据融合;同时支持闪存、磁盘、磁带、光盘四类存储介质,实现管理融合;可以支持基础设施云化、结构化、非结构化等全部应用场景;支持全生命周期管理,数据在热、温、冷、冰四级存储间自由、高效流动,实现“一套存储架构、支持一个数据中心”。
4、关键技术
其一,存储资源融合互通,数据全局共享
分布式融合存储平台构筑了全局统一存储资源池,数据及元数据均统一管理,不同协议(NFS/CIFS/HDFS/S3)共享共用,且创建的文件、数据及元数据仅保存一份,有效减少数据重复存储成本。
其二,多协议融合互通,数据零拷贝
根据传统NFS、CIFS、HDFS和S3存储协议的特点,分布式融合存储平台设计出统一的存储架构。协议层无需数据转换和拷贝、安装网关或插件及在计算侧或应用层改造,即可直接原生语义无感接入,大大提升数据处理效率。
其三,原生语义支持,语义零损失
语义损失是导致传统协议互通方案无法商用的主要原因。文件、HDFS和对象服务由于使用场景的差异,每种服务都有各自独立的语义,如文件的快照、对象多段上传及HDFSRanger鉴权等。传统协议互通方案由于存储架构和元数据管理不统一,无法实现各协议完整的语义支持,通常需要上层适配修改,造成语义损失。分布式融合存储平台在统一存储架构上实现多协议的统一元数据管理,支持各协议原生无损语义访问存储系统,应用无感接入。
其四,权限互通,多协议权限联动
由于文件、对象、HDFS协议权限管理方式各不相同,传统协议互通方案权限管理较为混乱,无法做到权限互通,给用户访问带来极大的不便和困扰。
针对Windows用户、Unix用户和对象用户的不同访问形式及隔离限制,设计出用户映射机制,实现不同类型用户权限共享,打破不同类型用户之间互相隔离的壁垒;提炼出统一的权限管理架构,统一管理非结构化数据权限。可以做到一份数据,一份权限信息,一种协议修改权限,对其它协议同时生效,真正做到了权限实时联动。
其五,冗余保护,数据安全可靠
支持更全面的数据保护策略,提供跨节点、跨机架、不同级别的数据冗余保护,用户无需担心宕机、掉电等意外故障带来的数据丢失风险。同时支持数据副本、纠删冗余策略,能够实现数据及时快速恢复,提高数据可靠性。
其六,数据分级存储,降低存储成本
随着数据的爆炸式增长,单一形式的存储已经无法满足用户高性能和低成本的需求。AS13000提供灵活的分级策略,将数据按照设定的策略和热度分别存储在高性能存储介质和相对低成本的存储介质中,合理利用存储空间,降低存储成本,快速响应用户的数据存储需求。
最后,特性级互通,高效便捷
凭借统一的特性架构和操作接口,实现特性级互通,对外提供统一的增值特性服务,如统一配额、统一QoS、统一分级存储、统一回收站、统一元数据检索。设置后,对NFS、CIFS、S3、HDFS等多种协议即时同步生效。
5、亮点
一套存储架构 融合海量多态数据
伴随数字化转型的深入,海量多态数据应用正快速增多,数据融合存储的诉求日益增长,如何以更优的成本、更高的效率,让视频、图片等多态数据存得更多、更久、更可靠,是业界的挑战。
新一代分布式融合存储,支持四合一架构的融合存储,用户购买一套存储享有文件、对象、大数据、视频四种存储服务,不同非结构化存储服务间可访问同一份数据,融合存储空间利用效率提升200%,实现用一套存储架构高效支撑一个数据中心,满足性能需求的同时,帮助企业降低TCO。
同时,在海量多模态场景,浪潮信息打造高密专有产品,采用4U60盘位配置,支持20TB大容量硬盘,单节点容量超1PB,一台顶三台;同时基于32+2大比例纠删、数据缩减技术,硬盘利用率高达94%。
一套存储平台,加速数据处理和流动
无论是自动驾驶的路线决策,还是电商平台的精准营销,数字化医疗线上问诊等数字化智慧应用,背后都离不开对海量图片、文本、视频等非结构化数据的采集、训练、建模分析和决策,2023年实时数据已占到全球数据圈25%的份额。以高精地图为例,高精地图一般通过采集车每天采集、回传数据进行分析刷新绘制,每辆车每天采集的数据达数十TB,实时回传GPS、轨迹、速度、经纬度等多样化数据,每秒处理千万点位。性能,成为智慧应用永无止境的诉求。
新一代分布式融合存储为了提升性能,在一套存储平台内推动盘控协同和全链路端到端性能优化,让数据在热温冷冰四级存储内高效互通、流动。AS13000G7搭配第四代英特尔至强CPU、自研PCIe 5.0 NVMe SSD,并通过RDMA协议、CPU专核专用、数据分区、随机转顺序等技术的代码级联合调优实现性能的提升,单节点带宽超过50GB/s,相当于一秒传输25部高清电影。相较上一代产品,AS13000G7新品性能至少提升40%。
一套存储平台 保障数据安全可靠
新一代分布式融合存储从部件、器件、整机系统、核心软件、管理软件到解决方案,用六重保护确保服务永远在线、数据永不丢失。在器部件层面,严选高可靠性的器件,围绕可靠性去定制硬盘、SSD等部件。在集群层面,基于全对称分布式架构,最大可扩展至10240节点,基于大比例弹性EC,最大可同时容忍任意4节点失效。
面向病毒和防勒索软件的攻击,推出了端到端的数据安全解决方案。首先,可以为用户提供生产存储、双活存储、异地备份的多重保护;其次,通过对读写行为的分析,预测勒索行为,即时终止恶意勒索行为并通过高密快照技术迅速恢复数据;再次,通过引入第三方杀毒软件,杀灭勒索病毒;最后,通过数据防篡改技术、物理隔离技术、加密等技术,让病毒进不来、改不了,数据看不到、带不走,打造数据安全的最后一道防线。
参考:
http://www.dostor.com/p/84080.html
https://mp.weixin.qq.com/s/7-xDoN2JiR5HIKXjP5evWA