阿里云何万青:南坡VS北坡,阿里云高性能计算行业实践

简介:北坡模式:借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务。

随着数字化转型的深入,行业应用对算力提出更高要求。为满足不同行业灵活的业务形态与计算需求,以云计算技术为服务模式创新的技术手段,以高性能计算服务为核心的高性能计算云(HPC Cloud)受到业界的广泛关注。

为了进一步凝聚产业共识,推进高性能计算云产业发展,2021年12月21日,计算网融合产业及标准推进委员会联合超级计算创新联盟,召开首届高性能计算云(HPC Cloud)产业发展论坛,邀请了学术界与产业界专家,以 “云化超算,智启未来”为主题,从技术研究、应用部署、实践发展等多个方面进行精彩演讲。

在本次论坛上,来自阿里云的高性能计算负责人何万青发表了《南坡VS北坡,阿里云高性能计算HPC-as-a-Service行业实践》的主题演讲。

01 阿里云高性能计算的发展

超算通过互联网的方式去部署和交付已经成为趋势。何万青表示阿里云的高性能计算已经发展了四到五年,目前部署在很多工业和行业计算的相关垂直业务,比如汽车仿真、影视后期渲染、AI生物制药、气象业务等领域。

基于过去十多年在线下HPC的技术观察,谈到传统超算系统转型高性能计算云的趋势,何万青将线下超算转型云服务和云服务提供高性能计算产品和服务两种模式,比喻为从南坡和北坡不同线路攀登HPC-as-a-Service顶峰。在北坡,云公司借助于云上大计算性能突破来提供HPC服务,切入的重点更加聚焦于云服务:单机SLA和大规模稳定性、快捷、弹性、多种云产品和服务的快速组合及SaaS服务,超越以提供“核时”和“算力”为核心的模式,强调整体科研业务上云。

2020年是高性能计算在稳定性、弹性以及计费敏感性方向发展最快的一年,很多重大任务在阿里云已经可以大规模的部署,阿里云在去IOE的过程中,可以使超70%硬件故障无感消除,在公共云大计算产品端,云超算SCC第七代实例规格全新上线。

在神龙计算平台上,它的优势包括虚拟化网络高效卸载,物理网络、存储和计算完全解耦,避免资源争抢。神龙eRDMA功能2021年也正式上线,实现CPU实例和GPU实例并池和混合部署,极大扩展CPU和GPU实例集群范围。从POD扩展到可用区、数据中心,平台支持更大规模的弹性伸缩,同时支持VPC网络、eRDMA网络、存储网络三网合一。在数值天气预报中,eRDMA会极大提升应用规模和并行效率。

02 阿里云高性能计算Cloud Stack

何万青表示,基于以上的底层架构,阿里云高性能计算统称为“神龙云超算”,在其上部署面向公共云和混合云的E-HPC云软件栈,它是基于神龙服务器+RDMA网络+并行文件系统开发的PssS层服务。其中,调度器和弹性伸缩、热迁移等功可以从底层对客户透明实现。在ISV层,服务是通过工作流的方式提供,数据搬移不仅是物理方式,而是通过高速网络,一次性的上载来完成任务交付。在跨数据中心的计算集群上,完成三网合一,现有调度器完全实现对跨可用区计算节点的调度,将不同的任务分配给不同的实例。在不同的队列调度上方面,全球只有阿里云能够在运行过程中实现队列绑定不同的实例。

03阿里云高性能计算应用方案

何万青介绍了将抢占式实例与断点续算结合,用户只需要花费比传统方式很少的成本,便可以按需得到所需资源。在混合云技术方面,通过混合云异步文件存储的方式,可以实现在线上、线下同时进行数据拉取与计算,在影视渲染场景中,已经得到广泛使用。

E-HPC商业License方案中,可通过阿里云高速通道打通云上云下网络。其中,E-HPC自动部署云上计算资源,并为其配置好License服务或License代理节点,云下License服务器通过VPN连接License代理节点,E-HPC服务负责License Manager部署、License发放和使用监控。

原文链接

本文为阿里云原创内容,未经允许不得转载。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

双引擎驱动Quick BI十亿数据0.3秒分析,首屏展示时间缩短30%

简介:在规划中,Quick BI制定了产品竞争力建设的三大方向,包括Quick(快)能力、移动端能力和集成能力。针对其中的产品“报表查看打开慢”“报表开发数据同步慢”等性问题开展专项战役——Quick战役,以实现展…

Quick BI产品核心功能大图(六)开放集成

简介:企业想要拥有领先的数据分析能力,自研往往需要投入巨大的人力和财力。 Quick BI作为唯一一个连续两年入选Gartner魔力象限的中国BI产品,具备强大的全链路开放集成能力,可以轻松的与企业原有系统匹配融合,帮助企业…

低复杂度 - 服务网格的下一站

作者 | Addo Zhang来源 | 云原生指北译者:作为一个曾经在新造车公司的基础架构团队任职,为支持公司的“互联网基因”和“数字化转型”落地了云原生基础设施平台,并在尝试采用服务网格未成的我来说,看到这篇文章深有感触。尤其是文…

ADBPGGreenplum成本优化之磁盘水位管理

简介:本文我们将通过一个实际的磁盘空间优化案例来说明,如何帮助客户做成本优化。 作者 | 玉翮 来源 | 阿里技术公众号 一 背景描述 目前,企业的核心数据一般都以二维表的方式存储在数据库中。在核心技术自主可控的大环境下,政企…

阿里云图数据库GDB V3引擎发布,加速开启“图智”未来

简介:无论是学术界还是产业界,都对图数据库有比较高的预期。Gartner发布的《2021年十大数据和分析技术趋势》中提到:“到2025年图技术在数据和分析创新中的占比将从2021年的10%上升到80%。”应用需求推动着技术的发展,在GDB V3的引…

阿里云EMR Remote Shuffle Service在小米的实践

简介:阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施,与此同时RSS也在跟合作方小米的共建下不断演进。本文将介绍RSS的最新架构,在…

Spring Boot Serverless 实战系列 | 性能调优

简介:Spring Boot Serverless 实战系列第四篇来啦,本文将向大家介绍如何对 Serverless 应用进行性能调优。 SpringBoot 是基于 Java Spring 框架的套件,它预装了 Spring 的一系列组件,让开发者只需要很少的配置就可以创建独立运行…

消息队列 RocketMQ 遇上可观测:业务核心链路可视化

简介:本篇文章主要介绍 RocketMQ 的可观测性工具在线上生产环境的最佳实践。RocketMQ的可观测性能力领先业界同类产品,RocketMQ 的 Dashboard 和消息轨迹等功能为业务核心链路保驾护航,有效应对线上大规模生产使用过程中遇到的容量规划、消息…

30人的产研团队如何高效协同?

简介:工具选型及使用建议对于中小企业,基本都不会自己搭建服务器和机房进行部署,而是选择各大云平台,选择一款SaaS项目管理工具可以极大的降低运维成本。 作者介绍:以诺行CTO 刘自强 团队使用云效3年 团队协作需求 …

从 Flink Forward Asia 2021,看Flink未来开启新篇章

简介:本文将对FFA Keynote议题作一些简单的归纳总结,感兴趣的小伙伴们可以在FFA官网[2]找到相关主题视频观看直播回放。 作者 | 梅源(Yuan Mei) 来源 | 阿里技术公众号 律回春晖渐,万象始更新,这句诗用来形…

从需求到开源,如何做到刮目相看?

作者 | 👽来源 | 前端Sharing一、一切根源都从无厘头需求开始最近在开发业务项目的时候,产品小姐姐突然来到我身边,然后就对着电脑一顿操作,具体场景大致是这样的。场景一:如上图所示,当在数万级别的数据中…

如何高效完成ECS多环境部署?

简介:通过本文,你可以了解到,如何通过云效流水线有效拉通开发与运维,打破二者之间的壁垒墙,让开发与运维高效联动。在软件开发和部署过程中,我们的软件往往需要在不同的运行环境中运行,例如&…

技术探秘: 360数科夺得ICDAR OCR竞赛世界第一

ICDAR(国际文档分析与识别会议)是OCR识别领域最权威的会议之一。近期,360数科在ICDAR2019-SROIE(Results - ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction - Robust Reading Competition) 榜单上…

云原生时代,软件交付有何不同 | 研发效能提升36计

简介:从今天起,我们将开启一个新的专栏:《研发效能提升36计_持续交付篇》。专栏将通过10-20篇文章,系统分享云原生时代,企业如何落地持续交付。 编者按:从今天起,我们将开启一个新的专栏&#…

php 获取字符串完整拼音,PHP 获取中文字符串的首字符拼音字母

class"php"><?php header(Content-Type: text/html; charsetutf-8);$str"阅谁问君诵&#xff0c;水落清香浮";echo getFirstCharCode($str);function getFirstCharCode($str){$str iconv("UTF-8","gb2312", $str);$targetChar*…

IT人的年夜饭,也太香了吧

简介&#xff1a; 平时的IT人&#xff0c;奋战在修复bug前线&#xff0c;起早与贪黑齐飞&#xff0c;调休共假期待定。到了新春佳节&#xff0c;对于IT人来说&#xff0c;没有什么是比一顿年夜饭更让人熨贴肺腑的了。为了让废寝忘食编程序、闻机起早保运维的IT人过一个安稳的好…

小红书消息中间件的运维实践与治理之路

简介&#xff1a;近年来&#xff0c;消息领域的全面云原生化逐渐走向深入&#xff0c;比如 RocketMQ 5.0 版本的存算分离设计和 raft 模式&#xff0c;再比如 Kafka3.0 引入了分层设计的方式&#xff08;tiered storage&#xff09;和 raft 模式&#xff0c;以及近年来新崛起的…

爆测一周,22年必看最细致代码托管工具测评

简介&#xff1a;网上代码托管选型的文章不少&#xff0c;不过大多内容有点久远&#xff0c;很多最新的平台没有包括进来&#xff0c;个人花了大概一个星期的时间&#xff0c;把目前市面上比较火的代码托管平台&#xff08;开源托管平台&#xff1a;Github、Gitee&#xff1b;企…

read 文件一个字节实际会发生多大的磁盘IO?

作者 | 张彦飞allen来源 | 开发内功修炼在日常开发中一些看似司空见惯的问题上&#xff0c;我觉得可能大多数人其实并没有真正理解&#xff0c;或者理解的不够透彻。不信我们来看以下一段简单的读取文件的代码&#xff1a;上图中的代码仅仅只是对某个文件读取了一个字节&#x…

【指标需求思考】如何做好指标类需求建设

简介&#xff1a;大家一直所说的【需求】究竟有哪些&#xff1f;用户需求、业务需求、系统需求...... 但是今天我要给大家介绍一种我自认为一种别出心裁的需求&#xff01;【指标类需求】在庞大的需求体系里&#xff0c;一个完整的系统设计流程是非常必要的&#xff0c;好则效率…