为什么80%的码农都做不了架构师?>>>
摘要: 如今,高性能计算已在不知不觉中渗透到人类生活的方方面面。从材料科学到石油勘探、金融市场、应急管理、医学和互联网等领域,高性能计算无一不大显身手,帮助快速攻克各种疑难问题。
HPC(High Performance Computing,高性能计算)通常指将计算能力积聚,用并行计算方式解决更大规模的科学、工程和商业问题。如今,高性能计算已在不知不觉中渗透到人类生活的方方面面。从材料科学到石油勘探、金融市场、应急管理、医学和互联网等领域,高性能计算无一不大显身手,帮助快速攻克各种疑难问题。
针对日益增长的 HPC 计算能力需求,阿里云在现有基础设施之上推出了弹性高性能计算E-HPC产品,为用户提供一站式的高性能计算服务的云平台,即HPCaaS公有云服务。2017年10月12日,产品正式发布公测上线,截止到目前,已有三百多家来自国内外的高性能计算用户在使用E-HPC公测资源,测试的应用主要集中在科学计算,AI/机器学习,设计/仿真/渲染等领域。
项目背景
由于高性能计算集群昂贵,缓慢的初期建设投资,包括集群的维护、升级,管理和一次性购买昂贵的软件许可证的困难,如何“不用排队,申请任意规模,有丰富可共享的计算软件环境”成为高性能用户普遍的诉求。另一方面,高性能计算用户对计算性能,扩展性和并行效率的追求,使得他们无法快速拥抱云计算虚拟化的计算资源。
随着云计算技术的逐渐成熟,高性能计算用户对HPCaaS的需求变得越来越实际和迫切,HPCaaS包括使用集群服务器和存储作为资源池的功能,用户提交其作业请求的Web界面,以及可以在给定集群上并行调度大规模并行应用的能力,调度多个不同并行应用程序的智能调度机制,同时考虑到不同的应用程序性能特征以达到最大总体生产力。
为此,阿里云开发了自身IaaS云产品之上的高性能计算PaaS平台,基于阿里云弹性计算ECS实例、异构计算EGS实例、超级计算集群SCC、虚拟专用网VPC、高可靠高可用的NAS存储等组件,构建了一整套HPC用户熟悉的并行计算软件环境,用户在阿里云公共云上申请集群资源,快速构建和安装部署HPC需要的并行调度管理软件、通讯库、性能库和一系列常用高性能计算应用,用户通过熟悉的阿里云服务界面,不但得到了一个“独享式”的云端超算中心资源,还同时继承了阿里云产品的稳定,安全的品质和与其它阿里云产品打通的能力——这意味着用户可以将HPC和阿里云大数据分析、数据可视化和AI产品结合使用,激发出更多的创新。
技术解析
阿里云弹性高性能计算E-HPC与传统超算中心以及自建集群相比,提供了一种快捷、弹性、安全以及互通的公共云高性能计算服务。
- 快捷:快速创建基于阿里云ECS/EGS/SCC/VPC/NAS等资源的计算集群,根据用户选择快速构建运行时环境和丰富的支撑软件栈;
- 弹性:根据计算负荷,时间和性能要求增减和释放计算节点,存储等资源,节约大量的CAPEX费用,包括但不限于硬件系统费用,永久软件许可证费用,机房维护费用,运维人工费用等。由于使用的是阿里云弹性计算资源,可以是实现即买即用的任意规模组合和节点自动缩容扩容的功能;
- 安全:E-HPC是构建在阿里云IaaS产品之上的PaaS平台,所以集成了阿里云产品的组合安全性,如VPC保证的网络安全,ECS保证的计算安全和NAS保证的高可用高可靠存储等;
- 互通:由于构建在阿里云IaaS资源之上,E-HPC和其它云产品可全面打通,例如通过云盘,共享存储和VPC网络安全交换数据,并可以和其它数据分析,可视化产品互通完成复杂的数值仿真和数据分析闭环。
此外在技术层面,阿里云弹性高性能计算E-HPC与传统超算中心、自建物理 HPC集群、自建云服务器集群等相比较,可以分析得出其具有独特的竞争优势。
- E-HPC相比传统超算中心:E-HPC按需要使用的规模购买,无需排期,即买即用;E-HPC机型种类多,可根据应用需求购置最适合的计算资源配比(如EGS实例);E-HPC充分复用阿里云产品,大大提高了数据安全性和高可用性。
- E-HPC相比自建物理HPC集群:E-HPC可节约巨量CAPEX投入,包括但不限于硬件系统费用/软件许可证费用(多核,多节点)、服务器机房建设/电力和制冷费用、平日运作的维护支持费用;使用E-HPC无需顾虑硬件升级换代;E-HPC打通阿里云全系列产品,可扩展性极强。
- E-HPC相比自建云服务器集群:E-HPC提供方便的软件管理服务,覆盖HPC应用全部支撑软件栈功能,并随HPC共同体(OEM/OSV/ISV/用户/开发者/开源社区)版本升级;E-HPC提供云端Elastic License的按需付费的软件许可证调度机制,为用户节约一次性购买成本,同时为ISV软件厂商和个人软件开发者提供了阿里云市场的新途径,E-HPC还能够提供集群节点根据负荷变化的自动伸缩服务。
阿里云弹性高性能计算E-HPC架构图
场景应用
E-HPC是一个组合型产品,其计算节点有普通ECS实例、GPU加速EGS实例、超级计算集群SCC实例可供选择。ECS实例地域覆盖面广,适合在全球各地域部署;EGS实例适合深度学习等支持并行加速应用的客户使用;SCC实例提供RDMA网络互联,适合大规模集群,提高加速比。时下,有越来越多的中小企业和大企业需要普惠高性能计算来提供HPCaaS服务:
- 在季节性工作负载或对额外资源的弹性需求时;
- 在将IT业务云化,无需投资额外的基础架构或增加等待工作队列的时间时;
- 在希望通过统一平台获取行业应用软件许可证资源时;
- 在需要支持多用户隔离运行多个应用程序且快速获得资源时。
阿里云的弹性高性能计算产品E-HPC构筑了HPCaaS的青藏高原。
市场解读
阿里云E-HPC是建构于飞天系统上的原生云超级计算平台,对底层计算,网络和存储的调用完全基于阿里云的飞天系统,采用OpenAPI接口,随其它云产品功能和性能一起升级进化。
更为突出的是,E-HPC系统可以和阿里云神龙云服务器/SCC产品无缝对接,基于自研硬件的虚拟化2.0技术,同时具备物理机的性能和稳定性,并提供和ECS,EGS虚拟化异构资源的灵活对接,具备完全云特性,这一点是目前国内外云厂商都没有的优势,是真正的“云超算”。。
产品正在集成基于阿里云存储的Lustre高性能并行文件系统, 接入更多主流高性能计算商业软件弹性许可证管理,增强PaaS的云监控,性能优化和丰富的计费体系,正在对接各个细分领域的SaaS合作伙伴,真正打造普惠和专业的云上超算平台。
弹性高性能计算E-HPC基于多年积累的阿里云飞天系统,其功能,性能和体感将随各飞天产品的升级而普惠超算用户,基于阿里云飞天架构开发的HPC软件栈具有和云组间紧耦合,针对云平台优化的特性,和在物理超算平台上增加“云体验”的所谓“超算云”相比,真正释放了云计算的威力,可以说是毫无疑问地国内第一“云超算”产品。