不得不说台风“山竹”来得快去得也快
周日广东多个城市还在接受狂风暴雨的洗礼
周一上班族就开启了通勤路上的“披荆斩棘”
天气情况的变化自古就影响着民生大计
在古代,人们常依据风向、动物异象等预测台风,比如“东风转北,搓绳缚屋”,大量浅海鱼类上浮,较大的深海鱼来到浅海等信号,来判断台风是否来临,并做好准备。
然而由于技术条件限制,古时的台风预测的准确性和时效性都较差,因而每次台风对沿海居民来说都是一场灾难。
而今天,我们不仅看到台风在哪里出生,还能预知台风走向何处!
这要多亏于HPC(高性能计算)这一气象应用领域的法宝,通过应用卫星、雷达、自动观测站等一系列探测工具获取实时数据,再通过数值模式,对天气变化过程进行深入的模拟研究和预报试验。HPC在气象预报预测业务中有着核心支撑地位,能有效起到保护生命、预防财产损失。
古有“草船借箭”的故事给诸葛亮博得“神机妙算”的美名。如今,“神机妙算”的重任由HPC接任,而且除了气象预测,HPC在地震预测、碰撞试验、生命科学,甚至零售、制造、金融领域等都发挥着重要且不可替代的作用。
2017年9月,教育部发布世界一流大学和一流学科建设高校及建设学科名单(简称“双一流”)。上海交大成功入选。在“双一流”建设方案中,上海交大确立了三个阶段目标:到2020年跻身世界一流大学行列,若干学科进入世界一流前列;2030年进入世界一流大学前列,若干学科方向具有世界领先地位;2050年建成卓越的世界一流大学。
而要支持上述三阶段目标,上海交大首先升级了其高性能计算(以下简称HPC)系统,以保障生命科学、仿真设计等重点学科的科研和教学。
HPC助推上海交大“双一流”建设“双一流”与HPC:上海交大入选“双一流”,与其强大的科研实力和坚实的基础科研平台建设密不可分。其中HPC对于上海交大多个学科建设和科研工作的推进起到至关重要的作用。例如,针对生命科学,HPC可以用来进行生物分子的结构测定、生物信息学类计算、分子动力学类计算和计算机辅助药物类计算等,从而满足上海交大在这一领域的科研项目需求。
针对工程仿真,HPC的用途更多,如用来舰船/车辆等大型产品整体结构静力、动力响应、安全性分析等;大坝/超高层建筑/桥梁等大型土木建筑结构地震响应分析,水流/风载/通风计算等。
总体而言,上海交大HPC系统的建立,在满足其自身在科研、学科以及重要课题研究等方面高端需求的同时,还助力上海交大在“双一流”建设中成为前沿学术科技的创新主阵地,从而跻身世界一流大学行列。
开展“双一流”建设
上海交大HPC系统亟待升级
随着“双一流”建设的推进,上海交大的科研项目越来越多,HPC系统每年要为数百个科研项目提供2300万核小时甚至更多的计算能力,并且众多科研项目带来的庞大数据量对IT资源的需求也越来越大,这给从成立之后一直没有升级的 HPC系统带来了巨大压力:
存储容量达到“红色警戒”:理工科是上海交大的强项,如物理、天文、生命科学等自然科学以及一些新兴学科都是使用 HPC 较多的学科。这些学科的课题研究本身对于数据的要求较高,产生的数据量也较大。上海交大HPC系统建成时,系统的可用容量为500 多TB,而不到一年,存储利用率就超过90%,已经达到存储需求的“红色警戒”。并且数据量还在不断攀升,存储已经成为整个HPC系统的性能和容量瓶颈。
集群计算性能不稳定:为了支撑海量的计算任务,上海交大的HPC系统配备了332个CPU节点,130块GPU加速卡和65个GPU加速卡节点。但由于HPC 存储性能的不稳定,在大规模并行计算读写大量小文件操作方面,速度仍然较慢,从而拖慢整个数据的处理进程。上海交大需要能够弹性扩展计算资源,以不断提高存储的吞吐量和性能,从而为整个HPC系统提供有力支持。
系统运维管理“拖后腿”:上海交大的HPC系统作为校级平台,要为全校所有院系的科研和教学项目提供支持。这就要求能够对HPC集群进行集中、透明的部署、管理、监控和调度,在大幅提高计算能力的同时,加速应用处理。然而上海交大缺乏专业的运维团队,且现有HPC系统管理的复杂性还带来整个HPC系统运维过程中高故障率,严重影响用户体验的流畅性。
戴尔易安信
为上海交大HPC升级保驾护航
戴尔易安信借助安装了Intel EE for Lustre 软件的HPC存储解决方案,为上海交大搭建了一个高性能、高可靠HPC系统,满足科研及教学项目的计算和存储需求。
消除容量瓶颈:上海交大HPC新系统配备了戴尔易安信PoweEdge服务器和高密度磁盘阵列,向上扩容可达180块硬盘。新系统上线后,系统容量提升三倍,可投入使用的存储容量达到2PB,后续还会继续扩容至 3PB,为未来业务发展提供了保障。例如,生命科学学院基因测序课题组在进行项目研究时,再也不受原来系统在容量或性能上的限制,已经在新的系统上新增存储100TB。
满足各种项目性能需求:戴尔易安信双控制器高速连接、高性能RAID以及GPU,保证了上海交大各类科研项目对HPC环境中高性能处理能力需求。此外,戴尔易安信磁盘阵列自带高性能层许可,通过自动分层处理满足对象存储管理数据的性能要求,加快小文件读写速度。相比旧系统,新系统运行更为稳定,例如,在进行基因测序分析时,课题组成员可以同时利用100 多个节点来完成高通量的分析任务。
管理运维自动化减轻管理负担:Intel文件系统(IML)提供了智能、丰富且直观的统一web管理界面,管理运维人员无需专业技能即可轻松查看整个系统的吞吐量和故障点。并且当出现故障时,管理员只要远程登录到管理界面,通过实时、近实时监控,迅捷完成故障恢复,这为各院系课题组科研和教学的正常、顺利进行提供了保障。
戴尔科技集团加速HPC在各行业着陆在数字化转型过程中,由于数据量激增和企业创新驱动发展所带来的业务模式和应用模式的变化,使企业对IT计算性能的需求不断提升,而HPC正是能解决企业难题的有力手段。不同行业和不同企业对HPC的需求各不相同,而功能强大和复杂的传统HPC解决方案未必适合所有的企业。作为在IT企业级市场领军的厂商,戴尔科技在HPC领域的独特优势,加速HPC在各行业着陆,包括:
加速开源落地:戴尔科技是OpenHPC创始成员之一,加速开源在HPC方案落地的能力。
中国战略投入:戴尔科技在北京建立了高性能计算创新实验室,可帮助中国的用户实现软硬件的测试、验证和创新。
全球资源整合:戴尔科技通过全球战略联盟,结合HPC咨询和服务,保证用户在HPC方面的投资回报,确保HPC业务稳定安全。
开放产品方案:戴尔科技提供一系列基于开放技术的HPC端到端产品和针对典型行业HPC简化方案,保证高可扩展HPC的稳定安全,让更多中小企业将HPC作为业务创新引擎。
高性能生态链:戴尔科技将推动中国数字化转型IT生态链作为战略,通过云联盟、与中科院自动化所的深度学习战略合作,根据中国市场需求,打造HPC生态环境,简化HPC部署和使用,提高HPC创新和管理效率。
研究领域HPC解决方案:包括PowerEdge机架式服务器C4130;英特尔Xeon Phi处理器或NVIDIA GPU;基于英特尔Lustre的分布式存储;Dell Networking高性能以太网或Infiniband网络;Bright Cluster Manager集群管理软件。
生命科学HPC解决方案:模块化C6320服务器;PowerEdge 服务器作为大内存节点;基于Lustre存储方案或NFS存储方案,或Dell EMC Isilon存储方案;Dell Networking 和 Mellanox InfiniBand 交换机。
制造业HPC解决方案:Precision工作站。
深度学习HPC解决方案:“诸葛·深知”。
戴尔科技集团不断提升创新能力进行产品布局,同时整合优秀资源,率先推出了针对研究领域、生命科学、制造业、深度学习等领域的高性能方案;并且戴尔科技集团积极联合领先的合作伙伴,采纳社区标准,推动高性能计算平台生态圈的建立,全方位将高性能计算市场化、商用化、普及化,满足各种层次各行业用户的应用需求,帮助更多的企业和机构实现创新驱动发展。