对于现代科技来说,计算力的极限决定着人类对世界认知的边界,所以HPC(高性能计算集群)自然而然成了各国科技竞争的战略制高点。如同在巅峰之上前行,每进一步都要付出更多体能,在摩尔定律依然失效的今天,HPC在不断提升性能的同时还要兼顾功耗,更是加大了迭代升级的技术难度。
在HPC领域却发生了一件新鲜事,中国科学院数学与系统科学研究院原本计划重建的峰值性能超过350Tflops即可,但联想HPC在预算范围内,最终交付计算峰值却达到了1081Tflops,交付性能达到了用户预期的三倍还多,这其中有什么奥秘和诀窍?带着这些问题,《老尚看科技》采访了联想HPC业务部门决策者和技术专家。
联想HPC为何能够超出客户性能预期3倍?
底层基础研究是现代科学发展的根基所在,而数学被誉为自然科学之母。中国科学院数学与系统科学研究院成于1998年,作为中国数学和系统科学研究最顶尖的研究机构,下辖数学、应用数学、系统科学、计算数学与科学工程计算四大研究所,以及9个国家重点实验室和十余个研究中心,自成立以来成果丰硕、享誉全球。随着科学技术高速发展,中国科学院数学与系统科学研究院对于用超算来进行科研验证和前沿探索,都抱有很高的期待,所以下定决心要翻新落伍的HPC系统。
但跟很多传统院校和科研机构一样,中国科学院数学与系统科学研究院要更新HPC系统,面临着老机房面积局促、地板称重有限、供电功率受限等现实因素的困扰,所以中国科学院数学与系统科学研究院向HPC供应商提出了预期的目标:希望能够提供的计算节点数超过350Tfopls,并且新HPC系统的整体功耗不超过220KW。
一般而言,HPC从立项、审批、招标,再到部署、验收、投入使用,动辄要数个月甚至更长时间,而英特尔CPU处理器的更迭周期现在越来越短,这就让很多HPC项目存在刚开始硬件建设就已经落后的行业难题。
但联想最终交付给中国科学院数学与系统科学研究院的HPC新系统却打破了业界常规,在符合预算的前提下,联想为中国科学院数学与系统科学研究院改造的全新HPC系统峰值计算性能达到了1081 Tflops!
据联想首席科学家祝明发介绍,联想HPC之所以能实现客户计算峰值预期三倍,主要是基于如下原因:
第一,联想从项目规划设计之初,就将英特尔处理器更新周期考虑在内,联想与英特尔积极合作,为中国科学院数学与系统科学研究院在项目早期就提前测试了当时未正式发布的新一代英特尔至强可扩展处理器(Xeon SP,即开发代号为Skylake-SP的新处理器)及新一代Purley平台,后者相比至强E5-2600 V4处理器显著的性能提升,也为超出客户预期3倍的计算峰值打下了坚实基础。另外,在HPC系统中规格超前的100Gbps EDR InfiniBand网络,也为新HPC系统的性能提升提供了强力支持。
第二,因地制宜,针对老机房空间狭小、承重受限的客观条件,联想在拆除原有机房的HPC系统之后,重新设计了机房的空间布局、承重、空调和散热制冷,同时,机柜采用专门的承重架专门加固,确保机房机柜的稳定可靠安放——在重新设计机房之后,联想为这一机房装入了多出一倍的机柜数量:新机房放入了408个HPC计算节点,1个x3650 M5管理节点,1个x3650 M5数据导入节点,1个胖节点x3850 X6,5台GPU节点,4个KNL计算节点,8个x3650 M5 大数据节点,15台交换机,1套360TB存储系统以及LiCO管理平台。更高的集成密度,也是性能超预期的一个重要因素。
第三,为了解决部署周期长,可能会带来的性能落伍风险,联想在这个HPC项目中采用了HPC系统整机柜交付的方式,在工厂进行服务器、存储、网络等设备的上架、预装,直接将机柜推进机房,节省了在机房内开箱、上架服务器、存储等设备的时间和空间。短周期也为性能领先提供了坚实的保证。
超算需求的多样化,要求HPC也要与时俱进
HPC之前被广泛应用于能源、气象、医疗、航天等领域,但随着人工智能、大数据时代的来临,用户对超算的需求也在变得越来越多样性,很多用户希望超算能够在深度学习等领域中发挥更大的作用,以便于他们借助超算超强的计算力来做算法训练或者科研验证。
面对客户对超算越来越多样和多变的需求,HPC厂商需要拿出切实可行的解决方案。在中国科学院数学与系统科学研究院新HPC项目中,联想除了常规的计算节点之外,还在这套新HPC系统中增加了NVIDIA GPU、英特尔Xeon Phi在内的异构计算平台,以及基于联想LEAP的大数据分析测试平台(8个x3650 M5 大数据节点)、LiCO集群调度和管理系统。
联想HPC&AI资深架构师郝常杰表示,当有了透明机制的LiCO系统之后,科研用户不需要在精通本专业之外,还要花大块时间来研究如何使用异构计算资源,LiCO平台就像一个资源调配中心,你需要什么类型的计算资源,只需要向系统提出申请即可。以往科研用户在用HPC做运算时,如果在预计时间内没能完成,科研人员时常要面临是继续无限期的等待,还是前功尽弃重新来过,但有了LiCO系统之后,科研人员能够对HPC的进程进行更精细的监控,哪个环节在运算时出了问题会一目了然,这大大提升了HPC的实际运行效率。
受到传输材料和芯片制造工艺限制,摩尔定律已经逐步失效,所以HPC进一步提升性能、降低功耗,需要更多的技术创新。在中国科学院数学与系统科学研究院新HPC项目初期,联想提供的基于“飞虎”系统的HPC解决方案,可以将数据中心机房的PUE值降低至1.2左右,这远远低于当前国内数据中心普遍的PUE值2.0-2.2的水平。这种技术上的领先,是用户之所以选择和信任联想HPC的根本原因之一。
中国从超算大国,正在走向超算强国
HPC要想物尽其用,硬件、软件、应用、生态必须形成有效的协同。中国以往在超算硬件上取得了长足进步,银河2A、神威天湖之光等HPC集群在全球TOP500上也先后夺冠。联想为代表的中国超算力量,在世界HPC市场份额中也不断攀升,联想曾获得过HPC厂商全球第二的殊荣。但与欧美等超算强国相比,中国在HPC应用和生态层面还需要不断补强,才能形成更强的综合竞争力。
随着大数据、人工智能等技术高速发展,人们希望超算能够满足更多样和多变的计算需求,这也为中国超算弯道超车提供了宝贵的机遇。从中国科学院数学与系统科学研究院新HPC项目中,我们看到了联想由超算硬件提供商,已经逐步演进为智能超算平台提供者和智能超算生态建设者。
祝明发在采访时表示,超算是一个基于信任的业务,未来拼的是产品、技术和服务硬实力,靠打价格战或者营销术是无法长期在超算领域立足的。联想希望能够联合更多中国超算力量,共建智能超算健康生态,为中国各行各业的创新者,提供了绿色、经济、高效且快速发展的计算能力和超算服务,让中国从超算大国真正成为超算强国,让超算成为中国创新和中国智造的技术基石。
举报/反馈

尚吉刚

1823获赞 9853粉丝
科技记者 专栏作者
关注
0
0
收藏
分享