入局高性能计算 青云QingCloud EHPC超算云上线
- 时间:
- 浏览:0
阿斯顿马丁·红牛车队是世界一级方程式锦标赛(F1赛车)颁奖台上的常客。这背后的秘诀,除了红牛车队拥有性能优异的赛车和技艺娴熟的车手之外,他们还有一招“高科技”。在每次比赛之前,红牛车队都会动用超级计算机根据赛道及比赛环境做数字模拟,这包括但不限于使用虚拟风洞来优化赛车的空气动力学模型、模拟电源散热效率以让赛车发挥出最大功率、模拟赛车撞击来优化车身结构以及让赛车符合比赛的安全规定等等。总之,借助超级计算机,红牛车队会利用一周的时间完成这一系列针对性的模拟和优化,以保证他们在每一场比赛都有备而来。这是高性能计算机(HPC,也称超算)有着广泛用途的一个例证,各行各业都有机会通过超算挖掘潜力。然而麻烦在于,并非所有希望用上超算的人或团队都有红牛车队那样雄厚的背景,有机会搭建一套完全属于自己超算平台。事实上,怎么用上“高大上”的超算,长期以来都是困扰供需两方的一大难题。尤其是,HPC当前还面临着与大数据和人工智能应用融合的新场景。传统超算应用的痛点事实上,各大超算中心不可谓不开放。以广州超算为例,部署于此的“天河二号”超级计算机作为大湾区顶尖的超算平台,是粤港澳高校院所眼里的香饽饽。为了提高其资源共享能力,2018年广州超算还联合9家粤港澳高校成立“粤港澳超算联盟”,推动超算资源共享。青云QingCloud云平台服务部高级总监陈海泉观察后认为,这类大型超算的使用有两个潜在的痛点:不方便和不安全。传统的超算中心用户在申请使用超算平台时,首先要提交申请,并等待人工审批;当审批得到通过后,用户需要自行安装VPN客户端以连接超算中心提供的登录节点。而要说明的是,一些大型超算中心的登录节点往往是多用户共享的。陈海泉说,共享登录节点有两个问题,一是超算中心为了保证其自身安全,不提供用户根用户权限(即root权限),这会给用户安装应用软件带来一些麻烦——比如用户如需要安装系统软件,需要到超算中心实地现场指导运维人员安装;二是Linux系统漏洞不可避免,如果漏洞被个别用户利用得到root权限,就能窃取平台上其他用户的数据。猛增的大数据和人工智能业务,也对传统超算提出着新的挑战。陈海泉认为,大数据应用自带两大需求:存储容量大、存储要求多(数据类型多样),单一超算资源难以同时满足用户“既要计算性能、又要存储容量、还要价格便宜”的诉求;而许多人工智能业务则需要充足的GPU资源,以及匹配的软件框架(如TensorFlow等),这对于以Slurm调度器为主的超算中心而言也意味着很大的挑战。镇痛药方:弹性高性能计算洞察到这些痛点,从事企业级云计算服务的青云QingCloud于11月23日宣布入局高性能计算,希望通过云平台的加持,解决超算应用中的挑战。青云用“云平台+超算”开出的“药方”,是弹性高性能计算(EHPC)。弹性,顾名思义,是希望提供的超算资源灵活可伸缩。如何做到弹性?青云的做法是,依托超算中心构建算力池,用公有云服务的,提供用户所需的算力及扩展。简而言之,青云EHPC对超算中心提供运营服务,对超算用户提供超算应用入口。换句话说,青云在超算与用户之间扮演了一个类似房屋中介的角色。陈海泉认为,基于上述超算应用的痛点,青云这个“中介”能够发挥独特作用。比如,在虚拟化技术加持下,QingCloud EHPC平台提供用户独立(相互隔离的)计算、网络、存储空间,用户拥有独享的登录节点,同时借助虚拟化技术还可快速为不同业务构建其所需的运行环境,并可随时在不同软件平台切换,充分利用超算中心的硬件资源满足各类业务需求。拥有独享登录节点并不是EHPC的全部,毕竟独享登录节点和独享HPC集群还有所区别。据QingCloud EHPC产品经理苗慧介绍,青云还可为用户提供独享的EHPC集群。在独享EHPC集群下,用户可以拥有一个根用户账号(root账号),这使得用户不仅能够自由安装所需系统软件,还可以自由搭配所需的计算、存储、网络等硬件,以满足特定业务场景。当然,这种模式下也不必排队等待,可以像红牛车队那样自由地享用超算便利。不排队不浪费的算力网络在为传统超算应用中存在的痛点开出药方的同时,也考验着青云QingCloud这样的“中介”的技术能力。他们一头连着超算,一头连着各行各业的用户,需要不仅摸得清超算的“脾气”,还要对不同专业有所洞察:他们用什么软件、该如何调试运行脚本、出现问题该怎么应对等等。因此,这是一个技术含量高、综合能力强的“中介”角色。青云是一家有着公有云服务基因的技术公司,他们在与用户的交互中也有机会锻造一批交叉技术人才。苗慧也表示,青云有专门的EHPC技术支持队伍,现在规模有数十人,他们主要面对非计算机专业用户的应用问题。当然,作为必备,QingCloud EHPC还有丰富的应用软件,涵盖分子生物学、新材料、新能源、大气海洋环境、地球物理等领域,这些软件通过共享软件目录的形式,供用户调用。目前,青云已经与某国家级超算中心等超算平台展开合作,通过将超算中心接入分布式云节点的,让超算平台实现开放共享。陈海泉表示,青云可以为超算中心做私有化超算云平台部署,也希望跟超算中心合作共建算力共享的算力网络,以此实现为用户提供不排队的超算资源、为超算平台减少资源浪费的愿景,真正让“突发业务显得超算资源不够用、业务量少时造成超算空置浪费”的痛点成为过去式。