第二次GPU Cloudburst实验为大规模云计算铺平了道路

2020年10月13日23:02:41第二次GPU Cloudburst实验为大规模云计算铺平了道路已关闭评论 3 views

SDSC和威斯康星州IceCube粒子天体物理学中心的研究人员已成功使用亚马逊Web Services,Microsoft Azure和Google Cloud Platform上的数千个GPU成功完成了第二项计算实验。

在2019年末,圣地亚哥超级计算机中心(SDSC)和威斯康星州IceCube粒子天体物理学中心(WIPAC)的研究人员成功完成了一项大胆的实验,该实验将全球所有可出售的GPU(图形处理单元)编组并作了一次简短的运行,证明了即使在pre-exascale时代,也可以使用云弹性爆发到非常大规模的GPU,也因此成功地吸引了商业云供应商的关注。

第二次GPU Cloudburst实验为大规模云计算铺平了道路

SDSC和WIPAC研究人员仅使用sport/preemptible模式中最具成本效益的实例,就能够提供和维护来自全球云区域的15,000个GPU,相当于170个PFLOP32,远远超过最大的国家科学基金会资助的最大的超级计算机

该实验还证明,可以在很短的时间内进行大量的数据处理-对于必须在紧迫的期限内完成的研究项目而言,这是一个优势。它还表明,如此大量的数据爆炸(在本例中是由IceCube Neutrino天文台生成的数据),它是在南极冰方公里内深处的5,160个光学传感器阵列,适用于应对各种挑战不仅涉及天文学,而且涉及许多其他科学领域。

回顾2020年2月4日,当时同一研究团队进行了第二次实验,剩余的一小部分资金是由美国国家自然科学基金会的EAGER拨款提供的。和以前一样,研究人员使用了来自Amazon Web Services(AWS),Microsoft Azure和Google Cloud Platform(GCP)的云资源,但仅限于采用竞价模式或可抢占模式的最有效的云实例类型。此外,这次他们没有使用专用的仅云设置,而是将云资源添加到可通过开放科学网格(OSG),极限科学和工程发现环境(XSEDE)和太平洋获得的现有“本地”资源中研究平台(PRP)。HTCondor再次被用作工作负载管理系统。

“我们从第二次演示中得出了几个关键结论。” SDSC的Sfiligoi说。“我们证明,Cloudburst运行实际上可以在整个工作日内维持,而不是一两个小时,而且还衡量了每个云提供商仅使用两个最具成本效益的云实例的成本。”

团队使用NVIDIA规格提供的峰值fp32 FLOPS,设法达到并维持了大约15,000个GPU或170个PFLOP32s(即fp32 PFLOPS)的平台。从所有主要地理区域都提供了云实例,而总的集成计算时间仅超过一个fp32 exaFLOP小时。云计算的总成本约为60,000美元。

在第二个实验中,该实验大约持续了八个小时,而在第一个实验中不到两个小时,IceCube Neutrino天文台处理了约151,000个工作,而第一次爆发时约为101,000。

这意味着即使峰值大大降低,第二个IceCube云运行仍能产生更多的科学成果,” Sfiligoi解释说,他还指出,后者的实验增加了OSG,XSEDE和PRP的Kubernetes资源,有效地使其成为了混合云与第一次完全基于云的设置不同。

实验还表明,最具成本效益的云实例是那些提供NVIDIA Tesla T4 GPU的实例。与第二最佳选择(提供NVIDIA Tesla V100 GPU的实例)相比,它们对IceCube项目的成本效益大约高三倍。

而且,与早期的实验不同,该团队使用直接的超文本传输协议(HTTP)直接从IceCube的威斯康星大学麦迪逊分校的家中获取数据,该协议是用于在万维网上交换文件的标准应用程序级协议。

weinxin
扫码,关注科塔学术公众号
致力于成为国内领先的科研与学术资源导航平台,让科研工作更简单、更有效率。内容专业,信息准确,更新及时。
avatar