走近国际超算大赛IndySCC赛道冠军:上科大GeekPie_HPC

发布者:闻天明发布时间:2022-11-28浏览次数:2046

1113日早7点,2022年国际大学生超算大赛(SC Conference series- Student Cluster Competition,简称SC 22IndySCC线上赛道成绩公布,上海科技大学GeekPie_HPC学生超算队勇夺IndySCC线上赛道冠军。


何为IndySCC赛道

高性能计算大会-大学生超算大赛(SC),是全球最具权威性、最有影响力的三大超算竞赛(SC超算大赛、ASC超算竞赛和ISC超算竞赛)之一IndySCCSC赛事设立的线上赛道。与SC线下赛道一样,需在限定条件的前提下,用48小时完成给定的计算任务,并实现尽可能高的计算性能。今年,IndySCC要求每支队伍在总可用计算节点数不超过20个的条件下,完成在Chameleon高性能计算平台上连续48小时的竞赛任务。刺激的赛制对学生的综合创新、研究和工程能力是极大的考验,同时对学生计算平台节点健康状况、软件依赖和任务分配策略等统筹优化能力提出了很高的要求。

上科大代表队沉着应对挑战,从系统结构设计、计算设备配置到赛题理解、算力分配;从实验操作、理论分析到结果展示、答辩和接受媒体采访,同学们表现出的综合实力不同反响。程家骏负责的高性能共轭梯度算法基准测试(HPCG benchmark) ,李泽城、张亦宁和吴蔚琪负责的大分子体系分子动力学模拟软件(NAMD)赛题,以及胡艾博和张亦弛负责的大规模并行化图分析基准测试软件(miniVite)赛题均获得了全场应用最高分。同时,上科大代表队以高效的节点健康状态监测机制及时避免了故障节点对赛题的影响,在动态任务分配上探索管理调度优化机制。本次比赛由上科大信息学院殷树教授担任技术老师,2018届本科生井皓天和2019级本科生张厶元担任学生教练。


48小时比赛实况照片

48小时比赛结束后,六位IndySCC参赛队员与两位学生教练合影

(左起):井皓天(2018级,学生教练,SC’21主力队员),张厶元(2019级,学生教练,SC’21主力队员),程家骏(2020级),吴蔚琪(2019级),胡艾博(2021级),张亦宁(2019级),张亦弛(2021级),李泽城(2019级)

上海科技大学GeekPie_HPC SC‘22 IndySCC主力队员与殷树教授(左二)合影


遗憾和机遇

GeekPie_HPC作为GeekPie学生社团最年轻的分支之一,成立于2017年,近几年活跃于国际三大超算大赛,年年有突破。成绩的背后是团队成员自发的常态化训练、研讨与总结反思。尤其在备战期,团队成员不仅要完成专业课程的学习和考核、应对常态化训练的工作量,还要直面新冠疫情带来的种种不便和心理压力,不断摸索高效合理的学习、训练、生活模式,这对团队的凝聚力和抗压能力都是极大的挑战。

去年GeekPie_HPC夺得SC‘21全球第二名的历史最佳成绩后,同学们都憋着一股劲儿,想在2022年冲击更好成绩。非常遗憾的是,由于国内外新冠疫情缘故,我校学子无法远赴美国现场参加SC线下赛道赛事,只能受邀参加IndySCC线上赛道赛事。 “IndySCC赛道赛事为参赛队提供更多的HPC教育和指导,这是一次难得的系统培训机会。”指导老师殷树教授介绍说,“我们利用赛事提供的教育指导内容在备赛过程中梳理并完善了GeekPie_HPC社团常态化训练体系,并着手为《CA III-高性能计算系统》课程和图信中心的高性能计算平台培训计划设计适合上科大学子的HPC入门和进阶实操方案。”


自我提高和相互扶持

GeekPie_HPC是一支经过时间磨合、彼此信任的团队。他们各自修炼技术,又互相扶持配合,完成了单兵作战到团队协作的成长过程。回顾比赛的收获时,大家坦言虽有遗憾,但受益匪浅。

程家骏(2020级,学生队长)

这次超算比赛引入了限时的比赛项目,包括持续23小时的 HPL Hero Run 和 持续 48 小时的最终决赛。在大呼刺激的同时,也庆幸我们在赛前的充分准备。我们在这些限时项目中,学习到了如何最大化利用计算资源和集群运维。感谢上科大为我们提供优质课程和指导的老师们,带领我们走进了高性能计算的大门。

胡艾博(2021级)

这是我在教授和学长带领下第一次参加超算竞赛。在此次竞赛中,我第一次接触到上百个节点的计算集群,实践了运维技术并在集群上运行了科学计算的软件。连续 48 小时的比赛有很大的挑战,需要协调团队计算资源的合理调度以达到较高的利用率。我在此次比赛中负责了 HPL Hero Run 集群的初始调试和 MiniVite 赛题。HPL Hero Run 需要在 300 个节点进行基准测试,为了保证达到最好效果,需要对每个节点进行诊断评估。针对MiniVite 赛题,我和队友合作阅读了代码并进行了性能分析,修改了部分源代码使程序提速显著。这次比赛不仅锻炼了我的技术能力,也锻炼了我团队沟通和协调能力,是一段十分宝贵的经历。

李泽城(2019级)

因为有之前参加超算比赛的经验,我们对集群平台的搭建较为熟悉,赛前对NAMD的准备也比较充分。比赛中,NAMD的题量较大,我们分工明确,高效沟通,有条不紊地完成了前两题的任务;第三题需要我们以最快的速度完成模拟,我们不断试验了众多参数,在已有优化的方案上进一步加速性能,夺得了记分板上的第一名。这次比赛虽规模较小,但给我们带来的宝贵经验可以用于对未来队员们的培养。

吴蔚琪(2019级)

第一次参加超算比赛,我面对还不算非常熟悉的领域,最初心情其实是有些忐忑与紧张的。然而随着竞赛的进行,我学习了很多关于HPC集群相关技术和应用的知识,并在老师和队友们的帮助下运用所学知识着手解决自己负责的问题,我也逐渐放下了自己在赛前的小担忧,开始享受比赛,体会纯粹的乐趣。通过团队间的交流和配合,我们最终取得了不错的成绩,给两个多月以来的准备落上了圆满的句点。能够在本科生涯结束前和GeekPie_HPC共享一段如此特殊而奇妙的经历,这将会令我永远难忘。

张亦弛(2021级)

这是我第一次参加超算比赛,也是第一次面对超算生产集群。我们需要对超算平台上百个节点进行故障排查后再开展任务部署工作,对我而言是一份弥足可贵的体验。我主要负责的 MiniVite赛题,要求我们在程序性能剖析基础上找到并解决程序运行的效率瓶颈。在此过程中不仅实践了算法、并行计算等相关知识,更让我对高性能计算这个领域有了深入的了解,锻炼了团队合作能力,也学习了更多的相关领域知识,积累了许多经验。

张亦宁 (2019级)

这次长达48小时不间断的比赛,如同一场艰辛的马拉松。我们需要快速上手复杂的科学计算应用程序和数据集,同时还要时刻关注计算集群的运行状况,这对我们计算机集群的了解和系统工具的熟悉程度提出了更高的要求。有限的时间和机器资源也要求我们快速沟通和制定策略。而后续漫长复杂的调优工作更是对工程能力、阅读能力和体力的巨大考验。作为第一次参赛的队员,整个团队在这些方面出色的表现让我印象深刻,也学到了许多专业知识,对高性能计算领域有了更深的体会。


坚实的技术保障和支持

信息学院依托计算机系统与安全中心教授团队,联合GeekPie_HPC社团学生教练团队和图信中心资深工程师团队,为参赛队提供了赛题指导和赛事支持。队长程家骏介绍说:“指导老师专门邀请了相关方向的专家和往届主力队员为我们辅导,指导制定对策,我们才能够在大赛全程冷静地见招拆招。”

信息学院高性能实验平台和学校高性能计算共享服务平台联合为参赛队的日常训练和备赛提供了坚实的高性能算力和运维保障。“图信中心在大赛期间提供了基于兆芯国产计算平台的云桌面实训教室场地,方便赛队48小时不间断参赛。”图信中心高级工程师张迎冬介绍说,“我们还积极调动校内多方技术团队,共同为GeekPie_HPC代表队提供了全方位的技术保障和媒体支持。”