前 言
从“银河” 拓荒到 “天河” 领跑,中国超算历经数十年自主攻坚,走出一条国产化、高端化、规模化的创新之路。“天河新一代” 作为我国完全自主可控的超级计算系统,突破国外高端计算技术封锁,以 ARM 架构自主硬件、异构融合算力、高速互联网络与分布式存储,成为支撑国家战略科研、工程仿真、大数据分析、人工智能计算的核心基础设施。
本课程由国家超级计算长沙中心与湖南先进技术研究院联合打造,依托GitLink超算开源社区正式推出,由头歌教学研究中心提供技术支持。课程立足国家超级计算长沙中心真实生产环境,将超算基础理论、硬件架构认知、全流程操作、软件编译、SLURM 任务调度、并行程序开发融为一体,以 “理论精讲 + 在线实操”的方式,帮助学习者从零掌握国产超算使用技能,高效调用大国算力服务科研创新与工程实践。
学完本课程,你将具备独立使用“天河新一代”超算系统的完整能力,把国产自主算力转化为看得见、用得上的科研生产力,共同见证中国超算从跟跑到领跑的硬核实力。
《大国算力:“天河新一代”超算架构与集群探秘》课程网址:
https://gitlink.educoder.net/paths/z8ag3qtm
01课程简介

《大国算力:“天河新一代”超算架构与集群探秘》课程主页
“天河新一代”是我国完全实现国产自主的超级计算系统,成功突破国外高端计算技术封锁,现已成为科研攻关、工程计算、大规模数据处理等领域的核心算力支撑。国家超级计算长沙中心的“天河新一代”系统,依托ARM架构自主硬件、完善的软件运行环境及高效的资源调度体系,为科研工作者、高校师生及相关技术人员提供了优质、可靠的超算资源。为让相关使用者快速掌握该系统使用方法,高效利用超算资源开展研究与工作,特开设本课程,课程内容紧密贴合“天河新一代”实际使用需求,将超算基础理论与实操应用深度融合,助力学习者达成多方面核心学习目标。
02教学目标
通过本课程学习,学习者可逐步掌握“天河新一代”超算系统的全套使用能力,核心学习目标如下:
目标1:建立系统认知。了解“天河新一代”超算系统的发展历程、核心特性及硬件基础环境配置,形成对该国产超算系统的全面了解;
目标2:掌握基础操作。熟练掌握“天河新一代”系统的完整使用流程,能够独立完成VPN登录、SSH远程连接等系统登录相关操作;
目标3:学会环境配置。掌握系统软件环境配置、自编程序编译的方法,熟悉ARM架构下的编译命令规范,适配系统硬件架构要求;
目标4:精通任务调度。熟练使用slurm调度系统,独立完成作业脚本编写、任务提交、状态查看与任务终止等全流程操作,实现超算任务自主管理;
目标5:知晓问题解决。了解超算使用过程中的问题排查思路,掌握官方咨询答疑渠道,为后续开展计算任务扫清障碍,保障计算任务顺利推进。
整体而言,本课程从认知到操作、从基础到进阶,层层递进搭建起“天河新一代”超算系统的完整学习体系。课程以理论与实操深度结合为核心,助力学习者全方位掌握该系统的使用能力,能够将“天河新一代”的优质超算资源充分运用到科研、工作等实际场景中,真正发挥国产超算的核心算力支撑作用。
03课程特色
1、权威联合出品,背景硬核
由国家超级计算长沙中心与湖南先进技术研究院联合研发,依托 GitLink 超算开源社区发布,由头歌教学研究中心提供技术支持,内容贴合官方标准与真实环境,权威性、专业性双重保障。
2、纯国产自主,紧扣国家战略
全程围绕“天河新一代”国产超算展开,聚焦 ARM 自主硬件、自主软件生态与国产化调度体系,助力学习者掌握自主可控核心技术,服务国家算力安全。
3、理实深度融合,以实操为核心
理论讲解超算发展史与硬件架构,实操覆盖登录、配置、编译、调度、排障全流程,关键命令、脚本编写、任务提交反复强化,学完即可独立上机。
4、体系化教学设计,层层递进
构建 “基础认知→流程操作→环境配置→任务调度→实战应用” 完整体系,从零基础到熟练应用,循序渐进形成系统化超算能力。
04课程章节
第一章 “天河新一代”超算系统基础认知
本章节带你全面了解中国超级计算的发展历程与“天河新一代”的硬件体系架构,系统讲解从银河启航、天河问鼎到国产自主突破、超算互联网建设的演进脉络,同时深入剖析“天河新一代”的异构融合硬件设计(包括登录节点、自主计算节点、自主加速节点、分布式存储与高速互联网络),通过理论题夯实超算发展史与硬件架构的基础认知。
第二章 “天河新一代”使用流程与登录操作
本章节聚焦“天河新一代”超级计算机的申请入驻与实操入门,手把手教学从需求确认、联系中心、账户申请到合同付费的完整流程,同时结合VPN登录、软件环境加载、Slurm作业提交与任务管理等关键操作,以流程化、低门槛的方式帮助用户快速掌握超算使用规范,实现超算资源即申即用。
第三章 “天河新一代”软件环境配置与程序编译
本章节从超算环境中的模块管理与MPI并行编程基础讲起,讲解module avail、module load、module show等模块命令的查看、加载与卸载操作,以及数值积分梯形法并行计算π值的MPI实现,通过模块配置实操和MPI并行实验,掌握超算软件环境配置与并行程序开发的核心技能。
第四章 slurm 调度系统使用 —— 任务提交、查看与管理
本章节围绕超算作业调度系统SLURM展开,讲解核心组件(slurmctld/slurmd/slurmdbd)、作业状态(PD/R/CG/COMPLETED/FAILED)及完整命令体系(sinfo/squeue/sbatch/scancel/sacct),通过单节点资源查看、批处理作业提交、作业监控与取消,以及多节点集群环境下的串行/并行作业实践,掌握超算资源调度与作业全生命周期管理技能。
第五章 课程教学资料
本章以国家超级计算长沙中心发布的《“天河新一代”用户使用手册》为核心教学资料,介绍“天河新一代”超算系统的接入、账户管理、作业调度与并行开发,帮助学习者掌握超算集群全流程操作,建立规范使用思维,为后续科学计算、工程仿真或 AI 训练等任务奠定基础。
05 学习导航
(1)课程网址:
https://gitlink.educoder.net/paths/z8ag3qtm
对于学生,点击上面链接,可进入对应页面,在章节目录下点击“开始实战”即可进行关卡实践。左侧提供了相应的任务要求,包括详细的知识点讲解,右侧进行实验操作。

对于老师,可以将上述页面里的教学资源和实验资源,直接发送到老师们自己建设的课堂,供学生成建制的开展实践教学。在教学过程中,可根据学情反馈及时调整教学计划。

06教师团队

肖晟,无党派,第十四届湖南省人大代表,第五届湖南省知联会理事,国家超级计算长沙中心副主任,湖南大学信息科学与工程学院副教授,博士生导师,中国计算机学会高级会员,湖南省计算机学会理事。
2002年取得清华大学电子工程系工学学士学位;2003年取得新加坡国立大学与美国麻省理工学院联合培养的高性能计算工学硕士学位;同年回国参与芯片设计初创企业,带领团队开展新型移动设备协处理器芯片的算法设计和系统验证工作,成功流片后继续求学深造;于2013年在美国麻省大学阿姆赫斯特分校电气与计算机工程系取得博士学位,并归国加入湖南大学任教;研究领域包括自安全通信网络,数据分析与可视化,高性能计算等;至2024年,承担和参与“核高基”、国家重点研发计划、国家自然科学基金、部委和省级重点研发计划等纵向课题和企业横向课题30余项,发表论文40余篇,英文专著1部。


伍勇安,博士,国家超级计算长沙中心高性能计算部副部长,研究方向为并行计算、高性能计算、CAE仿真等。
长期深耕并行计算、高性能计算体系构建、CAE工程仿真等方向的理论研究与工程落地工作,围绕并行算法优化、行业仿真应用适配开展系统性科研攻关。先后主持与参与多项国家级、省部级重点科研任务:作为核心骨干参与国家重点研发计划高性能计算专项3项、教育部科技发展基金项目1项、湖南省重大科技创新平台(重大科技基础设施)建设课题2项,担任面向材料领域一体化计算服务平台课题负责人,依托超算算力底座完成材料多尺度仿真、一体化计算服务体系搭建等关键技术研发与平台落地建设。

谭响民
谭响民,国家超级计算长沙中心高性能计算部资深工程师,研究方向为并行计算、高性能计算等。
一直践行贯通学术与工业融合工程,深度参与“天河新一代”超算系统的应用环境适配、典型行业应用并行算法库的研发与部署,作为核心骨干参与国家重点研发计划高性能计算专项2项、教育部科技发展基金项目1项、湖南省重大科技创新平台(重大科技基础设施)建设课题2项。