硬件资源

浏览次数: 发表日期:2018-03-02

“天河”超级计算机首次提出 CPU+GPU 的异构融合并行计算体系结构,提出CPU 和 GPU 相结合的高性能计算与效率优化的理论和途径,探索面向科学工程计算的新型加速技术与方法,突破新型高效能计算体系结构关键技术,通过模块化的异构计算部件、操作系统/编译系统的异构协同支撑和优化、以及异构并行程序设计环境等,高效实现CPU+GPU的异构协同并行计算,使 CPU+GPU 的实用计算效率达到 70.1%;突破面向 GPU 的异构并行性能与功耗优化难题,使天河系统计算效率与能耗比居国际领先水平。

中心“天河”超级计算系统配置了3个管理结点、128个存储处理与服务结点组成的服务阵列、64个可视化结点构成的可视化阵列、4个四路登陆服务结点、4个八路服务结点以及26个I/O结点。

         

系统结构图

主要技术指标如下:

1)全系统峰值计算性能1372万亿次,其中,全系统CPU峰值计算性能317.3万亿次,GPU峰值计算性能1054.7万亿次;全系统内存容量106TB,共享磁盘总容量1.43PB。

2)全系统共包括4586个CPU,其中8路8核CPU 32个,2路6核和 8核CPU 4538个,4路6核CPU 16个,全系统共包括2048个GPU。

3)系统配置2048个刀片结点组成计算阵列。结点采用2路6核Intel Xeon Westmere EP高性能处理器,主频2.93GHz,内存48GB,每个结点配置1个Nvidia M2050 GPU,单个计算结点CPU峰值性能140.64GFlops,GPU峰值性能515GFlops。

4)系统配置128个存储处理与服务结点组成服务阵列。结点采用2路6核Intel Xeon Westmere EP高性能处理器,主频2.93GHz,内存48GB,单个计算结点峰值性能140.64GFlops。

5)系统配置64个可视化结点构成可视化阵列。结点采用2路6核Intel Xeon Westmere EP高性能处理器,主频2.93GHz,内存48GB,单个计算结点峰值性能140.64GFlops;结点配置Nvidia M2050图形加速卡,峰值计算性能515GFlops。

6)系统配置4个八路服务结点,采用8路8核结构,配置8个Intel Xeon Nehalem EX高性能处理器,主频2.27GHz,内存256GB,单个计算结点峰值性能578.56GFlops。

7)计算阵列采用THNI定制高性能通信互连专网,双向通信带宽160Gb/s,提供高带宽低延迟通信。

8)系统高速互连网络采用无阻塞线速千/万兆以太网交换结构,核心交换机提供288个千兆端口和24个万兆端口,连接登录管理结点、数据处理与服务结点、可视化结点、网络存储设备等。

9)系统由26个I/O结点组成大规模科学计算存储,采用对象存储体系结构,采用超高速专用网络和计算系统互连,共享磁盘容量384TB;海量数据处理存储采用分布散列存储架构结合SAN和NAS存储结构,采用高性能互连网络与处理系统互连,共享磁盘容量为892.8TB;全系统磁盘存储总容量为1.28PB。

10)全系统功耗1.212MW。

11)操作系统采用银河麒麟Linux操作系统,符合国际标准和规范,与Linux二进制兼容,提供安全隔离、用户登录控制等安全功能。

12)编译系统支持C、C++、Fortran77/90/95;支持MPI 3.0,OpenMP 3.0,支持MPI/OpenMP嵌套并行。

13)提供大规模分布共享并行文件系统THGPFS和HDFS,支持T级文件数量和P级的数据存储,支持在线扩容,支持文件系统容错,为全系统提供统一文件系统视图。

14)资源管理系统功能强,提供作业运行状态的统计分析、作业调度、分区管理、调度策略定制、记账管理等功能;支持应用按需调度;提供全系统的自适应容错管理和能耗管理,稳定有效。

15)监控管理系统提供统一的系统管理、开关机、故障监控和诊断功能,对系统环境进行实时监测和安全监护,并为系统提供方便实用的调试、诊断、维护工具和手段。

16)系统支持多种容错和高可用技术,包括全系统监控诊断、部件热插拔、故障结点隔离、系统级检查点支持等。

17)系统提供实用的并行程序开发环境、Hadoop分布编程框架、数据库服务、可视化服务,以及多种应用服务软件,支持广泛的第三方应用软件。

18)系统配置4个登录服务结点,采用4路6核Intel Xeon Nehalem EX CPU,主频2.0GHz,内存64GB,300GB SAS硬盘×2, 高速互连接口,2个千兆以太网。



“天河”超级计算机外观图

 

上一条:软件资源