以客戶(hù)為中心,提供定制化或一站式的全棧解決方案,賦能千行百業(yè)
大部分計算材料和計算化學(xué)程序屬于計算密集型和訪(fǎng)存密集型應用,對處理器的浮點(diǎn)運算能力和內存性能要求很高。對于典型的物理化學(xué)應用,計算節點(diǎn)推薦使用雙路服務(wù)器,根據CPU型號不同,每個(gè)計算節點(diǎn)提供16~40處理器核心,平均每個(gè)核心可以配置2~4 GB內存。對于A(yíng)DF、VASP、Gaussian等以OpenMP共享式內存并行方式為主的并行程序,推薦采用計算核心較多和內存較大的SMP胖節點(diǎn),可以達到最佳的性能加速比。大部分物理化學(xué)軟件都是MPI并行程序,并行加速比較好,通??梢詳U展到32~128進(jìn)程以上,程序運行方式通常是跨節點(diǎn)并行運行;從并行算法分析,計算材料軟件的進(jìn)程間通信比較頻繁,屬于通信密集型應用。因此,節點(diǎn)間網(wǎng)絡(luò )的延遲和帶寬對程序的并行加速比起著(zhù)決定性的作用。使用傳統的千兆以太網(wǎng)很難發(fā)揮程序的并行性能,跨節點(diǎn)運行時(shí)會(huì )導致嚴重的性能下降,成為整個(gè)計算過(guò)程的瓶頸。因此,推薦用戶(hù)使用高帶寬、低延遲的InfiniBand網(wǎng)絡(luò ).
上圖是典型的計算物理化學(xué)集群系統配置,系統具有優(yōu)異的性能和良好的擴展性。計算節點(diǎn)選用寶德高密度服務(wù)器平臺,2U雙路多節點(diǎn)服務(wù)器PR2740TP,滿(mǎn)足一般計算軟件和計算任務(wù)的需求;計算系統還可以根據需要配置幾臺四路或八路SMP胖節點(diǎn),專(zhuān)為 Gaussian等OpenMP并行程序或其它一些大內存應用配備 ADF、VASP,集群系統配置了兩臺寶德PR2510P2服務(wù)器作為管理登錄節點(diǎn),兩臺登錄管理節點(diǎn)配置雙機熱備,對作業(yè)調度、用戶(hù)管理等系統服務(wù)實(shí)現雙保險,提高整個(gè)集群的高可用性;計算網(wǎng)絡(luò )采用高帶寬、低延遲的FDR InfiniBand網(wǎng)絡(luò ),為并行程序提供無(wú)阻塞的通信高速通道;另外,配置一套或兩套千兆網(wǎng)絡(luò ),用于集群管理和監控,千兆網(wǎng)絡(luò )也可作為備用計算網(wǎng)絡(luò ),提高系統的高可用性; 存儲系統采用寶德GS-5312v3 磁盤(pán)陣列,提供了海量數據存儲能力的同時(shí),其創(chuàng )新的RAID 級別提供了更高的數據保護功能。強大的硬件設計,靈活的擴展操作和友好的管理界面,為客戶(hù)不同應用提供簡(jiǎn)單方便的解決方案。
本方案選擇了業(yè)界領(lǐng)先的寶德PR2740TP高密度機架服務(wù)器,采用最新的Cascade Lake處理器架構,計算網(wǎng)絡(luò )使用56Gb的FDR Infiniband,非常適合計算物理、計算化學(xué)這樣的計算密集型和通信密集 型應用;大容量、高性能、高容錯、高可擴展性的分布式并行存儲系統為集群提供了強大的存儲支持。
冗余電源,熱插拔硬盤(pán),高可靠的服務(wù)器存儲系統等設備和技術(shù)保證系統的可靠穩定運行;雙登錄管理節點(diǎn)、備用計算網(wǎng)絡(luò )、存儲系統的高容錯技術(shù)為集群的提供了更高的可靠性。
系統設計為用戶(hù)預留了自由的可擴展空間,用戶(hù)可根據業(yè)務(wù)系統的增長(cháng),靈活地增配計算節點(diǎn),擴充計算網(wǎng)絡(luò ),提升計算性能;擴充存儲系統的容量和性能,滿(mǎn)足增長(cháng)的數據存放和IO性能需求。
推動(dòng)物理、化學(xué)等學(xué)科與計算機深度融合、催生新興學(xué)科建設與現代科學(xué)技術(shù)在高校的普及。