改進的獎項決賽選手所展示的超級計算核物理代碼

2022-07-04 08:51:40 編輯：裴珍凡來源：

導讀 AndréWalker-Loud是能源部勞倫斯伯克利實驗室(伯克利實驗室)的一名科學家，是該團隊的聯(lián)合領導人，該團隊是本月將獲得的計算機協(xié)

AndréWalker-Loud是能源部勞倫斯伯克利實驗室(伯克利實驗室)的一名科學家，是該團隊的聯(lián)合領導人，該團隊是本月將獲得的計算機協(xié)會戈登貝爾獎的六名決賽選手之一。。

Walker-Loud與DOE 勞倫斯利弗莫爾實驗室(LLNL)的Pavlos Vranas一起領導的團隊使用最新一代DOE超級計算機提高了計算中子壽命精確持續(xù)時間的能力，其中包括DOE's Oak的200-petaflop Summit超級計算機嶺實驗室(ORNL)和LLNL的125-petaflop Sierra超級計算機。

與之前在ORNL的27-petaflop Titan超級計算機上進行的科學測試相比，Walker-Loud的團隊將這些模擬的科學應用加速了Sierra的10倍和Summit的15倍。

模擬可以幫助解開宇宙的神秘面紗

粒子物理學和核物理學之間存在一條細線，亞原子粒子夸克，膠子首先與質子和中子結合成原子核。

在這條線的一邊是宇宙，因為它應該根據(jù)粒子物理學的標準模型：幾乎沒有物質，并且充滿了來自物質和反物質的相互破壞的剩余輻射。在這條線的另一邊是我們觀察到的宇宙：時空以星系，太陽和行星的形式散布著物質。

為了理解物質和反物質之間的不對稱性，科學家們正在使用大型超級計算機來尋找新的物理發(fā)現(xiàn)。通過稱為晶格量子色動力學(QCD)的復雜數(shù)值方法，科學家們計算了夸克和膠子在時空晶格上的相互作用，以研究QCD基本物理理論中核的出現(xiàn)。通過橋接粒子相互作用和原子核的研究，格子QCD模擬也是學習宇宙如何運作的切入點。

今年早些時候，Walker-Loud的團隊在奧克蘭領導計算機構(OLCF)的Titan超級計算機上解決了與中子壽命相關的重要計算，該計算機是ORNL的DOE科學用戶設施辦公室。參加峰會，以及LLNL的超級計算機。研究人員計算了核子軸向耦合 - 質子和中子的基本性質 - 精度為1%(誤差極小)。研究界已經預測到2020年之前這種精確度是不可能的，但是Walker-Loud的團隊能夠使用改進的物理算法將完成計算所需的統(tǒng)計量減少10倍。

LLNL的Pavlos Vranas說：“中子的壽命約為15分鐘，這很重要，因為它對宇宙的質量成分產生了深遠的影響。”

對于戈登貝爾獎提交，研究人員希望通過增加時空格子的大小并減少未來項目的不確定性來證明他們可以在Summit和Sierra上擴展這一成就。

在晶格QCD計算中增加晶格尺寸也是核物理學界的長期目標，因此研究人員可以直接從QCD中常規(guī)地模擬輕核(如氘或氦) - 這些問題比模擬更復雜，更具挑戰(zhàn)性。中子壽命。

在Summit上，研究人員模擬了一個格子，每個空間方向有64個位點，時間有96個。每個站點與其他站點僅相隔0.09飛秒(飛秒表是1千萬億分之一米)。盡管模擬宇宙的總大小僅為5.6飛秒，但它足以研究中子的弱死亡并減少計算中的不確定性。Walker-Loud表示，這個格子是團隊預計他們需要改進計算所需的最小格子，像Sierra和Summit這樣的系統(tǒng)將能夠使用更大的格子。

研究人員面臨的最大挑戰(zhàn)之一就是將他們的計算分成許多部分。

“我們的科學問題是一個統(tǒng)計問題，需要運行數(shù)千到數(shù)百萬個小型工作，但這不是在大型超級計算機上部署工作的有效方式，”Walker-Loud說。

計算的整體效率是通過QUDA實現(xiàn)的，QUDA是針對GPU優(yōu)化的QCD庫，由KID Clark和NVIDIA的同事以及格子QCD研究社區(qū)開發(fā)。QUDA被集成到Chroma代碼中，該代碼由Jefferson Lab的BálintJoó和其他與USQCD合作開發(fā)的人員開發(fā)，用于為大型計算機開發(fā)晶格QCD計算。團隊將自己的代碼與這些優(yōu)化的庫一起包裝成lalibe以連接Chroma。Lalibe的發(fā)展由LLNL的Arjun Gambhir領導。

Lattice QCD研究人員多年來一直在利用GPU，但Summit和Sierra通過將單個節(jié)點上的多個GPU與本地內存相連而不是將單個GPU與單個CPU配對來提高計算能力。

“節(jié)點上的GPU比節(jié)點到節(jié)點通信具有更快的通信帶寬。我們在較少數(shù)量的節(jié)點上解決更大的問題，“Walker-Loud說。“根據(jù)這些Gordon Bell的運行情況，只需2周即可生成6 PB的數(shù)據(jù)。這對我們目前的生產模式來說無法管理。“

為了管理工作和數(shù)據(jù)的預期10倍增長因素，該團隊已將其由Jülich研究中心的Evan Berkowitz開發(fā)的Bash經理METAQ升級為名為MPI_JM的C ++版本。MPI_JM的發(fā)展由加州大學伯克利分校的Ken McElvain領導。

METAQ和MPI_JM管理器都是系統(tǒng)批處理調度程序和應用程序作業(yè)腳本之間的中間層，使團隊能夠更有效地將數(shù)十萬個任務捆綁到一個接一個運行的幾百個作業(yè)中。

在具有超過4,000個節(jié)點的超級計算機上，在房間兩側的節(jié)點之間拆分作業(yè)會浪費寶貴的通信時間。MPI_JM庫對節(jié)點進行排序，以最大化將任務放置在系統(tǒng)上相鄰節(jié)點上的概率。

除了更有效地管理這些作業(yè)外，MPI_JM還允許用戶將“僅CPU”任務放在與GPU密集型工作相同的計算節(jié)點上，而不會相互干擾任務。對于中子壽命的計算，這可以節(jié)省項目計算時間的10%到20%，因為以前只占CPU的任務占用了整個節(jié)點。對于將來更復雜的計算，節(jié)省的費用可能是兩倍或更多。

該團隊使用MPI_JM將4,224個節(jié)點擴展到Sierra的4,224個節(jié)點，使用METAQ在Summit上擴展到1,024個節(jié)點，在較大的Sierra運行中達到20 petaflops - 這種類型的晶格QCD計算的顯著性能飛躍。該團隊預計會擴展到Summit上的許多節(jié)點可以實現(xiàn)高達30 petaflops的性能。

標簽：

免責聲明：本文由用戶上傳，如有侵權請聯(lián)系刪除！