使用超級(jí)計(jì)算機(jī)和并行處理技術(shù)來解決大型計(jì)算問題

2019-05-31 15:39:14 編輯：來源：

導(dǎo)讀高性能計(jì)算(HPC) - 使用超級(jí)計(jì)算機(jī)和并行處理技術(shù)來解決大型計(jì)算問題 - 在科學(xué)界非常有用。例如，美國(guó)能源部(DOE)布魯克海文國(guó)家實(shí)驗(yàn)室

高性能計(jì)算(HPC) - 使用超級(jí)計(jì)算機(jī)和并行處理技術(shù)來解決大型計(jì)算問題 - 在科學(xué)界非常有用。例如，美國(guó)能源部(DOE)布魯克海文國(guó)家實(shí)驗(yàn)室的科學(xué)家依靠HPC分析他們?cè)诂F(xiàn)場(chǎng)大型實(shí)驗(yàn)設(shè)施中收集的數(shù)據(jù)，并模擬過于昂貴或無法通過實(shí)驗(yàn)證明的復(fù)雜過程。

現(xiàn)代科學(xué)應(yīng)用，例如模擬粒子交互，通常需要聚合計(jì)算能力，用于數(shù)據(jù)傳輸?shù)母咚倬W(wǎng)絡(luò)，大量存儲(chǔ)器和高容量存儲(chǔ)能力的組合。需要HPC硬件和軟件的進(jìn)步來滿足這些要求。布魯克海文實(shí)驗(yàn)室計(jì)算科學(xué)計(jì)劃(CSI)的計(jì)算機(jī)和計(jì)算科學(xué)家以及數(shù)學(xué)家正在與物理學(xué)家，生物學(xué)家和其他領(lǐng)域科學(xué)家合作，以了解他們的數(shù)據(jù)分析需求，并提供加速科學(xué)發(fā)現(xiàn)過程的解決方案。

HPC行業(yè)領(lǐng)導(dǎo)者

幾十年來，英特爾公司一直是開發(fā)HPC技術(shù)的領(lǐng)導(dǎo)者之一。2016年，該公司發(fā)布了英特爾至強(qiáng)PhiTM處理器(以前代號(hào)為“Knights Landing”)，這是第二代HPC架構(gòu)，每個(gè)芯片集成了許多處理單元(核心)。同年，英特爾發(fā)布了英特爾Omni-Path Architecture高速通信網(wǎng)絡(luò)。為了使現(xiàn)代超級(jí)計(jì)算機(jī)中的5,000到100,000個(gè)單獨(dú)的計(jì)算機(jī)或節(jié)點(diǎn)一起工作以解決問題，它們必須能夠在最小化網(wǎng)絡(luò)延遲的同時(shí)快速地彼此通信。

在這些發(fā)布后不久，日本最大的綜合研究機(jī)構(gòu)Brookhaven Lab和RIKEN匯集了他們的資源，購買了一臺(tái)由Xeon Phi處理器和兩個(gè)獨(dú)立網(wǎng)絡(luò)連接或軌道構(gòu)建的小型144節(jié)點(diǎn)并行計(jì)算機(jī)，采用英特爾的Omni-Path架構(gòu)。該計(jì)算機(jī)安裝在Brookhaven Lab的科學(xué)數(shù)據(jù)和計(jì)算中心，該中心是CSI的一部分。

隨著安裝完成，物理學(xué)家Chulwoo Jung和CSI計(jì)算科學(xué)家布魯克海文實(shí)驗(yàn)室的Meifeng Lin; 理論物理學(xué)家Christoph Lehner，布魯克海文實(shí)驗(yàn)室和德國(guó)雷根斯堡大學(xué)的聯(lián)合任命; 諾曼基督，哥倫比亞大學(xué)計(jì)算理論物理的Ephraim Gildor教授; 愛丁堡大學(xué)的理論粒子物理學(xué)家Peter Boyle與英特爾的軟件工程師密切合作，為兩種科學(xué)應(yīng)用優(yōu)化網(wǎng)絡(luò)軟件：粒子物理學(xué)和機(jī)器學(xué)習(xí)。

“自2015年宣布推出以來，CSI一直對(duì)英特爾Omni-Path架構(gòu)非常感興趣，”林說。“英特爾工程師的專業(yè)知識(shí)對(duì)于實(shí)施軟件優(yōu)化至關(guān)重要，這使我們能夠充分利用這一高性能通信網(wǎng)絡(luò)滿足我們的特定應(yīng)用需求。”

科學(xué)應(yīng)用的網(wǎng)絡(luò)要求

對(duì)于許多科學(xué)應(yīng)用程序，在并行計(jì)算機(jī)上運(yùn)行一個(gè)等級(jí)(區(qū)分一個(gè)進(jìn)程與另一個(gè)進(jìn)程的值)或每個(gè)節(jié)點(diǎn)可能有幾個(gè)等級(jí)比每個(gè)節(jié)點(diǎn)運(yùn)行多個(gè)等級(jí)要高效得多。每個(gè)等級(jí)通常作為獨(dú)立過程執(zhí)行，該過程通過使用稱為消息傳遞接口(MPI)的標(biāo)準(zhǔn)協(xié)議與其他等級(jí)通信。

例如，尋求理解早期宇宙形成的物理學(xué)家基于量子色動(dòng)力學(xué)理論(QCD)進(jìn)行粒子相互作用的復(fù)雜數(shù)值模擬。這個(gè)理論解釋了稱為夸克和膠子的基本粒子如何相互作用形成我們直接觀察到的粒子，如質(zhì)子和中子。物理學(xué)家通過使用代表空間三維的超級(jí)計(jì)算機(jī)和等間距點(diǎn)的四維(4-D)格子中的時(shí)間維度來模擬這些相互作用，類似于晶體。晶格被分成較小的相同子體積。對(duì)于格子QCD計(jì)算，需要在不同子體積之間的邊界處交換數(shù)據(jù)。如果每個(gè)節(jié)點(diǎn)有多個(gè)等級(jí)，則每個(gè)等級(jí)承載不同的4-D子卷。從而，

量子色動(dòng)力學(xué)計(jì)算的晶格示意圖。網(wǎng)格上的交叉點(diǎn)表示夸克值，而它們之間的線表示膠子值。圖片來源：布魯克海文國(guó)家實(shí)驗(yàn)室

推動(dòng)科學(xué)發(fā)展的軟件優(yōu)化

為了優(yōu)化用于這種計(jì)算密集型科學(xué)應(yīng)用的網(wǎng)絡(luò)軟件，該團(tuán)隊(duì)專注于提高單一級(jí)別的速度。

“我們使單個(gè)MPI等級(jí)的代碼運(yùn)行得更快，因此不需要增加MPI等級(jí)來處理每個(gè)節(jié)點(diǎn)的大量通信負(fù)載，”Christ解釋說。

MPI級(jí)別中的軟件利用Xeon Phi節(jié)點(diǎn)上可用的線程并行性。線程并行是指在共享一些計(jì)算資源的同時(shí)執(zhí)行遵循相同指令的多個(gè)進(jìn)程或線程。通過優(yōu)化的軟件，團(tuán)隊(duì)能夠在單個(gè)級(jí)別上創(chuàng)建多個(gè)通信通道，并使用不同的線程驅(qū)動(dòng)這些通道。

MPI軟件現(xiàn)已設(shè)置為科學(xué)應(yīng)用程序，可以更快地運(yùn)行并充分利用Intel Omni-Path通信硬件。但是在實(shí)施軟件之后，團(tuán)隊(duì)成員遇到了另一個(gè)挑戰(zhàn)：在每次運(yùn)行中，一些節(jié)點(diǎn)將不可避免地緩慢地通信并保持其他節(jié)點(diǎn)。

他們將這個(gè)問題追溯到Linux(大多數(shù)HPC平臺(tái)使用的操作系統(tǒng))管理內(nèi)存的方式。在默認(rèn)模式下，Linux將內(nèi)存劃分為稱為頁面的小塊。通過重新配置Linux以使用大(“巨大”)內(nèi)存頁面，他們解決了這個(gè)問題。增加頁面大小意味著映射應(yīng)用程序使用的虛擬地址空間所需的頁面更少。因此，可以更快地訪問內(nèi)存。

通過軟件增強(qiáng)功能，團(tuán)隊(duì)成員分析了安裝在英特爾雙軌“Diamond”集群和分布式研究高級(jí)計(jì)算(DiRAC)單軌集群中的英特爾Omni-Path架構(gòu)和英特爾至強(qiáng)融核處理器計(jì)算節(jié)點(diǎn)的性能。英國(guó)。對(duì)于他們的分析，他們使用了兩種不同的科學(xué)應(yīng)用：粒子物理學(xué)和機(jī)器學(xué)習(xí)。對(duì)于這兩種應(yīng)用代碼，它們實(shí)現(xiàn)了近線速性能 - 理論上的最大數(shù)據(jù)傳輸速率。這種改進(jìn)表示網(wǎng)絡(luò)性能的提高是原始代碼的4到10倍。

“由于布魯克海文，愛丁堡和英特爾之間的緊密合作，這些優(yōu)化在全球范圍內(nèi)以新版本的英特爾Omni-Path MPI實(shí)施和配置Linux內(nèi)存管理的最佳實(shí)踐協(xié)議提供，”Christ說。“在布魯克海文實(shí)驗(yàn)室的Xeon Phi計(jì)算機(jī)和愛丁堡大學(xué)的新的，甚至更大的800節(jié)點(diǎn)Hewlett Packard Enterprise”超立方體“計(jì)算機(jī)上執(zhí)行物理代碼的五倍加速因素現(xiàn)在正在得到很好的利用正在進(jìn)行的關(guān)于粒子物理學(xué)基本問題的研究。“

標(biāo)簽：超級(jí)計(jì)算機(jī)