AI系統(tǒng)可以在數(shù)千臺(tái)服務(wù)器上優(yōu)化分配工作負(fù)載從而降低成本

2019-08-26 17:01:03 編輯：來(lái)源：

導(dǎo)讀由麻省理工學(xué)院研究人員開發(fā)的一種新型系統(tǒng)自動(dòng)學(xué)習(xí)如何在數(shù)千臺(tái)服務(wù)器上安排數(shù)據(jù)處理操作 - 這項(xiàng)任務(wù)傳統(tǒng)上保留用于不精確的，人工設(shè)計(jì)

由麻省理工學(xué)院研究人員開發(fā)的一種新型系統(tǒng)自動(dòng)“學(xué)習(xí)”如何在數(shù)千臺(tái)服務(wù)器上安排數(shù)據(jù)處理操作 - 這項(xiàng)任務(wù)傳統(tǒng)上保留用于不精確的，人工設(shè)計(jì)的算法。這樣做可以幫助當(dāng)今耗電量大的數(shù)據(jù)中心更有效地運(yùn)行。

數(shù)據(jù)中心可以包含數(shù)萬(wàn)臺(tái)服務(wù)器，這些服務(wù)器不斷地從開發(fā)人員和用戶運(yùn)行數(shù)據(jù)處理任務(wù)。群集調(diào)度算法實(shí)時(shí)地在服務(wù)器之間分配傳入任務(wù)，以有效地利用所有可用的計(jì)算資源并快速完成工作。

然而，傳統(tǒng)上，人類根據(jù)一些基本指南(“政策”)和各種權(quán)衡來(lái)微調(diào)那些調(diào)度算法。例如，他們可以對(duì)算法進(jìn)行編碼以快速完成某些工作，或者在工作之間平均分配資源。但是工作負(fù)載 - 意味著組合任務(wù)的組合 - 具有各種規(guī)模。因此，人們幾乎不可能針對(duì)特定工作負(fù)載優(yōu)化其調(diào)度算法，因此，他們往往無(wú)法實(shí)現(xiàn)真正??的效率潛力。

麻省理工學(xué)院的研究人員將所有手動(dòng)編碼卸載到機(jī)器上。在SIGCOMM上發(fā)表的一篇論文中，他們描述了一個(gè)系統(tǒng)，該系統(tǒng)利用“ 強(qiáng)化學(xué)習(xí) ”(RL)，一種反復(fù)試驗(yàn)的機(jī)器學(xué)習(xí)技術(shù)，來(lái)定制特定服務(wù)器集群中特定工作負(fù)載的調(diào)度決策。

為此，他們構(gòu)建了可以訓(xùn)練復(fù)雜工作負(fù)載的新型RL技術(shù)。在培訓(xùn)中，系統(tǒng)嘗試了許多可能的方式來(lái)跨服務(wù)器分配傳入工作負(fù)載，最終在利用計(jì)算資源和快速處理速度方面找到最佳權(quán)衡。除了簡(jiǎn)單的指令，例如“最小化工作完成時(shí)間”之外，不需要人為干預(yù)。

與最好的手寫調(diào)度算法相比，研究人員的系統(tǒng)可以在高流量時(shí)間內(nèi)快速完成約20%到30%的工作，并且速度提高一倍。然而，大多數(shù)情況下，系統(tǒng)會(huì)學(xué)習(xí)如何有效地壓縮工作負(fù)載以減少浪費(fèi)。結(jié)果表明，該系統(tǒng)可以使數(shù)據(jù)中心使用更少的資源以更高的速度處理相同的工作負(fù)載。

“如果你有辦法使用機(jī)器進(jìn)行試驗(yàn)和錯(cuò)誤，他們可以嘗試不同的方式來(lái)安排工作，并自動(dòng)找出哪種策略比其他策略更好，”博士洪子子博士說(shuō)。電氣工程與計(jì)算機(jī)科學(xué)系(EECS)的學(xué)生。“這可以自動(dòng)提高系統(tǒng)性能。利用率的任何微小改進(jìn)，甚至1%，都可以為數(shù)據(jù)中心節(jié)省數(shù)百萬(wàn)美元和大量能源。”

“制定調(diào)度決策并不是萬(wàn)能的，”EECS教授兼計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室研究員(CSAIL)的合著者M(jìn)ohammad Alizadeh補(bǔ)充說(shuō)。“在現(xiàn)有系統(tǒng)中，這些是您必須預(yù)先決定的硬編碼參數(shù)。我們的系統(tǒng)會(huì)學(xué)習(xí)根據(jù)數(shù)據(jù)中心和工作負(fù)載調(diào)整其調(diào)度策略特性。”

通常，數(shù)據(jù)處理作業(yè)進(jìn)入數(shù)據(jù)中心，表示為“節(jié)點(diǎn)”和“邊緣”的圖形。每個(gè)節(jié)點(diǎn)代表一些需要完成的計(jì)算任務(wù)，其中節(jié)點(diǎn)越大，所需的計(jì)算能力越大。連接節(jié)點(diǎn)的邊緣將連接的任務(wù)鏈接在一起。調(diào)度算法基于各種策略將節(jié)點(diǎn)分配給服務(wù)器。

但傳統(tǒng)的RL系統(tǒng)并不習(xí)慣于處理這種動(dòng)態(tài)圖形。這些系統(tǒng)使用軟件“代理”來(lái)做出決策并接收反饋信號(hào)作為獎(jiǎng)勵(lì)。從本質(zhì)上講，它試圖最大化其對(duì)任何給定動(dòng)作的獎(jiǎng)勵(lì)，以在特定環(huán)境中學(xué)習(xí)理想行為。例如，他們可以幫助機(jī)器人學(xué)習(xí)執(zhí)行任務(wù)，例如通過(guò)與環(huán)境交互來(lái)拾取對(duì)象，但這涉及通過(guò)更容易設(shè)置的像素網(wǎng)格處理視頻或圖像。

為了構(gòu)建他們的基于RL的調(diào)度程序，稱為Decima，研究人員必須開發(fā)一個(gè)模型，可以處理圖形結(jié)構(gòu)的作業(yè)，并擴(kuò)展到大量的作業(yè)和服務(wù)器。他們的系統(tǒng)的“代理”是一種利用圖形神經(jīng)網(wǎng)絡(luò)的調(diào)度算法，通常用于處理圖形結(jié)構(gòu)數(shù)據(jù)。為了提出適合于調(diào)度的圖神經(jīng)網(wǎng)絡(luò)，他們實(shí)現(xiàn)了一個(gè)自定義組件，該組件跨圖中的路徑聚合信息 - 例如快速估計(jì)完成圖的給定部分所需的計(jì)算量。這對(duì)于作業(yè)調(diào)度很重要，因?yàn)?ldquo;子”(較低)節(jié)點(diǎn)在其“父”(上)節(jié)點(diǎn)完成之前無(wú)法開始執(zhí)行，

為了訓(xùn)練他們的RL系統(tǒng)，研究人員模擬了許多不同的圖形序列，模擬了進(jìn)入數(shù)據(jù)中心的工作量。然后，代理會(huì)決定如何將每個(gè)節(jié)點(diǎn)沿圖表分配給每個(gè)服務(wù)器。對(duì)于每個(gè)決策，組件根據(jù)其在特定任務(wù)中的表現(xiàn)來(lái)計(jì)算獎(jiǎng)勵(lì) - 例如最小化處理單個(gè)作業(yè)所花費(fèi)的平均時(shí)間。代理人繼續(xù)前進(jìn)，改進(jìn)決策，直到獲得最高獎(jiǎng)勵(lì)。

基線工作量

然而，一個(gè)問(wèn)題是，某些工作負(fù)載序列比其他工作負(fù)載序列更難處理，因?yàn)樗鼈兙哂懈蟮娜蝿?wù)或更復(fù)雜的結(jié)構(gòu)。這些將總是需要更長(zhǎng)的時(shí)間來(lái)處理 - 因此，獎(jiǎng)勵(lì)信號(hào)總是低于簡(jiǎn)單信號(hào)。但這并不一定意味著系統(tǒng)表現(xiàn)不佳：它可以在充滿挑戰(zhàn)的工作負(fù)載上度過(guò)美好時(shí)光，但仍然比更輕松的工作負(fù)載慢。難度的變化使得模型難以決定哪些行為是好的。

為了解決這個(gè)問(wèn)題，研究人員采用了一種稱為“基線”的技術(shù)。該技術(shù)采用具有大量變量的場(chǎng)景的平均值，并使用這些平均值作為比較未來(lái)結(jié)果的基線。在訓(xùn)練期間，他們計(jì)算了每個(gè)輸入序列的基線。然后，他們讓調(diào)度程序多次訓(xùn)練每個(gè)工作負(fù)載序列。接下來(lái)，系統(tǒng)采用針對(duì)相同輸入工作負(fù)載的所有決策的平均性能。該平均值是模型可以比較其未來(lái)決策的基線，以確定其決策是好還是壞。他們將這種新技術(shù)稱為“依賴于輸入的基線”。

研究人員表示，這種創(chuàng)新適用于許多不同的計(jì)算機(jī)系統(tǒng)。“這是在有影響環(huán)境的輸入過(guò)程的環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)的一般方法，并且您希望每個(gè)培訓(xùn)活動(dòng)都考慮一個(gè)輸入過(guò)程的樣本，”他說(shuō)。“幾乎所有計(jì)算機(jī)系統(tǒng)都處理不斷變化的環(huán)境。”

威斯康星大學(xué)麥迪遜分校的計(jì)算機(jī)科學(xué)教授Aditya Akella，他的團(tuán)隊(duì)設(shè)計(jì)了幾個(gè)高性能的調(diào)度員，發(fā)現(xiàn)MIT系統(tǒng)可以幫助進(jìn)一步改善他們自己的政策。“Decima可以更進(jìn)一步，找到[ 調(diào)度 ]優(yōu)化的機(jī)會(huì)，這些優(yōu)化過(guò)于繁重，無(wú)法通過(guò)手動(dòng)設(shè)計(jì)/調(diào)整過(guò)程實(shí)現(xiàn)，”Akella說(shuō)。“我們?cè)O(shè)計(jì)的調(diào)度程序在應(yīng)用程序性能和集群效率方面比生產(chǎn)中使用的技術(shù)有了顯著的改進(jìn)，但是我們可能實(shí)現(xiàn)的理想改進(jìn)仍然存在差距.Decima表明基于RL的方法可以發(fā)現(xiàn)[策略]這有助于進(jìn)一步縮小差距。我們的技術(shù)改進(jìn)了大約30%，

現(xiàn)在，他們的模型經(jīng)過(guò)模擬訓(xùn)練，試圖實(shí)時(shí)重建傳入的在線流量。接下來(lái)，研究人員希望在實(shí)時(shí)流量上訓(xùn)練模型，這可能會(huì)使服務(wù)器崩潰。因此，他們目前正在開發(fā)一種“安全網(wǎng)”，當(dāng)它即將導(dǎo)致系統(tǒng)崩潰時(shí)，它將停止系統(tǒng)。“我們認(rèn)為它是訓(xùn)練輪，”Alizadeh說(shuō)。“我們希望這個(gè)系統(tǒng)能夠不斷訓(xùn)練，但它有一定的訓(xùn)練輪，如果它太過(guò)分，我們可以確保它不會(huì)倒下。”

標(biāo)簽： AI系統(tǒng)