2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
近日超算集群Frontier研究人員在AMD硬件平臺上集合了37888個MI250X GPU和9472個Epyc 7A53 CPU的環(huán)境,并且僅使用其中8%左右的GPU,訓(xùn)練了一個GPT-3.5規(guī)模的模型,展示了如何用非英偉達(dá)生態(tài)完成大規(guī)模訓(xùn)練的技術(shù)框架和細(xì)節(jié),披露了英偉達(dá)的技術(shù)護(hù)城河。
研究人員使用ROCM軟件平臺在AMD硬件上成功突破了分布式訓(xùn)練模型的難點(diǎn)。在研究人員看來,訓(xùn)練一萬億參數(shù)規(guī)模的LLM最棘手的挑戰(zhàn)是對內(nèi)存的需求,至少需要14TB的內(nèi)存才可以滿足這樣的需求。單塊GPU最大的內(nèi)存只有64GB,這意味著需要并行使用多個AMD MI250X GPU才可以滿足要求,多塊GPU并行對GPU的通信要求非常高,如果不能利用GPU之間的帶寬通信,將會浪費(fèi)大部分的GPU計算資源。研究人員將基于CUDA的代碼轉(zhuǎn)換為HIP代碼,預(yù)構(gòu)建DeepSpeed ops,將縮放效率做到87%,完成很多工作之后,終于訓(xùn)練出了超萬億參數(shù)LLM規(guī)模的成果。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)