近日,公司打造的業(yè)界首個(gè)多DC分布式、非對稱、超百公里協(xié)同訓(xùn)練智算網(wǎng)絡(luò)在江蘇移動長三角云計(jì)算中心完成測試,在3DC總距離1000公里的場景下,跨域分布式訓(xùn)練性能達(dá)到單智算中心訓(xùn)練性能的95%以上,標(biāo)志著多DC協(xié)同訓(xùn)練技術(shù)落地驗(yàn)證可行,并逐步向商用邁進(jìn)。
算力是數(shù)字經(jīng)濟(jì)時(shí)代的核心基礎(chǔ)設(shè)施,對促進(jìn)經(jīng)濟(jì)增長,推動科技進(jìn)步以及滿足日益增長的數(shù)據(jù)處理需求具有至關(guān)重要的作用。隨著大模型訓(xùn)練需求的持續(xù)增長,算力需求和單地域(DC)的算力不匹配問題日益突出,將多地域(DC)內(nèi)的碎片算力集中起來提升算力利用率、訓(xùn)練更大的模型成了多智算中心算間網(wǎng)絡(luò)發(fā)展的必經(jīng)之路。
本次公司多DC分布式協(xié)同訓(xùn)練試點(diǎn)測試,通過3DC及以上的場景互聯(lián)、從對稱組網(wǎng)到非對稱組網(wǎng)、從環(huán)形組網(wǎng)到鏈型組網(wǎng),驗(yàn)證了多DC之間非對稱算力協(xié)同訓(xùn)練和百億、千億大模型在訓(xùn)練過程中鏈路中斷對訓(xùn)練性能的影響等,更加符合現(xiàn)網(wǎng)場景。試點(diǎn)測試結(jié)果表明,智算分布式協(xié)同訓(xùn)練解決方案已經(jīng)具備技術(shù)可行性。
本次試點(diǎn),通過3DC參數(shù)面拉遠(yuǎn)組網(wǎng),以單DC最優(yōu)性能配置為基線,使用Llama2-70B、GPT3-175B作為輸入模型,對比了跨DC協(xié)同不同參數(shù)的性能變化,測試了分布式智算集群對大模型訓(xùn)練性能影響的關(guān)鍵因素,支撐未來區(qū)域化智算集群商用可行性。該方案通過彈性靈活調(diào)度、廣域無損技術(shù)實(shí)現(xiàn)多個(gè)智算中心互聯(lián),滿足跨DC分布式智算集群靈活擴(kuò)展,支撐客戶大模型訓(xùn)練和按需部署。測試結(jié)果表明,三DC總距離千公里場景下,跨域分布式訓(xùn)練性能下降5%以內(nèi)。
未來,公司將攜手產(chǎn)業(yè)伙伴面向更大規(guī)模、更長距離的分布式智算網(wǎng)絡(luò)持續(xù)探索,堅(jiān)持走出一條符合產(chǎn)業(yè)需求的智算發(fā)展之路,提高數(shù)字經(jīng)濟(jì)時(shí)代整體產(chǎn)業(yè)的競爭力。