近日,在中國(guó)移動(dòng)集團(tuán)公司指導(dǎo)下,中國(guó)移動(dòng)研究院聯(lián)合中國(guó)移動(dòng)黑龍江公司在全球運(yùn)營(yíng)商最大單集群智算中心——中國(guó)移動(dòng)(哈爾濱)數(shù)據(jù)中心完成首個(gè)面向PP(流水線并行)訓(xùn)練的OTN承載百公里級(jí)智算分布式協(xié)同現(xiàn)網(wǎng)技術(shù)試驗(yàn)。本次技術(shù)試驗(yàn)首次完成了基于800G OTN的104km跨智算集群分布式PP訓(xùn)練,實(shí)現(xiàn)了等同單節(jié)點(diǎn)訓(xùn)練效率98%以上的高效協(xié)同訓(xùn)練,是業(yè)界首次百公里級(jí)跨集群PP訓(xùn)練可行性技術(shù)驗(yàn)證探索。
隨著智算集群規(guī)模向超萬卡演進(jìn),單智算節(jié)點(diǎn)的持續(xù)擴(kuò)容將面臨電力供應(yīng)、機(jī)房空間的巨大挑戰(zhàn),而且智算中心分地域、分時(shí)期、分階段建設(shè)現(xiàn)象較為普遍。智算分布式協(xié)同是破解單節(jié)點(diǎn)集中部署受限、算力資源孤島等難題的重要解決方案。而如何將分布式部署的智算節(jié)點(diǎn)進(jìn)行高效的互聯(lián),充分發(fā)揮算力資源的最大效能,是業(yè)界亟需研究的關(guān)鍵問題。OTN具有大帶寬、穩(wěn)定低時(shí)延、高可靠等傳輸和組網(wǎng)技術(shù)特點(diǎn),已廣泛應(yīng)用于骨干傳送和城域傳送網(wǎng)絡(luò),是構(gòu)建跨集群分布式訓(xùn)練的潛在互聯(lián)技術(shù)。而分布式智算對(duì)光網(wǎng)絡(luò)的新需求與采用的DP(數(shù)據(jù)并行)、PP等訓(xùn)練并行模式直接相關(guān),其中,PP是基礎(chǔ)大模型訓(xùn)練的最常用并行方式之一,相比DP具有通信頻次高、通信時(shí)間不可全部掩蓋等更高難度,其拉遠(yuǎn)可行性在業(yè)界存在較大分歧。
中國(guó)移動(dòng)研究院面向智算分布式協(xié)同場(chǎng)景持續(xù)開展技術(shù)創(chuàng)新,完成業(yè)界首個(gè)面向PP訓(xùn)練的OTN承載百公里級(jí)智算分布式協(xié)同技術(shù)現(xiàn)網(wǎng)試驗(yàn)。在試驗(yàn)中基于800G OTN互聯(lián)的兩個(gè)智算集群上運(yùn)行700億級(jí)參數(shù)的大型基礎(chǔ)語言模型,在64張GPU卡、4個(gè)PP域分別在相距104km的兩個(gè)節(jié)點(diǎn)部署場(chǎng)景下,實(shí)現(xiàn)了等同單節(jié)點(diǎn)訓(xùn)練效率98%以上的高效協(xié)同訓(xùn)練,是業(yè)界首次驗(yàn)證了OTN承載基于PP的百公里跨集群訓(xùn)練可行性,為分布式智算技術(shù)演進(jìn)提供了全新技術(shù)路線和詳實(shí)試驗(yàn)數(shù)據(jù)。此外,還創(chuàng)新提出了面向智算分布式協(xié)同的OTN無損倒換技術(shù)方案,通過芯片級(jí)算法實(shí)現(xiàn)傳輸鏈路斷纖、誤碼時(shí)訓(xùn)練效率的無損和無感知。
自2023年起,中國(guó)移動(dòng)研究院聯(lián)合國(guó)內(nèi)合作伙伴,開展跨集群分布式訓(xùn)練互聯(lián)技術(shù)攻關(guān),創(chuàng)新提出基于OTN的智算分布式協(xié)同架構(gòu),首次完成2-100公里不同距離多場(chǎng)景下OTN承載分布式智算技術(shù)試驗(yàn),相關(guān)成果在光通信頂會(huì)ECOC發(fā)表。中國(guó)移動(dòng)后續(xù)將圍繞智算分布式協(xié)同深入推進(jìn)關(guān)鍵技術(shù)攻關(guān)、原型研發(fā)與試驗(yàn)驗(yàn)證,探索分布式智算中心新模式。