C114訊 5月25日消息(九九)5月23日,2024中國(guó)高質(zhì)量發(fā)展論壇的第四場(chǎng)線(xiàn)上論壇——“AI時(shí)代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢(shì)”順利舉行。論壇邀請(qǐng)電信運(yùn)營(yíng)商、互聯(lián)網(wǎng)服務(wù)商、云計(jì)算廠商、模塊芯片商、科研院所、業(yè)內(nèi)專(zhuān)家共聚一堂,圍繞熱點(diǎn)話(huà)題深入探討光互聯(lián)和全光交換的應(yīng)用及其面臨的機(jī)遇和挑戰(zhàn)。
中國(guó)移動(dòng)研究院基礎(chǔ)網(wǎng)絡(luò)技術(shù)研究所副所長(zhǎng)程偉強(qiáng)在主題演講中表示,全球智能算力需求快速增長(zhǎng),亟需構(gòu)建標(biāo)準(zhǔn)統(tǒng)一、技術(shù)領(lǐng)先、軟硬協(xié)同、兼容開(kāi)放的新型智算中心(NICC)技術(shù)體系。其中,智算中心網(wǎng)絡(luò)用于連接CPU、GPU、內(nèi)存等池化異構(gòu)算力資源,貫穿數(shù)據(jù)計(jì)算、存儲(chǔ)全流程,網(wǎng)絡(luò)性能增強(qiáng)對(duì)提升智算中心整體算力水平具有關(guān)鍵意義。
程偉強(qiáng)介紹,當(dāng)前業(yè)界智算中心高性能網(wǎng)絡(luò)創(chuàng)新主要分為兩個(gè)方向,一是基于現(xiàn)有以太網(wǎng)優(yōu)化,二是革新底層以太網(wǎng)方案。中國(guó)公司主導(dǎo)的全調(diào)度以太網(wǎng)(GSE)和美國(guó)公司主導(dǎo)的超級(jí)以太網(wǎng)(UE)都以革新以太網(wǎng)轉(zhuǎn)發(fā)機(jī)制作為核心,并進(jìn)一步優(yōu)化各層協(xié)議棧,推動(dòng)網(wǎng)絡(luò)芯片底層邏輯架構(gòu)支持,突破無(wú)損以太性能瓶頸。
程偉強(qiáng)進(jìn)一步介紹,全調(diào)度以太網(wǎng)(GSE)技術(shù)體系能夠最大限度兼容以太網(wǎng)生態(tài),從四層(物理層、鏈路層、網(wǎng)絡(luò)層、傳輸層)+一體(管理和運(yùn)維體系)等幾個(gè)層級(jí)進(jìn)行優(yōu)化和增強(qiáng),構(gòu)建無(wú)阻塞、高帶寬、低時(shí)延的新型智算中心網(wǎng)絡(luò),形成標(biāo)準(zhǔn)開(kāi)放的技術(shù)體系,助力AI產(chǎn)業(yè)發(fā)展。
當(dāng)前,基于GSE的以太網(wǎng)技術(shù)路線(xiàn)逐漸形成產(chǎn)業(yè)共識(shí),高帶寬、高性能、高可靠、高安全的以太網(wǎng)助力智算中心互聯(lián),提升智算中心網(wǎng)絡(luò)性能和整體算力水平。
在高帶寬方面,AIGC推動(dòng)B400G技術(shù)發(fā)展,800GE將成為智算中心組網(wǎng)的重要代際節(jié)點(diǎn)。IEEE 800G標(biāo)準(zhǔn)進(jìn)展順利,802.3df(8x100G)已發(fā)布,802.3dj(4x200G和800G相干)在快速推動(dòng)。中國(guó)移動(dòng)專(zhuān)家積極貢獻(xiàn),推動(dòng)實(shí)現(xiàn)了20km、40km、80km互通和共平臺(tái),并主導(dǎo)完成800GE 20km Objective立項(xiàng),是中國(guó)公司專(zhuān)家在IEEE的首個(gè)以太網(wǎng)基礎(chǔ)標(biāo)準(zhǔn)立項(xiàng)。
1.6Tb/s標(biāo)準(zhǔn)制定也已啟動(dòng),業(yè)界開(kāi)始積極布局。802.3dj重點(diǎn)關(guān)注1.6TE短距光標(biāo)準(zhǔn),PCS/FEC方案已確定,1.6TBASE-DR8(500m)和1.6TBASE-DR8-2(2km)光接口基礎(chǔ)參數(shù)已確定;OIF已領(lǐng)跑1.6T相干,同步開(kāi)展互操作的1600ZR和1600ZR+標(biāo)準(zhǔn)化,降低成本并加強(qiáng)行業(yè)間的協(xié)作,產(chǎn)業(yè)趨勢(shì)明朗。
在高性能方面,GSE創(chuàng)新以太網(wǎng)轉(zhuǎn)發(fā)機(jī)制,基于三大核心機(jī)制轉(zhuǎn)變:從“流”分發(fā)到“報(bào)文”分發(fā)、從“盲發(fā)+被動(dòng)控制”到“感知+主動(dòng)控制”、從“局部”決策到“全局”調(diào)度,實(shí)現(xiàn)高精度負(fù)載均衡、網(wǎng)絡(luò)層原生無(wú)損及低延遲。
程偉強(qiáng)指出,采用GSE分發(fā)技術(shù)后,有個(gè)特別的優(yōu)勢(shì)是,用相對(duì)小容量的交換芯片,構(gòu)建更大的GPU集群。因?yàn)镚SE采用了報(bào)文容器分發(fā)機(jī)制,對(duì)leaf上行端口速率需求降低,同等芯片容量下,leaf上行口的端口速率越小,組網(wǎng)規(guī)模越大,負(fù)載分擔(dān)鏈路更加散列,包均衡能力更優(yōu),更適配國(guó)產(chǎn)芯片大規(guī)模組網(wǎng)需求。以12.8T交換芯片構(gòu)建H100 GPU集群為例,
若采用傳統(tǒng)RoCE組網(wǎng),Spine交換機(jī)和Leaf交換機(jī)之間需要采用400GE接口互聯(lián),算力集群的最大規(guī)模僅能達(dá)到512張GPU卡;若采用GSE組網(wǎng),Spine交換機(jī)和Leaf交換機(jī)之間用100GE接口互聯(lián)即可,算力集群的最大規(guī)模能夠達(dá)到2048張GPU卡。也就是說(shuō),GSE用同樣大小的交換芯片可以組出4倍于RoCE網(wǎng)絡(luò)的集群,這個(gè)對(duì)于國(guó)內(nèi)交換芯片相對(duì)落后的情況尤其重要。
程偉強(qiáng)進(jìn)一步介紹了全調(diào)度以太網(wǎng)的技術(shù)優(yōu)勢(shì)和產(chǎn)業(yè)進(jìn)展:超大規(guī)模,極致的鏈路負(fù)載,同等芯片容量,GSE網(wǎng)絡(luò)可支持更大集群規(guī)模;超高性能,GSE網(wǎng)絡(luò)較RoCE網(wǎng)絡(luò)性能提升30%,提升大模型訓(xùn)練效率;超高可用,集中控制統(tǒng)一納管,高精度監(jiān)控“135”故障處理,保證集群可用性。目前,GSE推進(jìn)計(jì)劃已經(jīng)有40余家合作伙伴,多個(gè)GSE的芯片項(xiàng)目已經(jīng)在開(kāi)發(fā)過(guò)程中。
在高可靠方面,AI大模型網(wǎng)絡(luò)集群規(guī)模已達(dá)到萬(wàn)卡級(jí)別,模型訓(xùn)練耗時(shí)長(zhǎng)、成本高。鏈路異常導(dǎo)致訓(xùn)練中斷,造成算力的浪費(fèi)與成本的增加;萬(wàn)卡集群端口數(shù)超過(guò)幾萬(wàn),線(xiàn)路故障不可避免。來(lái)自相關(guān)廠商統(tǒng)計(jì)數(shù)據(jù),光鏈路異常頻發(fā),故障率約為0.1%~0.2%,平均每周近1起鏈路閃斷類(lèi)告警。
程偉強(qiáng)強(qiáng)調(diào),團(tuán)隊(duì)正在發(fā)展FlexLane技術(shù),這是基于以太網(wǎng)物理層彈性通道的高可靠保障技術(shù)。當(dāng)物理層檢測(cè)到lane故障后進(jìn)行快速故障隔離,可以有效減少大模型訓(xùn)練因模塊故障而重新load check piont的幾率,在智算中心場(chǎng)景有很好應(yīng)用前景。
在高安全方面,傳統(tǒng)網(wǎng)絡(luò)安全方案無(wú)法滿(mǎn)足智算中心網(wǎng)絡(luò)需求,IPSec、MACSec等安全方案應(yīng)用于智算網(wǎng)絡(luò)時(shí),難以兼容存量設(shè)備,無(wú)法覆蓋所有數(shù)據(jù)報(bào)文,引入較長(zhǎng)處理時(shí)延,增加大量封裝開(kāi)銷(xiāo),影響AI算效。
程偉強(qiáng)介紹,中國(guó)移動(dòng)提出的以太網(wǎng)物理層安全(PHYSec)架構(gòu)及關(guān)鍵技術(shù),具有四大特點(diǎn):一是協(xié)議透明,全加密。在物理層對(duì)比特流加密,保護(hù)所有幀頭部,掩蓋幀長(zhǎng)度、幀發(fā)送頻率。二是隨流安全,低時(shí)延。隨流加密,解密時(shí)延全掩蓋(~20ns),對(duì)AI訓(xùn)練或推理基本無(wú)影響。三是不占帶寬,低開(kāi)銷(xiāo)。基于物理層原生機(jī)制承載協(xié)議,不占用用戶(hù)帶寬。四是兼容存量,易部署?苫赑HY芯片或光模塊DSP芯片實(shí)現(xiàn),安全可插拔,支持存量網(wǎng)絡(luò)平滑升級(jí)。
演講的最后,程偉強(qiáng)表示,歡迎大家加入GSE推進(jìn)計(jì)劃,共同推動(dòng)中國(guó)智算中心網(wǎng)絡(luò)的技術(shù)發(fā)展,構(gòu)建AI網(wǎng)絡(luò)的中國(guó)方案。