C114通信網(wǎng)  |  通信人家園

資訊
2025/4/21 16:16

華為:引領(lǐng)智算中心光互聯(lián)革命,DC-OXC以光為基改寫全球AI競合規(guī)則

C114通信網(wǎng)  蔣均牧

C114訊 4月21日專稿(蔣均牧)當大模型參數(shù)量突破萬億級、智算集群規(guī)模向百萬卡邁進,智算中心作為數(shù)字經(jīng)濟的核心基礎(chǔ)設(shè)施,正面臨前所未有的挑戰(zhàn)與機遇。如何以更低的功耗承載更高的帶寬,如何以更靈活的架構(gòu)支撐動態(tài)的算力需求,如何以更可靠的聯(lián)接保障持續(xù)的訓練?答案,或許就藏在光互聯(lián)技術(shù)的革新中。

就在4月17日下午舉辦的“超大規(guī)模智算中心:1.6T時代的全光互聯(lián)”上,華為光產(chǎn)品線專家劉曉妮系統(tǒng)闡述了智算中心光互聯(lián)的演進趨勢與華為創(chuàng)新成果。她指出,谷歌作為行業(yè)先行者,已在數(shù)據(jù)中心網(wǎng)絡(luò)DCN)核心層和智算參數(shù)面規(guī)模化部署全光交叉(OCS),完成了90%的替代,并推動OCS從“單點突破”走向“全局重構(gòu)”。而華為推出的數(shù)據(jù)中心全光交叉(DC-OXC)解決方案,通過光電混合架構(gòu)與動態(tài)拓撲調(diào)度能力,為超萬卡集群的彈性擴展與高效協(xié)同提供了全新范式。

從谷歌實踐,看光互聯(lián)核心價值

LightCounting數(shù)據(jù)顯示,2024年以太網(wǎng)光模塊市場規(guī)模突破100億美元,同比增長近100%,未來五年仍將保持15%~18%的復合增速。增長背后,是超大規(guī)模集群對高速互聯(lián)的極致追求:英偉達Rubin架構(gòu)下,288卡GPU集群需5184個1.6T光模塊,傳統(tǒng)電互聯(lián)在密度與功耗上漸漸變得難以為繼。

谷歌的探索為行業(yè)提供了重要參考,其Jupiter網(wǎng)絡(luò)通過OCS替代傳統(tǒng)電交換機核心層,實現(xiàn)了跨代際網(wǎng)絡(luò)的高效互通。劉曉妮援引谷歌公開數(shù)據(jù)指出,OCS的引入使DCN核心層不再受電芯片迭代周期束縛,網(wǎng)絡(luò)拓撲可按流量親和性動態(tài)調(diào)整,效率提升10倍,停機時間減少98%,同時降低40%功耗與30%設(shè)備投資。

劉曉妮強調(diào),OCS不僅是聯(lián)接工具,更是算力資源動態(tài)調(diào)度的核心樞紐。谷歌將OCS下沉至智算參數(shù)面,基于3D-Torus架構(gòu)構(gòu)建TPU集群。以TPU v4為例,64個機柜通過OCS互聯(lián),形成4096卡的超大規(guī)模算力單元,故障隔離效率提升50倍,集群可用性從8%躍升至75%。谷歌TPU v7延續(xù)了這一架構(gòu),并在6000卡集群中完成PaLM大模型訓練,驗證了光互聯(lián)在超大規(guī)模AI訓練中的可行性。

華為DC-OXC:破解智算中心三大困局

隨著智算集群規(guī)模的迅速膨脹,全球智算中心建設(shè)普遍面臨著“規(guī)模受限、可靠性衰減、效率瓶頸”三大挑戰(zhàn)。有鑒于此,華為推出了DC-OXC解決方案,以三層創(chuàng)新實現(xiàn)破局。

首先是架構(gòu)之變,從“堆疊枷鎖”到“樂高式擴展”:傳統(tǒng)CLOS架構(gòu)受限于電交換機端口密度,萬卡集群需多層堆疊,導致時延與擁塞點激增。華為DC-OXC在頂層構(gòu)建全光交換平面,支持計算單元(POD)按需分批接入,理論可擴展至百萬卡規(guī)模。“光層一次規(guī)劃、電層分步擴容”的模式,既降低初期投資門檻,又避免重復布線帶來的資源浪費。

可靠性躍升,光模塊故障削減92%的“零妥協(xié)”:據(jù)統(tǒng)計,光模塊故障占智算網(wǎng)絡(luò)故障的92.3%,而華為DC-OXC采用免光模塊設(shè)計,通過MEMS微鏡陣列實現(xiàn)全光交換,端口可靠性提升20%以上。實測數(shù)據(jù)顯示,光電混合架構(gòu)下,網(wǎng)絡(luò)平均無故障時間(MTBF)較全電方案優(yōu)化超20%,年停機時間減少25%。華為CloudMatrix 384超節(jié)點更將斷點恢復時間壓至10秒級,支撐大模型訓練穩(wěn)定運行40天。

效率優(yōu)化,跳數(shù)減1,性能增益3.5%:在時延敏感型場景中,華為DC-OXC通過扁平化架構(gòu)將傳輸跳數(shù)從5跳降至4跳,單跳時延降低5~6μs。仿真和實測顯示,可助力GPT-MoE等模型訓練任務(wù)吞吐量提升1.5%~3.5%,小規(guī)模集群實測性能增益達2%。在推理場景下,一次All-to-All通信時延減少6.57μs,58層模型靜態(tài)時延累計降低762μs,10ms場景性能可提升7%。此外,光互聯(lián)的物理隔離特性還為多租戶場景提供了更高的安全性和靈活性。

從谷歌的OCS規(guī);瘜嵺`,到華為DC-OXC的多場景突破,光互聯(lián)正從“技術(shù)選項”升級為“戰(zhàn)略必選”;诠怆娀旌霞軜(gòu)的“穩(wěn)定光底座”將成為平衡規(guī)模、效率與成本的核心基礎(chǔ)設(shè)施,而華為通過端到端光技術(shù)創(chuàng)新,為全球智算中心提供了一條清晰、高效的演進路徑——以光為基,改寫全球AI競合的規(guī)則。

給作者點贊
0 VS 0
寫得不太好

版權(quán)說明:C114刊載的內(nèi)容,凡注明來源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。編譯類文章僅出于傳遞更多信息之目的,不代表證實其描述或贊同其觀點;翻譯質(zhì)量問題請指正

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141