2025/4/21 16:16

華為：引領(lǐng)智算中心光互聯(lián)革命，DC-OXC以光為基改寫全球AI競合規(guī)則

C114通信網(wǎng) 蔣均牧

C114訊 4月21日專稿（蔣均牧）當大模型參數(shù)量突破萬億級、智算集群規(guī)模向百萬卡邁進，智算中心作為數(shù)字經(jīng)濟的核心基礎(chǔ)設(shè)施，正面臨前所未有的挑戰(zhàn)與機遇。如何以更低的功耗承載更高的帶寬，如何以更靈活的架構(gòu)支撐動態(tài)的算力需求，如何以更可靠的聯(lián)接保障持續(xù)的訓練？答案，或許就藏在光互聯(lián)技術(shù)的革新中。

就在4月17日下午舉辦的“超大規(guī)模智算中心：1.6T時代的全光互聯(lián)”上，華為光產(chǎn)品線專家劉曉妮系統(tǒng)闡述了智算中心光互聯(lián)的演進趨勢與華為創(chuàng)新成果。她指出，谷歌作為行業(yè)先行者，已在數(shù)據(jù)中心網(wǎng)絡(luò)（DCN）核心層和智算參數(shù)面規(guī)模化部署全光交叉（OCS），完成了90%的替代，并推動OCS從“單點突破”走向“全局重構(gòu)”。而華為推出的數(shù)據(jù)中心全光交叉（DC-OXC）解決方案，通過光電混合架構(gòu)與動態(tài)拓撲調(diào)度能力，為超萬卡集群的彈性擴展與高效協(xié)同提供了全新范式。

從谷歌實踐，看光互聯(lián)核心價值

LightCounting數(shù)據(jù)顯示，2024年以太網(wǎng)光模塊市場規(guī)模突破100億美元，同比增長近100%，未來五年仍將保持15%~18%的復合增速。增長背后，是超大規(guī)模集群對高速互聯(lián)的極致追求：英偉達Rubin架構(gòu)下，288卡GPU集群需5184個1.6T光模塊，傳統(tǒng)電互聯(lián)在密度與功耗上漸漸變得難以為繼。

谷歌的探索為行業(yè)提供了重要參考，其Jupiter網(wǎng)絡(luò)通過OCS替代傳統(tǒng)電交換機核心層，實現(xiàn)了跨代際網(wǎng)絡(luò)的高效互通。劉曉妮援引谷歌公開數(shù)據(jù)指出，OCS的引入使DCN核心層不再受電芯片迭代周期束縛，網(wǎng)絡(luò)拓撲可按流量親和性動態(tài)調(diào)整，效率提升10倍，停機時間減少98%，同時降低40%功耗與30%設(shè)備投資。

劉曉妮強調(diào)，OCS不僅是聯(lián)接工具，更是算力資源動態(tài)調(diào)度的核心樞紐。谷歌將OCS下沉至智算參數(shù)面，基于3D-Torus架構(gòu)構(gòu)建TPU集群。以TPU v4為例，64個機柜通過OCS互聯(lián)，形成4096卡的超大規(guī)模算力單元，故障隔離效率提升50倍，集群可用性從8%躍升至75%。谷歌TPU v7延續(xù)了這一架構(gòu)，并在6000卡集群中完成PaLM大模型訓練，驗證了光互聯(lián)在超大規(guī)模AI訓練中的可行性。

華為DC-OXC：破解智算中心三大困局

隨著智算集群規(guī)模的迅速膨脹，全球智算中心建設(shè)普遍面臨著“規(guī)模受限、可靠性衰減、效率瓶頸”三大挑戰(zhàn)。有鑒于此，華為推出了DC-OXC解決方案，以三層創(chuàng)新實現(xiàn)破局。

首先是架構(gòu)之變，從“堆疊枷鎖”到“樂高式擴展”：傳統(tǒng)CLOS架構(gòu)受限于電交換機端口密度，萬卡集群需多層堆疊，導致時延與擁塞點激增。華為DC-OXC在頂層構(gòu)建全光交換平面，支持計算單元（POD）按需分批接入，理論可擴展至百萬卡規(guī)模。“光層一次規(guī)劃、電層分步擴容”的模式，既降低初期投資門檻，又避免重復布線帶來的資源浪費。

可靠性躍升，光模塊故障削減92%的“零妥協(xié)”：據(jù)統(tǒng)計，光模塊故障占智算網(wǎng)絡(luò)故障的92.3%，而華為DC-OXC采用免光模塊設(shè)計，通過MEMS微鏡陣列實現(xiàn)全光交換，端口可靠性提升20%以上。實測數(shù)據(jù)顯示，光電混合架構(gòu)下，網(wǎng)絡(luò)平均無故障時間（MTBF）較全電方案優(yōu)化超20%，年停機時間減少25%。華為CloudMatrix 384超節(jié)點更將斷點恢復時間壓至10秒級，支撐大模型訓練穩(wěn)定運行40天。

效率優(yōu)化，跳數(shù)減1，性能增益3.5%：在時延敏感型場景中，華為DC-OXC通過扁平化架構(gòu)將傳輸跳數(shù)從5跳降至4跳，單跳時延降低5~6μs。仿真和實測顯示，可助力GPT-MoE等模型訓練任務(wù)吞吐量提升1.5%~3.5%，小規(guī)模集群實測性能增益達2%。在推理場景下，一次All-to-All通信時延減少6.57μs，58層模型靜態(tài)時延累計降低762μs，10ms場景性能可提升7%。此外，光互聯(lián)的物理隔離特性還為多租戶場景提供了更高的安全性和靈活性。

從谷歌的OCS規(guī)�；瘜嵺`，到華為DC-OXC的多場景突破，光互聯(lián)正從“技術(shù)選項”升級為“戰(zhàn)略必選”�；诠怆娀旌霞軜�(gòu)的“穩(wěn)定光底座”將成為平衡規(guī)模、效率與成本的核心基礎(chǔ)設(shè)施，而華為通過端到端光技術(shù)創(chuàng)新，為全球智算中心提供了一條清晰、高效的演進路徑——以光為基，改寫全球AI競合的規(guī)則。

給作者點贊

0 VS 0

寫得不太好

版權(quán)說明：C114刊載的內(nèi)容，凡注明來源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標注作者信息和本站來源。編譯類文章僅出于傳遞更多信息之目的，不代表證實其描述或贊同其觀點；翻譯質(zhì)量問題請指正。

相關(guān)鏈接

華為網(wǎng)絡(luò)DCN 以太網(wǎng)交換機

浙江電信攜手浙江聯(lián)通、華為完成1.8GHz+2.1GHz雙頻8T8R創(chuàng)新技術(shù)驗證，上行達1.1Gbps
C114通信網(wǎng) 4-21
中國移動攜手華為打通基于“滿血版”DeepSeek的新通話首呼
C114通信網(wǎng) 4-18
廣東聯(lián)通攜手華為舉辦“5G-A快叻智算之城”發(fā)布會，以創(chuàng)新助力韶關(guān)數(shù)字經(jīng)濟新躍升
C114通信網(wǎng) 4-18
性能再翻倍！科大訊飛聯(lián)合華為在“飛星一號”上實現(xiàn)MoE模型大規(guī)模專家并行集群推理性能飛躍
廠商供稿 4-18

華為：引領(lǐng)智算中心光互聯(lián)革命，DC-OXC以光為基改寫全球AI競合規(guī)則

華為：引領(lǐng)智算中心光互聯(lián)革命，DC-OXC以光為基改寫全球AI競合規(guī)則