C114通信網(wǎng)  |  通信人家園

專題
2024/5/24 15:41

AI驅(qū)動(dòng)光互聯(lián)創(chuàng)新:阿里云陳欽談光模塊面臨挑戰(zhàn)與未來(lái)趨勢(shì)

C114通信網(wǎng)  邵鵬慧

C114訊 5月24日消息(邵鵬慧)昨日,CIOE中國(guó)光博會(huì)與C114通信網(wǎng)聯(lián)合舉辦的“2024中國(guó)光通信高質(zhì)量發(fā)展論壇”第四場(chǎng)——“AI時(shí)代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢(shì)”線上研討會(huì)順利召開(kāi)。

阿里云光網(wǎng)絡(luò)技術(shù)專家陳欽應(yīng)邀作了題為《AI網(wǎng)絡(luò)對(duì)光互聯(lián)的需求和挑戰(zhàn)》的主題演講。陳欽表示,AI應(yīng)用帶來(lái)了海量的光模塊需求,未來(lái)GPU間的scale-up網(wǎng)絡(luò)將持續(xù)推高光模塊的需求,同時(shí)AI也催化了光模塊更新迭代的速度,對(duì)光模塊的穩(wěn)定性要求也進(jìn)一步提高,AI對(duì)光模塊也帶來(lái)巨大的挑戰(zhàn),。

AI發(fā)展帶來(lái)海量光模塊新增需求  

當(dāng)前,隨著AI和算力發(fā)展,作為數(shù)據(jù)中心內(nèi)部以及數(shù)據(jù)中心之間連接的重要技術(shù),光模塊產(chǎn)業(yè)快速崛起迎來(lái)高速發(fā)展時(shí)期,其速率和帶寬的提升對(duì)于滿足AI時(shí)代數(shù)據(jù)傳輸?shù)男枨笾陵P(guān)重要,AI網(wǎng)絡(luò)建設(shè)帶來(lái)海量的光模塊需求。

如何量化AI對(duì)光模塊的需求,陳欽介紹,在通用計(jì)算網(wǎng)絡(luò)中可以通過(guò)接入的服務(wù)器數(shù)量來(lái)獲得光模塊的需求量;同理在AI網(wǎng)絡(luò)中,可以通過(guò)GPU卡數(shù)量來(lái)推測(cè)光模塊的用量。

當(dāng)前AI網(wǎng)絡(luò)中,GPU卡和800G光模塊數(shù)量的比例約為1:3,未來(lái),Scale-up GPU網(wǎng)絡(luò)(compute Fabric)將帶來(lái)更多的光互聯(lián)需求,光模塊的需求和光模塊的成本支出在AI集群中占比將大幅上升。

AI催化光模塊技術(shù)演進(jìn):光模塊迭代周期縮減一倍

回顧過(guò)去10年數(shù)據(jù)中心光模塊演進(jìn)歷程,交換芯片的容量遵循每?jī)赡攴槐兜囊?guī)律,而這是通過(guò)Serdes 數(shù)量和Serdes 速率,每?jī)赡杲惶娴姆秮?lái)達(dá)到的;

Serdes單通道速率和光模塊單波長(zhǎng)速率實(shí)際上是每4年翻一倍,主流光模塊每4年更新一代。

AI的應(yīng)用催化了光互聯(lián)的演進(jìn)速率,光模塊從原本每4年更新一代,縮短為每2年更新一代,新一代光模塊研發(fā)到落地的周期將要求被大幅縮短,這個(gè)變化對(duì)于整個(gè)光模塊生態(tài)而言都是一個(gè)極大的挑戰(zhàn)。

AI網(wǎng)絡(luò)對(duì)光互聯(lián)穩(wěn)定性提出兩方面挑戰(zhàn)

陳欽表示AI大模型訓(xùn)練對(duì)光互聯(lián)的穩(wěn)定性要求極高,當(dāng)前AI網(wǎng)絡(luò)穩(wěn)定性的挑戰(zhàn)主要來(lái)自兩方面。

一方面是光模塊硬件,主要是光器件失效引起的,包括激光器探測(cè)器失效。陳欽介紹,光器件的Wear-out失效不是問(wèn)題,早期失效和隨機(jī)失效才是關(guān)鍵。 當(dāng)前的行業(yè)標(biāo)準(zhǔn)GR468對(duì)光模塊和光芯片的測(cè)試標(biāo)準(zhǔn)太松,并不適用于AI網(wǎng)絡(luò)。鑒于此,阿里云對(duì)光器件的可靠性提出了更為嚴(yán)格的標(biāo)準(zhǔn)。

另一方面是光模塊軟件,高速光模塊普遍使用CMIS管理協(xié)議,帶來(lái)了強(qiáng)大的功能,但也使系統(tǒng)設(shè)備和模塊的交互變得更復(fù)雜。對(duì)此陳欽建議,光模塊廠家應(yīng)加強(qiáng)光模塊在各系統(tǒng)設(shè)備上的集成適配測(cè)試。

AI網(wǎng)絡(luò)下光模塊功耗挑戰(zhàn):TRO技術(shù)成為發(fā)展新方向

2018年 PAM4 DSP在光模塊中出現(xiàn),光的功耗開(kāi)始超過(guò)電的功耗,成為網(wǎng)絡(luò)中功耗占比最高的部分,到1.6T/3.2T光模塊,數(shù)據(jù)中心將需要新的技術(shù)處理功耗問(wèn)題,例如液冷技術(shù)。功耗的變化,將會(huì)給AI基礎(chǔ)設(shè)施帶來(lái)極大的技術(shù)挑戰(zhàn)。

那么應(yīng)該如何降低光模塊的功耗,陳欽表示最直接的手段就是去掉或減少DSP在光模塊內(nèi)部的使用,也就是被討論的技術(shù)熱點(diǎn):LPO、TRO、CPO技術(shù)。

CPO光和交換芯片共封裝融為一體,是一種完全封閉的生態(tài),它不符合數(shù)據(jù)中心開(kāi)放解耦的要求,也無(wú)法做到“pay as your growth”,此外CPO的運(yùn)維也面臨重重挑戰(zhàn),所以CPO只有在可插拔光模塊演進(jìn)不下去時(shí)才會(huì)被考慮。

LPO方案是完全去掉DSP,在功耗、成本和時(shí)延上有很大優(yōu)勢(shì)。但在標(biāo)準(zhǔn)化和互聯(lián)互通方面仍具有很大挑戰(zhàn)。若LPO無(wú)法做到互聯(lián)互通,便不符合數(shù)據(jù)中心對(duì)開(kāi)放解耦的要求。此外,LPO技術(shù)到單波200G是否可持續(xù)也有較大爭(zhēng)論,綜合來(lái)看,LPO技術(shù)落地的挑戰(zhàn)性較大。

TRO去掉一半DSP,是一種折中的技術(shù)方案,它也能夠有效降低功耗,得益于ASIC Serdes接收端強(qiáng)大的均衡能力,TRO的鏈路性能可以得到保證,另外TRO也更容易制定標(biāo)準(zhǔn)和互聯(lián)互通,符合數(shù)據(jù)中心對(duì)開(kāi)放解耦的要求,“TRO是一個(gè)非常有潛力的下一代光互聯(lián)技術(shù)方案”,陳欽表示。

 

給作者點(diǎn)贊
0 VS 0
寫得不太好

版權(quán)說(shuō)明:C114刊載的內(nèi)容,凡注明來(lái)源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來(lái)源。編譯類文章僅出于傳遞更多信息之目的,不代表證實(shí)其描述或贊同其觀點(diǎn);翻譯質(zhì)量問(wèn)題請(qǐng)指正。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141