AI算力爆發(fā)的背后,如何保障網(wǎng)絡(luò)“零丟包”?
在當(dāng)今數(shù)據(jù)中心網(wǎng)絡(luò)中,隨著AI、高性能計(jì)算(HPC)和分布式存儲(chǔ)等應(yīng)用的飛速發(fā)展,網(wǎng)絡(luò)的無(wú)損傳輸能力變得至關(guān)重要。PFC(基于優(yōu)先級(jí)的流量控制)和ECN(顯式擁塞通知)作為智能無(wú)損網(wǎng)絡(luò)的關(guān)鍵技術(shù),能夠有效解決網(wǎng)絡(luò)擁塞問題,保障數(shù)據(jù)傳輸?shù)牡脱舆t和高吞吐量。然而,如何驗(yàn)證和優(yōu)化PFC/ECN技術(shù)的水線參數(shù),提升無(wú)損網(wǎng)絡(luò)的性能成為了網(wǎng)絡(luò)設(shè)備制造商和運(yùn)營(yíng)商面臨的重大挑戰(zhàn)。
PFC/ECN技術(shù)簡(jiǎn)介
01PFC(Priority-based Flow Control)
PFC是基于IEEE802.1Qbb標(biāo)準(zhǔn)的流量控制機(jī)制,通過(guò)為不同業(yè)務(wù)流量劃分優(yōu)先級(jí),實(shí)現(xiàn)精細(xì)化擁塞管理。其核心邏輯如下:
優(yōu)先級(jí)隊(duì)列劃分:網(wǎng)絡(luò)設(shè)備端口配置8個(gè)獨(dú)立優(yōu)先級(jí)隊(duì)列(0-7),高優(yōu)先級(jí)隊(duì)列(如金融交易、AI訓(xùn)練流量)優(yōu)先調(diào)度;
反壓信號(hào)交互:當(dāng)接收端檢測(cè)到某優(yōu)先級(jí)隊(duì)列擁塞時(shí),向發(fā)送端發(fā)送PAUSE幀(反壓信號(hào)),暫停對(duì)應(yīng)隊(duì)列的流量發(fā)送;
動(dòng)態(tài)恢復(fù)機(jī)制:擁塞解除后,接收端發(fā)送RESUME信號(hào),恢復(fù)流量傳輸,確保高優(yōu)先級(jí)業(yè)務(wù)零丟包。
典型應(yīng)用場(chǎng)景:
金融高頻交易:微秒級(jí)時(shí)延敏感業(yè)務(wù)需絕對(duì)優(yōu)先傳輸;
AI分布式訓(xùn)練:保障GPU間RDMA流量的無(wú)損交互;
實(shí)時(shí)視頻流:避免關(guān)鍵幀丟失導(dǎo)致的畫質(zhì)劣化。
PFC機(jī)制在檢測(cè)到網(wǎng)絡(luò)擁塞時(shí),會(huì)自動(dòng)觸發(fā)對(duì)低優(yōu)先級(jí)流量的暫停,以保障高優(yōu)先級(jí)流量的傳輸,而當(dāng)擁塞緩解后,低優(yōu)先級(jí)流量又會(huì)自動(dòng)恢復(fù)傳輸,這一過(guò)程實(shí)現(xiàn)了網(wǎng)絡(luò)流量的自動(dòng)降速與恢復(fù),有效平衡了不同優(yōu)先級(jí)流量的傳輸需求。
如下圖所示,DeviceA發(fā)送接口被分成了8個(gè)優(yōu)先級(jí)隊(duì)列,DeviceB接收接口則存在8個(gè)接收緩存,二者一一對(duì)應(yīng)。DeviceB接收接口上某個(gè)接收緩存發(fā)生擁塞時(shí),會(huì)發(fā)送一個(gè)反壓信號(hào)“STOP”到DeviceA,DeviceA則停止發(fā)送對(duì)應(yīng)優(yōu)先級(jí)隊(duì)列的流量。
PFC的工作方式
02ECN(Explicit Congestion Notification)
ECN是TCP/IP協(xié)議的擴(kuò)展機(jī)制,用于減少網(wǎng)絡(luò)擁塞導(dǎo)致的數(shù)據(jù)包丟失。當(dāng)網(wǎng)絡(luò)設(shè)備檢測(cè)到擁塞時(shí),會(huì)在IP數(shù)據(jù)包頭部設(shè)置ECN標(biāo)志,而不是直接丟棄。接收端收到標(biāo)記后,會(huì)通知發(fā)送端降低傳輸速率,從而緩解網(wǎng)絡(luò)擁塞。接收端收到RoCEv2報(bào)文 IP ECN 標(biāo)記為“11”,接收端口生成RoCEv2 CNP ,發(fā)給流量發(fā)送端。對(duì)指定QP可選擇單個(gè)或者多個(gè)CNP來(lái)對(duì)ECN標(biāo)記報(bào)文的響應(yīng)。
ECN機(jī)制不僅提高了網(wǎng)絡(luò)的利用率,還顯著降低了丟包率。同時(shí)在擁塞緩解后,發(fā)送端又可以逐步提高發(fā)送速率,恢復(fù)正常的傳輸效率,實(shí)現(xiàn)了網(wǎng)絡(luò)傳輸速率的動(dòng)態(tài)調(diào)整與優(yōu)化。
PFC/ECN流量測(cè)試的必要性
在數(shù)據(jù)中心網(wǎng)絡(luò)中,PFC和ECN機(jī)制的有效性直接關(guān)系到網(wǎng)絡(luò)的無(wú)損傳輸能力和整體性能。然而,在實(shí)際部署中,PFC/ECN機(jī)制可能面臨以下問題:
優(yōu)先級(jí)錯(cuò)配:PFC隊(duì)列映射錯(cuò)誤導(dǎo)致高優(yōu)先級(jí)流量被低優(yōu)先級(jí)搶占;
閾值靈敏度不足:ECN標(biāo)記閾值設(shè)置不合理,引發(fā)擁塞響應(yīng)滯后或過(guò)度降速;
多技術(shù)協(xié)同失效:PFC與ECN策略沖突,導(dǎo)致網(wǎng)絡(luò)性能波動(dòng)。
測(cè)試價(jià)值:
通過(guò)系統(tǒng)性驗(yàn)證PFC/ECN功能的有效性,優(yōu)化水線參數(shù)配置,確保智能無(wú)損網(wǎng)絡(luò)的穩(wěn)定性和業(yè)務(wù)SLA達(dá)標(biāo)。
PFC/ECN流量測(cè)試方案
01測(cè)試目標(biāo)
1.驗(yàn)證PFC機(jī)制的有效性:確保網(wǎng)絡(luò)設(shè)備能夠根據(jù)優(yōu)先級(jí)正確地暫停和恢復(fù)流量,避免高優(yōu)先級(jí)流量的丟包。
2.驗(yàn)證ECN機(jī)制的有效性:確保網(wǎng)絡(luò)設(shè)備能夠在擁塞時(shí)正確地標(biāo)記ECN標(biāo)志,并通過(guò)CNP(擁塞通知報(bào)文)反饋機(jī)制調(diào)整發(fā)送速率。
3.評(píng)估網(wǎng)絡(luò)在擁塞情況下的性能表現(xiàn):包括吞吐量、延遲和丟包率等關(guān)鍵指標(biāo)。以及PFC與ECN自動(dòng)降速功能對(duì)網(wǎng)絡(luò)性能的影響。
02測(cè)試環(huán)境
硬件設(shè)備:
1.RoCE網(wǎng)絡(luò)測(cè)試儀、網(wǎng)絡(luò)損傷儀;
2.被測(cè)網(wǎng)絡(luò)設(shè)備(如交換機(jī)、路由器)。
網(wǎng)絡(luò)拓?fù)洌?/strong>
1.采用典型的Leaf-Spine架構(gòu),測(cè)試儀連接到Leaf交換機(jī),被測(cè)設(shè)備部署在Spine層;
2.測(cè)試儀通過(guò)多個(gè)端口向被測(cè)設(shè)備發(fā)送PFC/ECN流量,模擬真實(shí)網(wǎng)絡(luò)環(huán)境中的多源多宿場(chǎng)景;
3.在環(huán)境中部署損傷儀,模擬真實(shí)網(wǎng)絡(luò)環(huán)境中的丟包、時(shí)延、抖動(dòng)等場(chǎng)景。
03測(cè)試方法
PFC測(cè)試方法
配置PFC優(yōu)先級(jí):在測(cè)試儀和被測(cè)設(shè)備上配置相同的PFC優(yōu)先級(jí)映射關(guān)系,確保測(cè)試流量能夠觸發(fā)PFC機(jī)制。
流量生成與發(fā)送:測(cè)試儀生成具有不同優(yōu)先級(jí)的流量,分別模擬高優(yōu)先級(jí)和低優(yōu)先級(jí)的業(yè)務(wù)流量。
擁塞觸發(fā):通過(guò)調(diào)整流量負(fù)載,使被測(cè)設(shè)備的緩沖區(qū)接近滿載,觸發(fā)PFC機(jī)制。
流量監(jiān)控與分析:監(jiān)控高優(yōu)先級(jí)流量是否被正確暫停和恢復(fù),低優(yōu)先級(jí)流量是否能夠正常傳輸,以及低優(yōu)先級(jí)流量在PFC機(jī)制觸發(fā)后的自動(dòng)降速情況和擁塞緩解后的恢復(fù)情況。記錄流量的吞吐量、延遲和丟包率等指標(biāo)。
端口使能PFC,設(shè)置PFC優(yōu)先級(jí),以Priority 6 為例,如下圖;
配置RoCEv2 Server,配置VLAN Priority: 6,如下圖。
PFC測(cè)試結(jié)果分析:
1.檢查高優(yōu)先級(jí)流量是否在擁塞時(shí)被正確暫停,并在擁塞緩解后恢復(fù)傳輸。
2.分析低優(yōu)先級(jí)流量的吞吐量和延遲變化,確保其不受PFC機(jī)制的影響。
3.評(píng)估網(wǎng)絡(luò)設(shè)備在PFC機(jī)制下的整體性能表現(xiàn),是否存在優(yōu)先級(jí)調(diào)度失效等問題。
4.查看端口的Basic和PFC統(tǒng)計(jì),可以看到端口1發(fā)出的流降速到28%。PFC統(tǒng)計(jì)正確,如下圖所示:
5. 配置RoCEv2 Server。配置VLAN Priority: 6。如下圖所示:
ECN測(cè)試方法
配置ECN功能:在測(cè)試儀和被測(cè)設(shè)備上啟用ECN功能,并設(shè)置ECN標(biāo)志位。
流量生成與發(fā)送:測(cè)試儀生成帶有ECN標(biāo)志的流量,并向被測(cè)設(shè)備發(fā)送。
擁塞觸發(fā):通過(guò)增加流量負(fù)載,使被測(cè)設(shè)備檢測(cè)到擁塞,并在數(shù)據(jù)包頭部標(biāo)記ECN標(biāo)志。
CNP反饋機(jī)制測(cè)試:接收端收到帶有ECN標(biāo)志的數(shù)據(jù)包后,生成CNP并發(fā)送給發(fā)送端。發(fā)送端根據(jù)CNP調(diào)整發(fā)送速率。
性能評(píng)估:記錄流量的吞吐量、延遲和丟包率等指標(biāo),評(píng)估ECN機(jī)制在擁塞控制中的有效性,以及自動(dòng)降速功能對(duì)網(wǎng)絡(luò)性能的影響。
1. 配置端口參數(shù),使能ECN,ECN配置成11(CE);
2. 配置RoCEv2 Server。配置VLAN ID, IP地址信息,保證ARP可以成功;
3. 配置QP流量。
ECN測(cè)試結(jié)果分析:
1.檢查ECN標(biāo)志是否被正確標(biāo)記,并通過(guò)CNP反饋機(jī)制傳遞到發(fā)送端;
2.分析發(fā)送端是否根據(jù)CNP調(diào)整發(fā)送速率,以及調(diào)整后的吞吐量和延遲變化;
3.評(píng)估ECN機(jī)制在擁塞控制中的有效性,是否存在過(guò)度調(diào)整或調(diào)整不及時(shí)等問題;
4.查看端口統(tǒng)計(jì)和流統(tǒng)計(jì)的RoCEv2統(tǒng)計(jì),如下圖所示:
DarYu-X系列測(cè)試儀:智能無(wú)損網(wǎng)絡(luò)的驗(yàn)證引擎
信而泰公司推出的X2-100G-12QSFP28、X5-400G高密度測(cè)試儀是一款專為高端路由器、交換機(jī)以及數(shù)據(jù)中心交換機(jī)設(shè)計(jì)的高密度測(cè)試平臺(tái)。
X2-100G RoCE測(cè)試板卡
高密度400G測(cè)試儀一體機(jī)
功能特性:
支持100G/200G/400G測(cè)試端口
支持L2(VLAN)和L3(DSCP)的QOS設(shè)置
支持RoCEv2流量的產(chǎn)生和發(fā)送
支持ECN/PFC使能和優(yōu)先級(jí)設(shè)置
每端口支持8000個(gè)QP,支持基于QP選擇流量端點(diǎn)
支持集合通信庫(kù)CCL流量模型仿真
PFC/ECN流量測(cè)試是驗(yàn)證智能無(wú)損網(wǎng)絡(luò)性能的關(guān)鍵手段。通過(guò)科學(xué)的測(cè)試方案,可以全面評(píng)估PFC和ECN機(jī)制的有效性,優(yōu)化網(wǎng)絡(luò)配置,提高網(wǎng)絡(luò)的無(wú)損傳輸能力和整體性能。信而泰憑借其在測(cè)試領(lǐng)域的深厚積累,提供了全面的PFC/ECN流量測(cè)試解決方案,能夠滿足不同應(yīng)用場(chǎng)景的需求。無(wú)論是AI訓(xùn)練、高性能計(jì)算還是分布式存儲(chǔ),信而泰的測(cè)試方案都能為網(wǎng)絡(luò)設(shè)備制造商和運(yùn)營(yíng)商提供有力支持,助力智能無(wú)損網(wǎng)絡(luò)的發(fā)展。