4月24日,在2025年云網(wǎng)智聯(lián)大會智算中心網(wǎng)絡(luò)分論壇,中國移動研究院攜手中國信息通信研究院、北京郵電大學(xué)、華為、中興、新華三、銳捷、思博倫、盛科、新易盛、橙科微電子、云脈芯聯(lián)等合作伙伴,聯(lián)合發(fā)布《面向新型智算中心的以太網(wǎng)彈性通道(FlexLane)技術(shù)白皮書》,中國移動研究院副院長段曉東出席發(fā)布儀式。
《面向新型智算中心的以太網(wǎng)彈性通道(FlexLane)技術(shù)白皮書》是繼中國移動發(fā)布首個物理層安全PHYSec技術(shù)之后,又一次提出從物理層入手提升智算中心互聯(lián)鏈路可靠性的技術(shù)方案,旨在提出以太網(wǎng)彈性通道FlexLane高可靠技術(shù)的需求、愿景、技術(shù)架構(gòu)和部署建議。希望能夠為智算產(chǎn)業(yè)、通信產(chǎn)業(yè)在規(guī)劃設(shè)計網(wǎng)絡(luò)互聯(lián)技術(shù)、產(chǎn)品和解決方案時提供參考和指引。
隨著以ChatGPT、Deepseek為代表的AI大模型崛起,算力需求呈指數(shù)級增長,全球正加速建設(shè)新型智算中心。AI推訓(xùn)任務(wù)依賴大量服務(wù)器并行計算,形成了以東西向流量為主的交互模式,網(wǎng)絡(luò)互聯(lián)成為集群可靠性的關(guān)鍵環(huán)節(jié),任何互聯(lián)鏈路故障都可能導(dǎo)致AI任務(wù)發(fā)生小時級或更長時間中斷(依賴故障定位和修復(fù)、Checkpoint間隔、重啟等),嚴重影響算效并造成算力資源浪費。如何提升大規(guī)模集群組網(wǎng)的可靠性,是智算網(wǎng)絡(luò)技術(shù)演進的重要方向,受到全球?qū)W界和產(chǎn)業(yè)界的高度關(guān)注。
基于傳統(tǒng)網(wǎng)絡(luò)冗余保護機制,例如LAG等技術(shù)可以提升互聯(lián)鏈路的可靠性,但考慮智算中心的建設(shè)成本、能耗以及運維復(fù)雜度,需要探索低成本、低代價技術(shù)路徑。中國移動研究院主導(dǎo)提出的面向新型智算中心的以太網(wǎng)彈性通道(FlexLane)技術(shù),基于鏈路自身挖潛,引入靈活多通道架構(gòu),隔離故障通道降速工作,不增加額外器件,以低成本方式將鏈路可靠性大幅提升,和重傳技術(shù)配合可實現(xiàn)“零”丟包,保障AI訓(xùn)練和推理業(yè)務(wù)不受影響。
后續(xù)中國移動將聯(lián)合產(chǎn)業(yè)合作伙伴,繼續(xù)完善FlexLane技術(shù)方案,加快國際國內(nèi)標準化進程,加速推動產(chǎn)業(yè)生態(tài)成熟,形成完整的生態(tài)鏈,推動商用進。
掃一掃在手機上查看當前頁面