一、MOE模型需要更大規模超節點系統
混合專家模型(Mixture of Experts, MoE)憑借創新設計,巧妙破解了模型規模、計算效率與推理性能三者間的調和難題,已成為當前大語言模型(Large Language Model, LLM)領域的主流架構,為大模型技術突破提供關鍵支撐。與此同時,MoE 模型的專家數量正呈現顯著增長趨勢。更多的專家數量不僅能直接提升模型容量、優化計算效率,還能進一步推動各專家在特定任務領域的專業化演進,從而持續增強模型整體能力與適配性。
隨著MOE模型專家數量的增長,若要實現更優的推理響應性能(TTFT/TPOT),需部署更多 GPU 以承載不同專(一般建議每卡專家數1-2個)構建大EP(Expert Parallelism)部署架構。然而,EP 規模的擴大將直接導致通信占比顯著提升,進而成為制約推理響應時延的核心因素。在此背景下,超節點憑借其大帶寬、低時延的 GPU 卡間互聯能力,有效降低 MOE 模型大 EP 部署中的通信開銷,為性能優化提供關鍵支撐。相應地,超節點的規模需與MOE模型的大 EP 部署需求相匹配,才能充分發揮其技術優勢。圖1給出了當前典型MOE模型專家數量以及推薦超節點規模。
典型MOE模型專家數量與超節點規模
二、大規模超節點系統的技術路線與挑戰
當前實現大規模超節點的技術路線主要有三種:全銅纜互聯、銅光混合互聯和全光互聯。不同方案在部署規模、時延、成本及工程可行性上存在顯著差異:
全銅纜互聯僅適用于單柜或相鄰雙柜部署,其物理距離限制(≤3m)與單柜內高密度GPU引發的供電、散熱及線纜密度、機房承重等問題,導致工程擴展性和可維護性的巨大挑戰。
銅光混合互聯雖支持多柜擴展,但依賴“柜內銅纜+柜間光互聯”兩級交換架構,引入更高時延與更加復雜的scale up協議能力要求,并且兩層交換機顯著增加系統成本。
全光互聯通過每GPU直連光接口與一層HighRadix交換機互聯,當前HighRadix交換機可支持512端口200Gbps,可實現一層交換機512卡超節點。全光互聯可以實現較低時延和靈活的部署規模;其核心挑戰在于光器件成本與可靠性,因此要實現大規模全光互聯超節點仍需針對這些問題完成技術與產業突破。
一層交換全光互聯超節點
三、ETH-X Ultra全光互聯超節點目標
ODCC網絡工作組啟動的ETH-X Ultra項目旨在面向大規模超節點系統,聯合產業合作伙伴共同探索全光互聯超節點相關技術與解決方案。針對全光互聯超節點面臨的成本、可靠性、可維護性挑戰設定以下三大目標:
1. 極致成本控制 :
實現系統連接成本 ≤0.2$/Gbps (較傳統方案降低60%+),通過光器件標準化與高密度設計壓縮傳輸成本。
2.超高可靠性保障 :
超節點互聯鏈路達成99.999%可用性 ,消除因光鏈路級丟包導致的任務中斷。
3.高效現場可維護性 :
支持故障部件現場快速更換 ,保障超節點持續服務性。
ETH-X Ultra項目目標
四、光互聯超節點光引擎技術需求與互通測試

光引擎總容量為3.2T,由32個通道構成,各通道可互相獨立工作,每通道速率可支持112Gbps,工作速率為106.25 Gbps。光引擎支持可插拔安裝,支持30 m互聯距離,鏈路最大損耗為3.0 dB(最大包含4個0.7 dB連接器損耗和0.2 dB光纖損耗)。
光引擎的測試分解為單體指標測試和系統端到端測試兩部分。其中單體指標測試用于單獨表征引擎性能;系統端到端測試用于評估完整鏈路性能。單體指標測試涵蓋光參數和電參數兩大塊,表征參數和測試方法參考LPO MSA Revision 1.0的條款9、10和IEEE Std 802.3-2022中的相關定義。系統端到端測試重點驗證完整鏈路的信號質量,包括鏈路預算裕量、誤碼穩定性和環境壓力性能,評估指標主要使用BER和FEC分布。BER用于評估鏈路預算,參考IEEE Std 802.3-2022中的相關接收機和發射機指標定義。誤碼穩定性和環境壓力性能均以FEC分布作為參考,對于112G通道,當鏈路預算裕量為0時,FEC bin測試值不得超過5(165s 累積值)。
五、光互聯超節點可靠性方案分析
FEC 時延在靜態時延中占比 30%~50%,而優化 FEC 時延會導致誤碼率升高。為了避免誤碼丟包對集群通信吞吐產生影響,光互聯的Post-FEC誤碼率應處于可容忍范圍內(<1E-15)。
當鏈路中不可避免出現誤碼故障時,鏈路端可以及時檢查出異常并通過鏈路級重傳能力實現誤碼數據重傳。然而,降低誤碼率和鏈路級重傳的方式并不能完全避免光互聯中產生的單點故障問題。譬如:
(一)單個通道污損故障需要通過通道動態容錯方式避免單點故障
(二)單個模塊激光器故障故障需要通過跨模塊LLR方式避免單點故障
六、光互聯超節點互聯成本分析
以NPO形態組成的光互聯超節點技術方案,全光鏈路主要部件如下圖所示:
OE鏈路部分相應的成本構成應該包含所有光互聯的器件部分,總體成本目標首先應用拆解到各組成部分成本目標:
全光超節點主要包含以下幾種互聯方式,在以上光互聯組件構成下,光互聯成本分析結論及目標參考如下表所示,短距可采用多模NPO方案,成本可實現低于0.1$/G, 單模硅光NPO方案目標實現0.12$/G。
七、ETH-X Ultra項目構成與樣機計劃
ETH-X Ultra項目于2025年7月在ODCC夏季全會網絡工作組啟動后,與眾多GPU芯片廠家、交換芯片廠家、OE光引擎廠家、模塊廠家、整機系統廠家開展了深入交流,確定了項目技術規范與系統樣機時間表。項目技術規范包括:《光互聯硬件設計規范》、《光引擎(OE)技術規范》、《互通測試技術規范》、《光互聯系統可靠性方案規范》。
ETH-X Ultra項目計劃在未來一年左右的時間內聯合行業合作伙伴完成相關技術規范及驗證樣機研發測試,樣機計劃如下:
聯系方式:
騰訊 夏老師 forestxia@tencent.com;信通院 王老師 wangshaopeng@caict.ac.cn;信通院 孫老師 suncong@caict.ac.cn