ICC訊 當AI訓練集群規模擴展到數十萬顆GPU時,網絡系統正面臨前所未有的壓力。Credo Semiconductor產品高級副總裁Don Barnetson在EE Times播客節目《AI with Sally》中強調,由于單次訓練中斷可能造成數百萬美元損失,網絡可靠性已成為關鍵考量。
Barnetson解釋道,AI集群相比傳統計算架構增加了兩大網絡:覆蓋整個數據中心的橫向擴展網絡,以及局限于機柜內的縱向擴展網絡。這兩種網絡采用類似UDP的“發送即遺忘”協議,要求網絡必須實現100%的數據包傳輸可靠性。目前大型集群中訓練任務的成功率僅約80%,這意味著約20%的訓練任務會因硬件故障中斷,造成巨大經濟損失。
在光學網絡中,除了硬件完全失效的“硬錯誤”外,更常見的是“軟錯誤”。當光信號在傳輸過程中出現超過前向糾錯校正能力的錯誤時,系統會判定鏈路異常并執行“鏈路震蕩”——即重置鏈路約15秒。這種重置會觸發整個網絡協議棧重新收斂,產生數億個廣播數據包,嚴重時可能導致訓練任務完全中斷。
與光纖相比,銅纜在短距離傳輸中展現出顯著優勢。Barnetson指出:“光纖在長距離傳輸中不可替代,但許多實際鏈路距離要短得多。”在液冷技術普及后,數據中心密度大幅提升,縱向擴展網絡通常只需在5米范圍內連接,這為銅纜應用創造了條件。
Credo開發的AEC技術通過在銅纜兩端集成重定時芯片,將單段長鏈路分割為三個獨立段。這種設計不僅延長了傳輸距離,還大幅提升了信號完整性。與光學方案相比,AEC可節省約50%功耗,且完全避免了光學連接器積塵、溫漂和靜電損傷導致的軟錯誤問題。
“我們的AEC產品已積累70億小時現場運行數據,從未出現意外鏈路震蕩。”Barnetson透露,其新一代“Zero Flap”技術專門針對鏈路穩定性進行優化。在超大規模數據中心中,光學鏈路的軟錯誤發生率比硬件故障高出數百倍,而AEC從根本上解決了這個問題。
盡管AEC優勢明顯,但其傳輸距離目前限制在7米內。Barnetson認為,隨著液冷技術使數據中心布局更緊湊,首層互聯距離需求正從過去的20米縮短至5米,這使銅纜的應用場景持續擴大。“領先的超大規模企業已標準化采用AEC作為首層互聯方案,這是歷史上首次出現銅纜取代光纖的趨勢。”
針對不同客戶的定制化需求,Credo采用全垂直整合模式。Barnetson舉例說明,曾為微軟開發內置二層交換功能的特殊AEC,能在主交換器故障時實現毫秒級透明切換,保證視頻流不丟幀。“當電纜設計、固件開發與芯片架構團隊緊密協作時,我們能以更快速度推出更優解決方案。”
在SerDes核心技術方面,Credo通過自研基礎單元實現了能效突破。“當競爭對手采用3納米或5納米工藝時,我們能在12納米節點實現同等性能,這帶來顯著的成本和可靠性優勢。”該公司同時以IP授權和芯片兩種形式提供該技術。
展望未來,Barnetson預測頂尖企業正在建設容納超過10萬顆GPU的單體數據中心,并通過園區級互聯實現百萬GPU集群。雖然100%的集群利用率難以實現,但通過持續提升可靠性,利用率有望從當前的80%回升至90%以上。對于企業級市場,他認為出于數據安全考慮,自建專用集群的需求正在增長,這些用戶可以直接借鑒超大規模企業的經驗教訓。
隨著量子計算等新興技術的發展,網絡作為連接大規模計算單元的“粘合劑”將愈發重要。Credo將在即將舉辦的開放計算全球峰會上展示其Zero Flap系列光學新產品,持續推動網絡創新。
原文:Extending The Life Of Copper In AI Training Clusters - EE Times Podcast - https://www.eetimes.com/podcasts/extending-the-life-of-copper-in-ai-training-cluster/