ICC訊 雖然英偉達讓“橫向擴展”(Scale across)這一術語廣為人知,但顯然并非只有這家科技巨頭在思考數據中心在AI時代所需的新型網絡能力。思科現已強勢推出其全新的AI網絡系統,該公司認為,在數據中心致力于構建更龐大GPU集群的背景下,這一系統能夠應對挑戰。
該系統包含思科的Silicon One P200芯片及其8223路由器,能為密集的AI工作負載提供高達51.2 Tbps的吞吐能力。思科公布了關于該系統功耗效率、緊湊外形及安全性的一系列數據。然而,真正引人注目的是其核心技術:深度緩沖(Deep buffering)。
如果您對此感到困惑,因為您還記得在早期的音樂和視頻流媒體時代,緩沖通常被視為一件壞事,那么請允許我們解釋。
思科(以及英偉達)正試圖解決的問題是:如何在不同數據中心之間的長距離上傳輸海量數據(即AI流量)。關鍵在于,它們需要在傳輸過程中不丟失數據包,因為丟包會導致AI工作負載(尤其是訓練任務)失敗并需要重頭開始。但避免丟包說來容易做來難。
思科運營商連接集團(Provider Connectivity Group)高級副總裁Guru Shenoy告訴Fierce,當數據進行長距離傳輸時,數據流可能會非常突發(Bursty)。如果線路終端的芯片在突發數據流到達時無法容納其中的數據,就會導致丟包。他表示,緩沖區就像水桶,可以容納大量數據,并有助于平滑流量。
因此,深度緩沖意味著更深的“數據桶”和更少的丟包。
但并非所有人都認同這是正確的技術路徑。值得注意的是,英偉達因其對額外延遲的擔憂,并未在其Spectrum-X以太網平臺中采用深度緩沖。Dell'Oro集團副總裁Sameh Boujelbene指出,英偉達轉而采用一種名為“自動調整距離擁塞控制”(Auto-Adjusted Distance Congestion Control)的技術,并利用端到端遙測技術來解決與思科相同的問題。
思科Silicon One業務高級研究員Rakesh Chopra承認,市場上存在一種印象,認為深度緩沖會損害AI性能,但他辯稱事實并非如此。
他說:“我們在此要說明,這實際上是一個‘兼顧’的問題。你確實需要一些人正在談論的智能擁塞控制技術,但這不足以在多個站點間傳輸此類數據。在發生故障的情況下,確保不丟棄數據包的唯一方法就是擁有這些深度緩沖區。”
那么,這對數據中心意味著什么?
Boujelbene告訴Fierce,橫向擴展市場(她將其描述為AI數據中心的互聯)正處在一個十字路口。
她總結道:“我預計市場將出現技術路線的分化,就像我們在AI數據中心內部已經看到的情況一樣。”