1984年,孫正義因宣稱“網絡即計算機”而聞名。四十年后,隨著人工智能的到來,我們再一次看到這一周期的到來。AI 訓練模型的集體性質依賴于無損、高可用性的網絡,以便無縫地將集群中的每個 GPU 相互連接,并實現峰值性能。網絡還將訓練過的 AI 模型與數據中心的最終用戶和其他系統(如存儲系統)連接起來,從而使系統成為超越各部分總和的存在。因此,數據中心正在演變為新的 AI 中心,而網絡則成為 AI 管理的中心。
AI 趨勢
為了理解這一點,讓我們首先關注 AI 數據集的爆炸式增長。隨著 AI 訓練中大型語言模型(LLMs)規模的擴大,數據并行化變得不可避免。訓練這些更大規模模型所需的 GPU 數量無法跟上龐大的參數數量和數據集大小。無論是數據、模型還是管道,AI 并行化的有效性都取決于將 GPU 相互連接的網絡。GPU 必須交換和計算全局梯度以調整模型的權重。為此,AI 難題的各個不同組成部分必須作為單一的 AI 中心協同工作:GPU、網卡(NICs)、光學/線纜等互連配件、存儲系統,以及最重要的中心網絡。
信息孤島
在當今基于 AI 的數據中心中,性能不理想的原因有很多。首先,AI 網絡需要一致的端到端服務質量以保證無損傳輸。這意味著服務器中的網卡以及網絡平臺必須擁有統一的標記/映射、精確的控制和擁塞通知(包括使用數據中心量化擁塞控制(DCQCN)的優先流控制(PFC)和顯式擁塞通知(ECN))以及適當的緩沖區利用率閾值,以使每個組件都能及時響應網絡事件(如擁塞),確保發送方能夠精確控制流量速率,避免丟包。然而,目前網卡和網絡設備是分開配置的,在大型 AI 網絡中,任何配置不匹配都極難調試。
性能不佳的一個常見原因是組件故障。服務器、GPU、網卡、收發器、電纜、交換機和路由器都可能出現故障,導致重傳(go-back)或更糟糕的結果——可能使整個作業停滯,從而導致巨大的性能損失。隨著集群規模的擴大,組件發生故障的可能性變得越來越大。傳統上,GPU 供應商的集體通信庫(CCL)會嘗試使用定位技術來發現底層網絡拓撲,但發現的拓撲與實際拓撲之間的差異可能會嚴重影響 AI 訓練的作業完成時間。
AI 網絡的另一個問題是,大多數運營商都有單獨的團隊來設計和管理不同的計算和網絡基礎設施。這涉及使用不同的編排系統進行配置、驗證、監控和升級。缺乏單點控制和可見性使得識別和定位性能問題變得極其困難。隨著 AI 集群規模的擴大,這些問題會變得更加嚴重。
不難看出,這些孤島問題是如何不斷加劇問題的嚴重性的。計算和網絡之間的分割會導致將這兩項技術結合起來以最大化性能的操作充滿挑戰,同時延誤診斷和解決性能下降或宕機等問題。網絡本身也可以分為基于以太網的數據中心網絡和 InfiniBand 高性能計算(HPC)集群孤島網絡。這反過來又可能造成孤島間數據傳輸的挑戰,迫使組織使用笨拙的網關,并造成計算和存儲到最終用戶的連接障礙。只關注某一技術(如計算)而忽視整體解決方案的其他方面,會忽視技術之間相互依賴和相互連接的本質,如下圖所示。
新 AI 中心的崛起
新的 AI 中心認識和接受了這一現代、相互依存的生態系統的整體性。整個系統共同提升以達到最佳性能,而不是像之前的網絡孤島那樣孤立無援。GPU 需要一個優化和無損的網絡,以便在最短的時間內完成 AI 訓練,然后這些訓練好的 AI 模型需要連接到 AI 推理集群,以便最終用戶能夠查詢模型。計算節點,包括 GPU / AI 加速器和 CPU / 通用計算,也需要與存儲系統以及現有數據中心中的其他 IT 系統進行通信和連接。沒有任何部分是孤立工作的,網絡就像連接組織一樣,激發了所有交互點,就像神經系統為人類神經元提供通路一樣。
每個部分的價值在于整個系統作為一個整體相互連接所產生的集體結果,而不是單個部分孤立工作的成果。對于人類來說,價值來自于神經系統所賦予的思想和行動,而不僅僅是神經元本身。同樣,AI 中心的價值在于最終用戶通過 AI 解決問題所消耗的輸出,這些輸出是由訓練集群與推理集群、存儲系統和其他 IT 系統相連接,并集成到一個無損網絡中作為中樞神經系統而實現的。AI 中心通過消除孤島,實現完美的性能調優、故障排除和運營而大放異彩,其中中央網絡在創建和驅動這一互聯系統中發揮著核心作用。
Arista EOS 為 AI 中心提供支持
EOS 是 Arista 的頂級操作系統,它支持全球最大的擴展型 AI 網絡,將生態系統的所有部分整合在一起,以創建新的 AI 中心。如果說網絡是 AI 中心的神經系統,那么 EOS 就是驅動這個神經系統的大腦。
Arista 的一項新創新被集成到 EOS 中,通過更緊密地將網絡與連接的主機作為一個整體系統聯系起來,進一步擴展了 AI 中心的互聯概念。EOS 將網絡范圍內的控制、遙測和無損 QoS(服務質量)特性從網絡交換機擴展到直連在服務器 / GPU 上的網卡上的遠程 EOS 代理。部署在 AI 網卡 / 服務器上的遠程代理將交換機轉變為 AI 網絡的中心,以便對 AI 主機和 GPU 進行配置、監控和故障調試。這將產生一個單一且統一的控制和可視化點。利用遠程代理,可以確保包括端到端流量調優在內的配置的一致性。Arista EOS 實現了 AI 中心的通信,以便即時跟蹤和報告主機和網絡行為。這樣就可以在網絡中運行的 EOS 與主機上的遠程代理之間的通信中隔離故障。這意味著 EOS 可以直接報告網絡拓撲,集中進行拓撲發現,并利用熟悉的 Arista EOS 配置和管理結構來跨所有 Arista Etherlink? 平臺和合作伙伴進行操作。
豐富的合作生態系統:AMD、Broadcom、Intel 和 NVIDIA
Arista AI 中心的目標是以最低的作業時間來構建強大、超大規模的 AI 網絡。它正在將網絡交換機、網卡、收發器、電纜、GPU 和服務器等整個生態系統整合到新的 AI 中心中,并作為單一組件進行配置、管理和監控。這種方式降低了總成本,并提高了計算或網絡的生產力。AI 中心的愿景是實現 AI 網絡與主機之間開放、連貫的互操作性和可管理性的第一步。歡迎來到 AI 中心的新世界!
聯系瑞技
Arista 堅持 EOS 開放標準的承諾,利用 OpenConfig 來支持新時代的 AI 中心。歡迎聯系 Arista 在華正規授權代理商——瑞技科技,一起探討 AI 中心的奧妙吧。
400-8866-490?? |? sales.cn@bytebt.com
