NVIDIA GB200(Blackwell)平臺正以前所未有的速度、規模和效率重塑 AI 計算。NVIDIA Blackwell 專為滿足下一代 AI 工作負載的巨大需求而設計,在推理模型、AI 代理和?Token 生成等方面展現了突破性進展。憑借其先進的架構,Blackwell GPU 提供超高速通信、巨大的內存帶寬以及無與倫比的計算能力,這些都是實現實時 AI 決策所必需的。隨著 AI 從單純的訓練轉向復雜的推理和決策,基礎設施必須不斷進化以跟上步伐。
然而,僅靠強大的 GPU 性能還遠遠不夠。
?
要充分釋放 AI 推理的潛力,云服務商還需要同樣高性能的數據基礎設施,以消除瓶頸并最大化資源利用率。這也是 WEKA 獲得?NVIDIA GB200 高性能數據存儲認證的重要原因,為 NVIDIA 云合作伙伴(NCP)提供支持。使他們在構建 AI 云、GPU 即服務或其他新一代云產品時,能夠提供最快、最具擴展性的數據基礎設施。該認證基于 WEKA 此前獲得的 NVIDIA HGX H100/H200 系統認證,并為與 Yotta、Ori Cloud、Sustainable Metal Cloud 等眾多領先新型云服務商的長期合作帶來更多價值。
為什么這至關重要:AI 不僅更快,而是本質上不同
AI 的發展正經歷深刻變革。隨著推理模型和 AI 代理的普及,AI 工作負載變得更加復雜,不僅需要高速通信、充足內存及強大計算能力,還要能夠實時生成和處理海量數據 Tokens,這要求數據基礎設施必須能夠與 GPU 高性能協同工作。
?
但傳統的數據存儲在以下幾方面存在嚴重短板:
- 性能鴻溝:傳統存儲無法滿足現代 AI 工作負載的對 I/O 的高要求,計算與數據基礎設施之間的高延遲導致 GPU 利用率不足。
- 擴展困境:許多服務商往往不得不過度配置存儲來滿足性能目標,從而大幅推高成本。
- 多租戶支持不足:傳統存儲缺乏有效隔離機制,迫使服務商為每個客戶建立低效的存儲孤島。
- 運維成本和復雜性高:基于復制的傳統容災模型進一步抬高了管理成本。
WEKA + NVIDIA GB200 :為 AI 時代量身打造
WEKA 現已獲得 NVIDIA GB200 部署高性能存儲認證,NCP 可利用 WEKA 全面提升 AI 云服務能力:
- 極致的性能:WEKA 零調優架構能動態適配任何工作負載,實現亞毫秒級延遲和百萬級 IOPS。單套 8U 基礎配置即可滿足 GB200 Blackwell 可擴展集群(1,152顆 GPU)的極端 I/O 需求。
- 面向 AI 管道優化的 S3 對象存儲:WEKA 通過優化的 S3 對象存儲接口,為 AI、機器學習和數據分析工作負載中的小對象的訪問提供超低延遲和高吞吐量支持。
- 最大化 GPU 利用率:存儲瓶頸常常扼殺 AI 性能,而 WEKA 能幫助消除這一障礙,使數據性能提升 10 倍或更多。在實際部署中,客戶的 GPU 利用率從 30-40% 躍升至超過 90%。
- 真正的多租戶支持:WEKA 的可組合集群利用容器技術實現邏輯與物理雙重隔離,從而提供安全、高性能的 AI 云多租戶服務,實現性能零妥協。
- 大規模擴展能力:WEKA 在單一命名空間內可支持多達 32,000 顆 NVIDIA GPU 集群,助力英偉達云合作伙伴在全球范圍內實現從 PB 到 EB 級的無縫擴展,而無需擔心架構受限。
- 無縫遷移:無論是在數據中心、超大規模云還是新一代云環境,WEKA 統一的軟件架構均可實現工作負載的無縫遷移。
基準測試與實際性能表現
WEKApod Nitro 設備為 NVIDIA 云合作伙伴部署提供了卓越的性能密度和能效:
- 吞吐性能:WEKApod 單節點實現 70GB/s 讀取速度(最低配置下可達 560GB/s)和 40GB/s 寫入速度(最低配置下可達 320GB/s),確保 Blackwell GPU 持續獲得高速數據,最大化利用率。
- 延遲優化:亞毫秒級延遲,確保 AI 訓練和推理工作負載延遲最小化,助力實時推理 AI 模型高效運行。
- 擴展性實踐:借助 WEKApod,NCP 已實現從 PB 級到 EB 級的數據規模擴展,支持數千個并發工作負載而不犧牲性能。
- GPU 利用率提升:WEKA 的可組合集群利用容器技術實現邏輯與物理雙重隔離,從而提供安全、高性能的 AI 云多租戶服務,實現性能零妥協。
- 能效優化:WEKApod 優化的數據處理顯著降低了每個 AI 工作負載的能耗,為 AI 云服務商降低了整體運營成本。
- NVIDIA 認證:WEKA 榮獲 NVIDIA 系統存儲解決方案認證,確保為 AI 和數據分析工作負載提供高性能、可擴展且可靠的存儲解決方案。
NVIDIA MGX 部署的推薦存儲配置
合理的存儲配置對確保 AI 訓練和推理的最佳性能至關重要。存儲性能目標因模型類型、數據集大小和工作負載特征而異。為支持 NVIDIA MGX 系統上的高性能訓練和推理,WEKA Data Platform 提供了一套 NVIDIA Blackwell 認證的、可擴展且高吞吐量的存儲方案,完美契合現代 AI 工作負載的需求。
?
對于大規模 AI 訓練來說,檢查點的讀寫性能尤為關鍵,這是一個同步任務,若優化不當,可能會導致訓練停滯。大型語言模型(LLM)在檢查點階段需極高寫入吞吐量,其需求也會隨著模型規模增長而增加。例如,一個5300 億參數模型可能需要 206 GB/s 的總寫入速率,而一個 1 萬億參數模型則可能需要近 389 GB/s 的寫入速率。
?
下表展示了 WEKApod Nitro 設備在滿足 NVIDIA GB200 NVL72 機架(最低存儲容量 10,924TB)增強型指導/性能要求下的存儲密度與認證性能:
通過使用 WEKApod,云服務商可以徹底消除存儲瓶頸,確保 Blackwell GPU 始終以最佳狀態運行,而無需過度超配。
未來已來:構建 AI 推理時代的基礎設施
AI 推理時代需要一種全新的數據基礎設施,它不僅要運行快速、高效,還能應對 Token 經濟的爆發式增長。現在,借助 WEKA 與 NVIDIA GB200 NVL72 強強聯手,AI 云服務商可以同時獲得出色的性能、強大的擴展性和安全保障長。
?
如果您是正在構建下一代 AI 云服務的 NVIDIA 云合作伙伴,現在正是解鎖 GPU 潛能的最佳時機,與 WEKA 攜手,讓您的 AI 云服務更加快速、穩定、簡單!
