WEKA 大中華區資深技術顧問吳岱侑 Ray Wu 近期在接受 iThome 采訪中分享了他對于如何突破大型 AI 數據集 I/O瓶頸的見解。探討了隨著 AI技術的興起,企業應該選擇怎樣的方式為非結構化數據及I/O密集型工作負載提供支持。
在過去的一年中,隨著ChatGPT、生成式 AI 等技術的風靡,推動了“AI民主化”的浪潮,使得企業對引入 AI 的熱情愈發高漲。然而,當許多企業購置了GPU 服務器、100/200/400Gbps的高速網卡(InfiniBand或以太網)、NVMe高速SSD等高級設備,迫不及待地想要借助 AI/ML 技術從海量數據集中披沙揀金。他們卻發現 I/O 速度成為了最頭疼的問題,數據讀寫速度過慢導致寶貴的計算資源經常處于閑置狀態。
WEKA 大中華區資深技術顧問吳岱侑指出,為了突破 I/O 瓶頸,越來越多企業認識到必須擺脫傳統的存儲模式,尋找一種能夠支持分布式橫向擴展(Scale Out)架構,并顯著縮短數據讀寫時間的系統。這促使了并行文件系統(Parallel File System)和軟件定義存儲(Software Defined Storage;SDS)等技術方案的崛起,成為企業或機構追逐的目標。
WEKA 是基于非結構化數據和IO密集型工作負載而設計的的解決方案,專為數據緊缺的 GPU 提供支持。WEKA? Data Platform 可以在混合多云環境中運行,幫助有 GPU 計算需求的客戶,讓他們體驗到動輒 10 倍、30 倍以上的性能增益。
數據讀寫性能不佳,導致GPU利用率下降
吳岱侑表示,近年來,GPU、CPU、網絡等技術不斷精進,基礎架構能力顯著提高。然而,存儲技術的進步相對緩慢,提供的I/O 性能或吞吐量不如預期,導致GPU無法及時獲取數據,從而使利用率下降。
他進一步解釋,企業在進行 AI/ML 運算前,需要先將數據傳輸到GPU服務器內部的本地磁盤(NVMe SSD),然后將數據載入GPU內置的“高帶寬存儲器(HBM)”,才能展開運算。但是,一旦數據集過大,那么從數據的切割、復制到載入高帶寬內存的整個過程可能耗費冗長的時間。即使 GPU 算力再強,也只能暫時歇息,花時間等待數據到位。
以近期火爆的ChatGPT、大型語言模型(LLM)來說,它們所需的數據量大約在幾十 GB 左右。如果用戶懂得妥善分配 GPU 資源,懂得利用分批運算模式,在傳統存儲架構下或許能勉強應對。但是,如果數據量更大,比如高科技制造業進行瑕疵檢測、醫療業進行基因測序、汽車業進行自動駕駛模擬,甚至企業想要利用使用人工智能生成實時或虛擬視頻……等等應用場景,僅僅依靠現有的存儲設備,恐怕連將數據傳送到本地磁盤都將面臨困難;一旦善用并行文件系統,就能讓眾多節點同步進行讀寫,從而在最短時間內將大量數據傳送到 GPU 服務器的本地磁盤。
自動優化助攻,輕松實現IOPS與吞吐量完美均衡
然而此刻問題又來了,并行文件系統并非新產品,早在20、30年前就開始應用于高性能計算(HPC)環境,可以想象當時的功能要求不及現在高,系統架構當然也不會太過復雜。隨著環境需求逐漸改變,迫使并行文件系統廠商開始不斷地進行功能擴展,陸續新增Samba、NFS、Tape、對象存儲等功能,使得架構復雜度急劇提升,同時也增加了維護、管理和調整的難度,給用戶帶來了巨大困擾。
相較之下,作為后來者的WEKA,則顯得更加討喜。首先,它的架構相對簡單,在硬件上簡化為標準x86架構,每臺服務器的規格都一致,所有功能都以容器化方式融入服務器;管理者只需維護標準硬件,沒有額外的管理負擔,也便于進行后續的調試或性能調整工作,這些都可能為企業帶來巨大效益。
“如今,一個 GPU 渲染農場可能同時運行小文件、大語言模型、語音識別、圖像識別等不同類型的應用,每種應用都有截然不同的存儲 I/O 類型,傳統架構因此難以在不同工作類型進行優化調整,只能做出妥協和取舍,” 吳岱侑表示,傳統存儲架構通常只能針對單一工作類型進行優化,例如提供高IOPS或高吞吐量,很難同時兼顧多種不同工作類型的性能需求。相比之下,WEKA則不會陷入這種困境,因為其系統架構經過全新設計,能夠同時滿足不同工作類型的性能需求。比如,有些應用對元數據(Metadata)的訪問和查詢需求較高,有些則需要頻繁導入大量圖像或媒體數據。為此,WEKA 專門將元數據和 Data Trunk 分開,并結合自動優化(Auto-tuning)功能,客戶無需動手調整,就能夠高效流暢地調用大數據或小數據,在IOPS與吞吐量之間實現平衡。
WEKA? Data Platform產品優勢
除本身技術優勢外,WEKA? Data Platform 還具備許多其他特色。
軟件定義存儲
WEKA是基于軟件的存儲,不需要與特定硬件捆綁銷售,便于用戶自由選擇在任何品牌的 x86 服務器上運行WEKA。
專為云而構建
WEKA基于云原生架構,可在本地、云中、邊緣和多云混合環境之間無縫運行。
零拷貝多協議就緒
此外WEKA擁有零拷貝(Zero-Copy)優勢, 當用戶將所有原始數據存入WEKA 后,不同的前端應用可以通過POSIX、GDS、NFS、SMB或S3等多協議直接訪問所需數據,在這個過程中完全不需要費時進行數據拷貝。
數據分層存儲
用戶可將熱數據存放在高性能的閃存存儲層,將冷數據自動歸檔于低成本的S3對象存儲層,完美兼顧性能與成本需求。
總的來說,WEKA讓企業通過標準的x86服務器和經濟實惠的對象存儲(Object Storage)來構建并行文件系統,進而降低存儲建設成本(TCO)、消除特定存儲廠商綁定(Vendor lock-in),從而高效地支持各類AI工作負載,并持續利用數據創造商業價值。