在 AI 領域,人們常常低估了存儲在模型推理階段的重要性。然而,數據基礎設施實際上對模型的加載時間、GPU 使用效率、延遲和整體性能有著直接的影響。了解 WEKA Data Platform 如何顯著提升推理操作的速度和效率,為未來發展奠定堅實基礎。
大型語言模型(LLM)的推理階段
大型語言模型(LLM)是當今許多 AI 應用的基礎。利用深度學習(Deep Learning)和神經網絡(Neural Networks),這些復雜而精密的 AI 模型能夠處理和生成基于語言的任務,包括文本生成、翻譯、摘要和問答等。
部署 LLM 的第一步是對其進行訓練,這需要龐大的文本數據集。訓練完成后,模型進入推理階段。推理階段是使用訓練好的模型,根據新輸入數據進行預測或生成輸出的過程。通過推理,模型將其知識應用于實際場景,如圖像識別、語言翻譯和推薦系統等實時應用。經過訓練的模型可以將學到的模式和關系應用到新的、未見過的數據中,從而產生結果。這是部署 AI 系統的關鍵步驟,使其能夠在現實世界中執行各種任務。
通常,完整的模型文件大小在數十至數百 GB 之間。每個模型都要經過訓練,以滿足特定操作或用戶需求,例如數據嵌入或理解和回答文本內容。這一過程通常在使用 GPU 的服務器或云實例(云端計算資源)上進行(市面上還有其他加速器,如 IPU、TPU、WSE 甚至 CPU)。一些知名的大規模推理模型包括 OpenAI 的 ChatGPT、Cohere 的 Command-R、NVIDIA 的 Megatron 和 Meta 的 Llama。許多其他模型則是自行訓練或從 Hugging Face 等模型庫中獲取的開源模型,用于發布、比較和共享。
WEKA在提升 AI 訓練階段的性能和擴展性方面經驗豐富。如今,隨著越來越多的關注點轉向推理階段,WEKA 也在應對這一階段的關鍵挑戰。
推理階段的挑戰
在推理階段,模型通常運行在 GPU 內存中,很多人誤以為存儲不重要,但實際情況是,存儲對推理的速度和效率有很大影響。由于這個誤解,導致許多昂貴的 GPU 實例(資源)被浪費。在推理過程中,系統需要快速處理突發的 API 請求,同時保證用戶得到快速響應。這意味著企業常常為那些利用率低的 GPU 資源付費。如果能更快創建新的推理任務并將模型加載到 GPU 內存中,系統就能更高效地處理更多的任務,從而提高 GPU 的使用效率,節省成本。
WEKA 案例——LinguaModel Labs
讓我們來看看一位 WEKA 客戶在推理過程中遇到的存儲相關挑戰,以及 WEKA 是如何幫助他們加快推理速度、改善服務質量、降低成本并簡化環境。
WEKA 與一家知名的 LLM 供應商合作,這家公司在云端運營大規模的 LLM,以下簡稱為 “LinguaModel Labs”。
LinguaModel Labs 在推理效率和性能方面遇到了挑戰。他們的推理系統包含多個 GPU 實例,負責將模型加載到 GPU 內存中并運行。這個推理系統的設計目的是能夠快速加載新模型,并根據需求動態擴展,以應對來自 API 請求的各種突發推理任務。
LinguaModel Labs 面臨的挑戰
模型加載:把相關模型迅速加載到 GPU 內存中,并根據需要在不同模型之間快速切換。
擴展 GPU 實例:當負載增加時,要能夠迅速增加更多的 GPU 計算資源。
最大化 GPU 利用率:充分利用現有的 GPU 實例,以提高其價值和效率。
WEKA 如何幫助優化推理過程


使用 WEKA 后,LinguaModel Labs 的推理能力得到了顯著提升。
1.更快的模型加載時間
存儲系統升級:從 S3 存儲遷移到高性能文件系統,顯著提升了模型加載速度。
動態啟動優化:動態啟動 GPU 推理實例的時間減少了一半,從而顯著縮短了模型加載到 GPU 內存的時間。
加載時間縮短:例如,13GB 的模型文件加載時間從 265 秒減少到 195 秒,100 GB+的大型模型的加載時間也與之前的小模型相當。
2.增強云環境互操作性
快照和復制功能:WEKA 的快照和復制功能使 LinguaModel Labs 能夠在不同的云平臺之間無縫共享模型,提高了靈活性和效率。


3.面相未來的 GPU 直連存儲 (GDS)
使用 GPU 直連存儲(GPU Direct Storage)進一步縮短了模型加載時間,并為未來的 GPU 內存擴展提供支持。
以 80 GB/s 的速度在云中將數據快速加載到 GPU 內存
1 秒鐘使 GPU 內存飽和
使用 GDS 技術實現 190GB/s 的數據加載速度
WEKA 在推理環境中的額外優勢


除了提升性能,WEKA 數據平臺還提供其他一些重要優勢。
1.高效下載推理工件
WEKA 能夠快速下載 LLM 推理工件(如文本、音頻、視頻),釋放 GPU 和 CPU 內存,從而最大化 GPU 的利用率和效益。
推理工件(inferencing artifacts)是指機器學習模型在執行推理任務時產生的所有數據和結果。
2.快速加載和卸載 GPU 內存
WEKA 能在一秒鐘內完成 GPU 內存的加載和卸載。這意味著 GPU 可以迅速保存當前的會話、狀態和數據到穩定存儲中。然后騰出空間給其他推理任務。而之前的會話可以在需要時被加載到其他 GPU 上,從上次的進度繼續推理。
3.提高嵌入頻率
WEKA 通過檢索增強技術,使得模型能夠更頻繁地進行數據嵌入。這種方法減少了模型的“幻覺”現象,并確保模型能提供最新、最準確的答案。借助 WEKA, 組織可以更頻繁地更新嵌入數據,從而利用最新、最準確的信息源,獲得更可靠的查詢結果。
“嵌入頻率”指的是模型將新數據嵌入或整合進現有模型中的頻率。這里的“嵌入”是指將外部數據(如文本、圖像、音頻等)轉換成模型可以理解和處理的格式。
“模型幻覺”(model hallucinations)是指機器學習模型生成的虛假、不準確或不相關的信息。這種現象發生時,模型可能會“編造”一些看似合理但實際上并不正確的回答或內容。這通常是因為模型在訓練過程中接觸的數據有限或不完全,或者模型對上下文的理解不夠準確。
WEKA 數據平臺通過優化存儲和計算資源管理,顯著提升了 LinguaModel Labs 的推理效率,使其更快、更高效,并具備了未來擴展的能力。這一方案不僅解決了當前的技術挑戰,還為未來在 AI 和機器學習領域的持續創新奠定了堅實基礎。
對于希望提升推理效率并優化成本的企業,WEKA 數據平臺無疑是理想選擇。


聯系瑞技
了解更多關于 WEKA如何加速 LLM 推理,為 AI 和 ML發展奠定堅實基礎的信息,請聯系 WEKA 中國地區合作伙伴——瑞技科技。
400-8866-490?? |? sales.cn@bytebt.com






