
Managed Lustre 是 Google 的平行處理檔案系統,具備最高效能且符合 POSIX 標準,可加快 HPC、AI 訓練和服務提供速度。
功能
為滿足新一代 AI 需求,Managed Lustre 效能提升至 10 TB/秒,因此處理規模可擴大 10 倍,讓企業能順暢執行龐大 AI/機器學習工作負載,加快訓練和推論管道速度。
我們推出的全新「動態」方案可提供最佳效能來處理最重要的資料,同時降低整個資料集的總成本,助企業提高彈性。所有服務會整合成單一 SKU,因此企業可預先瞭解確切成本,輕鬆預測費用。由於所有資料都位於 Lustre 內,存取熱資料的延遲時間極短,存取冷資料的延遲時間則與區塊儲存空間相近。這樣一來,將整個資料集移入 Managed Lustre 後,即可消除模型載入、訓練和高頻率查核點方面的瓶頸。
AI 的真正成本不只是儲存空間,還有閒置的運算資源。Managed Lustre 提供高處理量和低延遲的資料推送服務,可確保最昂貴的資產充分發揮效用。透過最佳化資料分配和提高快速查核點機制速度,您能大幅提升加速器使用率,進而降低管理負擔,讓投入的每一分錢都獲得更優異的效能。
想訓練大型深度學習模型,就需要大量資料集。Managed Lustre 以 DDN EXAScaler 為基礎,將資料分散至多個存取位置,進而縮短訓練時間,提高深入分析速度和準確率,可以處理複雜的 AI 專案。這個系統具備優異的擴充能力,可以隨著資料量增加提高效能,避免出現儲存空間瓶頸。歡迎按這裡觀看 Omdia 的 Managed Lustre 總覽。
代理式 AI 風行,促使脈絡窗口不斷擴張,這可能會造成儲存瓶頸,讓使用者與大型語言模型互動時,無法快速取得回應。脈絡窗口越大,就越易受延遲影響,因為加速器上的本機記憶體通常會耗盡,導致模型必須存取外部儲存空間。
在不同產業推動創新
| 產業 |
|---|
AI 和機器學習 解決資料不足問題,大規模訓練基礎模型。Managed Lustre 將運算資源與儲存空間分離,大幅提高 LLM 推論處理量,能在 1 毫秒以內快取外部 KV,確保最昂貴的加速器完整發揮效能。 歡迎探索 Google Cloud AI 解決方案。 |
醫療照護與生命科學 推動突破性創新,研發新療法。Managed Lustre 提供極高的 IOPS,可加速藥物研發、分析複雜的基因體定序,並支援 AI 醫學影像套件,大幅縮短研究人員和臨床醫師取得洞察的時間。 歡迎探索 Google Cloud 醫療照護與生命科學解決方案。 |
機器視覺、機器人和自駕車 加速軟體定義車輛的研發流程。有了 Managed Lustre,創新者將能輕鬆擷取 PB 規模的感應器遙測資料,並透過零延遲儲存空間,輔助空氣動力學、安全防護和熱能最佳化的模擬工作,大幅提高研發工程師的工作效率。 歡迎探索 Google Cloud 汽車業解決方案。 |
AI 和機器學習
解決資料不足問題,大規模訓練基礎模型。Managed Lustre 將運算資源與儲存空間分離,大幅提高 LLM 推論處理量,能在 1 毫秒以內快取外部 KV,確保最昂貴的加速器完整發揮效能。
歡迎探索 Google Cloud AI 解決方案。
醫療照護與生命科學
推動突破性創新,研發新療法。Managed Lustre 提供極高的 IOPS,可加速藥物研發、分析複雜的基因體定序,並支援 AI 醫學影像套件,大幅縮短研究人員和臨床醫師取得洞察的時間。
歡迎探索 Google Cloud 醫療照護與生命科學解決方案。
機器視覺、機器人和自駕車
加速軟體定義車輛的研發流程。有了 Managed Lustre,創新者將能輕鬆擷取 PB 規模的感應器遙測資料,並透過零延遲儲存空間,輔助空氣動力學、安全防護和熱能最佳化的模擬工作,大幅提高研發工程師的工作效率。
歡迎探索 Google Cloud 汽車業解決方案。
定價
| Managed Lustre 定價 | Managed Lustre 的定價主要取決於位置和服務等級。 |
|---|---|
| 服務水準 | 定價 |
1,000 MB/秒/TiB 最適合重視處理量、需要 AI/機器學習訓練的高效能工作負載。 | 每月每 GiB $0.60 美元起 |
500 MB/秒/TiB 最適合兼顧高效能與成本效益:如要執行處理量高的嚴苛 AI/機器學習工作負載、複雜的 HPC 應用程式和資料密集型分析工作,同時兼顧成本效益,這是最理想的選擇。 | 每月每 GiB $0.34 美元起 |
250 MB/秒/TiB 最適合一般用途 HPC 和處理量密集型 AI:���用於多種 HPC 工作負載、AI/機器學習推論、資料前置處理,以及效能需求遠高於傳統 NFS 的應用程式,而且價格實惠。 | 每月每 GiB $0.21 美元起 |
125 MB/秒/TiB 最適合有平行存取需求的大容量工作負載:可以滿足大容量和平行檔案系統存取需求。適合 I/O 限制較少的平行處理工作。 | 每月每 GiB $0.145 美元起 |
瞭解 Google Cloud 定價。查看所有定價詳細資料。
Managed Lustre 定價
Managed Lustre 的定價主要取決於位置和服務等級。
1,000 MB/秒/TiB
最適合重視處理量、需要 AI/機器學習訓練的高效能工作負載。
每月每 GiB $0.60 美元起
500 MB/秒/TiB
最適合兼顧高效能與成本效益:如要執行處理量高的嚴苛 AI/機器學習工作負載、複雜的 HPC 應用程式和資料密集型分析工作,同時兼顧成本效益,這是最理想的選擇。
每月每 GiB $0.34 美元起
250 MB/秒/TiB
最適合一般用途 HPC 和處理量密集型 AI:適用於多種 HPC 工作負載、AI/機器學習推論、資料前置處理,以及效能需求遠高於傳統 NFS 的應用程式,而且價格實惠。
每月每 GiB $0.21 美元起
125 MB/秒/TiB
最適合有平行存取需求的大容量工作負載:可以滿足大容量和平行檔案系統存取需求。適合 I/O 限制較少的平行處理工作。
每月每 GiB $0.145 美元起
瞭解 Google Cloud 定價。查看所有定價詳細資料。
企業案例
Managed Lustre 客戶經驗分享
「我們能否確實協助公司辨識並封鎖深偽音訊、影片和圖片,取決於模型品質。在使用動態資料集成功訓練模型方面,Managed Lustre 至關重要。這個系統可以完整發揮 GPU 的效能,速度比我們評估的其他儲存空間解決方案快 6 倍。」
點此觀看他們的成功案例。
- Resemble AI 執行長 Zohaib Ahmed
「相較於其他 Google Cloud 解決方案,Managed Lustre 可將 AFEELA Intelligent Drive 的 AI 模型訓練規模擴大 3 倍。」
- Sony Honda Mobility Inc. 的 AI 與資料分析平台部門資深經理 Motoi Kataoka
「Salesforce AI Research 將 Managed Lustre 與 VTC (Vertex 訓練叢集) 整合,消除了常見的初始使用瓶頸,讓我們能立即開始執行推論工作負載。這個儲存空間的處理量高、延遲時間短,可以完整發揮 B200 GPU 的效能,大幅提高大型語言模型的推論效能,更勝 H200。對我們的客戶來說,這代表 AI 代理的回應速度更快、內容更豐富,能以遠低於以往的延遲時間處理複雜的推論作業。」
- Salesforce 資深軟體工程師 Lavanya Karanam
「改用 Google Cloud 後,我的研究速度大幅提升。我負責使用龐大的資料集訓練大規模類神經網路,包括由叢集團隊上傳、開放我直接透過叢集存取的完整 Common Corpus。如果沒有任何基礎架構的實際存取權,我根本無法取得完整的資料集。有了 Managed Lustre,以前經常出現瓶頸的擷取作業現在只要幾秒就能完成,GPU 也穩定使用中,等待佇列的時間大幅減少。現在每次進行實驗時,我都能更快取得洞察結果。」
- 維吉尼亞州 Old Dominion University 建模、分析與模擬中心 (VMASC) 研究助理教授 Christopher J. Lynch 博士
「Managed Lustre 至少減少了 50% 的中斷情況,讓我們在執行數學推論模型訓練實驗時,能進行的實驗次數增加一倍。我們將這項服務整合為區域快取,用於儲存「熱」查核點,讓啟動和查核點持續性作業更快速、可靠且便利。在我們的工作流程中,訓練工作會寫入查核點,後續的推論或新訓練工作會在離線系統中使用這些查核點,資料檢索速度因此提升 15 倍,啟動時間則縮短 50% 以上。Lustre 是一個現成、可靠的掛接檔案系統,效能優異。有了這項服務,我們的研究團隊就能更獨立地實驗新的訓練技術,輕鬆實現兩倍的疊代週期,同時維持卓越的效能,不必再從其他儲存選項擷取相同資料。」
- Harmonic 基礎架構部門主管 Riley Patterson
使用 Managed Lustre 擴充 GKE 工作負載
這份指南說明如何搭配使用 Managed Lustre CSI 驅動程式與 Google Kubernetes Engine (GKE),為容器化 AI、機器學習和 HPC 工作負載順暢佈建高效能儲存空間。閱讀網誌。
運用 Managed Lustre 加快 AI 和 HPC 作業速度
概略瞭解 Managed Lustre 如何簡化高效能運算工作負載的平行檔案系統部署工作。閱讀網誌。
採用 Managed Lustre 的外部 KV 快取
深入瞭解如何使用 Lustre 消除大型語言模型 (LLM) 推論工作的 KV 快取,減少 TPU/GPU 的記憶體負擔。閱讀網誌。




