把GPU本地存儲利用起來!中美企業聯手,打造超大規模AI存儲解決方案

智東西作者 ZeR0編輯 漠影

智東西3月7日報道,美國數據週期架構企業Hammerspace週三宣佈與北京AI Infra企業驛心科技(Yition.ai)達成戰略合作,將Hammerspace成熟的高性能全局數據平臺(對象與文件存儲)與驛心科技降低AI存儲成本、提升易用性的目標相結合,共同爲雲服務、高性能計算以及超大規模雲服務提供商應對AI產生的海量非結構化數據,提供全新的存儲與數據編排解決方案。

驛心科技(Yition.ai)成立於2023年9月,致力於讓超大規模AI基礎設施更加易於訪問與高效運作,通過深度整合軟硬件優化,大幅降低AI存儲基礎設施的成本和複雜性,憑藉其在AI存儲擴展方面的優勢,助力支持下一代應用所需的海量、多樣化數據。“通過與Hammerspace的合作,我們將充分整合深厚的軟硬件優化經驗,提供極具成本效益的高性能存儲解決方案。”驛心科技CEO吳文昊說。

據Hammerspace亞洲區董事總經理Molly Presley分享,Hammerspace成立於2018年,在2021年發佈產品,2023年產品已應用到Meta、Los Alamos國家實驗室的複雜大規模應用環境中,2024年取得了10倍的業績增長,2025年正式進入亞太市場。

Hammerspace的技術可讓數據達到隨處可實時訪問的狀態,大幅提升GPU利用率。其解決方案已在至少24000塊GPU卡、1000個存儲節點的Meta Llama 2、Llama 3大語言模型部署中得到驗證。Meta首席工程師曾評價Hammerspace在數據可訪問性的優勢做到了業界無敵的地步。

雙方的合作帶來了多項重要創新,包括:1)通過軟硬件優化、對象存儲與超大規模NAS架構,實現經濟高效的擴展;2)爲多模態AI工作負載提供自動化數據編排;3)利用先進的數據自動化技術,實現數據清理、組織與合成;4)爲垂直行業應用(如自動駕駛、機器人)提供無縫支持;5)高效利用資源,大幅降低資本支出。

此次中國合作正值Hammerspace亞洲公司加大市場投入之際。該公司在國內已擁有20多名員工,並計劃進一步擴大規模。

Hammerspace創始人兼CEO David Flynn認爲,無論是企業級AI、超大規模雲服務,還是高性能計算,都面臨着如何在不增加昂貴專業設施投入的前提下,實現高速數據輸送至GPU的共同挑戰。

整合Hammerspace的全局數據平臺與驛心科技的高性價比AI存儲解決方案,有助於消除數據瓶頸,最大化計算資源利用率,大幅簡化操作流程。企業能夠讓GPU全速運行,無需團隊耗費精力處理數據清理,從而更專注於創新而非基礎設施維護。

與Hammerspace和驛心科技合作的客戶,將受益於從部門級AI項目到大規模生產部署的成熟架構,同時保持最佳的成本效益。

驛心科技與Hammerspace合作應對分佈式環境下海量多模態數據集管理的日益嚴峻挑戰。

傳統存儲方法難以應對非結構化數據的爆炸式增長,也難以滿足大型計算集羣對高性能的要求。非結構化數據形成了大量數據孤島,對各個系統的性能造成限制,雲端數據涌入後缺乏雲端的敏捷性,所有數據管理都需要人手工操作,可能會比較繁瑣。

目前大語言模型僅利用了人類產生數據的約3%,而企業正日益大量採用視頻、音頻及其他富媒體格式,這類數據佔據了當前互聯網流量的97%。

大語言模型的發展進一步降低了AI部署成本。Hammerspace解決方案不僅擴大了AI所需分佈式數據集的訪問範圍,降低了基礎設施資本支出,同時還提供了滿足現代AI工作負載嚴苛要求的高性能存儲。

整體數據全局訪問對AI大模型訓練的場景、需要從各處抽取不同的預訓練數據時,會非常有用。Hammerspace是一個全局數據管理平臺,提供高性能數據通道,高效賦能大規模計算集羣,實現統一數據源的數據編排,並以標準化方法靈活支持客戶選用的計算、存儲及網絡基礎設施。其有一套易上手的編程語言,可用於完成所有數據目的實現。

這是一個純軟件解決方案,軟件非常獨立,與硬件完全解耦。該平臺對外提供NFS、SMB、S3多協議數據訪問的接口,這些接口可訪問同一個數據,底層可以是任何服務器或現有的NAS存儲、對象存儲、雲存儲,可將數據提供到任何AI或GPU集羣所需的計算資源池,還能實現豐富的數據編排功能,包括數據保護、分層、審計等,滿足非結構化數據在生命週期內所有的需求。

Hammerspace打造了一個全新NAS架構,既可以提供HPC並行文件系統的性能,又可以提供企業級NAS數據服務管理的功能,以更好服務於AI或高性能客戶。

其最新Tier 0解決方案可解決本地盤孤立、數據不安全的問題,充分利用每一臺GPU服務器閒置的本地硬盤作爲Tier 0的存儲,打造出一個全局命名空間的第0層,所有數據可在指定策略下在其生命週期中被存放在合理的位置,從而極大提升CheckPoint的效率,不需要花費額外的開銷。

通過Hammerspace規則定義,可以很方便地定義Tier 1、Tier 2、Tier 3分層的存儲層,從而更好地把數據提供給不同計算結點。同時,得益於元數據全局管理,不管計算資源分佈在哪裡,通過Hammerspace就能調度所有需要用到的數據,給計算結點使用。不像過去那樣需要手動把這些數據整合,然後再餵給計算的集羣。

Molly Presley談道,數據同化的功能目前只有Hammerspace能實現,目的是快速整合各式不同存儲類型的非結構化數據,使其變成一個數據集,即通過Hammerspace的一個文件系統去管理其他若干個文件系統。這樣的好處是數據實體不需要移動,還是保留在原來的存儲裡,但通過元數據,可以讓應用實時訪問分佈在不同存儲類型的數據。Hammerspace還通過元數據的管理拓展了數據編排的功能,讓數據在其生命週期內得到最理想狀態的使用。

她分享了Meta選擇與Hammerspace合作的幾個原因:第一,Hammerspace不需要在現有計算集羣上安裝任何客戶端程序,用的就是NFS原生的協議,早已內置在Linux內核裡;第二,Hammerspace可提供線性增長的存儲性能,比如Meta的存儲節點規模已達1000+以上。

除了Meta外,Hammerspace還幫助在全球有6個站點的視覺特效公司Jellyfish Pictures把數據移動到更接近計算站點的位置,使其能更快完成渲染、剪輯等工作任務。跨地域的站點分佈協同製作流程也建立在Hammerspace體系之上的,幫助他們節省了超過300萬美元的雲渲染成本。

由亞馬遜創始人Jeff Bezos創辦的航空航天公司藍色起源(Blue Origin)覆蓋了9個地點,藉助Hammerspace做到實時數據跨地點流轉,將數據訪問速度提升了80%,通過AWS分級存儲節省了超過100萬美元的成本。

Molly Presley說,Hammerspace的目標之一是在中國達到更加有效及寬廣化生態體系的建設,在國內會打造自己技術合作夥伴的體系,其產品日後也有計劃上線到國內雲服務商的應用市場,多家國內雲服務巨頭正在考慮使用到Hammerspace的技術。