《科技》是德科技推AI資料中心建構工具 助力提升AI訓練效能

在AI營運商使用各種平行處理策略(如模型分區)加速AI模型訓練的過程中,KAI資料中心建構工具能夠進一步優化AI叢集的設計。此過程中的關鍵挑戰,包括GPU之間的資料移動效率,通常需要通過實驗來進行解答。這些挑戰涉及GPU互連的擴展設計、擴展網路的頻寬與拓撲結構、網路負載平衡以及訓練框架參數的調整等問題。

KAI資料中心建構工具的工作負載模擬解決方案能夠重現真實AI訓練中的網路通訊模式,從而加速實驗流程、縮短學習曲線,並深入揭示效能下降的潛在原因。這些原因往往是在真實訓練過程中難以察覺的,進而幫助用戶識別並解決問題。用戶可以接觸到包括GPT和Llama在內的大型語言模型工作負載庫,並選擇不同的模型分區架構,如資料平行(DP)、全分片資料平行(FSDP)以及三維平行處理。

利用KAI資料中心建構工具中的工作負載模擬應用程式,AI營運商可以實驗不同的平行處理參數,調整分區大小及其在AI基礎設施中的分佈,進一步瞭解分區內外的通訊對作業完成時間的影響。該工具還能幫助識別效能不佳的集體運算,分析網路利用率、尾部延遲和壅塞情況,進而優化整體作業完成時間。

KAI資料中心建構工具的新增功能,使AI營運商、GPU雲端供應商以及基礎設施供應商能夠在實驗室設置中導入真實的AI工作負載,驗證不斷演進的AI叢集及新元件設計。這樣一來,使用者能夠進行更多的實驗與調整,最佳化模型分區架構、參數及演算法,進一步提升AI工作負載的效能。

是德科技網路測試與安全解決方案事業部副總裁兼總經理Ram Periakaruppan表示,隨着AI基礎設施的規模和複雜性不斷增長,對於全面驗證與最佳化的需求變得至關重要。爲了避免高昂的延遲與返工成本,這些驗證必須提前至設計和製造週期的早期階段進行。KAI資料中心建構工具的工作負載模擬功能,將爲AI元件和系統設計注入前所未有的真實性,幫助最佳化工作負載,從而達成最高效能。

KAI資料中心建構工具是是德科技KAI架構的一部分,該架構爲一套端到端的解決方案,旨在幫助客戶通過模擬真實世界的AI工作負載來驗證AI叢集元件,並進一步擴展資料中心的AI處理能力。