DeepSeek開源第四彈“教”優化 樑文鋒參與研發

財聯社2月27日電,DeepSeek開源周(OpenSourceWeek)第四彈來了,DeepSeek於2月27日在X上宣佈這次開源的是三項優化並行策略,並在Github上詳細展開了DeepSeek-V3和R1模型背後的並行計算優化技術,通過這些闡述可以清晰瞭解團隊是如何精細地優化計算和通信,最大限度利用GPU能力的。這三項優化並行策略其中包括DualPipe,這是一種用於V3/R1模型訓練中計算與通信重疊的雙向流水線並行算法,這種算法能夠完全重疊前向和後向計算通信階段,與傳統方法相比減少了“流水線氣泡”(設備在某些時刻的空閒等待)。 在DualPipe的開發團隊署名中,包括創始人樑文鋒。 (第一財經)