蘋果MTP技術:大語言模型響應速度最高提升5倍

據報道,蘋果提出“多token預測”(MTP)技術,在不犧牲輸出質量的情況下,可將大語言模型響應速度提升2至3倍,特定場景下最高可達5倍。傳統大語言模型逐個輸出token,速度受限。蘋果研究發現模型內部蘊含對後續多個詞的潛在判斷能力,據此提出MTP框架,支持模型一次生成多個詞。該技術通過“掩碼”token作爲佔位符,並行推測後續多個詞,並在推測結果與標準自迴歸解碼結果不符時自動回退,確保輸出質量。實驗基於開源模型Tulu3 - 8B進行,訓練其最多推測8個後續token,在問答和對話等通用任務中,響應速度平均提升2至3倍;在代碼生成、數學推理等結構化場景中,提速可達5倍。