月之暗面:很早就驗證過長思維鏈,因成本高不夠重視,爲了性能決定搞
三言科技 2月17日消息,上個月Kimi 發佈的多模態推理模型k1.5,今日月之暗面官方分享了k1.5模型誕生的過程。
月之暗面研究員Flood Sung表示,去年9月12號OpenAI o1發佈,長思維鏈(推理模型背後的關鍵技術)的有效讓他陷入反思。
因爲長思維鏈的有效性其實在一年多前就已經知道了,月之暗面Kimi聯合創始人Tim周昕宇很早就驗證過,使用很小的模型,訓練模型做幾十位的加減乘除運算,將細粒度的運算過程合成出來變成很長的思維鏈數據做監督微調,就可以獲得非常好的效果。“我依然記得當時看到那個效果的震撼。”
“我們意識到長上下文的重要性,所以率先考慮把文本搞長,但卻對長思維鏈這件事情不夠重視。其實主要還是考慮了成本問題。”他表示,長上下文主要做的是長文本輸入,有Prefill預填充,有Mooncake加持,成本速度可控,而長思維鏈是長文本輸出,成本高很多,速度也要慢很多。在這種情況下,把輸出搞長就沒有成爲一個高優選項。
該研究員稱還有什麼比性能更重要呢?成本和速度有摩爾定律加持,可以不斷下降,只要把性能搞上去,剩下的都不是主要問題。“所以,我們得搞長思維鏈,搞 o1。”
他還提到在實際訓練的過程中有了重要的發現:模型會隨着訓練提升性能也不斷增加token數,也就是這是RL訓練過程中模型可以自已涌現的,“這個和友商 Deepseek的發現幾乎是一樣的。”