李飛飛團隊最新s1模型,基於阿里雲Qwen基模監督微調而成

近日,李飛飛團隊提出了一種模型訓練新方法引發熱議,他們以阿里通義千問Qwen2.5-32B-Instruct開源模型爲底座,在16塊H100 GPU上監督微調26分鐘,訓練出新模型s1-32B, 取得了與OpenAI的o1和DeepSeek的R1等尖端推理模型數學及編碼能力相當的效果,甚至在競賽數學問題上的表現比 o1-preview 高出27%。

更早之前,DeepSeek官方曾透露,將DeepSeek-R1的推理能力蒸餾6個模型開源給社區,其中4個模型來自Qwen:基於Qwen-32B蒸餾的模型,在多項能力上實現了對標OpenAI o1-mini的效果。