小紅書Hi Lab團隊提出可大幅降低平均思考長度的強化學習訓練方式

6月19日,小紅書技術團隊發文稱,深度思考模型通過Test-Time Scaling(測試時擴展)大幅提升了模型推理能力,但同時也出現了大量冗餘和無效思考。小紅書Hi Lab團隊提出了Think When You Need的強化學習訓練方式;在不影響最終效果的前提下,實現動態CoT能力,大幅降低平均思考長度。實驗證明,這種思想在推理和非推理等各種任務上廣泛適用。團隊還發現了一種現象:即在相同任務下,越聰明(參數量大)的模型,需要的思考長度越短;這與當前深度思考模型表現相違背,卻十分符合人類的認知。