Alibaba 新開源模型 QwQ-32B:以更小算力匹敵 DeepSeek-R1

Qwen 團隊是中國電商巨頭阿里巴巴的一個部門,專注於開發其不斷擴展的開源 Qwen 大語言模型(LLM)系列。該團隊推出了 QwQ-32B,這是一種新的 320 億參數推理模型,旨在通過強化學習(RL)提高複雜問題解決任務的性能。

該模型作爲開源權重在 Hugging Face 和 ModelScope 上提供,採用 Apache 2.0 許可證。這意味着它可用於商業和研究用途,因此企業可以立即將其用於支持其產品和應用程序(即使是那些向客戶收費使用的應用程序)。

個人用戶也可以通過 Qwen Chat 訪問該模型。

Qwen-with-Questions 是阿里巴巴對 OpenAI 原始推理模型 o1 的迴應

QwQ,全稱爲 Qwen-with-Questions,最初由阿里巴巴於 2024 年 11 月推出,作爲一個開源推理模型,旨在與 OpenAI 的 o1-preview 競爭。

在發佈時,該模型旨在通過在推理過程中審查和改進自身的響應來增強邏輯推理和規劃,這種技術使其在數學和編碼任務中特別有效。

QwQ 的初始版本具有 320 億個參數和 32,000 個 Token 的上下文長度,阿里巴巴強調其在 AIME 和 MATH 等數學基準測試以及 GPQA 等科學推理任務中優於 o1-preview。

儘管有其優勢,QwQ 的早期版本在 LiveCodeBench 等編程基準測試中表現不佳,而 OpenAI 的模型在這些測試中保持了優勢。此外,與許多新興推理模型一樣,QwQ 面臨語言混合和偶爾的循環推理等挑戰。

然而,阿里巴巴決定以 Apache 2.0 許可證發佈該模型,確保開發者和企業可以自由地調整和商業化使用它,這使其與 OpenAI 的 o1 等專有替代品區分開來。

自 QwQ 初次發佈以來,AI 領域迅速發展。傳統大語言模型的侷限性變得更加明顯,擴展定律在性能提升方面的收益遞減。

這種轉變激發了人們對大型推理模型(LRM)的興趣——這是一類新的 AI 系統,通過推理時推理和自我反思來提高準確性。這些包括 OpenAI 的 o3 系列和來自競爭對手中國實驗室 DeepSeek 的非常成功的 DeepSeek-R1,該實驗室是香港量化分析公司 High-Flyer Capital Management 的一個分支。

根據網絡流量分析和研究公司 SimilarWeb 的一份新報告,自 2024 年 1 月 R1 推出以來,DeepSeek 已迅速攀升至成爲僅次於 OpenAI 的訪問量最大的 AI 模型提供網站。

QwQ-32B 是阿里巴巴的最新版本,通過整合 RL 和結構化自我質疑,成爲推理聚焦 AI 領域的一個強有力競爭者。

通過多階段強化學習提升性能

傳統的指令調優模型通常在困難的推理任務中表現不佳,但 Qwen 團隊的研究表明,RL 可以顯著提高模型解決複雜問題的能力。

QwQ-32B 基於這一理念,通過實施多階段 RL 訓練方法來增強數學推理、編碼能力和一般問題解決能力。

該模型已與 DeepSeek-R1、o1-mini 和 DeepSeek-R1-Distilled-Qwen-32B 等領先替代品進行了基準測試,儘管參數數量較少,但表現出競爭力。

例如,雖然 DeepSeek-R1 具有 6710 億個參數(激活 370 億個),但 QwQ-32B 以更小的規模實現了可比的性能——通常需要 24 GB 的 vRAM 在 GPU(Nvidia 的 H100s 具有 80GB)上運行,而運行完整的 DeepSeek R1(16 個 Nvidia A100 GPU)則需要超過 1500 GB 的 vRAM——這突顯了 Qwen 的 RL 方法的效率。

QwQ-32B 遵循因果語言模型架構,幷包括多項優化:

64 個 Transformer 層,配備 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置;

具有 40 個查詢注意力頭和 8 個鍵值對的廣義查詢注意力(GQA);

擴展的 131,072 個 Token 上下文長度,允許更好地處理長序列輸入;

包括預訓練、監督微調和 RL 的多階段訓練。

QwQ-32B 的 RL 過程分爲兩個階段執行:

數學和編碼重點:

該模型使用數學推理的準確性驗證器和編碼任務的代碼執行服務器進行訓練。這種方法確保生成的答案在被強化之前經過正確性驗證。

一般能力增強:

在第二階段,模型通過一般獎勵模型和基於規則的驗證器進行獎勵訓練。此階段提高了指令遵循、人類對齊和代理推理能力,而不影響其數學和編碼能力。

對企業決策者的意義

對於企業領導者——包括 CEO、CTO、IT 領導者、團隊經理和 AI 應用程序開發人員——QwQ-32B 代表了 AI 如何支持業務決策和技術創新的潛在轉變。

憑藉其 RL 驅動的推理能力,該模型可以提供更準確、結構化和上下文感知的見解,使其在自動化數據分析、戰略規劃、軟件開發和智能自動化等用例中具有價值。

希望部署 AI 解決方案以解決複雜問題、提供編碼支持、進行財務建模或客戶服務自動化的公司可能會發現 QwQ-32B 的效率具有吸引力。此外,其開源權重可用性允許組織微調和定製模型以適應特定領域的應用程序,而不受專有限制,使其成爲企業 AI 策略的靈活選擇。

由於該模型來自中國電商巨頭,可能會引發一些非中國用戶的安全和偏見擔憂,尤其是在使用 Qwen Chat 界面時。但與 DeepSeek-R1 一樣,該模型可在 Hugging Face 上下載並進行離線使用和微調或重新訓練,這表明這些問題可以相對容易地克服。它是 DeepSeek-R1 的一個可行替代方案。

AI 高級用戶和影響者的早期反應

QwQ-32B 的發佈已經引起了 AI 研究和開發社區的關注,幾位開發者和行業專業人士在 X(前身爲 Twitter)上分享了他們的初步印象:

Hugging Face 的 Vaibhav Srivastav(@reach_vb)強調了 QwQ-32B 的推理速度,感謝提供商 Hyperbolic Labs,稱其爲“快如閃電”,並與頂級模型相媲美。他還指出,該模型“擊敗了 DeepSeek-R1 和 OpenAI o1-mini,並採用 Apache 2.0 許可證。”

AI 新聞和傳聞發佈者 Chubby(@kimmonismus)對該模型的性能印象深刻,強調 QwQ-32B 有時優於 DeepSeek-R1,儘管其規模小了 20 倍。“天哪!Qwen 太棒了!”他們寫道。

Hyperbolic Labs 的聯合創始人兼 CTO Yuchen Jin(@Yuchenj_UW)慶祝該模型的發佈,指出了效率提升。“小模型如此強大!阿里巴巴 Qwen 發佈了 QwQ-32B,這是一種推理模型,擊敗了 DeepSeek-R1(671B)和 OpenAI o1-mini!”

另一位 Hugging Face 團隊成員 Erik Kaunismaki(@ErikKaum)強調了部署的簡便性,分享說該模型可以在 Hugging Face 端點上進行一鍵部署,使開發者無需進行廣泛設置即可訪問。

代理能力

QwQ-32B 具備代理能力,允許其根據環境反饋動態調整推理過程。

爲了獲得最佳性能,Qwen 團隊建議使用以下推理設置:

溫度:0.6

TopP:0.95

TopK:20-40 之間

YaRN 縮放:建議用於處理超過 32,768 個 Token 的序列

該模型支持使用 vLLM 進行部署,這是一種高吞吐量推理框架。然而,vLLM 的當前實現僅支持靜態 YaRN 縮放,無論輸入長度如何,保持固定的縮放因子。

未來發展

Qwen 團隊將 QwQ-32B 視爲將 RL 擴展以增強推理能力的第一步。展望未來,團隊計劃:

進一步探索擴展 RL 以提高模型智能;

將代理與 RL 集成以實現長時推理;

繼續開發針對 RL 優化的基礎模型;

通過更先進的訓練技術邁向人工通用智能(AGI)。

通過 QwQ-32B,Qwen 團隊將 RL 定位爲下一代 AI 模型的關鍵驅動力,展示了擴展可以產生高性能和有效的推理系統。