☰

阿里Qwen3發佈，梅花創投吳世春：給人“脫胎換骨”的感覺

近一個月來，業內傳的沸沸揚揚的Qwen3正式發佈。

4月29日凌晨，阿里巴巴宣佈開源新一代通義千問模型Qwen3（簡稱千問3）。千問3是國內首個"混合推理模型"，將"快思考"與"慢思考"集成進同一個模型。

千問3採用混合專家（MoE）架構，總參數量235B，激活僅需22B。千問3預訓練數據量達36T tokens，並在後訓練階段經過多輪強化學習，將非思考模式無縫整合到思考模型中。在推理、指令遵循、工具調用、多語言能力等方面，千問3均大幅增強。

性能大幅提升的同時，千問3的部署成本還大幅下降，據阿里透露，僅需4張H20即可部署千問3滿血版，顯存佔用僅爲性能相近模型的三分之一。千問3還提供了豐富的模型版本，包含2款30B、235B的MoE模型，以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型。

據瞭解，千問3系列模型依舊採用寬鬆的Apache2.0協議開源，並首次支持119多種語言，全球開發者、研究機構和企業均可免費在魔搭社區、HuggingFace等平臺下載模型並商用，也可以通過阿里雲百鍊調用千問3的API服務。

同時，千問3原生支持MCP協議，並具備function calling能力，或爲即將到來的智能體Agent和大模型應用爆發提供更好的支持。值得注意的是，此前爆火的智能體產品Manus背後的公司與阿里通義千問團隊已達成戰略合作，雙方將基於通義千問系列開源模型，在國產模型和算力平臺上實現Manus的全部功能。

梅花天使創始合夥人吳世春表示："千問3的發佈，給人一種脫胎換股的感覺，像是進入了加速進化的過程。"在大模型的這輪競賽中，他認爲在進入技術收斂期後，產品應用和生態建設將是比拼關鍵，廠商之間的技術差距將會變成規模差距。

何爲"混合推理"？

簡單來說，"混合推理"是把推理模型和非推理模型集成到同一個模型裡，這需要極其精細、創新的設計及訓練。

在今年2月25日，Anthropic發佈了新一代旗艦模型Claude 3.7 Sonnet，彼時被稱作爲市面上首款混合推理模型。Anthropic聯合創始人兼首席科學官Jared Kaplan將其比作人類大腦的運行方式：有的問題需要深度思考，有的問題需要快速作答。但Anthropic希望將這兩種能力整合在同一個模型中，而不是完全分開。

曾參與共同創立Instagram的Anthropic產品主管Mike Krieger對媒體表示，這種混合方法能簡化聊天機器人的使用流程，讓用戶無需思考究竟哪種功能最適合。

4月17日谷歌發佈公告，宣佈在 Google AI Studio 和 Vertex AI 中，以 Gemini API 的方式推出 Gemini 2.5 Flash Preview 預覽AI模型。據IT之家此前報道，Gemini 2.5 Flash是一個混合推理模型，具備"動態且可控"的計算能力，開發者能夠根據查詢請求的複雜程度靈活調整處理時間。

據阿里雲官方介紹，千問3是國內首個混合推理模型。具體而言，在"推理模式"下，模型會執行更多中間步驟，如分解問題、逐步推導、驗證答案等，給出更深思熟慮的答案；而在"非推理模式"下，模型則可快速遵循指令生成答案。

也就是說，同一個模型，可以完成"快思考"和"慢思考"，這類似於人類在回答簡單問題時，憑經驗或直覺快速作答，面對複雜難題時再深思熟慮，仔細思考給出答案。

另外，千問3還可API設置"思考預算"，即預期最大thinking tokens數量，進行不同程度的思考，讓模型在性能和成本間取得更好的平衡，以滿足開發者和機構的多樣需求。比如，4B模型面向手機端，8B可在電腦和汽車端側部署應用等。

阿里雲 CTO、通義實驗室負責人周靖人在和《晚點》對話中提到，設計和訓練混合推理模型的難度，是遠超單純的推理模型的。具體而言，訓練混合推理模型，有複雜的機制，相當於模型要學習兩種不同的輸出分佈，要做到兩個模式融合且基本不影響任何一種模式下的效果，很考驗訓練過程的訓練策略。

目前，混合推理的大模型路線，正成爲頭部大模型公司爭相突破的前沿技術領域。天使投資人、資深人工智能專家郭濤表示，阿里千問3的發佈標誌着大模型技術進入"效率革命"時代，其通過混合專家架構（MoE）與雙模式推理設計，在性能與成本間實現顛覆性平衡。

技術差距將變成規模差距

在開源上，阿里通義始終不留餘力。2023年至今，阿里通義團隊已開源200多款模型，包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列，開源囊括文本生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及視頻模型等全模態，覆蓋0.5B、0.6、1.5B、3B、4B、7B、14B、30B、32B、72B、110B、235B等全尺寸參數。

通義模型也多次登頂HuggingFace、Github榜單，目前，通義千問Qwen衍生模型數量已突破10萬。通義千問Qwen在全球下載量超過3億，在HuggingFace社區2024年全球模型下載量中千問Qwen佔比超30%，穩居第一。

中國人民大學國際貨幣研究所研究員、獨立國際策略研究員陳佳表示，千問3融合了阿里此前的模型技術積累，未來潛力非常強大，"考慮到蘋果AI中文引擎與阿里的合作，以及阿里在雲計算架構和算力服務方面的傳統優勢，阿里系大模型這次的‘突襲’可能會很成功，謹慎看好。"

在資源投入上，阿里巴巴集團CEO吳泳銘2月24日宣佈，未來三年，阿里將投入超過3800億元，用於建設雲和AI硬件基礎設施，總額超過去十年總和。吳泳銘表示："AI爆發遠超預期，國內科技產業方興未艾，潛力巨大。阿里巴巴將不遺餘力加速雲和AI硬件基礎設施建設，助推全行業生態發展。"

另據媒體報道阿里雲近日在全球頂尖高校招募AI技術儲備人才，爲近年來規模最大的AI人才校園招聘。據瞭解，此次校招面向清華大學、北京大學、浙江大學、麻省理工大學、斯坦福大學等全球頂尖高校，招募大語言模型、多模態理解與生成、模型應用、AI Infra等領域技術人才。

4月29日，也有消息稱騰訊對其混元大模型研發體系進行了全面重組，主要圍繞算力、算法和數據三大核心板塊刷新團隊部署，加碼研發投入。

今年春節以來，DeepSeek憑藉着"低價+開源"，像一條鮎魚一樣攪動着大模型市場。大模型價格仍在持續，對此吳世春認爲對價格敏感性的客戶，價格戰會把用戶積累起來，客戶累計越多，數據越多越好，模型就會進入飛輪效應。

"當客戶越來越多，（模型）越來越好用，差距就會從最早期的技術差距變成規模差距。"吳世春判斷，技術收斂期預計要到明年到來，彼時大模型行業將會呈現"3+1"的格局，即阿里、騰訊、字節和DeepSeek。

郭濤認爲，千問3發佈也將使大模型競爭進入"三維立體戰"時代。技術維度，其MoE架構與推理優化或引領行業變革，促使行業從單純堆參數轉向架構創新與硬件協同，提升算力利用率。商業維度，阿里"開源生態引流+企業服務變現"模式吸引衆多ISV加入，重構大模型商業格局，中小廠商面臨生態位被擠壓的局面，行業集中度進一步提升。戰略維度，阿里"軟硬一體+行業深耕"路徑爲雲廠商提供參考，加速大模型走向產業縱深，推動全球企業級大模型市場規模增長。

阿里Qwen3發佈，梅花創投吳世春：給人“脫胎換骨”的感覺

相關資訊