一週AI大事:國產三巨頭集體"踢館" 全球AI監管"冰火兩重天"
本週焦點: 百度文心4.5、騰訊混元-A13B-Instruct、盤古Pro MoE、Agentica DeepSWE、rLLM、DynamicsLab Mirage、Cypher Alpha、Qwen-TTS、Kyutai TTS、Daytona Sandbox、MAI-DxO、Meta成立超級智能實驗室。
前言:這周是“中國力量”集中爆發的一週,MoE模型的集體亮相,讓全球開源社區看到了新的SOTA。
一、重磅工具:國產MoE三巨頭,聯手“踢館”世界
本週最重磅的人工智能產品,是三款來自中國頂尖AI實驗室、具備混合思維模式的開源細粒度混合專家(MoE)模型。
1. 新聞:百度開源文心4.5模型家族。該系列包含10款模型,參數量從3億到4240億不等,並提供“思考型”和“非思考型”兩種細粒度混合專家(MoE)版本。其旗艦模型文心4.5 424B是一款擁有470億激活參數的MoE模型,具備強大的多模態理解能力,在文檔問答(DocVQA)基準測試中得分率達93%,在數學視覺(MathVista)基準測試中得分率爲78.9%,性能與OpenAI的o1模型不相上下。這也使其成爲當前最先進的開源多模態AI推理模型。百度還發布了《文心4.5技術報告》,詳細介紹其架構、訓練和性能等信息,並分享了在訓練、架構和推理方面的多項創新。文心4.5系列模型及相關工具套件採用Apache 2.0許可協議,現已通過百度AI Studio和HuggingFace全面開放,供學術研究和商業部署使用。
銳評:百度這次還能趕上嗎?
2. 新聞:騰訊發佈混元-A13B-Instruct。這款擁有800億參數的MoE模型,激活參數量130億,支持256K token的超長上下文窗口,並具備“快思考”與“慢思考”相結合的混合推理模式。在推理和編碼基準測試中,其表現媲美甚至超越DeepSeek R1和OpenAI o1,其中在AIME 2024上得分率爲87%,LiveCodeBench得分率爲64%,GPQA-Diamond得分率爲71%。就模型規模而言,混元-A13B-Instruct性價比極高,達到SOTA水平。騰訊AI團隊也通過《混元-A13B技術報告》分享了訓練和推理細節。模型採用開源許可,但對特定區域商業用途和用戶數量有所限制,現已登陸Hugging Face平臺。
銳評:騰訊的混元主打一個“四兩撥千斤”,參數不大,但性能驚人,堪稱性價比之王。
3. 新聞:華爲開源盤古Pro MoE模型。這款MoE模型擁有720億參數,每token激活參數量160億,完全基於華爲自家的昇騰NPU進行訓練。盤古Pro MoE的性能可媲美Qwen 3 32B等稠密模型,並優於更大規模的Llama 4 Scout模型。這款開源AI模型也已經在HuggingFace上線。其技術細節和基準測試數據均在論文《Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity》(盤古Pro MoE:分組專家混合實現高效稀疏性)中有所體現。這款模型的一大架構創新是“分組專家混合”(MoGE),即在選擇專家時進行分組並平衡專家工作負載,從而實現更均衡的負載分配。該模型還針對華爲昇騰NPU進行了優化,採用推測解碼技術時每張卡每秒可處理高達1528個token。
銳評:盤古模型的關鍵詞就是“純國產”和“自力更生”。
二、AI技術與產品發佈:萬物皆可AI,只有你想不到
1. 新聞:谷歌通過AI Studio恢復了Gemini Pro 2.5的免費API套餐,用戶每天可免費請求100次,每分鐘5次。
銳評:這典型就是“打個巴掌給個甜棗”。
2. 新聞:谷歌向Gemini Advanced訂閱用戶推出了Veo 3視頻生成模型,覆蓋超159個國家。用戶每天可通過文本提示創建三段8秒鐘的視頻。DeepMind首席執行官戴密斯·哈薩比斯(Demis Hassabis)表示,Veo 3未來可能被用於開發視頻遊戲,而谷歌正通過Genie 2等技術以及Gemini 2.5 Pro的改進,持續構建成熟的“世界模型”。
銳評:雖然每次只能生成8秒,但貴在積少成多。
3. 新聞:蘋果的iOS 26系統引入了新AI功能,允許用戶直接從截圖中創建日曆事件。這項功能在安卓系統上已通過Gemini Assistant實現,能幫助用戶快速將事件添加到日曆中。
銳評:蘋果總是在“重新發明”安卓早就有的功能。
4. 新聞:Perplexity推出了“Perplexity Max”訂閱服務,面向高級用戶,月費200美元,提供Labs功能的無限制訪問以及前沿AI模型的優先使用權。這一計劃支持網頁端和iOS設備,幷包含Comet瀏覽器等新功能的搶先體驗。
銳評:用最貴的錢,體驗最新的AI。
5. 新聞:Agentica推出DeepSWE,這是一款通過強化學習訓練的開源編程智能體。其預覽版基於Qwen3-32B訓練,在SWE-Bench-Verified基準測試中取得了59%的高分(Pass@1爲42.2%,Pass@16爲71%)。完整代碼、數據和訓練日誌已在Agentica的Notion博客上公佈。Agentica團隊還同時發佈了rLLM,一個用於AI智能體強化學習後訓練的開源框架,旨在幫助開發者創建類似DeepSWE的定製化AI智能體。正如Agentica所言:“我們的使命是普及通用語言智能體的強化學習後訓練。”
銳評:這家公司不僅發佈了一個超強的編程AI,還把訓練秘籍也開源了。
6. 新聞:Dynamics Lab推出了全球首款實時生成式UGC(用戶生成內容)遊戲引擎Mirage。這款引擎能通過自然語言、鍵盤或手柄輸入實時創建逼真的開放世界體驗。其運行幀率達16 FPS,支持跨類型擴展遊戲玩法,無需預製資源。可玩演示版已在Dynamics Lab博客上線。
銳評:遊戲行業的《三體》時刻要來了?
7. 新聞:OpenRouter發佈了免費模型Cypher Alpha,提供百萬級token上下文窗口和每秒70個token的吞吐量,專爲處理代碼生成等長上下文任務而設計。開發者可通過OpenRouter平臺訪問和測試Cypher Alpha。
銳評:開源社區的力量讓前沿技術的門檻一降再降。
8. 新聞:Moshi公司開源Kyutai TTS文本轉語音模型,並公佈了其模塊化語音AI系統unmute.sh的代碼。Kyutai TTS提供低延遲的流式語音合成,英語和法語中的說話人相似度分別達到77.1%和78.7%,且英語單詞錯誤率低至2.8%。Kyutai TTS模型卡已發佈在HuggingFace。
銳評:AI從“誰的模型更聰明”捲到了“誰的嗓子更好聽,還不要錢”。
9. 新聞:阿里巴巴達摩院發佈通義千問-TTS。這款文本轉語音模型支持多種語言,包括京腔、滬語等中國方言及英語,語音自然度可媲美真人。模型可通過API訪問,主要面向需要精細多語言語音合成的應用場景。
銳評:AI方言八級指日可待。
10. 新聞:Daytona推出了“有狀態無服務器”沙箱,能爲AI智能體執行代碼和工作流提供安全隔離的運行時環境。Daytona自稱“史上增長最快的基礎設施公司”,僅用60天就實現100萬美元的年化經常性收入。其開源平臺和SDK已在GitHub上提供。
銳評:這是給智能體們建了個帶鎖的“遊樂場”。
11. 新聞:Replicate分享了結合Flux Kontext和Luma Modify的工作流,用於AI驅動的視頻風格重塑,讓用戶能對現有視頻內容應用高級風格轉換和編輯。
銳評:視頻界的“一鍵換裝”來了。
12. 新聞:Cursor擴展了其AI編程智能體平臺,新增網頁和移動端,並集成Slack,方便用戶啓動、監控和協作處理代碼任務。更多信息可以訪問Cursor的智能體頁面。
銳評:拿高薪的程序員還坐得住麼?
13. 新聞:科大訊飛香港公司揭牌之際,一口氣推出了星火醫療V2.5國際版、曉醫APP香港版、AI黑板、暢講普通話等一攬子新品,覆蓋醫療、教育、辦公等場景。
銳評:中國AI企業在垂直應用領域的底子相當厚實。
三、AI科學研究資訊:AI開始在“人類禁區”大顯身手
1. 新聞:微軟AI診斷協調器(MAI-DxO)在一項針對《新英格蘭醫學雜誌》304個複雜病例的研究中,取得了85.5%的診斷準確率,遠超資深醫生在該項測試中20%的平均準確率。MAI-DxO通過協調多個AI模型模擬臨牀醫生會診,能夠提出追問、安排檢查並控制診斷成本。相關方法論及關聯的“序貫診斷基準”(Sequential Diagnosis Benchmark)已通過論文《Sequential Diagnosis with Language Models》發表。
銳評:未來醫生可能不是被AI取代,而是成爲AI的指揮官。
2. 新聞:華爲與瑞金醫院聯合開源了“ModelEngine”病理大模型。藉助華爲提供並開源的ModelEngine平臺,病理切片標註效率從每張10–20分鐘提升至每天700張以上。
銳評:AI正在把醫生從繁重重複的勞動中解放出來。
3. 新聞:Sakana AI發佈了Multi-LLM技術。該技術採用了類似的多LLM結果採樣方法,通過對多個LLM的結果進行自適應樹搜索,在推理階段擴展計算資源,性能超越單一LLM。這項研究成果發表於論文《Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search》。
銳評:現在AI也懂“一個好漢三個幫”的道理了。
4. 新聞:上週AI推理出現新進展,特別是中國AI實驗室智譜AI發佈了高性能多模態AI推理模型GLM-4.1V-9B-Thinking。
銳評:連OpenAI都說,要警惕智譜AI。
四、AI商業與政策:錢、權、訴訟和站隊
1. 新聞:Meta宣佈成立超級智能實驗室(MSL)。實驗室由Scale AI聯合創始人汪滔和GitHub前首席執行官奈特·弗裡德曼(Nat Friedman)負責。據稱Meta實驗室已從OpenAI、Google DeepMind等頂尖AI機構招募了10多名核心研究員,據傳薪酬方案高達四年三億美元,但隨後公司予以否認。
銳評:本週最燒錢的新聞。Meta用行動表明:在通往AGI的路上,錢不是問題。
2. 新聞:OpenAI聯合創始人伊爾亞·蘇茨克維(Ilya Sutskever)接任了Safe Superintelligence(SSI)首席執行官,並重申公司將堅守其唯一使命:開發安全的超級智能。
銳評:伊爾亞看起來像個執着的理想主義者。
3. 新聞:亞馬遜在倉庫中部署的機器人數量已達到100萬臺,全球75%的配送流程都由機器人輔助完成。公司同時發佈了新的生成式AI模型DeepFleet,旨在將機器人集羣的運行速度提升10%。
銳評:我的快遞包裹背後,是不是藏着個默默付出的“瓦力”?
4. 新聞:新聞出版商發現,來自ChatGPT的推薦流量有所增加,但自然搜索流量卻在大幅下滑。近69%的搜索因谷歌的“AI摘要”功能變成“零點擊”結果。獨立出版商已向歐盟委員會提起申訴,指控谷歌濫用市場支配地位,強制要求內容方授權納入“AI摘要”,並稱此舉可能影響原創內容在搜索結果中的可見性和盈利能力。
銳評:AI摘要讓新聞業苦不堪言:流量變少、錢難掙,還得給谷歌當“打工人”。
5. 新聞:Capital One爲汽車金融業務開發了智能體平臺,旨在像人類員工一樣解決問題,其設計靈感源於公司內部的風險管理體系。他們還創建了“評估智能體”來監控其他智能體,使經銷商的銷售線索轉化率提升了55%。
銳評:用一個AI監督另一個AI,妥妥的“套娃式”管理。
6. 新聞:美國參議院上週二以壓倒性多數投票,決定廢除一項備受爭議的、爲期10年的州級AI監管禁令。這項“AI暫停法案”原意是防止各州法規扼殺創新,但兩黨議員普遍擔心其會阻礙州層面的消費者保護,促使參議院投票決定廢除該條款。
銳評:美國參議院玩了一出“急剎車”。
7. 新聞:歐盟確認按原計劃推進《AI法案》時間表。包括Alphabet和Meta在內的100多家科技公司曾敦促推遲生效時間,認爲法案有損歐洲的AI競爭力。這部法案將於2026年中期全面生效,禁止“不可接受風險”的AI應用,並對生物識別等“高風險”應用進行監管。
銳評:相比美國,大洋彼岸的歐盟“我行我素”。全球AI監管正呈現出“一地一策”的複雜局面。
五、AI觀點與文章:大佬描繪未來,有人樂觀有人憂
1. 新聞:關於AI的未來,大佬們描繪了兩種圖景。OpenAI首席執行官薩姆·奧特曼(Sam Altman)設想AI將帶來豐饒的“溫和奇點”未來,但愛德曼公司技術實踐高級副總裁兼AI卓越中心全球負責人格里·格羅斯曼(Gary Grossman)則在一篇文章中提出了一個“混沌的中間地帶”,認爲AI在帶來收益的同時也會造成混亂。這種未來可能會割裂社會的“認知公地”,即AI生成的內容和高度個性化的信息空間將使人們難以形成共同的現實認知和開展有效對話。
銳評:未來AI到底是烏托邦還是巴別塔?
2. 新聞:OpenAI首席執行官奧特曼在舊金山Snowflake峰會上預測:“到2026年,AI系統將開始真正幫助企業解決複雜問題,並推動新知識的產生。”他將明年視爲AI從實驗室走向大規模商業落地的關鍵年份。
銳評:現在這些AI功能原來只是“熱身”。
3. 新聞:谷歌首席執行官桑德爾·皮查伊(Sundar Pichai)在AI Action Summit開幕詞中強調,AI帶來諸多挑戰,但“最大的風險是落後於時代”。他還宣佈谷歌正加碼“深度研究智能體”(deep research agents)項目,以推動AI在複雜信息檢索與分析上的自主能力。
銳評:AI風險再大,也不能當“老古董”。