DeepSeek"自言自語"式思考爲何讓美國公司爭相效仿
2月10日消息,中國人工智能初創公司DeepSeek近期超越ChatGPT,登頂應用商店人工智能應用榜首。其成功的一大關鍵在於引入了AI領域的最新熱門創意——一款在回答用戶問題前會“思考”的聊天機器人。
DeepSeek的“深度思考”(DeepThink)模式在回答每個問題前都會顯示“思考中……”的提示,隨後生成一連串的推理過程,彷彿在與自己對話,最終得出答案。這些“自言自語”的思考過程還帶有類似“等等”“嗯”“啊哈”這樣的口語化表達,增強了對人類思維方式的模擬。
這一模式的推出迅速引發熱潮,美國AI公司也在爭相效仿,試圖超越DeepSeek。這種“推理式”AI助手在某些任務上的確更準確,但它們的類人化思考過程也可能掩蓋自身的侷限性。
AI的“自言自語”推理技術(又稱“思維鏈”(Chain of Thought)推理),在2023年底成爲人工智能領域的新趨勢。當時,OpenAI和谷歌推出的AI工具,在解決數學和編程問題時通過逐步推理獲得了更高的測試成績。
然而,這一新型AI助手起初並未向大衆開放。OpenAI於2023年12月發佈了o1系統,每月收費200美元,並未公開其內部推理機制。而DeepSeek的“思考”應用不僅免費提供,還開放了其背後的R1推理模型,這在開發者羣體中引發了極大的關注和討論。
艾倫人工智能研究所(AI2)研究員內森·蘭伯特(Nathan Lambert)表示:“人們迫不及待地想將這種新方法應用到各種場景中。”
自DeepSeek崛起並導致美國科技股大跌的兩週內,OpenAI迅速調整策略,在ChatGPT中免費開放部分推理技術,並推出了基於該技術的新工具“深度研究”(Deep Research),該工具能夠通過網絡搜索自動撰寫報告。
與此同時,谷歌也不甘落後,於上週宣佈其競爭產品“Gemini 2.0 Flash Thinking Experimental”正式面向消費者開放,並通過其AI應用Gemini免費提供。
亞馬遜的雲計算部門AWS則宣佈,正大力投資“自動推理(Automated Reasoning)”技術,以增強用戶信任。
OpenAI隨後調整了ChatGPT的界面,使其也能向用戶展示類似DeepSeek的“思維鏈”推理過程。
AI公司Anthropic的首席執行官達里奧·阿莫代伊(Dario Amodei)在一篇關於DeepSeek亮相對中美AI競爭影響的文章中預測,美國科技企業很快將投入數億至數十億美元,推動AI推理技術的升級。
科技行業希望,這一技術不僅能提升數學和編程能力,還能拓展至更廣泛的領域,打造更接近人類思維方式的通用人工智能(AGI)。
OpenAI首席執行官山姆·奧特曼(Sam Altman)在上月的博客文章中表示:“我們現在有信心知道如何構建AGI(通用人工智能)。”
谷歌Gemini副總裁蕭茜茜(Sissie Hsiao)也表示,推理模型代表了一種AI發展的範式轉變。她指出:“推理模型揭開了生成式人工智能的神秘面紗——通過展示其‘思考過程’,使其更加透明、可信,同時也能更好地完成複雜任務。”
OpenAI發言人尼科·費利克斯(Niko Felix)則表示:“我們希望讓更多用戶瞭解推理模型的能力及其運作方式,以創造更優質的產品。用戶反饋表明,理解AI如何推理生成答案,不僅有助於更明智的決策,也能增強對AI回答的信任。”
“撞牆”
硅谷對推理技術的熱衷,源於對大語言模型下一次突破的追求。這類技術正是ChatGPT及同類人工智能產品的核心驅動力。
過去,OpenAI的成功推動了整個科技行業圍繞一個簡單的範式達成共識:向更龐大的人工智能模型投入更多數據和計算能力,以提升其智能水平。然而,近年來,這一公式的效果開始趨於停滯。
大語言模型在數學、科學和邏輯等行業基準測試中的提升速度不再像過去那樣迅猛,而互聯網上可用於訓練的公開數據也基本被挖掘殆盡。
面對這一挑戰,谷歌、OpenAI 和Anthropic 等公司開始轉向優化現有人工智能模型,以進一步挖掘其潛能。
一個備受關注的方法是“思維鏈”(Chain of Thought)技術,它讓人工智能在回答問題時,將問題拆解成多個邏輯步驟,而非直接生成最終答案。這一技術也是 DeepSeek 等公司所採用的推理方法的一部分,其核心思路是讓模型花費更多時間和計算資源來推理,從而提高回答的準確性。
這一策略已被證明是有效的,尤其是在結合“強化學習”技術後,人工智能的推理能力得到了進一步提升。強化學習通過在大量試錯過程中獎勵正確答案,引導人工智能系統不斷優化自身行爲,這也是計算機能夠掌握圍棋等複雜遊戲的關鍵。
這一方法特別適用於數學、邏輯和編程等領域,因爲計算機可以驗證最終答案的正確性。然而,仍然缺乏關於人類如何通過推理解決問題的數據支持。
起初,研究人員嘗試僱用人工標註員,記錄他們在回答問題時的推理過程。但這一方法既緩慢又成本高昂,難以大規模推廣。
隨着人工智能技術的進步,研究人員發現,AI 現在可以自己生成大量類似人類推理過程的“思維鏈”示例。經過不斷優化,研究人員逐步減少了對人工干預的依賴,實現了 AI 自主推理的突破。
DeepSeek 在今年1月發佈的技術報告中表示,其早期推理模型 R1-Zero 僅通過增加試錯輪次,便能夠自動形成更長的“思維鏈”,而無需特別創建額外數據。
艾倫人工智能研究所的研究員內森·蘭伯特表示:“實際上,你是在搭建一個沙盒,讓模型在其中自行調整行爲。”
儘管人工智能在推理技術上的突破引發了廣泛熱議,但一些專家認爲,公衆的熱情可能掩蓋了對其侷限性的深入探討。
亞利桑那州立大學計算機科學教授蘇巴拉奧·坎巴姆帕蒂(Subbarao Kambhampati)指出,目前仍無法確定“思維鏈”是否真正反映了人工智能系統的信息處理方式。
他的研究表明,在面對實際應用場景,如規劃與調度任務時,人工智能模型的推理能力可能會崩潰。此外,當前實驗室在訓練這些模型時,往往更關注最終答案的準確性,而非推理過程的合理性,使得推理質量難以量化。
以 DeepSeek 的 R1模型爲例,其技術論文指出,在早期版本中,當“思維鏈”同時包含中文和英文時,模型生成的最終答案更準確。然而,研究人員最終選擇了一個全英文的自言自語模型,僅僅因爲用戶更偏好這種呈現方式。
對此,坎巴姆帕蒂教授表示,企業應該讓人工智能按照最能提高答案准確性的方式“自言自語”,而不是刻意優化“思維鏈”以迎合人類用戶。他強調:“擺脫這種擬人化的處理方式更爲重要,因爲它並不會影響模型的實際能力。”
然而,人工智能行業的發展方向似乎正與這一觀點相悖。自 DeepSeek 崛起以來,硅谷的多個推理模型都採用了類似設計,鼓勵用戶相信 AI 的“思維過程”類似於人類推理。
在 ChatGPT 的主頁上,“推理”模式按鈕被放置在聊天框的顯眼位置。奧特曼在社交媒體上表示,“思維鏈”功能讓 AI 能夠“展示其思考過程”。
研究實驗室 Cohere for AI 負責人薩拉·胡克(Sara Hooker)指出,對於普通用戶而言,這種設計讓他們感覺自己正在“洞察算法的運作方式”。但實際上,這種“自言自語”並非真正的透明度,而是優化 AI 性能的一種手段。
賓夕法尼亞大學沃頓商學院的人工智能研究教授伊桑·莫利克(Ethan Mollick)補充道,這種 AI 展示“內心獨白”的方式可能會引發用戶的情感共鳴。他認爲,相較於 ChatGPT 穩重平淡的回答風格,DeepSeek R1則顯得“極度友好,甚至迫切希望取悅用戶”。
他進一步指出:“如今,我們正在見證一個奇怪的現象——硬核計算機科學與市場營銷正在融合,甚至連開發者們自己可能都難以區分兩者的界限。”(小小)