DeepMind放出新AI大招:竟能自我糾錯,但有致命弱點…

5月15日消息,谷歌旗下人工智能研發實驗室DeepMind宣佈研發出新型AI系統AlphaEvolve,專門攻克具有"機器可評分"解決方案的難題。

DeepMind表示,在實驗中AlphaEvolve已成功優化谷歌用於AI模型訓練的部分基礎設施。公司正在開發該系統的用戶交互界面,計劃先向特定學者開放早期測試,後續考慮全面推廣。

大多數AI模型都存在"幻覺"問題——因其概率架構特性,有時會自信地"編造"答案。值得注意的是,OpenAI的GPT-3等新一代模型的幻覺發生率較前代更高,凸顯出這一問題的複雜性。

AlphaEvolve通過引入自動評估系統這一創新機制減少幻覺發生。系統調用模型生成多種可能答案,經批判性篩選形成候選池,再自動評估答案准確性並打分。

AlphaEvolve並非首個採用該方法的系統。數年前,包括DeepMind團隊在內的研究人員就已在多個數學領域運用過類似技術。但DeepMind強調,由於AlphaEvolve採用了"尖端"的Gemini模型,其性能顯著超越早期AI系統。

使用AlphaEvolve時,用戶須向系統輸入問題,可選附上說明、公式、代碼片段及相關文獻,同時,用戶還必須提供以公式形式實現的自動評估機制。

由於AlphaEvolve只能解決可自我評估的問題,該系統目前僅適用於計算機科學和系統優化等特定類型的問題;此外,AlphaEvolve最終輸出的解決方案只能以算法形式呈現,因此難以處理非數值問題。

爲進行基準測試,DeepMind讓該系統嘗試了約50道涵蓋幾何、組合數學等領域的數學題目。據稱,AlphaEvolve能在75%的題目中“重新發現”最優解,並在20%的案例中提出改進方案。

DeepMind還將AlphaEvolve應用於實際問題評估,例如提升谷歌數據中心效率和加速模型訓練。據實驗室稱,AlphaEvolve生成的算法持續回收了谷歌全球0.7%的計算資源,其優化方案使Gemini模型的整體訓練時間縮短了1%。

需要明確的是,AlphaEvolve尚未取得突破性發現。例如在某實驗中,該系統針對谷歌TPU AI加速芯片設計提出的改進方案,實際是其他工具早前已標記過的。

不過,DeepMind與其他AI實驗室的立場一致:AlphaEvolve系統能節省專家大量時間,使專家專注於更具戰略意義的工作。(辰辰)