AI“偏科”改善意味着什麼
原標題:AI“偏科”改善意味着什麼
6位清華姚班學生與AI比賽做高考數學、物理壓軸題,姚班學生10分鐘內完成作答,1位同學做錯了題目,AI則在輸入確認後幾秒就開始輸出步驟,並答對了題目——最近,企業發佈的一個視頻讓不少人大吃一驚。
猶記得去年7月,一道小學生難度的數學題“9.11和9.9哪個大”,難倒了一衆海內外AI大模型。不少評測機構把高考題拿給大模型做,也發現大模型更擅長回答文科試題,而不太擅長回答數學、物理等理科題目,於是有了一個形象的說法:大模型更像文科生而不是理科生。
AI“偏科”,一方面與大模型的架構和運行機制有關,大模型的解答方式本質上是“預測下一個詞”,即通過當前輸入的文本預測下一個詞出現的概率來進行訓練和回答。文科推理預測有一兩處錯誤,不影響長文本理解;理科推理則更考察因果性而非相關性,“比如一道數學題包含5步推理和5步計算,假設大語言模型每一步預測準確的概率都有90%,綜合下來的準確率就只有35%”。另一方面,文科語料數據豐富多樣,有利於訓練大模型,理科語料主要是數字和符號,形式單一,數據資源少,不利於訓練大模型。
通過“偏科”背後的運行機制,不難看出,大模型的數理能力之所以重要,甚至被認爲是大模型“智力的直接體現”“實力的重要分水嶺”,正因爲它關係到落地應用時的可靠性和準確性。例如,在聊天場景下,智能客服一本正經地胡說八道,影響不大;而在金融、工業場景下,即便是一個數字出錯,後果可能都讓人吃不消。隨着“人工智能+”持續推進,大模型加速賦能千行百業成爲行業共識與競爭焦點,改善AI“偏科”,擴展應用場景,就成了必答題。
綜合比較不同機構在不同時期的評測,絕大多數大模型的數理能力在提高,有的還能達到“博士”“清北”水平,速度之快讓人驚歎。當然,正如專家所說,在真實業務場景中,AI要處理的信息遠不止於語言,而是多模態數據的融合,隨着多模態技術的發展,AI將從語言模型演進爲推理模型,最終發展爲世界模型,“在推理與理解能力提升的基礎上,下一步的關鍵方向是智能體”。唯有具備完整決策與執行能力的AI智能體,才能真正實現商業價值的閉環。
去年,第一個具有“專家級數理能力”的大模型出現時,就有人擔憂,人工智能的發展速度超過了人類對其認知的速度,人工智能治理將是一個巨大挑戰。有學者就提到,“人類用了大概300萬年才發展到現在的智力水平,現在的大模型幾個月就從IQ 80飆升到130了,未來還會繼續提升。這對教育意味着什麼?”如今,大模型迭代速度越來越快,性能越來越強大,有望在數理能力等方方面面逼近甚至超過人類平均水平,除了要思考AI治理問題,人機共生時代,回答好如何實現AI與人類優勢互補問題,也迫在眉睫。(維辰)
來源:南方日報