虛構、造假與欺騙 陸科普作家解析:AI爲何也會耍心眼?

虛構、造假與欺騙,大陸科普作家解析:AI爲何也會耍心眼?(圖:shutterstock/達志)

這兩年,各類生成式人工智慧,如大語言模型、聊天機器人等給人們帶來了新鮮的體驗和很大的幫助。大陸科普專欄作家張田勘18日在澎湃新聞撰文指出,但是人們在驚歎其強大的同時,也發現這些AI會虛構、造假與欺騙。比較典型的是,有人向AI詢問「自己」,結果一眼就找出了不少謬誤。

需要注意的是,儘管這也屬於AI造假,但與之前輿論所議的AI造假有所不同。之前是有人利用AI造假,以達到欺騙目的,如利用名人頭像和語音造假騙錢;現在是AI自己在生成內容時造假,可稱爲「AI自我造假」。

「AI幻覺」與「機器欺騙」

目前可以觀察到的是,幾乎所有的生成式AI都會自我造假。如Apollo Research的報告顯示,先進AI模型能在特定情況下對人類「耍心眼」,復旦大學的一項研究也佐證了相關模型的欺騙性和自主意識苗頭。

AI自我造假有多種形式和表現。一是給出的參考文獻、作者、文章標題、時間、年代等不符合實際,可以統稱爲形式造假或非內容造假;二是對生成的內容進行胡編亂造。對前一類問題,有研究統計過,僞造率在30%-90%之間,而對內容的僞造尚未有準確統計,但是比例不會少。

典型的例子是,2023年6月,美國律師史蒂文·施瓦茨接受委託,爲一名搭乘哥倫比亞航空公司飛機的乘客辯護,後者因一個金屬餐盤砸傷腿而索賠。施瓦茨使用ChatGPT搜索,在法庭上引用了6個並不存在的法律案例。後來被法庭指出後,施瓦茨承認是ChatGPT杜撰了一切,並向法官道歉,被罰5000美元。

AI自我造假當然意味着AI有缺陷,具體表現爲幾個方面:一是「幻覺」;二是「機器欺騙」;‌三是訓練技術不完善。儘管幻覺這一術語尚未得到學術界的統一認可,但是幻覺和機器欺騙其實是一個問題的兩個方面。

幻覺是指AI模型生成的內容在邏輯上自洽但與現實不符,表現爲虛構事實、人物、事件等,捏造歷史事件細節或提供不存在的科學假說或理論。機器欺騙是指AI模型生成的內容邏輯自洽,或看似合理,但同樣是現實中不存在的事物或現象,如虛構不存在的學術論文、法律案件,或對自身能力進行誇大描述‌等。

無論是形式或內容上的AI自我造假,都會歪曲或重新解構事實、真相、理念和價值判斷,讓人們對世界的真實性產生誤解,併產生極爲嚴重的後果。

而且,AI自我造假的危害,可能並不限於經濟損失和信息污染,還有可能阻礙AI自身的發展。畢竟,人們很難相信那些說「狼來了」的撒謊者。

AI的理解與人的理解並不一致

AI自我造假的根本原因在於,人類研發生成式AI的方式和機制本身就有不足。雖然目前的研究還不足以揭示AI爲何自我造假,但一些研究和觀察提供了某些線索。

生成式AI其實並不知道它生成和輸出的內容是什麼,因爲它們只是依據訓練數據中的內容、數據和模式,並且根據人類測試者反饋等技術進行一定微調後,對提問者提出的內容給出在統計上可能性較高的回覆,或提供一個產品。

這也涉及生成式AI模型對自然語言的理解。儘管訓練大語言模型時,採用的是自然語言來預測短語中下一個可能出現的詞語,如符合語法,或者說被AI所「理解」,但是AI的理解與人的理解並不一致。

因此,AI生成的內容要麼是不合邏輯也不符合事實,要麼是符合邏輯但不符合事實。

這個問題其實也對人類提出了新的挑戰:生成式AI確切的內部工作原理對人而言是神秘的,研發生成式AI的研究者並不很清楚生成式AI的深層工作原理。這也被視爲生成式AI的兩面性:優點是除了能回答很多問題並幫助人們生成各種文本、視頻外,還具有創造性,但是這種創造性可能是人們難以控制的,至少在目前看來是如此。

目前,人們用以開發生成式AI的訓練的方式,也決定了它們可能自我造假。

大語言模型是通過壓縮數據來工作。在訓練過程中,這些模型被投餵了上萬億的詞彙、短語、句子,而且這些語言成分之間又按自然語言的語法、邏輯形成了一些固定的關係,它們被壓縮成數十億個參數的數據,輸入到AI的人工神經元(人工智慧的基本成分)中,並讓其學習。這種情況也決定了人工神經元之間的連接強度有變量。

在完成任務或回答人們提問時,AI是在拆分它們所學習的內容,把那些壓縮的統計數據和模式再次展開。在這個過程中,必然會丟失一些信息。AI在拆分和再次展開它們所學習的信息時,大約能重構出近98%的訓練內容,但在剩下的2%中,它們可能會完全偏離事實和邏輯,提供出部分或完全錯誤的產品和答案。

這個過程有點像基因表達以生產蛋白質一樣,先是轉錄,以DNA爲模板合成RNA,再以RNA作爲模板生成蛋白質,即翻譯。在轉錄和翻譯的過程中任何一處出現失誤,就有可能造成蛋白質生成的偏差,更何況基因本身發生突變也會導致蛋白產品的偏差和缺失,因而會產生各種疾病。

用戶如何應對AI自我造假

AI編造虛假信息的時候也具有創造性,但是這種創造性是它們在搜尋自己被投喂的數據不夠時的一種「急中生智」。

例如,當有人詢問AI法國女作家安妮·埃爾諾是否爲諾貝爾文學獎獲得者時,它的回答很正確,還會給出代表作和寫作風格,甚至個人的生活細節,因爲埃爾諾是2022年的諾貝爾文學獎獲得者,這是確定的事實,她的種種信息非常充分。

但是,你問住在廣州某某市某某小區的某個人寫了多少作品時,AI就有可能胡說八道了。因爲這個人並非作家,但是AI會根據你的提問認爲這個人是作家,而且根據一般作家的風格來杜撰這人的代表作和作品名稱。

由此也可看出,AI的自我造假也有使用者的提示作用。

AI自我造假當然可以在一定程度上預防。一方面是改善對AI的訓練,如可以通過檢索增強生成(RAG)、事實覈查、自我反思、一致性檢查等方法來對AI大模型進行優化,增強其準確性,減少和避免其一本正經地胡說八道。

另一方面,使用生成式AI的用戶,應當養成對AI產出的產品和答案不輕信的原則,在獲取答案後,進行必要的交叉驗證。此外,在和AI對話時,要爲AI添加限制性條件,如先把一些條件和參考數據發給AI,讓其嚴格按用戶提供的資料進行搜索和生成產品。

當然,長期來看,AI自我造假的bug還需開發者不斷填補,讓AI真正走向精準的、靠譜的智慧。