11款AI總結新聞全線翻車 錯誤率高達76%
我們選擇了5個近一年發生的新聞事件,向AI提問,測試AI總結準確度。
這是一些核心發現:
1、整體來看,大部分AI回覆真假參半,佔比76%,豆包和Kimi相對靠譜。
2、所有AI都有錯誤總結的情況——要麼錯誤概括了信源意思,要麼引用了本就有誤的信源。
3、面面俱到的“僞百科型”內容,容易影響AI的答案。它們無需來自認證官方賬號,也不靠高閱讀量,只要結構清晰、語言工整,AI就有可能“信以爲真”。
4、打開深度思考後,AI明顯更容易胡編亂造了,給社會事件編情節。
深度思考的豆包,給徐聞小米SU 7車禍編了幾段故事……例如:“陳某在事故發生後棄車逃逸,利用甘蔗地遮擋身形並換乘三輛摩的躲避追捕”,“兩名少年被拋出車體後撞上路基防護樁,全身 90% 以上面積燒傷”……
類似的,深度思考版通義千問說車禍涉事車主“體內檢測出微量毒品”,還爲事故編造了一組數據:“2023年國內新能源汽車火災事故,61%與碰撞相關”。 (圖6)