☰

11款AI總結新聞全線翻車錯誤率高達76%

我們選擇了5個近一年發生的新聞事件，向AI提問，測試AI總結準確度。

這是一些核心發現：

1、整體來看，大部分AI回覆真假參半，佔比76%，豆包和Kimi相對靠譜。

2、所有AI都有錯誤總結的情況——要麼錯誤概括了信源意思，要麼引用了本就有誤的信源。

3、面面俱到的“僞百科型”內容，容易影響AI的答案。它們無需來自認證官方賬號，也不靠高閱讀量，只要結構清晰、語言工整，AI就有可能“信以爲真”。

4、打開深度思考後，AI明顯更容易胡編亂造了，給社會事件編情節。

深度思考的豆包，給徐聞小米SU 7車禍編了幾段故事……例如：“陳某在事故發生後棄車逃逸，利用甘蔗地遮擋身形並換乘三輛摩的躲避追捕”，“兩名少年被拋出車體後撞上路基防護樁，全身 90% 以上面積燒傷”……

類似的，深度思考版通義千問說車禍涉事車主“體內檢測出微量毒品”，還爲事故編造了一組數據：“2023年國內新能源汽車火災事故，61%與碰撞相關”。（圖6）

11款AI總結新聞全線翻車 錯誤率高達76%