國內60%AI應用背後的搜索公司,怎麼看AI幻覺問題?|AI幻覺捕手
21世紀經濟報道記者肖瀟 北京報道
所謂“AI幻覺”——AI一本正經地胡說八道,已成爲行業熱詞。它常被歸因爲大模型生成機制的天然缺陷、訓練數據的有限,但在一系列技術解釋之外,一個環節鮮少被討論:搜索。
聯網搜索如今幾乎是每個AI通用聊天產品的標配,它承擔着爲AI補充“最新知識”的任務。如果把AI聯網回答的過程比喻爲做菜,大模型是廚師,搜索引擎就是食材供應商。一道菜的風味如何,廚師水平固然重要,但食材同樣關鍵。
在我們此前對AI幻覺的實測中,“食材”環節存在不少問題:失真信息、自媒體二手資料、人工智能生成內容被反覆引用……爲什麼準確信息難被引用到?AI依據哪些標準在互聯網中挑選信息?(詳見:《讓AI查了330次新聞:平均準確率25%,近一半鏈接打不開》)
爲了更好理解AI幻覺的鏈路,我們把視線投向了一家總部位於杭州的公司:博查。這家初創公司是國內60%以上AI應用的服務商,爲DeepSeek、字節跳動、騰訊等頭部AI產品提供搜索服務。團隊告訴我們,今年3月,博查搜索API日均調用量已經突破了3000萬次,達到微軟必應的三分之一。
我們與博查CEO劉勳和CTO翁柔瑩展開對話。作爲AI的信息入口,博查提供了另一種理解AI幻覺問題的視角。
AI幻覺只能儘可能減少,很難徹底消除
21世紀經濟報道:“AI+搜索”相當於給AI外掛了一個動態更新的數據庫,這一概念剛興起時,很多人期待它能從源頭解決AI胡編亂造的問題,但現在幻覺情況依然常見。作爲AI搜索能力的提供方,你們會如何看待AI幻覺問題?原因出在哪裡?
翁柔瑩:本質上這是信息來源的問題,你去百度、谷歌、必應搜索,會發現裡面也有很多不實信息。雖然傳統搜索引擎和AI搜索引擎的底層技術架構不同,但“內容生產、抓取、索引”的邏輯是一致的,內容真實性並不是AI搜索能完全控制的。也就是說, AI去聯網搜索,和我們自己使用傳統搜索引擎一樣,都會碰到信息不準確的問題。
這個問題只能儘可能減少,很難徹底消除。我們現在能做的,主要是通過技術手段去做信息過濾。
21世紀經濟報道:有哪些有效的技術手段,讓AI提供儘可能準確的搜索結果?
劉勳:準確性和權威性需要從多方面判斷,現在比較普遍的策略是“模型+人工”。
首先在大模型層面,我們有一套對抗性的模型體系——在互聯網信息進入我們的索引庫之前,大模型會先判斷可信度。比如有人在我們的信任站點雪球(一個投資者社區)上,發帖說 DeepSeek 是李開復發佈的產品,而且整篇內容都是胡編亂造的,我們能用大模型識別出來,大幅降低其權重。
但也有一些內容是大模型判斷不出來的。比如大S去世時,有人說汪小菲包機把遺體運回中國臺灣了,甚至他媽媽(張蘭)都在抖音上點讚了這條消息。很多用戶都以爲這是真的,大模型也無法準確識別,這時候就需要人工介入了。當我們確認某條信息被官方媒體明確闢謠、證實是造謠後,我們會主動將這類內容清除。
翁柔瑩:初步得出相關結果之後,我們會再進行一輪排序(re-rank)。會沿用谷歌EEAT 的維度(EEAT:專業性、經驗、權威性、可信度;谷歌算法用來評估網站排名的重要指標)給每條結果打分。通過加權評分,對搜索結果進行重新排序。
21世紀經濟報道: AI搜索還有哪些挑選標準?我們之前實測發現,有一些閱讀量很少但面面俱到的自媒體內容,在傳統搜索引擎裡位置特別靠後,但會被AI看到和引用到。這可能是什麼原因?
劉勳:目前我們權重最大的評估指標是“語義相關性”,核心原則是返回的內容裡必須包含用戶問題的答案。
如何理解?大家用DeepSeek搜索,會直接提問一段完整的句子。以前把這麼長一段話放到搜索引擎裡,是搜不出什麼結果的,因爲傳統搜索引擎是匹配關鍵詞,而AI搜索引擎的技術架構是“語義搜索”,即基於自然語言匹配結果。
大模型在處理一個用戶的問題時,可能會一次性接收到 30條~50 條網頁內容。我們通常會用1到 10的分數來評估這些內容質量。總共劃分成四個區間,分數越高,代表網頁內容越能完整地回答用戶的問題,甚至還能額外補充一些信息。
當然,我們不是AI產品本身,而是爲 AI 產品提供聯網搜索的API,也就是說我們沒有最終輸出的決定權。AI產品會根據語義相關性再做一輪篩選,從這幾十條候選網頁中,最終選擇幾條內容進行總結。
21世紀經濟報道:所以即使是接入相同的搜索API接口,不同AI產品最終輸出回覆的準確度也會有差異。
劉勳:其實AI 產品接入的信息源也往往不止一個,我們只是內容來源之一。比如豆包,它既接入今日頭條、抖音等字節系信息源,同時也接入我們這些第三方的數據源。這在技術上叫“多路召回”——從多個內容池子裡一起抓取結果。多路召回之後,怎麼排序、優先展現哪些內容,是由AI廠商自己決定的。
一般來說,AI廠商會優先展示自家生態裡的內容,因爲這些內容不僅有更高的信任度,而且在它們自己的平臺上也更容易實現流量變現和生態閉環。
GEO在興起,低質量內容涌入
21世紀經濟報道:傳統搜索引擎的一些問題被詬病許久,比如廣告太多、優質內容藏在“圍牆花園”裡不對外開放等等,這些老問題對AI搜索會有影響嗎?你們是怎麼應對的?
翁柔瑩:這個情況其實還好。首先,廣告的問題不在於內容本身,而是搜索引擎公司在選擇在用戶界面加入廣告,也就出現了你說的問題。我們的定位是“給AI用的搜索引擎”,在商業上沒有引入競價排名機制。
其次,關於信息質量差、優質內容不開放,還是技術問題。傳統搜索引擎基於關鍵字搜索,圍繞着這套架構,低質內容可以通過一些手段讓自己排名更靠前,比如只要付錢就能被推到前面。
21世紀經濟報道:說到競價排名的商業模式,SEO (搜索引擎優化)已經發展成一個龐大產業了,而AI流行後出現了一項新服務叫GEO(生成引擎優化),即讓某個網頁內容更容易被AI引用。你們有沒有關注到這個現象?
翁柔瑩:我就用一句話總結:你要精準知道用戶會提什麼問題,然後基於這些問題來寫答案,就能大幅提高內容排名。
當然,無論是 GEO還是傳統的 SEO,高質量內容都是基礎。在此基礎上,結構清晰且有明確回答的內容,就更容易被 AI 搜索並引用。
已經有一些原本做 SEO 的公司在轉型做 GEO,但我們目前不打算跟進這條路徑。因爲我們發現,大模型真正需要的是最權威、最準確的內容源。如果允許低質量內容通過GEO 技術“混進來”,反而容易加劇AI幻覺問題,所以我們並不鼓勵低質量內容的涌入。
相反,其實我們更希望建立一種全新的內容合作機制。過去大家是花錢買搜索排名,未來我們希望能夠反過來:不需要買排名,而是主動獎勵好內容。如果你能給我們提供高質量、結構清晰、可信的內容,我們可以進行內容分潤或其他形式的合作激勵。這是我們正在探索的一種新模式。
劉勳:提供優質內容會是我們堅持的原則。不過目前國內的 AI 生態仍在快速演化,AI 應用的最終形態,尤其是在 C 端用戶場景中的具體形態,其實在未來2~3年內仍存在較大不確定性。我們希望在行業形態更加明朗之後,建立一套成熟、清晰的內容合作機制。
21世紀經濟報道:現在很多AI回答的來源,其實是另一個AI生成的內容,“AI引用AI”的自循環越來越常見,目前有沒有比較可行的應對策略?
翁柔瑩:我們一直在推進信息過濾的工作。第一步是清理黃賭毒等違法違規內容;第二步,也是目前重點投入的方向,是識別並攔截 AI 生成內容,尤其是“投毒型”AI生成內容。
這類內容有兩個明顯特徵:一是結構、用詞、語義風格與人類創作存在差異,我們可以訓練一套專門的大模型來識別,類似論文AI查重;二是經常夾帶虛假細節。比如同一事件,網上可能有十篇真實報道,而 AI 寫的那一篇可能加入了杜撰內容,我們可以通過交叉對比剔除這些內容。
21世紀經濟報道:我們還注意到了延時問題。此前有一家媒體報道全國秋糧收購3.45億噸, 當時AI搜不到“秋糧收購3.45億噸”的數據出處,直到第二天整體報道數量多了,AI才收錄到這一信息。爲什麼會出現這一情況?
劉勳:跟傳統搜索引擎的架構類似,當我們抓取到一個網頁後,數據需要經過一系列處理流程,包括原始內容的提取、黃暴等合規性識別、內容清洗、結構化處理,最終纔會進入索引庫。這一套流程是需要時間的,目前我們能實現的最快數據處理時長大約爲半小時,這是一個技術限制。
未來AI的搜索調用量可能是人類的5~10 倍
21世紀經濟報道:你們的不少合作方是國內互聯網廠商,本身擁有成熟的技術團隊和互聯網經驗。他們找博查合作時最主要的需求是什麼?
翁柔瑩:最核心的需求就是搜索質量。
其實無論是互聯網大廠還是中小廠商,只要做AI搜索,面對的都是一套全新的技術架構。行業最早將“語義搜索”應用於 AI 場景,是微軟基於必應搜索開始爲 ChatGPT 提供搜索服務。直到 2023 年 5 月, ChatGPT 接入必應實現聯網搜索後,這套架構才被廣泛關注。但要推翻幾十年的技術積累、重新搭建架構,難度和成本都很高,所以整體推進速度比較慢。
另一方面,有一些客戶本身並不具備搜索引擎技術,僅能做站內搜索,無法支持全網檢索,因此希望通過我們補足從 0 到 1 的能力。
過去這些客戶通常會接入微軟必應的搜索API。但必應有兩個問題:一是數據出海,存在安全合規隱患;二是價格高。博查對標的是必應,所以會選擇我們作爲更安全可控的國產替代方案。
21世紀經濟報道:可以說說提供AI搜索服務的技術和成本嗎?門檻高在哪裡?
劉勳:舉個例子,做搜索引擎的第一步,是構建一個“索引庫”,可以簡單理解爲內容的底層數據庫。谷歌的索引量大概是萬億級,必應略低一些。即便在國內剛起步,索引庫的規模也至少要達到百億條數據。
這個數據量級意味着什麼?我們目前支持百億級數據的實時檢索,而且要實現毫秒級響應,這背後需要非常龐大的基礎系統。僅服務器部分,我們使用的數量就在1萬到2萬臺之間。支撐這套系統的成本也非常高,“起步價”至少就要每月幾千萬元。
更重要的是,我們的技術架構完全圍繞內容相關性設計,沒有廣告干擾,這對AI 搜索是最基本的要求。傳統搜索引擎公司如果也想轉向做AI搜索的 API,就意味着要拋棄原有的關鍵字搜索架構,重做一套向量索引系統。另外,如果要提供一個沒有廣告干擾的 API,也會衝擊他們原有的商業模式和收入結構。
21世紀經濟報道:那博查預計的盈利週期大概多久?接下來在技術優化和商業佈局上有什麼打算?
劉勳:我們目前並不着急盈利,更關注如何推動整個 AI 生態的發展。等國內AI應用生態成熟起來了,我們再跟着去實現商業變現。
現在全球範圍裡,所有人類主動發起的搜索總量大概在 100億次~200 億次之間(包括谷歌、必應以及微信等平臺內搜索)。但我們認爲,未來 AI 的搜索需求會遠遠超過這個量級。
舉個例子,當你向 DeepSeek 這樣的模型提問時,大模型會把一個問題拆解成多個子問題的同時調用搜索。尤其是像 Manus 這樣的 AI 智能體,爲了完成一個複雜任務,往往需要反覆調用搜索服務接口。我們估計未來的AI搜索調用量會是人類的 5 到 10 倍,甚至更高。
也就是說,搜索能力未來會像地圖、支付一樣,成爲AI 應用不可缺的基礎模塊,而爲此掏錢的是上層AI應用。所以我們會等待國內 AI 應用生態跑起來。
我們一直是以谷歌和必應爲對手,明年希望至少達到谷歌一半——5000 億條索引庫。其實接下來的關鍵挑戰在基礎設施上,我們的資源部署在各大雲廠商上,目前的成本和限制依然是所謂的“三架馬車”:算法、算力、數據。所以我們需要整個基礎設施的進一步發展,來支持下一階段的擴展和突破。