LLM情境調節與持續工作流程提示:革新化學分子式的多模態驗證技術
在科技和學術文檔中發現細微的技術錯誤一直是個難題,尤其是那些需要多模態解讀的內容(如圖像中的化學分子式)。2025年5月18日,來自下諾夫哥羅德洛巴切夫斯基國立大學的葉夫根尼·馬爾哈辛(Evgeny Markhasin)在他的最新研究中,探索了一種令人振奮的解決方案。這項概念驗證研究發表在個人學術論文中,讀者可通過其ORCID(0000-0002-7419-3605)或LinkedIn主頁瞭解更多詳情。
馬爾哈辛教授注意到了一個有趣現象:當今的大型語言模型(LLM)雖然功能強大,但它們有個與生俱來的"糾錯傾向"。這就像是一個過於熱心的朋友,即使你故意說錯話,他也會自動理解你真正想表達的意思,而不是指出你的錯誤。這種特性在日常交流中很有用,但在需要嚴格驗證文檔中的技術錯誤時,卻成了一個障礙。
想象一下,你請一位專家審覈一份重要文件,但這位專家不知不覺地修正了所有錯誤,然後告訴你"一切都很完美"——這顯然不是你想要的結果!在科學領域,尤其是化學公式驗證中,這種問題尤爲嚴重。
爲了解決這個問題,馬爾哈辛教授提出了一種巧妙的方法:通過"持續工作流程提示"(PWP)原則進行"LLM情境調節"。這聽起來可能有些專業,但其實很像是給AI設定一個特定的"思維模式",就像教導一個朋友:"今天我需要你戴上'挑錯眼鏡',而不是你平常的'理解眼鏡'。"
這項研究的獨特之處在於,它不需要複雜的API訪問或模型修改,只利用了通用LLM(如Gemini 2.5 Pro和ChatGPT Plus o3)的標準聊天界面。研究者選擇了一篇包含已知文本和圖像錯誤的複雜測試論文,並開發了幾種提示策略來測試這一方法。
最初的簡單提示策略效果不佳,就像是模糊地告訴助手"找找有什麼錯誤",結果並不理想。但當研究者使用適應PWP結構的方法,嚴格調節LLM的分析思維模式時,情況發生了顯著變化。這種方法不僅提高了兩種模型識別文本錯誤的能力,更有趣的是,Gemini 2.5 Pro甚至能夠反覆識別出一個之前在人工審閱中被忽略的、隱藏在圖像中的分子式錯誤。相比之下,ChatGPT Plus o3在同樣的測試中則未能發現這個圖像中的錯誤。
這項研究的初步發現揭示了阻礙LLM進行細緻驗證的特定運行模式,並表明PWP信息的情境調節提供了一種有前途且高度易用的技術,用於開發更強大的LLM驅動分析工作流程,特別是那些需要在科學和技術文檔中進行細緻錯誤檢測的任務。
一、研究背景:爲什麼我們需要更聰明的AI錯誤檢測?
在科學研究領域,準確性至關重要。想象一下,如果一篇化學論文中的分子式出現錯誤,可能會導致其他研究人員在此基礎上設計實驗,結果耗費大量時間和資源卻一無所獲。這就像是按照錯誤的食譜烘焙一個蛋糕——無論你的廚藝多麼精湛,結果都會令人失望。
傳統上,捕捉這類錯誤依賴於同行評審——專業人士仔細閱讀文檔並找出問題。但隨着學術出版物數量的爆炸性增長,這種人工方法變得越來越不可行。這時,人們自然而然地想到:爲什麼不利用人工智能來幫忙呢?
但這裡存在一個微妙的障礙。當今的大型語言模型,如谷歌的Gemini和OpenAI的ChatGPT,雖然處理信息能力驚人,但它們的設計初衷是理解並滿足用戶意圖,而不是吹毛求疵地找錯。這些模型會自動"糾正"或對它們認爲的輸入不完美之處做出合理推斷。這就像是一個過於熱心的助手,不僅會理解你說的話,還會自動修正你的口誤,即使當你特意想讓他指出這些口誤時。
舉個簡單例子:如果你問ChatGPT"倫敦是大不列顛的首都嗎?"(雖然正確說法應該是"英國"或"聯合王國"),它很可能直接回答"是的",而不是指出術語使用不當。在日常交流中,這種特性很有用,但在科學文獻驗證中,卻成了一個明顯的缺點。
馬爾哈辛教授受到了最近一篇預印本論文的啓發,該論文提出了"持續工作流程提示"(PWP)作爲一種方法,通過專家驅動、基於提示的引導來指導通用大型語言模型。他決定將這一方法應用於一個更具體的挑戰:在一篇已知包含文本和圖像錯誤的複雜測試論文中驗證化學分子式。
二、研究方法:讓AI戴上"挑錯眼鏡"
研究團隊的方法就像是教導一個聰明但過於熱心的助手如何成爲一名嚴格的科學編輯。他們使用了同一篇包含已知錯誤的測試論文,這篇論文共有44頁,其中隱藏着幾個微妙的化學分子式錯誤。
具體來說,測試論文的第S-8頁將硫酸亞鐵銨的分子式錯誤地寫成了Fe(NH?)?SO?,漏掉了一個硫酸根。正確的硫酸亞鐵銨(莫爾鹽)分子式應該是(NH?)?Fe(SO?)?·6H?O或無水形式(NH?)?Fe(SO?)?。第二個已知錯誤出現在第235頁的圖2(c)中,作爲光譜標籤的六甲基二硅氧烷被錯誤地標記爲(CH?)?Si?O,而正確的分子式應爲((CH?)?Si)?O或(CH?)?Si?O。
這個測試文檔非常理想,因爲它既包含了文本形式的錯誤,又包含了圖像中的錯誤,使得研究團隊可以測試模型的多模態分析能力。此外,考慮到測試論文的篇幅(44頁),這也相當於在乾草堆中尋找針——一個真實世界中的挑戰性任務。
研究者們嘗試了幾種不同的提示策略:
首先是最基礎的直接提示,就像簡單地告訴助手:"找出化學分子式和名稱中的錯誤。"這種方法特意提到了名稱,因爲名稱通常可以用來解析分子式錯誤。
第二種策略是分解式提示,專注於提取公式與提取名稱的對比。考慮到在化學交流中,大多數分子式(可能除了最基本的)都應該有相應的化學名稱,研究者設計了一種策略,引導模型提取每個分子式的化學名稱,並通過比較這兩者來識別問題。
第三種策略也是分解式的,但採用了不同的錯誤檢測工作流程。它讓模型從提取的分子式生成名稱,再從生成的名稱重新生成分子式,然後比較提取的和生成的分子式來識別潛在錯誤。
最後,也是最複雜的一種方法,是基於PWP的提示與LLM情境調節。這種方法借鑑了先前工作中的情境調節原則,通過全面的情境設置來減輕輸入偏見。研究者們開發了一個名爲"ChemicalFormulasValidationPrompt"的提示,與之前工作中的"PeerReviewPrompt"類似,但專門針對分子式驗證進行了調整。
這種PWP提示的結構非常精心,包含了幾個關鍵部分:核心目標、角色設定、批判性審查框架等。它還引入了一個專門針對分子式和名稱驗證的"化學標識符分析"子部分,提供了專門的工作流程,包括對文檔(包括文本和圖像)的仔細掃描,以及對公式和名稱的詳細錯誤分類。
三、研究發現:有效破解AI的"糾錯習慣"
研究團隊發現,當使用基本的直接提示時,結果不一致且普遍不可靠。雖然基於文本的目標錯誤偶爾被識別出來,但響應中經常包含大量的"幻覺"——AI編造出的不存在的錯誤。有趣的是,這些幻覺往往很具體,且看起來合理,與目標文本設定的背景相匹配。
比如,LLM特別關注氧原子符號(大寫字母O)在化學分子式中被錯誤地替換爲碳原子符號(大寫字母C)、數字零,甚至偶爾是鈾符號等問題。雖然這些錯誤在真實文檔中可能會出現,但在測試案例中實際上並不存在。
兩種模型還表現出"懶惰"的特點。有時它們會產生大量輸出,充斥着幻覺問題;有時它們聲稱沒有發現任何問題;有時它們只報告了幾個候選問題。ChatGPT Plus o3甚至在其部分暴露的思考過程中表現出擬人化的抱怨,它推理說"手動"瀏覽整個文件搜索候選公式會"永遠"耗時,因此需要考慮不同的策略。
通過分析Gemini的"展示思考"日誌(一個提供模型處理步驟洞察的功能),研究者發現了一個一致的模式。使用分解提示時,LLM通常能正確提取目標公式(例如,"Fe(NH?)?SO?:硫酸亞鐵銨(莫爾鹽)")。然而,在後續的驗證步驟中,它有時會錯誤地將這對標記爲正確。
這種觀察到的行爲可能源於LLM的核心優勢:它們固有的糾錯能力和在輸入存在輕微不準確的情況下理解意圖的能力。就像當你問"英國的首都是什麼?",儘管"英國"的正式名稱是"大不列顛及北愛爾蘭聯合王國",LLM仍會回答"倫敦",自動糾正了你的不準確表述。雖然這種特性通常很有用,但當目標是檢測此類錯誤時,卻成了一個障礙。
這就是情境調節發揮作用的地方。通過"ChemicalFormulasValidationPrompt"(化學分子式驗證提示)創建的詳細情境,LLM似乎能夠暫時抑制其糾錯傾向,採取更批判性的分析姿態。在使用這種PWP基礎的方法進行測試時,兩種模型都能一致地識別出基於文本的目標錯誤。
更令人驚訝的是,由於明確指示進行多模態分析(特別是分析圖像),Gemini 2.5 Pro模型在多次試驗中,還識別出了之前在人工審查中被忽略的基於圖像的錯誤。這就像是一個非常細心的助手發現了一個連專業人士都漏掉的微小細節!相比之下,雖然ChatGPT Plus o3也被宣傳爲具有多模態分析能力,但在這項特定研究中,它未能識別出圖像中的錯誤。
四、Gemini不同接口的表現差異
研究中的一個有趣發現與Gemini 2.5 Pro模型通過不同Google接口訪問時的表現有關。雖然公衆可用的Gemini Advanced應用程序(通過gemini.google.com)和麪向開發者的Google AI Studio理論上提供對相同底層前沿模型的訪問,且AI Studio提供廣泛的定製選項(儘管本研究中使用了默認設置),但研究者注意到行爲上存在質的差異。
雖然不是系統性的基準測試,但觀察性評估表明,通過AI Studio(使用默認參數)訪問的Gemini 2.5 Pro模型在本研究的複雜分析任務中表現出更一致、更精確的行爲,比通過Gemini Advanced應用程序訪問的版本更勝一籌。這種感知到的增強性能表現爲運行之間可能更大的穩定性,更緊密地遵循提示指令和用戶意圖,以及更準確地提取細粒度細節。
這種差異在有限的多模態分析測試中尤爲明顯。雖然兩個接口都使模型能夠識別測試論文中低分辨率圖像內的基於圖像的公式錯誤,但捕獲的細節水平各不相同。具體來說,通過Gemini Advanced應用程序訪問的Gemini 2.5 Pro模型重複將圖像中的公式識別爲(CH?)?SiO,省略了最後一個下標。相比之下,通過AI Studio(默認設置)訪問時,相同的名義模型重複將有缺陷的公式更準確地識別爲(CH?)?Si?O,正確包含了最後一個下標。
這些特定觀察結果,儘管基於有限的概念驗證,表明訪問接口及其默認配置可能會影響LLM在精細、面向細節的任務上的表現。這一觀察結果凸顯了研究人員在報告或嘗試複製使用通過不同平臺訪問的名義相同模型的發現時的一個實際考慮因素。
五、研究影響與未來展望
這項概念驗證研究的觀察結果,特別是關於LLM情境調節在管理某些LLM行爲(如錯誤抑制和輸入偏見)方面的明顯有效性,指向其在化學分子式驗證任務之外的潛在效用。雖然本文的發現是初步的,並且來自有限的測試範圍,但通過PWP信息技術引導LLM注意力和操作模式的原則可能對更廣泛的應用有所幫助。
例如,類似的方法可能在醫學AI領域有價值,用於需要從患者記錄中精細處理和驗證信息的工作流程,這些工作流程中精確性至關重要。另一個相關領域可能是從半結構化或結構不良的來源提取和驗證數據,這在製藥或技術文檔中很常見,在這些情況下,鼓勵LLM標記差異而不是靜默"糾正"它們可能是非常理想的。
然而,重要的是要重申這項探索性工作中固有的限制。主要限制是依賴單一測試論文評估提示策略。因此,雖然所呈現的"ChemicalFormulasValidationPrompt"在這一特定上下文中看似有效,但沒有更廣泛的測試,這些觀察結果不能被概括。提示本身,特別是"化學標識符分析"工作流程,仍然是需要進一步完善的初步草案。
未來的研究應該優先在更廣泛的科學文檔範圍內對這些PWP信息情境調節方法進行嚴格測試,以定量評估它們的性能和通用性。這項工作還應該包括對不同LLM的更系統比較。對提示架構的進一步完善和對特定調節指令如何影響不同LLM行爲(例如,錯誤抑制、不一致的努力、幻覺)的更受控調查也是增強這些技術在複雜科學內容分析和驗證中的準確性和確保更廣泛適用性的基本後續步驟。
總的來說,雖然這項研究是初步的,基於對使用測試論文的觀察評估,但它爲未來發展提供了有希望的方向,表明相對簡單的情境調節可能有助於使通用LLM更適合精細的驗證任務,而無需複雜的模型修改或提示工程。
六、結論:通用AI的未來發展方向
這項探索性概念驗證研究調查了基於LLM的複雜科學文檔中化學分子式驗證,使用了一個包含已知錯誤的單一測試案例。觀察表明,更簡單的提示策略對目標錯誤產生了不可靠的結果,通常受到LLM糾錯傾向和不一致分析努力的影響,儘管它們偶爾能識別出其他未針對的問題,如不平衡的化學方程式,這表明它們在廣泛探索性測試中的潛在效用。相比之下,具有情境調節的PWP基礎方法似乎改善了對目標錯誤類型的識別。
值得注意的是,儘管多模態分析指令主要是從先前工作改編而來,沒有專門針對此任務進行優化,但PWP信息提示引導Gemini 2.5 Pro重複識別出圖像中的一個微妙錯誤——這個錯誤先前在人工審查中被忽略。這一發現突顯了系統性開發、情境條件提示揭示甚至未針對或意外錯誤的潛力。
這些初步觀察強調了LLM在面向細節的驗證任務中面臨的顯著挑戰,但也表明情境調節可能是增強其可靠性的寶貴技術。儘管相對未經優化,所呈現的"ChemicalFormulasValidationPrompt"促成了這些初步定性評估。超出這個有限概念驗證範圍的進一步研究需要驗證這些發現並探索此類方法的全部潛力。
對於關心科學研究完整性的普通讀者來說,這項研究展示了AI不僅可以創造內容,還可以幫助我們更準確地驗證內容,但前提是我們提供正確的指導。就像一個朋友可以幫你檢查文章中的錯誤,但前提是你明確告訴他們要尋找什麼,以及如何以批判性的眼光閱讀你的作品。這種方法可能會對科學出版物中錯誤的減少產生深遠影響,讓科學知識更加可靠和值得信賴。