獨家 | 對話協和:國內首款罕見病大模型,如何抑制AI“幻覺”?
“孩子未滿14歲,此前因扁平足、足踝外翻等結締組織異常特徵在北京看了骨科,醫生根據孩子韌帶鬆弛及外部特徵,認爲疑似馬凡綜合徵;回長沙後,先後又去了多家醫院,心外科等其他科室醫生們也給出同樣的判斷。然而,基因檢測卻未檢出馬凡,眼睛也沒有出現晶狀體脫落。”
近日,全國首個罕見病領域人工智能大模型“協和·太初”面向患者開放。帶着“孩子究竟得了什麼病”的困惑,何芳(化名)將其孩子病情輸入在該模型的對話框中。
與何芳去過的這些醫院的判斷有所不同的是,“協和·太初”給出了其他疾病判斷:鑑於患者基因檢測爲陰性、眼部未見典型病變,還需重點排查Loeys-Dietz綜合徵、先天性結締組織發育不全綜合徵,建議結合FBN1/TGFBR1/TGFBR2等多基因Panel複測。
在給出疾病判斷的同時,該大模型同時給出醫學建議和推薦就診科室,推薦何芳帶孩子做全身磁共振血管成像排查血管病變、皮膚活檢病理檢查等多項補充檢查。
馬凡綜合徵是中國《第一批罕見病目錄》中的疾病,在中國的發病率約爲1/20000-1/10000。在罕見病領域,由於單病種患者稀少,加之其臨牀表型可能與其他罕見或常見疾病相混淆,導致像何芳孩子一樣,誤診、反覆求診的患者並不在少數。
AI大模型的介入,正給出一種破局的可能。
在罕見病醫生欠缺、絕大多數醫院缺少罕見病多學科聯合診斷能力的背景下,利用AI初篩是否靠譜?大模型給出的診斷推理邏輯鏈,能否比肩經驗豐富的罕見病醫生?罕見病單病種患者稀少,小樣本訓練是否會影響模型性能?
2025年2月28日是第18個國際罕見病日。帶着上述疑問,第一財經與“協和·太初”的研發團隊——北京協和醫院與中國科學院自動化研究所的有關專家進行了一次深度對話。
國際首個符合中國人羣特點的罕見病大模型
2025年2月16日,北京協和醫院與中國科學院自動化研究所共同研發的“協和·太初”罕見病大模型,歷經2年技術攻關,正式進入臨牀應用階段。
“協和·太初”是基於協和百年積累的高質量臨牀病歷、專家診療邏輯、權威醫學知識庫(教材/指南/罕見病文獻)及科研教學數據集,實現從臨牀決策到藥物臨牀試驗管理的全流程智能輔助。
第一財經瞭解到,在大模型研發之前,北京協和醫院已經有了一個人工智能的表型提示工具phenobrain,應用效果和方法已經發表,可以提示副高級以上的醫生進行罕見病診斷,準確率達到80%。“協和·太初”在臨牀應用之前,在北京協和醫院罕見病聯合門診試點應用一年,大模型交互能力可以進一步提升這個水平。
“在進入臨牀應用後,患者的自然語言能夠提供多少有效信息,關乎診斷準確率。從近兩週我們收集到的500多條患者使用記錄來看,大模型給出的初篩結論基本可靠。” 轉化醫學國家重大科技基礎設施(北京協和)虛擬人研究平臺主任金曄告訴第一財經。
罕見病雖然單病種患者稀少,但病種繁多,全球罕見病人羣約4億之多。罕見病少,能診斷罕見病的醫生更少,有調研顯示,我國罕見病誤診率也在40%以上,平均確診時間超過4年,診療同質性差,加之罕見病患者往往疾病進展快,更有效的診斷路徑意味着可能爲患者帶來顯著的生存受益和生活質量提升。
近年來,AI技術在醫療領域的應用展現出極大潛力,但在罕見病領域,傳統的AI模型因數據匱乏、知識可信度低、決策邏輯不透明等缺陷,因而難以滿足罕見病診療需求。
“協和·太初”大模型可以通過交互對話,模擬專業醫生的邏輯推理鏈條,爲患者提供複雜表型的初篩,同時依據對患者基本病程的梳理,給出補充檢查檢驗的建議,患者可以根據模型建議在本地完善臨牀檢查並提示首診醫生考慮罕見病可能。
“這意味着,通過大模型支持基於國家直報數據推薦不同級別醫療機構在患者診療中進行分層管理和雙向轉診,可以優化患者就診路徑,減少患者的醫療負擔。”金曄說。
在她看來,2019年,國家衛健委在全國部署罕見病診療協作網絡。北京協和醫院作爲唯一的國家級牽頭單位承擔協作網醫院轉診申請、會診教學和公益性遺傳檢測的任務,目前該網絡已覆蓋全國400多家醫院。在此基礎上,大模型能夠優化提升醫療機構間協作的效率、自由度和合理性。
與此同時,在罕見病誤診、漏診率高企背後,一個不可忽視的問題就是罕見病醫生的稀缺。面向醫生的專業版能夠展示從症狀到診斷的關鍵節點與分支邏輯,可視的決策過程不僅可以爲患者提供科學有效的診療建議,還能夠幫助醫生快速掌握診療思路。
金曄認爲,任何AI工具均不能替代醫生在診療中的作用。但與國家和省級牽頭醫院醫生相比,大模型對於基層醫生診療能力的提升幫助更大,通過人機協作,基層專科醫生也可以開展高水平診療。
如何抑制AI幻覺?
數據是大模型的底座。通常來說,其質量和數量直接影響大模型的性能和準確性。但第一財經瞭解到,“協和·太初”用於學習的數據量並不大。
金曄解釋說,通用大模型往往需要利用最經典的教材和大量的數據,實現訓練和調優。但罕見病領域病種繁多,且有些病種全世界通常只有幾例或者十幾例病例,甚至可以說“擁有幾百例以上病例”就是國際上較大的臨牀隊列了。所以,罕見病的學科特點和數據規模決定了它天生就不是通用大模型優先選擇的解決領域。
“如何在技術上解決小樣本學習的問題?怎樣通過推理並結合知識的方式,快速綁定疾病特點?採取何種診斷邏輯?能否在罕見病和與其具有相似表型的常見病之間,作出鑑別診斷?這些既是應用難點,也是技術難點。”金曄說。
爲此,協和跨學科大模型團隊研發了主動感知交互、鑑別診斷以及“數據+知識”混合驅動等技術,並引入DeepSeek-R1的深度推理能力。
該團隊受訪研發工程師認爲,今年,DeepSeek-R1的橫空出世,論證了通過強化學習的方法,能夠有效提高大模型的推理能力。“協和·太初”大模型採取“數據+知識”雙輪驅動的“小樣本學習”模式,結合大模型的強推理能力,最終實現可信的輔助決策。
據其介紹,在“協和·太初”大模型學習時,一般只需要採集並標註50個以內的罕見病病例和類似規模的常見病病例,就能初步完善一種罕見病專病的“學習”。
除了知識自主迭代,“能有效抑制AI幻覺”亦是該模型的核心優勢之一。而避免AI幻覺的核心是:以嚴格篩選的數據和經深度治理的知識對模型的推理過程進行約束。
受訪研發工程師認爲,如果沒有高質量數據和高精度知識的約束,AI幻覺將難以避免。罕見病數據在互聯網平臺上非常稀缺。如果讓大模型通過海量公開數據去學習,勢必存在數據偏差,大模型的診斷推理過程也會產生知識幻覺——大模型可能利用自身在互聯網數據上學到有偏的知識,去做推理過程的補全。
“所以,我們需要讓大模型的診斷決策過程與醫生的臨牀思維高度契合,以規避幻覺的產生。”該工程師說。
“協和·太初”引入了DeepSeek-R1的深度推理能力,並將其與北京協和醫院高精度的知識和病例進行結合,實現低幻覺AI推理。
金曄表示,確保學習數據來源於協和,既是出於數據質控的考量,也是因爲這些院內數據凝結着大量專家的循證決策依據和多學科推理的邏輯。
罕見病面向特定人羣,對診斷治療非常嚴謹,需要有專業機構和醫生把關,所以由他們對患者用於公共服務方式才最能體現價值。
“醫療問題比較複雜、容錯率低,需要謹慎、再謹慎地對待。我們相信通過優選知識和病例去訓練,比較踏實和穩妥。” 金曄說。
與此同時,大模型應用後,需要不斷迭代優化。未來,該研發團隊或將賦予“協和·太初”更多科研用途,那麼保障高質量的數據則更爲關鍵。
金曄還提到,對於其他常見疾病,AI for Healthcare和AI for Science是相對獨立的,但由於罕見病95%都沒有有效藥物,在罕見病領域需要把醫療和科學智能應用進行結合。“所以,從‘協和·太初’大模型設計的一開始,我們就考慮了今後多個擴展性可能,尤其需要更強大的AI for Science能力的支持。”金曄說。