AI醫療進入精準化“深水區” :OpenAI醫療評估基準落地、大模型加速變革|AI醫療浪潮㉑
21世紀經濟報道記者 閆碩 北京報道
近日,OpenAI推出HealthBench開源基準測試,用於衡量大語言模型在醫療健康領域的性能表現與安全可靠性,引發業內廣泛討論。
根據官方信息,HealthBench由262位來自60個國家/地區執業的醫生共同參與構建,整合了5000段真實的醫療對話數據。與以前的狹窄基準不同,HealthBench通過48562個獨特的醫生編寫的評分標準進行有意義的開放式評估,涵蓋多個健康背景和行爲維度。
有研報分析指出,隨着OpenAI推出HealthBench等醫療大模型評估基準的建立和完善,AI醫療模型的性能評估將更加科學、全面,有助於加速AI技術在醫療領域的落地應用,爲醫療行業的智能化升級提供有力支持,相關企業有望迎來新的發展機遇。
另一方面,大模型本身也在加速變革。事實上,隨着大模型競爭的白熱化,競爭的焦點也已進入全新階段:從早先粗放的參數體量堆砌競賽,轉變爲模型效率優化與單位算力下的性能提升。
IQVIA艾昆緯戰略規劃副總監Barrett Li向21世紀經濟報道記者表示,隨着大模型的不斷進化,以及模型優化方法的不斷提升,已經爲AI在要求更特殊的專業場景中的更廣泛應用拓展了可能性,尤其是對於醫藥行業的AI應用來說,已顯現三大趨勢:模型即產品、本地與端側部署、研發端AI應用的快速拓展。
新的評估測試集
改善人類健康將成爲通用人工智能(AGI)的決定性影響之一。如果能夠得到有效開發和部署,大語言模型有望拓展健康信息的獲取渠道,支持臨牀醫生提供高質量醫療服務,並幫助人們維護自身健康。而評估對於理解模型在醫療場景中的表現至關重要。
OpenAI認爲,現有評估仍然存在一些問題,首先,未反映真實場景,脫離了實際醫療互動的複雜性,如僅採用標準化測試或有限臨牀問題。其次,缺乏專家醫學驗證,評分標準未經過醫療專家嚴格審覈,難以體現專業醫療判斷。此外,也並未預留改進空間,最先進模型已接近“天花板”得分,無法激勵持續優化。
也因此,在過去的一年裡,OpenAI與60個國家的262名醫生合作構建了HealthBench,包括5000個真實的醫療對話數據。HealthBench 的測試樣本被分爲7個主題和5個評估維度。其中,7個主題包括緊急轉診、專業溝通定製、健康數據任務等方面,5個評估緯度則包含準確性、溝通質量、情境理解等方面。
在HealthBench的基礎上,OpenAI還推出了兩個特別版本:HealthBench Consensus(共識版)和HealthBench Hard(困難版)。前者包含34個經醫生共識驗證的、對模型行爲表現尤爲關鍵的評估維度;後者則設置了更高難度的評估場景,目前最高得分僅爲o3模型的32%,主要被用於挑戰模型在複雜醫療情境中的極限表現。
對於HealthBench的可信度,OpenAI開展了HealthBench Consensus(共識版)的元評估,即將模型的打分結果與醫生人工打分進行對比。結果表明,7個評估領域中的6個領域,模型打分結果與醫生評分的中位數水平高度一致。
有券商分析師向21世紀經濟報道記者表示,在醫療等垂直領域,準確性和實際場景的相關性比“流暢對話”更爲關鍵,HealthBench不同於過去大多關注通用大語言模型表現的基準,而是聚焦醫療垂直領域,爲醫療領域的AI應用提供更爲專業的評估工具,同時也將推動大模型領域建立專業的AI評估標準。
值得一提的是,在HealthBench的測評中可以發現,大模型在醫療領域的應用正迅速發展。比如,2023年推出的GPT-3.5Turbo得分爲16%,而2024年5月推出的GPT-4o得分已達到32%,2024年12月推出的o3模型得分更是達到60%。另外,較小規模的模型尤其進步顯著,GPT-4.1nano的表現超過GPT-4o,且成本僅爲GPT-4o的1/25。
大模型持續優化
根據世界經濟論壇發佈的《人工智能驅動健康的未來:引領潮流》報告,人工智能是醫療保健的主要變革力量,預計2024年—2032年,AI醫療市場將以每年43%的速度增長,市場規模有望達到4910億美元。
其中,AI在醫療服務中的應用前景廣闊。中信建投證券分析指出,AI可以擴展醫療服務可及性,可應用於診斷前、診治及診斷後階段,解決當前醫院系統醫療人員短缺和缺乏有效分流等問題,以少量資源實現高效率。此外,AI輔助醫生診療未來有望降低誤診率的同時,在部分疑難雜症診療方面也有望發揮協同作用。
也因此,不僅評估工具在發生變革,大模型本身也在持續優化。當前,AI在醫療領域的應用歷經了從規則驅動到數據驅動、從單一任務優化到多模態協同的演變,已進入到多模態融合階段。
浙商證券分析指出,大模型的多模態能力解決了早期AI醫療存在的信息割裂和數據孤島等問題,大模型通過“預訓練+微調”架構,用統一參數體系處理多模態醫療數據。在臨牀應用中,藉助多模態技術,AI可以實現跨模態數據的理解和動態時序建模,使得AI診療與醫生的診療水平更加接近。
需要指出的是,由於萬億級參數模型高昂的訓練成本與當下較低的投資回報比,疊加通用參數的堆砌對專業場景下的模型效率提升遇到了瓶頸,大模型競爭的焦點已從早先粗放的參數體量堆砌競賽,轉向模型效率優化與單位算力下的性能提升。
在應用方面,Barrett Li向記者總結道,隨着大模型的不斷進化,目前對於醫藥行業的AI應用來說,幾大趨勢已經顯現:
首先,模型即產品。相比通用大模型在其他行業中相對較低的應用門檻,醫藥行業高度專業性的場景,對於模型的適配性有着更高的要求。而隨着模型訓練與針對特定知識庫優化的技術與應用逐漸推廣,大模型廠商未來預計會逐步關閉對外的API接口,轉而將專業化後的模型本身作爲產品直接提供給企業用戶使用,顛覆現有的套殼應用層。而現有的專業AI軟件,也必須逐步增強其底層模型訓練的能力以應對這一挑戰。在可見的未來,將會有更多直接針對醫藥行業訓練的模型被廣泛應用。
其次,本地與端側部署。針對特定場景而訓練優化的專業模型,可以在滿足性能要求的前提下,減少對硬件方面提出過高的要求。因此在成本可控性、分析可溯源、數據安全、反饋延遲等要求更高的場景下,專業中小模型的本地部署會提供極大的賦能。
“此外,研發端AI應用也在快速拓展。出於高度專業性、數據安全、隱私合規等因素,相比通用大模型在商業化階段的快速發展,醫藥行業企業尚未在研發階段感受到AI所帶來的巨大轉變。而隨着特定場景專業模型訓練的普及,研發階段AI應用的壁壘未來也有望被逐一消解。”Barrett Li說道。