微軟發佈AI診斷工具,自稱準確率是醫學專家4倍,還能“會診辯論”

7月1日消息,微軟開發出一款人工智能驅動的醫療工具,稱其在診斷複雜疾病方面的成功率是人類醫生的四倍。微軟認爲,這項技術能夠加速診療進程。

去年,前DeepMind聯合創始人穆斯塔法·蘇萊曼(Mustafa Suleyman)在微軟組建人工智能健康部門,成員基本來自他曾共同創立、現歸谷歌所有的DeepMind研究院。這款名爲“微軟人工智能診斷協調器”(MAI-DxO)的工具也是該部門的首個研究成果。

現任微軟人工智能首席執行官的蘇萊曼在接受採訪時表示,此次試驗是邁向“醫療超級智能”的一步,有望幫助解決醫療系統人員短缺和患者候診時間過長等問題。

微軟這套新系統的核心是一個“協調器”,它能創建5個扮演“醫生”角色的智能體並組成虛擬專家組,其中每個智能體分工明確,有的提出假設、有的專門選擇診斷測試,並通過相互協作和“辯論”來共同制定診療方案。

爲了測試其性能,研究人員讓MAI-DxO學習了《新英格蘭醫學雜誌》(NEJM)上發表的304份研究病例,這些案例詳細描述了醫生是如何解決最複雜病例的。

這使得研究人員能夠驗證程序能否正確完成診斷並闡明其決策過程。測試採用了一種名爲“辯論鏈”(chain of debate)的新技術,能讓人工智能推理模型逐步說明解決問題的思路。

微軟調用了來自OpenAI、Meta、Anthropic、谷歌、xAI和DeepSeek的主流大語言模型。協調器讓所有大語言模型的表現都有提升,但與OpenAI的o3推理模型配合效果最佳,成功解決了85.5%的《新英格蘭醫學雜誌》案例。

相比之下,經驗豐富的人類醫生在對比試驗中的成功率約爲20%。但在試驗中,這些醫生不允許查閱教科書或向同事請教,否則他們的成功率本可以更高。

這項技術可能很快會部署到微軟的Copilot人工智能聊天機器人和必應搜索引擎中,目前這兩個平臺每天處理約5000萬次健康諮詢。

蘇萊曼表示,微軟正接近於實現“不僅僅是略優於人類,而是遠超人類表現的AI模型:速度更快、成本更低、準確率高出四倍”。

“這將帶來真正的變革,”他補充道。

蘇萊曼取得這項研究成果之前,DeepMind在人工智能相關的醫療保健領域已取得一系列突破並處於領先地位。谷歌實驗室負責人戴密斯·哈薩比斯(Demis Hassabis)去年因利用人工智能揭示支撐生命的蛋白質的生物奧秘,與他人共同獲得諾貝爾化學獎。

微軟已向OpenAI投資近140億美元,並擁有其技術的獨家使用權和銷售權。然而,這家科技巨頭正與試圖轉型爲營利性實體的OpenAI陷入激烈博弈,雙方在未來合作條款上存在分歧。

蘇萊曼表示,儘管OpenAI的模型表現最佳,但微軟對於“MAI-DxO”具體使用的四種“世界級模型”持“中立態度”。

“我們一直認爲,它們終將成爲商品……真正的差異化在於我們的聚合協調器。”他說。

去年末加入微軟的前DeepMind健康部門負責人多米尼克·金(Dominic King)表示,程序的“表現超越了以往任何技術”,並且“如今有機會成爲醫療服務的新入口”。

他表示,研究人員還引導人工智能模型考慮成本效益,在試驗中顯著減少了正確診斷所需的檢查項目,在某些情況下可節省數十萬美元。

但金也強調,這項技術仍處於早期階段,尚未經過同行評審,也未準備好在臨牀環境中使用。

“這是一項具有里程碑意義的研究,”心臟病學家、斯克裡普斯研究所轉化醫學中心(Scripps Research Translational Institute)創始人兼主任埃裡克·託波爾(Eric Topol)說道。“儘管這項工作並非在真實的醫療實踐環境中完成,但它首次爲生成式人工智能在醫學領域提升準確性和節約成本的潛力提供了證據。”

麻省理工學院科學家、醫療人工智能初創公司Layer Health聯合創始人戴維·桑塔格(David Sontag)也表示,“這項研究振奮人心”。他認爲,這項研究之所以重要,不僅因爲它更貼近醫生的實際操作方式,還因爲它對底層方法論中的潛在問題進行了嚴謹的處理。“這正是這項研究的強大之處。”桑塔格說。

不過桑塔格也提醒,對微軟的研究成果需持審慎態度,因爲參與研究的醫生不得藉助任何工具來輔助診斷,這可能無法真實反映臨牀實踐。他補充說,這種人工智能系統能否在實踐中顯著降低成本仍有待驗證。參與研究的醫生可能會考慮到人工智能無法涉及的因素,比如患者對某項操作的耐受性,或某些醫療器械的可獲得性。

“這份報告令人印象深刻,因爲它診斷的都是高度複雜病例,”斯克裡普斯研究所(Scripps Research Institute)科學家埃裡克·託波爾(Eric Topol)說。他補充道,證明人工智能理論上可降低醫療成本具有開創性意義。

託波爾和桑塔格都認爲,在大規模推廣前,驗證微軟系統潛力的下一步,應是在臨牀試驗中將其與醫生爲真實患者治療的結果進行對比。桑塔格強調,“這樣才能獲得對成本的非常嚴謹的評估。”(辰辰)