「考試魔人」GPT-4o栽了 西醫國考近滿分、考中醫僅答對6成

▲國內醫師使用ChatGPT應答中醫考題,平常給人感覺「聰明」、好用」的AI卻只答對6成左右。(圖/取自免費圖庫Pixabay)

記者邱俊吉/臺北報導

許多民衆的生活已和人工智慧模型ChatGPT分不開,它的表現也日益進化,但國內最新研究發現,GPT-4、GPT-4o在醫師國考展現驚人實力,答題正確率分別高達95.71%及96.72%,遠超及格門檻,面對中醫師考試卻明顯失常,最強的GPT-4o正確率僅62.29%,顯示AI處理中醫這類特殊知識系統仍力有未逮。

這項研究由中山醫學大學醫學系的學生吳曜丞、教授宋文瑋醫師合作進行,分析2021至2024年間醫師國考第一試的非圖像選擇題,評估GPT-3.5、GPT-4與GPT-4o的答題表現;針對結果,宋文瑋說明,GPT-4、GPT-4o的正確率都超過90%,GPT-3.5則僅有65.74%,不只明顯偏低,且在所有科目表現均落後。

此外,宋文瑋指出,GPT-4o在中文題、英文題的正確率差異不大,分別爲98.14%與98.48%,顯示它已具備跨語言處理醫學資訊的能力。

宋文瑋表示,研究選用醫師國考,是因爲題目涵蓋廣泛,答案也明確,適合檢視AI對於醫學中文的理解、推理能力,相信GPT-4和GPT-4o已可作爲醫學生複習和模擬測驗的工具,對於臨牀也可提供參考建議,但目前仍無法取代專業醫師的經驗及判斷。

宋文瑋也透露,團隊成員、醫學生吳芸琪另有針對AI處理中醫師考試的能力進行研究,結果只有GPT-4o勉強通過, 正確率僅約6成,顯示中醫的特殊語言與邏輯,目前仍是AI的難關。

針對AI應用,宋文瑋認爲,AI可快速統整龐雜資料,還能提供衛教知識,並協助搜尋指引,讓醫師、醫學生都可以更有效的學習,只要相關應用都能在專業監督下執行,他對於AI在醫學的發展非常樂觀,「活在AI時代是幸福的, 相信醫療品質也會愈來愈好」。