科學人/重複驗證危機漸除 心理學研究脫困在望
istockphoto
5月「梅雨」季節,經常早上「沒雨」,豔陽高照,過了中午,氣溫快速升高,衝破30°C,越來越熱,甚至高達36、37°C,然後天氣驟變,下起毛毛雨,緊接着暴雨傾盆而至。我習慣傍晚時分到校本部的操場快走,再到體育館衝個涼,完成每天的例行運動,好幾次一整天都是沒雨的光亮街景,卻忽然一聲雷響,嘩啦嘩啦,等我快步折返跑回研究室,雨又停了,但已一身溼透,好不狼狽!
熬過「黴雨」,6月的臺北,天氣有夠熱。早上7 點多到學校,從停車處走向大樓,不過短短一段路,感到吸入的空氣都是沸騰的。快步上樓,躲進研究室,開了空調,也要10幾分鐘後纔有涼意。準備這學期最後一堂課的材料,閉目在腦海裡複習一回。滿意了,喝杯咖啡吧!打開小冰箱,發現沒有鮮奶,糟糕,我喝咖啡習慣加鮮奶,雖然外頭熱得像火爐,還是得出去一趟。走到200公尺外的商店,捎了一罐鮮奶回來,衣服也溼了一半。在梅雨和熱浪接連夾擊下,走出戶外變成苦差事,坐在研究室電腦前看看科學新知,反而最幸福!
這個月有篇標題聳動的文章:「A Big Win」,乍看以爲又是哪個生醫研究的實驗室利用AI 研發出抗癌新藥了,但眼尾瞄到的卻是「psychology」(心理學)一串字母!什麼樣的研究成果受到如此標榜,被稱爲心理學的「一大勝利」呢?做爲心理學專業數十年的研究者,很難不被吸引。我立刻聚精會神,一探究竟!
看完這篇科學新聞,我心裡泛起一股暖流,因爲這篇短文報導了美國杜克大學的心理學家波格丹(Paul Bogdan)最近在《心理科學方法與實踐進展》期刊上,發表一篇令所有認真嚴肅的心理科學家都必然欣慰以對的研究報告。這篇論文顯示了從實徵的資料分析上,2015年震撼心理學界的「重複驗證危機」(replication crisis),應該是漸漸解除了。我火速上網找來這篇論文仔細閱讀,最終也不禁拍案喝采,說是「Big Win」,真是不爲過!
2015 年心理學研究的「重複驗證危機」到底是怎麼一回事?不堪回首的往事,歷歷在目。那是在70~80年代,心理學研究正經歷一次脫胎換骨的典範轉移,由50~ 60年代的綁手、綁腳又綁腦的行爲主義規範,走向海闊天空的認知科學發展平臺。新的研究議題、高科技的實驗儀器、精巧的實驗設計,如雨後春筍,帶來許許多多前所未見的行爲和心智研究發現。可是在這一片欣欣向榮的氛圍中,卻藏着一些讓人不安的隱憂:某些衝得太快、所得結果亮麗吸睛的研究,好像出現了沒能被「重複驗證」的現象。傳聞蔓延,流傳多時,但並沒有引起學界的正視。直到2015年,左右學術發展方向的《科學》期刊,登出了一篇由維吉尼亞大學心理系教授諾塞克(Brian Nosek)和大約270位研究者組成的「 開放科學合作聯盟 」(Open Science Collaboration)針對研究可信度所做的警世大作。
這個協作團隊從心理學界三個最具代表性、影響力且涵蓋不同專業的期刊《心理科學》、《人格與社會心理學期刊》、《實驗心理學期刊:學習、記憶和認知》中,蒐集2008年所有刊登的論文,挑選出100個不同類型的研究,根據論文所敘述的研究步驟和對結果的分析方法,把實驗重做一遍;並採取統計顯著與 p 值實際數值、效果量、重複實驗團隊的主觀評量以及效果量的統合分析等面向,做爲該研究能不能被重複的指標。結果令人吃驚:100個研究中,97%稱有達到統計的顯著性(p 值小於0.05),但重複驗證研究中,只有36%得到原着所稱的顯著差異,而且所得到的平均數差異,比起原文所表列的差異效應也小得很多!
其實重複驗證失敗的危機並非心理學獨有,在2010年就有學者指出科學期刊的編輯偏見(例如不刊登實驗效果不顯著或顯著但效應太小的研究),會導致主題煽情吸睛但實驗結果雖達統計顯著卻只有邊際效應(marginal effect)的研究,陷入無法重複驗證的泥淖。諾塞克等人用科學數據來說話,對整個心理學界當然是晴天霹靂的警訊!因爲大家都知道,科學的進展建立在同儕的研究成果上,如果成果不夠堅固,不能被重複證實,就如同一棟用撲克牌搭建的紙牌屋,隨意抽走一張,房子就垮了(諾貝爾生醫獎得主畢夏普J. Michael Bishop 在美國加州一所高中畢業典禮所說的話)。房子垮了,整個社會對房子的建築師和營造團隊一定產生信任危機;相同的,心理科學也必然會被視爲僞科學(pseudoscience)。
有幸的是2015年研究的當頭棒喝,確實喚起心理科學界的危機意識,也採取相應行動。不但要檢討期刊的編輯偏見、加強統計的顯著性分析,也要增強 p 值的統計檢定力(statistical power),避免邊際效應,更要求在每個實驗增加更多受試的樣本人數。杜克大學剛剛發表的這篇研究報告,顯示學界這些年來的努力有了正面效果!
波格丹博士檢視了從2004 ~ 2024年共24萬355篇心理學不同專業領域論文的 p 值,很清楚的發現在「重複驗證危機」之前,有超過32%的 p 值屬於邊際效應, 但到了2024年降到26%(屬於可能會發生的一般性機率),而且趨勢顯示是逐年遞減的,表示就 p 值這項指標來看,「重複驗證危機」是漸漸消除了。此外,在社會心理學的研究裡,受試者的樣本數量也越來越多併成爲普遍性的現象,因之,所得實驗結果的穩健性(robustness)是可預期的。真是雙喜臨門!
2015年,「重複驗證危機」出現,2024年,危機漸除。心理科學界花了10年光景,覺識、反省、改革、教育有成,當然是「A Big Win」!雨過天青,暑熱終散,迎向秋高氣爽的好天氣!
(本文出自2025.07.01《科學人》網站,未經同意禁止轉載。)