☰

科學人／重複驗證危機漸除心理學研究脫困在望

istockphoto

5月「梅雨」季節，經常早上「沒雨」，豔陽高照，過了中午，氣溫快速升高，衝破30°C，越來越熱，甚至高達36、37°C，然後天氣驟變，下起毛毛雨，緊接着暴雨傾盆而至。我習慣傍晚時分到校本部的操場快走，再到體育館衝個涼，完成每天的例行運動，好幾次一整天都是沒雨的光亮街景，卻忽然一聲雷響，嘩啦嘩啦，等我快步折返跑回研究室，雨又停了，但已一身溼透，好不狼狽！

熬過「黴雨」，6月的臺北，天氣有夠熱。早上7 點多到學校，從停車處走向大樓，不過短短一段路，感到吸入的空氣都是沸騰的。快步上樓，躲進研究室，開了空調，也要10幾分鐘後纔有涼意。準備這學期最後一堂課的材料，閉目在腦海裡複習一回。滿意了，喝杯咖啡吧！打開小冰箱，發現沒有鮮奶，糟糕，我喝咖啡習慣加鮮奶，雖然外頭熱得像火爐，還是得出去一趟。走到200公尺外的商店，捎了一罐鮮奶回來，衣服也溼了一半。在梅雨和熱浪接連夾擊下，走出戶外變成苦差事，坐在研究室電腦前看看科學新知，反而最幸福！

這個月有篇標題聳動的文章：「A Big Win」，乍看以爲又是哪個生醫研究的實驗室利用AI 研發出抗癌新藥了，但眼尾瞄到的卻是「psychology」（心理學）一串字母！什麼樣的研究成果受到如此標榜，被稱爲心理學的「一大勝利」呢？做爲心理學專業數十年的研究者，很難不被吸引。我立刻聚精會神，一探究竟！

看完這篇科學新聞，我心裡泛起一股暖流，因爲這篇短文報導了美國杜克大學的心理學家波格丹（Paul Bogdan）最近在《心理科學方法與實踐進展》期刊上，發表一篇令所有認真嚴肅的心理科學家都必然欣慰以對的研究報告。這篇論文顯示了從實徵的資料分析上，2015年震撼心理學界的「重複驗證危機」（replication crisis），應該是漸漸解除了。我火速上網找來這篇論文仔細閱讀，最終也不禁拍案喝采，說是「Big Win」，真是不爲過！

2015 年心理學研究的「重複驗證危機」到底是怎麼一回事？不堪回首的往事，歷歷在目。那是在70~80年代，心理學研究正經歷一次脫胎換骨的典範轉移，由50~ 60年代的綁手、綁腳又綁腦的行爲主義規範，走向海闊天空的認知科學發展平臺。新的研究議題、高科技的實驗儀器、精巧的實驗設計，如雨後春筍，帶來許許多多前所未見的行爲和心智研究發現。可是在這一片欣欣向榮的氛圍中，卻藏着一些讓人不安的隱憂：某些衝得太快、所得結果亮麗吸睛的研究，好像出現了沒能被「重複驗證」的現象。傳聞蔓延，流傳多時，但並沒有引起學界的正視。直到2015年，左右學術發展方向的《科學》期刊，登出了一篇由維吉尼亞大學心理系教授諾塞克（Brian Nosek）和大約270位研究者組成的「開放科學合作聯盟」（Open Science Collaboration）針對研究可信度所做的警世大作。

這個協作團隊從心理學界三個最具代表性、影響力且涵蓋不同專業的期刊《心理科學》、《人格與社會心理學期刊》、《實驗心理學期刊：學習、記憶和認知》中，蒐集2008年所有刊登的論文，挑選出100個不同類型的研究，根據論文所敘述的研究步驟和對結果的分析方法，把實驗重做一遍；並採取統計顯著與 p 值實際數值、效果量、重複實驗團隊的主觀評量以及效果量的統合分析等面向，做爲該研究能不能被重複的指標。結果令人吃驚：100個研究中，97%稱有達到統計的顯著性（p 值小於0.05），但重複驗證研究中，只有36%得到原着所稱的顯著差異，而且所得到的平均數差異，比起原文所表列的差異效應也小得很多！

其實重複驗證失敗的危機並非心理學獨有，在2010年就有學者指出科學期刊的編輯偏見（例如不刊登實驗效果不顯著或顯著但效應太小的研究），會導致主題煽情吸睛但實驗結果雖達統計顯著卻只有邊際效應（marginal effect）的研究，陷入無法重複驗證的泥淖。諾塞克等人用科學數據來說話，對整個心理學界當然是晴天霹靂的警訊！因爲大家都知道，科學的進展建立在同儕的研究成果上，如果成果不夠堅固，不能被重複證實，就如同一棟用撲克牌搭建的紙牌屋，隨意抽走一張，房子就垮了（諾貝爾生醫獎得主畢夏普J. Michael Bishop 在美國加州一所高中畢業典禮所說的話）。房子垮了，整個社會對房子的建築師和營造團隊一定產生信任危機；相同的，心理科學也必然會被視爲僞科學（pseudoscience）。

有幸的是2015年研究的當頭棒喝，確實喚起心理科學界的危機意識，也採取相應行動。不但要檢討期刊的編輯偏見、加強統計的顯著性分析，也要增強 p 值的統計檢定力（statistical power），避免邊際效應，更要求在每個實驗增加更多受試的樣本人數。杜克大學剛剛發表的這篇研究報告，顯示學界這些年來的努力有了正面效果！

波格丹博士檢視了從2004 ~ 2024年共24萬355篇心理學不同專業領域論文的 p 值，很清楚的發現在「重複驗證危機」之前，有超過32%的 p 值屬於邊際效應，但到了2024年降到26%（屬於可能會發生的一般性機率），而且趨勢顯示是逐年遞減的，表示就 p 值這項指標來看，「重複驗證危機」是漸漸消除了。此外，在社會心理學的研究裡，受試者的樣本數量也越來越多併成爲普遍性的現象，因之，所得實驗結果的穩健性（robustness）是可預期的。真是雙喜臨門！

2015年，「重複驗證危機」出現，2024年，危機漸除。心理科學界花了10年光景，覺識、反省、改革、教育有成，當然是「A Big Win」！雨過天青，暑熱終散，迎向秋高氣爽的好天氣！

（本文出自2025.07.01《科學人》網站，未經同意禁止轉載。）

科學人／重複驗證危機漸除 心理學研究脫困在望

相關資訊

科學人／重複驗證危機漸除心理學研究脫困在望