小心辛普森詭論

圖╱本報資料照片

113年國內家庭設備普及率

這些年不少統計都出現辛普森詭論(Simpson’s paradox),例如多數年齡層的大學學歷失業率是低的,但加總平均後卻高的嚇人,又如各年齡組勞參率都升高了,但加總平均後反而降低了。

這個讓大家想不通的現象,平日裡俯拾皆是,統計學家辛普森於1951年發現,在某些情況下數組資料合併成一組資料時,會得出相反的結論。例如大學裡各學院男、女生錄取率原本平分秋色,惟女生投考較多的文學院錄取率低,男生報名較多的理學院錄取率高,加總平均之後,就會得出女生錄取率偏低的結論。於是人們就會批評這個學校有性別歧視,然而這個批評顯然是錯的,此即辛普森詭論。

加總平均的謬誤

辛普森詭論也可以解釋,何以我們的大學學歷失業率會這麼高,事實上,這並非高學歷者競爭力不如人,而是高學歷族羣的年輕人太多了,民國112年大學學歷者有34%不到30歲,是年輕人最多的族羣。也許有人會問年輕人多跟失業率有什麼關係?無一例外,每個國家青年失業率總是最高的,而臺灣高學歷人口裡年輕人又是最多的,如此一來,加總平均就會出現「高學歷高失業率」的辛普森詭論,這說明「高學歷高失業率」的原因並非學歷,而是年齡。

勞參率出現辛普森詭論的原因也是如此,以109年、110年爲例,各年齡勞參率皆上揚,但隨着老年人口成長,老年勞參率影響平均勞參率的力道(權數)就更強了,由於老年勞參率不及10%,是非常非常低的,加總平均後常常就把勞參率給拉低了。由此可知,勞參率下滑並不能解釋爲好吃懶做,而是高齡化使然。

辛普森詭論也同樣出現在家庭收支調查報告裡,113年的數據顯示前20%富有家庭的電腦、家庭遊樂器普及率92.5%、25.1%,後20%貧窮家庭只有27.8%、1.5%,直觀上會覺得這是貧富所形成的差異,但進一步觀察會發現,後20%家庭有近七成是老年家庭,老年家庭自然不會去買電視遊樂器,此外老年家庭使用電腦的需求自然也會低一些。換言之,兩族羣設備普及率的落差有更大的原因是年齡,而非所得。

解讀統計需小心

我們可以觀察行動電話、冷暖氣機、連網、洗衣機等必需品的普及率,兩族羣就沒有這麼大的差距了。至於書刊、報紙的普及率就連前20%家庭如今也是低的,民國83年前20%家庭的報紙普及率78.1%、期刊雜誌27.5%,如今只有5.9%、5.2%,這不是有錢沒錢的問題,而是網路興起所造成的閱讀習慣改變。

我們平日所看到的最終數據,都是層層疊加,若不讓數據還原至原始狀態,可能就會陷入辛普森詭論而不自知,這是解讀統計需要小心的地方。

小檔案■民國112年15歲以上民間人口2,016萬,具大學學歷者601萬,而這601萬人中年齡不到30歲者有205萬,具大學學歷族羣者有34%是年輕人,是各學歷最年輕的族羣,反觀全體民間人口低於30歲者佔比只有18%。

小檔案■民國73年國內大學16所,獨立院校12所,一年畢業的大學生(不含碩博士)只有3.7萬人。90年大學57所,獨立院校78所,一年畢業的大學生14.6萬人。106年大學129所,獨立院校15所,一年畢業的大學生高達23萬人,近年部分學校退場,112年畢業的大學生仍有19萬人。