person holding book from shelf

為什麼統計報告要提供效應值(effect size)?破解型一與型二錯誤的迷思!

在學術研究中,許多研究者習慣依據「p 值」來判斷一項研究是否「顯著」。舉例來說,如果某個實驗結果的 p 值小於 0.05(即 顯著水準 α = 0.05),研究者通常會認為這個結果是值得注意的、可能有實質差異。然而,這樣的做法其實只考慮了「型一錯誤」(Type I error),卻忽略了另一個同樣重要的統計陷阱——「型二錯誤」(Type II error)。

什麼是型一錯誤與型二錯誤?

型一錯誤是指:當母體其實沒有差異時,研究者卻因為樣本的隨機誤差,錯誤地認為兩組之間有差異。設定 p < 0.05 就表示容許有 5% 的機會犯下這種錯誤。

相對地,型二錯誤則是:當母體實際上有差異時,研究者卻因樣本太小或效果太微弱,而沒有發現顯著結果,誤以為兩組沒有差異。

例如,你在研究一種新的學習策略是否比傳統方法更有效。如果你只收集了很少的樣本,雖然學生之間真的有表現差異,但你可能無法觀察到統計上的「顯著」,於是錯誤地結論「兩種教學方法差不多」。這就是型二錯誤。

統計檢定力(Power)與樣本數的關係

與型二錯誤對立的概念就是統計檢定力(statistical power),也就是你能正確地察覺到差異的能力。檢定力越高,表示你越不容易錯過真實存在的效應。

最常見提高檢定力的方式就是增加樣本數。簡單來說,樣本越多,統計估計就越精確,自然也越容易看出群體間的實質差異。

實際案例:15人實驗組 vs 15人控制組

假設你進行一個實驗,實驗組與控制組各只有 15 人,樣本標準差為 0.38,並進行單尾檢定(假設實驗組成效更佳)。若設定顯著水準 α = 0.05,表示你希望在觀察到至少 1.645 個標準差的差異時,才拒絕虛無假設。

但問題來了:樣本太小導致檢定力太低,哪怕真有差異,也可能沒達到「顯著」門檻。在這個例子中,統計檢定力僅為 37%,也就是說有 63% 的機率會犯下型二錯誤,錯過了應該要發現的效果。

更進一步地說,若你改變顯著水準(例如調整為 α = 0.1 或 0.01),這些統計指標都會受到影響。顯著水準設定越嚴格,型一錯誤機率下降,但型二錯誤風險會上升。

為何效應值(Effect Size)成為必要補充?

這也正是現代統計報告中愈來愈強調 效應值(effect size) 的原因。p 值告訴我們「差異是否顯著」,而效應值則告訴我們「差異有多大」。

簡單來說,效應值讓你知道這個研究結果是否值得關注。一個 p 值雖然顯著,但如果效應值非常小,那可能只是一個微不足道的差異;反之,即使 p 值未達顯著,但若效應值偏大,也可能暗示著實質意義。

舉例來說,Cohen’s d 是一種常見的效應值指標:

  • d = 0.2:小效應
  • d = 0.5:中等效應
  • d = 0.8:大效應

這些指標不僅幫助你解釋研究結果,也提供未來研究進行「樣本數估算」的依據。

結語:報告效應值,讓研究更有說服力

總結來說,只依賴 p 值進行推論,可能導致過度簡化或錯誤解讀研究結果。透過報告效應值,研究者能更全面地呈現數據的實質意義,讓結果更具可信度與可應用性。若你希望你的研究在學術社群中更具說服力,效應值是不可忽視的關鍵之一。

  • 陳振宇(2013)。整合分析。收錄於《社會及行為科學研究法(三):資料分析》(第3版)。臺北:臺灣東華。

Leave a Reply

Your email address will not be published. Required fields are marked *