Tag: 陳振宇

為什麼統計報告要提供效應值(effect size)?破解型一與型二錯誤的迷思!

在學術研究中,許多研究者習慣依據「p 值」來判斷一項研究是否「顯著」。舉例來說,如果某個實驗結果的 p 值小於 0.05(即 顯著水準 α = 0.05),研究者通常會認為這個結果是值得注意的、可能有實質差異。然而,這樣的做法其實只考慮了「型一錯誤」(Type I error),卻忽略了另一個同樣重要的統計陷阱——「型二錯誤」(Type II error)。 什麼是型一錯誤與型二錯誤? 型一錯誤是指:當母體其實沒有差異時,研究者卻因為樣本的隨機誤差,錯誤地認為兩組之間有差異。設定 p < 0.05 就表示容許有 5% 的機會犯下這種錯誤。 相對地,型二錯誤則是:當母體實際上有差異時,研究者卻因樣本太小或效果太微弱,而沒有發現顯著結果,誤以為兩組沒有差異。 例如,你在研究一種新的學習策略是否比傳統方法更有效。如果你只收集了很少的樣本,雖然學生之間真的有表現差異,但你可能無法觀察到統計上的「顯著」,於是錯誤地結論「兩種教學方法差不多」。這就是型二錯誤。 統計檢定力(Power)與樣本數的關係 與型二錯誤對立的概念就是統計檢定力(statistical power),也就是你能正確地察覺到差異的能力。檢定力越高,表示你越不容易錯過真實存在的效應。 最常見提高檢定力的方式就是增加樣本數。簡單來說,樣本越多,統計估計就越精確,自然也越容易看出群體間的實質差異。 實際案例:15人實驗組 vs 15人控制組 假設你進行一個實驗,實驗組與控制組各只有 15 人,樣本標準差為 0.38,並進行單尾檢定(假設實驗組成效更佳)。若設定顯著水準 α = 0.05,表示你希望在觀察到至少 1.645 個標準差的差異時,才拒絕虛無假設。 但問題來了:樣本太小導致檢定力太低,哪怕真有差異,也可能沒達到「顯著」門檻。在這個例子中,統計檢定力僅為 37%,也就是說有 63% 的機率會犯下型二錯誤,錯過了應該要發現的效果。 更進一步地說,若你改變顯著水準(例如調整為 α = 0.1 或 0.01),這些統計指標都會受到影響。顯著水準設定越嚴格,型一錯誤機率下降,但型二錯誤風險會上升。 為何效應值(Effect Size)成為必要補充? 這也正是現代統計報告中愈來愈強調 效應值(effect size) 的原因。p […]

什麼是效應量(Effect Size)?從《整合分析》看懂研究結果背後的真實差異

在閱讀陳振宇的《整合分析》時,我重新思考了效應量(effect size)對研究分析的重要性。 對於許多初學者來說,「有顯著差異」似乎已經是研究成敗的唯一標準;然而,《整合分析》讓我明白,只有「統計顯著」是不夠的,還要看「效應量」才能真正理解研究結果的意義。 什麼是效應量?簡單來說,每一個研究假設都會產生一個研究結果,也就是我們所謂的「效果」。這個效果通常是透過兩個群體的比較而得出來的,並且必須是有方向性的預測,也就是說要明確指出「A 大於 B」或「B 大於 A」,而不是單純地說「A 不等於 B」。 要將不同研究的結果進行整合與比較,我們就需要一個共通的標準來衡量這些差異,而「效應量」就是這樣的統一指標。效應量(effect size,簡稱 ES)能夠幫助我們量化兩個群體之間的差異程度,讓來自不同研究的結果可以被比較、彙整,進而進行更高階的分析。 效應量所呈現的,其實是一種「差異有多大」的量尺。舉例來說,它可以讓我們知道實驗組和控制組之間的平均表現差了幾個標準差。這種差異不只是統計意義上的差別,更是幫助我們了解研究結果是否具有「實驗意義」或「實務價值」。 有時候,我們在統計上看到一個顯著結果(例如 p < .05),但實際的效應量卻非常小,這表示雖然兩個群體的差異在統計上成立,但它可能對真實世界的應用影響極小。相反地,如果效應量大,就意味著這個差異不僅成立,而且「值得重視」。 效應量的應用,不只是在單一研究中有意義。在「整合研究(meta-analysis)」中,我們會蒐集大量針對相同問題的研究,將這些研究的結果進行整合。此時,每一個研究的效應量就變成了新的分析單位,也就是我們的反應變項(dependent variable)。 換句話說,如果一個實驗以學生學習成效為變項,在整合研究中,這個研究本身的「效應量」才是我們分析的核心。我們會透過彙整多個研究的效應量,來探討這個教育介入在不同情境下的整體效果,這也是 meta-analysis 最強大的功能之一。 總結來說,效應量讓我們看見統計分析中最容易被忽略的「真實差異」— 它不僅回答「是否有差異」,更進一步回答「差異有多大」以及「值不值得關注」。理解效應量,是進入進階研究分析的必修課。 📚 推薦書籍:陳振宇(2009)。《整合分析》。臺北:五南。