Tag: 統計分析

為什麼統計報告要提供效應值(effect size)?破解型一與型二錯誤的迷思!

在學術研究中,許多研究者習慣依據「p 值」來判斷一項研究是否「顯著」。舉例來說,如果某個實驗結果的 p 值小於 0.05(即 顯著水準 α = 0.05),研究者通常會認為這個結果是值得注意的、可能有實質差異。然而,這樣的做法其實只考慮了「型一錯誤」(Type I error),卻忽略了另一個同樣重要的統計陷阱——「型二錯誤」(Type II error)。 什麼是型一錯誤與型二錯誤? 型一錯誤是指:當母體其實沒有差異時,研究者卻因為樣本的隨機誤差,錯誤地認為兩組之間有差異。設定 p < 0.05 就表示容許有 5% 的機會犯下這種錯誤。 相對地,型二錯誤則是:當母體實際上有差異時,研究者卻因樣本太小或效果太微弱,而沒有發現顯著結果,誤以為兩組沒有差異。 例如,你在研究一種新的學習策略是否比傳統方法更有效。如果你只收集了很少的樣本,雖然學生之間真的有表現差異,但你可能無法觀察到統計上的「顯著」,於是錯誤地結論「兩種教學方法差不多」。這就是型二錯誤。 統計檢定力(Power)與樣本數的關係 與型二錯誤對立的概念就是統計檢定力(statistical power),也就是你能正確地察覺到差異的能力。檢定力越高,表示你越不容易錯過真實存在的效應。 最常見提高檢定力的方式就是增加樣本數。簡單來說,樣本越多,統計估計就越精確,自然也越容易看出群體間的實質差異。 實際案例:15人實驗組 vs 15人控制組 假設你進行一個實驗,實驗組與控制組各只有 15 人,樣本標準差為 0.38,並進行單尾檢定(假設實驗組成效更佳)。若設定顯著水準 α = 0.05,表示你希望在觀察到至少 1.645 個標準差的差異時,才拒絕虛無假設。 但問題來了:樣本太小導致檢定力太低,哪怕真有差異,也可能沒達到「顯著」門檻。在這個例子中,統計檢定力僅為 37%,也就是說有 63% 的機率會犯下型二錯誤,錯過了應該要發現的效果。 更進一步地說,若你改變顯著水準(例如調整為 α = 0.1 或 0.01),這些統計指標都會受到影響。顯著水準設定越嚴格,型一錯誤機率下降,但型二錯誤風險會上升。 為何效應值(Effect Size)成為必要補充? 這也正是現代統計報告中愈來愈強調 效應值(effect size) 的原因。p […]

為什麼只看 p 值不夠?《How Science Takes Stock》揭示你沒注意到的統計陷阱

在科學研究中,p 值常被視為一種「通行證」,只要結果達到統計顯著性(通常是 p < 0.05),研究者往往就會認定結果「有效」、「有差異」或「值得發表」。但我在閱讀《How Science Takes Stock: The Story of Meta-Analysis》這本書時,發現這樣的理解其實過於簡化,甚至可能誤導。 作者 Mark Hunt 透過一個關鍵觀點指出:p 值只能告訴我們「差異是否存在」,卻無法告訴我們「差異有多大」。這就像有人跟你說:「外面正在下雨」,但沒有告訴你是毛毛雨還是傾盆大雨。你知道有變化,卻無法評估其實質影響。 舉例來說,當研究中 p 值小於 0.05,代表如果實驗組和對照組之間其實沒有差異,那麼觀察到這樣結果的機率只有不到 5%。換句話說,這結果「不太可能是巧合」,因此我們推論實驗處理有可能有效。然而這樣的推論存在一個隱憂:它沒有考慮樣本數、效果大小,以及估計的精準程度。 這時候,我們需要引入另一個關鍵概念:信賴區間(Confidence Interval, CI)。信賴區間不只是告訴你「差異存在」,更重要的是,它告訴你「這個差異的範圍可能是多少」。舉例來說,一個估計值可能落在 2 到 8 之間,這代表我們的數據其實包含了很大的不確定性。如果信賴區間太寬,代表我們無法準確地推論母體參數。 此外,樣本大小對信賴區間的寬窄影響非常大。樣本數小的研究往往會導致估計值的變異大,進而讓信賴區間變寬。這樣的研究雖然也可能出現 p < .05 的結果,但其實它的推論力是脆弱的。這也意味著,小樣本 + 小效果量 的研究,很容易讓真實的效果被信賴區間「淹沒」,我們甚至可能因此錯過一些重要但微弱的效應。 那麼,如果樣本數很大呢?這時候即使只有極小的效果,也可能因為檢定力(statistical power)很強而顯著。但這種顯著是否有「實質意義」?也未必。舉例來說,如果某個教育措施平均只讓學生多考了 0.2 分,雖然 p < 0.05,但這樣的結果對教學現場的影響可能微乎其微,甚至不值得推廣。 Hunt 在書中強調,這種「只看 p 值」的研究風氣,就像是在進行「一人一票」的投票統計(vote-counting)──把每一個顯著結果都當作一票,沒顯著的就不計入。這樣的做法容易導致偏差,因為它忽略了不同研究間的樣本大小、研究品質、效果量差異等重要因素。 這本書的重要啟示是:研究不該只是追求「顯著」,而應該追求「真實而有意義」的效果。要做到這一點,我們需要的是更完整的統計素養——理解效果量(effect size)、信賴區間(CI),以及如何進行合適的整合分析(meta-analysis)。 作為研究者、教育工作者,甚至是一般讀者,我們都應該超越「p 值迷思」,回到數據真正想告訴我們的故事。《How Science Takes Stock》不僅講述了統計技術的演變,也提醒我們:科學之所以有力量,不在於「證明」,而在於「理解」。 […]