在學術研究中,許多研究者習慣依據「p 值」來判斷一項研究是否「顯著」。舉例來說,如果某個實驗結果的 p 值小於 0.05(即 顯著水準 α = 0.05),研究者通常會認為這個結果是值得注意的、可能有實質差異。然而,這樣的做法其實只考慮了「型一錯誤」(Type I error),卻忽略了另一個同樣重要的統計陷阱——「型二錯誤」(Type II error)。 什麼是型一錯誤與型二錯誤? 型一錯誤是指:當母體其實沒有差異時,研究者卻因為樣本的隨機誤差,錯誤地認為兩組之間有差異。設定 p < 0.05 就表示容許有 5% 的機會犯下這種錯誤。 相對地,型二錯誤則是:當母體實際上有差異時,研究者卻因樣本太小或效果太微弱,而沒有發現顯著結果,誤以為兩組沒有差異。 例如,你在研究一種新的學習策略是否比傳統方法更有效。如果你只收集了很少的樣本,雖然學生之間真的有表現差異,但你可能無法觀察到統計上的「顯著」,於是錯誤地結論「兩種教學方法差不多」。這就是型二錯誤。 統計檢定力(Power)與樣本數的關係 與型二錯誤對立的概念就是統計檢定力(statistical power),也就是你能正確地察覺到差異的能力。檢定力越高,表示你越不容易錯過真實存在的效應。 最常見提高檢定力的方式就是增加樣本數。簡單來說,樣本越多,統計估計就越精確,自然也越容易看出群體間的實質差異。 實際案例:15人實驗組 vs 15人控制組 假設你進行一個實驗,實驗組與控制組各只有 15 人,樣本標準差為 0.38,並進行單尾檢定(假設實驗組成效更佳)。若設定顯著水準 α = 0.05,表示你希望在觀察到至少 1.645 個標準差的差異時,才拒絕虛無假設。 但問題來了:樣本太小導致檢定力太低,哪怕真有差異,也可能沒達到「顯著」門檻。在這個例子中,統計檢定力僅為 37%,也就是說有 63% 的機率會犯下型二錯誤,錯過了應該要發現的效果。 更進一步地說,若你改變顯著水準(例如調整為 α = 0.1 或 0.01),這些統計指標都會受到影響。顯著水準設定越嚴格,型一錯誤機率下降,但型二錯誤風險會上升。 為何效應值(Effect Size)成為必要補充? 這也正是現代統計報告中愈來愈強調 效應值(effect size) 的原因。p […]
Tag: 統計檢定
為什麼「虛無假設檢定」可能誤導你的研究結果?讀《整合分析》的反思
在閱讀陳振宇的《整合分析》時,我對「虛無假設統計檢定(Null Hypothesis Significance Testing, NHST)」這項研究中常見的推論工具,有了更深刻的反思與理解。 🔍 什麼是虛無假設?研究的假設邏輯 在每一項實證研究中,研究者通常都有一個希望證實的想法,這就是所謂的「對立假設(Alternative Hypothesis)」。舉例來說,研究者可能想知道某種教學方法是否能有效提升學生的學習成效。 與對立假設相對的,便是「虛無假設(Null Hypothesis)」,也就是認為這種教學方法沒有效果、沒有效果的差異。 統計推論的邏輯是這樣的:我們無法直接證明對立假設為真,而是透過「反證」的方式——如果我們收集到的數據不足以支持虛無假設,那麼我們就有理由拒絕虛無假設,間接支持對立假設。 🎯 顯著水準:你能承擔多少風險? 每一次抽樣調查都可能存在隨機誤差,換句話說,即使在母體中實際沒有差異,你所抽到的樣本也有可能顯示出差異。因此,統計檢定必須設定一個「風險界線」——這就是顯著水準(α)。 以最常見的 0.05 為例,這代表如果數據在虛無假設下出現的機率(p 值)小於 5%,那麼研究者就有信心拒絕虛無假設。這就好像我們說:「這個結果只有 5% 的機會是偶然出現的,太不尋常了,我寧可相信有真的效果存在。」 但你有沒有想過,這 5% 的機率,代表的是「我們可能錯了」的機會?也就是說,即便我們拒絕了虛無假設,它仍然可能是真的,而這種誤判就叫做型一誤差(Type I Error)。 更重要的是,顯著水準的設定本身是主觀的。有些研究設為 0.01,有些設為 0.1,不同設定會影響結論。例如: 也就是說,同一組資料,只因為研究者風險容忍度不同,最後的結論就可能天差地遠! ⚖️ 小心過度依賴 p 值的推論陷阱 回到統計檢定的核心目的——我們其實並不是要追求一個「真理性的結論」,而是要做一個在風險管理下的最佳推論選擇。然而,在實務操作中,許多研究者過度依賴「p < .05 就等於有效果」的思維,而忽略了更重要的背景與理論解釋。 實際上,當 p 值是 0.1 和 0.77 時,雖然兩者都不顯著(以 0.05 為界),但兩個結果的統計意涵卻可能非常不同。把這兩者一視同仁地當作「沒有顯著差異」,其實是誤用了統計推論的語言。 此外,p 值無法告訴我們「效果有多大」,也無法說明「這個結果是否具有實際意義」,這就是為什麼越來越多研究強調要報告效應量(effect size)與信賴區間,而不只是單純報告 p 值。 🧠 小結:做一位更有判斷力的研究者 […]