當p值小於.05的時候,進行假設檢定的人就可以推論實驗組和對照組有差異的機會在20次當中,只會有不到1次。而當我們真得遇見這樣的可能性時,我們就可以大膽地說實驗組和對照組確實存在差異。但是僅僅透過點估計(point estimate),很可能因為抽樣誤差而對於實際的情況有誇張或不足的推論。只看統計顯著性的p值,是無法告訴我們差距大小。
信賴區間(confidence interval)是p值無法告訴我們的。越小的樣本,信賴區間會越大、越寬;相對的,大樣本,的信賴區間小,研究者就更有信心地說樣本的推論接近母體。
當實驗組和對照組的操弄或處理的效果是非常小的時候,要說明兩個組別確實存在差異時,可能就不夠力(powerful)。假設實驗處理只有很小、很小的效果,當樣本數也非常小的時候,它的信賴區間便會擴大,於是可能存在的效果就會被遺忘在較大的信賴區間裡了。
即使樣本夠大,它可以說明母體具有統計上的顯著的差異,但是只靠p值仍無法知道這樣的效果究竟多大,也許這樣的效果根本不值得我們去追求。
只看p值就會遇到以上的問題,它有點像一人一票(vote-counting),只看最後的結果。如果我們想知道實驗組和對照組的差異多大時,這是p值無法提供的。
Hunt, M. (1999). How Science Takes Stock: The Story of Meta-Analysis (Revised ed. edition). New York: Russell Sage Foundation.