科學研究 – Dicky's Karma

Tag: 科學研究

為什麼只看 p 值不夠？《How Science Takes Stock》揭示你沒注意到的統計陷阱

Post author By Dicky
Post date April 14, 2025
Categories In 學術與投稿
No Comments on 為什麼只看 p 值不夠？《How Science Takes Stock》揭示你沒注意到的統計陷阱

在科學研究中，p 值常被視為一種「通行證」，只要結果達到統計顯著性（通常是 p < 0.05），研究者往往就會認定結果「有效」、「有差異」或「值得發表」。但我在閱讀《How Science Takes Stock: The Story of Meta-Analysis》這本書時，發現這樣的理解其實過於簡化，甚至可能誤導。作者 Mark Hunt 透過一個關鍵觀點指出：p 值只能告訴我們「差異是否存在」，卻無法告訴我們「差異有多大」。這就像有人跟你說：「外面正在下雨」，但沒有告訴你是毛毛雨還是傾盆大雨。你知道有變化，卻無法評估其實質影響。舉例來說，當研究中 p 值小於 0.05，代表如果實驗組和對照組之間其實沒有差異，那麼觀察到這樣結果的機率只有不到 5%。換句話說，這結果「不太可能是巧合」，因此我們推論實驗處理有可能有效。然而這樣的推論存在一個隱憂：它沒有考慮樣本數、效果大小，以及估計的精準程度。這時候，我們需要引入另一個關鍵概念：信賴區間（Confidence Interval, CI）。信賴區間不只是告訴你「差異存在」，更重要的是，它告訴你「這個差異的範圍可能是多少」。舉例來說，一個估計值可能落在 2 到 8 之間，這代表我們的數據其實包含了很大的不確定性。如果信賴區間太寬，代表我們無法準確地推論母體參數。此外，樣本大小對信賴區間的寬窄影響非常大。樣本數小的研究往往會導致估計值的變異大，進而讓信賴區間變寬。這樣的研究雖然也可能出現 p < .05 的結果，但其實它的推論力是脆弱的。這也意味著，小樣本 + 小效果量的研究，很容易讓真實的效果被信賴區間「淹沒」，我們甚至可能因此錯過一些重要但微弱的效應。那麼，如果樣本數很大呢？這時候即使只有極小的效果，也可能因為檢定力（statistical power）很強而顯著。但這種顯著是否有「實質意義」？也未必。舉例來說，如果某個教育措施平均只讓學生多考了 0.2 分，雖然 p < 0.05，但這樣的結果對教學現場的影響可能微乎其微，甚至不值得推廣。 Hunt 在書中強調，這種「只看 p 值」的研究風氣，就像是在進行「一人一票」的投票統計（vote-counting）──把每一個顯著結果都當作一票，沒顯著的就不計入。這樣的做法容易導致偏差，因為它忽略了不同研究間的樣本大小、研究品質、效果量差異等重要因素。這本書的重要啟示是：研究不該只是追求「顯著」，而應該追求「真實而有意義」的效果。要做到這一點，我們需要的是更完整的統計素養——理解效果量（effect size）、信賴區間（CI），以及如何進行合適的整合分析（meta-analysis）。作為研究者、教育工作者，甚至是一般讀者，我們都應該超越「p 值迷思」，回到數據真正想告訴我們的故事。《How Science Takes Stock》不僅講述了統計技術的演變，也提醒我們：科學之所以有力量，不在於「證明」，而在於「理解」。 […]

雙語者的認知能力真的比單語者更好嗎？雙語優勢解析

雙語者的認知能力比單語者更好嗎？科學研究怎麼說？能夠流利使用兩種語言的人，我們稱為「雙語者」（bilingual）。然而，「流利」的定義並不明確，因此學界對「雙語者」的界定其實還可以進一步細分。例如，可以依據他們接觸雙語的年齡進行分類，也可以依照他們在語言溝通中的功能角色（如理解或表達）來做區分。隨著全球化與移民人口的增加，雙語者的比例逐年攀升。成為雙語者的好處相當明顯，包括：雙語者的語言現象與認知挑戰雙語者在日常語言使用上，經常出現以下兩種現象：單語者只需要維持一種語言能力已經不容易，而雙語者同時要管理兩種語言，詞彙、語法和發音系統難免會互相干擾。那麼，這種跨語言的「腦力負擔」，是否真的能讓雙語者培養出更強的認知能力呢？這也是語言學、心理學和神經科學等領域長期討論的議題。科學證據：雙語者的認知優勢過去已有許多研究顯示，雙語者因為經常在兩個語言系統間切換，需要不斷抑制非目標語言，因此大腦的認知控制能力和執行功能比單語者更強。著名雙語研究學者比亞利托克（Ellen Bialystok）及其團隊在2004年發表的研究《Bilingualism, Aging, and Cognitive Control: Evidence From the Simon Task》，進一步證實雙語者的認知優勢在成人期甚至老年期仍然存在。他們透過「賽門任務（Simon Task）」，比較雙語者與單語者在認知控制上的表現，結果發現，雙語者表現顯著優於單語者。什麼是賽門任務（Simon Task）？賽門任務是一項經典的認知控制測驗，主要用來評估受試者在面對「空間位置干擾」時，抑制錯誤反應並做出正確反應的能力。具體做法是：賽門任務的兩種條件條件說明反應難度一致條件（Congruent）紅色方塊出現在右側，受試者按右鍵。容易不一致條件（Incongruent）紅色方塊出現在左側，受試者仍需按右鍵（與刺激位置不一致）。較難賽門效應（Simon Effect）當刺激位置與正確反應位置不一致時，受試者反應速度會變慢，正確率也可能下降。這種「空間位置與反應位置不匹配」所增加的認知負擔，就稱為賽門效應。雙語者的優勢從何而來？研究結果顯示，雙語者無論是中年或老年階段，都只需較低的賽門效應成本即可完成任務，代表雙語者的認知控制與訊息處理能力比單語者更優秀。這與雙語者的日常語言管理經驗密切相關：這種長期「語言體操」，無形中強化了執行功能，提升專注力、反應靈敏度，並加強認知靈活度。雙語優勢帶來的實際好處結論雙語者的認知能力是否真的比單語者更好？從目前科學研究來看，答案是肯定的。雙語經驗讓大腦在「語言管理」與「認知控制」上都鍛鍊得更強壯，未來我們將更加了解語言經驗如何塑造人類的認知能力與腦部發展。