交叉因子(crossed factor)和套疊因子(nested factor)的差別


當我們只有一個因子的時候,我們不需要去擔心因子間交叉(crossing)或套疊(nesting)的區別。但當我們有兩個以上的因子時,分辨因子間的關係就非常重要,因為這會影響我們對於資料的分析。

當兩個因子交叉的時候,不論是在A因子中的每一個類別,都可以在B因子中每一個類別同時出現。換句話說,每一種來自兩個因子可能的組合都會出現於我們的觀察值中。

倘若一個因子套疊於(nested within)另一個因子之中,若其出現在第一個因子中,則不會出現在其它因子中。同理,觀察值若出現在第二個因子中,則我們知道會有另一個觀察值出現在第一個因子中。所有的組合不會同時出現。

當兩個因子交叉時,就可以計算交互作用;如果彼此套疊,則會因為沒有同時出現的組合,而無法進行如此動作。

將兩個因子以列聯表(cross tabulation)呈現時,就可以知道彼此的關係是交叉或套疊了。

參考文章

在R進行重覆量數(repeated-measur)ANOVA

我們想知道「語境限制性」(context)和「接觸新詞的次數」(order)是否會影響學習者對於新詞的理解(meanbyid)。我們在R使用以下語法:

rmanovaid2<- aov(meanbyid ~  context * order + Error(id/ (context * order)), data = averagebyid)

裡頭的公式「meanbyid ~  context * order + Error(id/ (context * order)」可以分為兩個部分去理解。前半部分「meanbyid ~  context * order」,指的是學習者對於新詞的理解會受到語境限制性和接觸新詞的次數的影響。「*」是「context + order + context:order」的簡化,指的是考慮了語境限制性和接觸次數的主效應(main effect)和語境限制及接觸次數的交互作用(interaction)。後半部分的「Error(id/ (context * order)」,則是我們在可以進行適當的統計檢定不可或缺的要素。

「Error(id/ (context * order)」使得殘差平方和(Residual sum of squares, RSS)的來源,可以分成幾個可預知的部分(error strata)。它是「Error(id + id:context + id:order + id:context:order)」的簡化,指的是我們要將可預知的殘差分為來自「個人因素」、「個人和語境限制性的交互作用」、「個人和接觸次數的交互作用」以及「個人、語境限制性和接觸次數的交互作用」。

summary(rmanovaid2)

將我們一開始使用的語法進行摘要之後,我們得到以下結果:

對於語境限制性的檢定,是基於「個人和語境限制性的交互作用」,顯示在「Error:  id:context」;而對於接觸次數的檢定,則基於「個人和接觸次數的交互作用」,顯示在「Error:  id:order」;最後一層,則是對於語境限制性和接觸次數交互作用的檢定,其是基於「個人、語境限制性和接觸次數的交互作用」的誤差,顯示於「Error:  id:context:order」。

這個分析過程中,我們有隨機的個人效應(id),透過實驗操弄、固定的效應則有語境限制性(context)和接觸次數(order)。在重覆測量的設計下,受試者內的因子(within-subject factor),可以視為是固定效果(fixed effect),而隨機效果(random effect)則是來自受試者。Hays(1988)認為,合適的F統計量如下:

F(context in id) = MS(context) / MS(context : id) = 8.234
F(order in id) = MS(order) / MS(order : id) = 0.19

即便沒有深入統計學理的細節,我們是可以理解隨機效果和固定效果的差別。以語境限制性(context)這個固定效果為例,我們只比較了理解新詞詞義在高語境限制性和低語境限制性的差別。我們無法將這樣的效果一併適用於其它語境限制性,例如中等語境限制。我們可以說,語境限制性被固定在高語境限制性和低語境限制性兩個條件。在這兩個條件下對於新詞的理解,即便存在差異,也只限於這兩個條件,無法適用於其它條件。

當語境限制性(context)和接觸次數(order)都被視為固定效果時,對於其個別的主要效應進行檢定時,則是分別基於「個人和語境限制性的交互作用」和「個人和接觸次數的交互作用」。「Error()」就是實現我們進行如此檢定的語法。在我們的研究中,唯一個隨機效果就是個人效應(id)。30個受試者是來自眾多潛在的第二語言學習者中的隨機樣本。倘若我們的推論僅限於這30個人身上,那這對於研究的發現將有很大的侷限。如果沒有使用「Error(id/ (context * order)」語法,我們將會得到錯誤的統計量。語境限制性和接觸次數都將在未經分離處理的「殘差」進行檢定,這樣子的檢定是將所有殘差通通集合在一起。

還有一個「Error(id/ (context * order)」語法中值得注意的是「/」。「/」是讓aov()知道,context和order是巢嵌於每個受試者之內。也就是說,每個因為語境限制性和接觸次數的反應(對於新詞的理解),都必須在受試者內考量。

參考資料

三個和「樹」有關的故事

三個和「樹」有關故事。

岸樹井藤
樹神度婆羅門
永遠有希望的樹(ต้นไม้แห่งความสมหวัง)

「曠野無明路,人走喻凡夫,大象比無常,
井喻生死岸。樹根喻於命,二鼠晝夜同,
齧根念念衰,四蛇同四大。蜜滴喻五欲,
蜂螫比邪思,火同於老病,毒龍方死苦。
智者觀斯事,象可厭生津,五欲心無著,
方名解脫人。鎮處無明海,常為死王驅,
寧知戀聲色,不樂離凡夫。」 

我讀陳春敏、陳振宇的《實驗研究法》:實驗設計的基本術語


依變項(變量)、自變項(因子)
水準、實驗情境(處理)
隨機選取(選機抽樣)、隨機分派
受試者間、受試者內
獨立樣本、相依樣本
固定效果、隨機效果
變異來源

陳春敏.; and 陳振宇. 2015. 實驗研究法. 社會及行為科學研究法, ed. by 瞿海源. 1版. 臺北市: 臺灣東華.

我讀《How Science Takes Stock: The Story of Meta-Analysis》:如果只看p值的話…

當p值小於.05的時候,進行假設檢定的人就可以推論實驗組和對照組有差異的機會在20次當中,只會有不到1次。而當我們真得遇見這樣的可能性時,我們就可以大膽地說實驗組和對照組確實存在差異。但是僅僅透過點估計(point estimate),很可能因為抽樣誤差而對於實際的情況有誇張或不足的推論。只看統計顯著性的p值,是無法告訴我們差距大小。

信賴區間(confidence interval)是p值無法告訴我們的。越小的樣本,信賴區間會越大、越寬;相對的,大樣本,的信賴區間小,研究者就更有信心地說樣本的推論接近母體。

當實驗組和對照組的操弄或處理的效果是非常小的時候,要說明兩個組別確實存在差異時,可能就不夠力(powerful)。假設實驗處理只有很小、很小的效果,當樣本數也非常小的時候,它的信賴區間便會擴大,於是可能存在的效果就會被遺忘在較大的信賴區間裡了。

即使樣本夠大,它可以說明母體具有統計上的顯著的差異,但是只靠p值仍無法知道這樣的效果究竟多大,也許這樣的效果根本不值得我們去追求。

只看p值就會遇到以上的問題,它有點像一人一票(vote-counting),只看最後的結果。如果我們想知道實驗組和對照組的差異多大時,這是p值無法提供的。

Hunt, M. (1999). How Science Takes Stock: The Story of Meta-Analysis (Revised ed. edition). New York: Russell Sage Foundation.