Category: 統計學

在項目反應理論(Item Response Theory)下,怎麼理解「難度」這個概念?三種取徑。

在項目反應理論(Item Response Theory)中,要描述一個項目的「難度」和古典測驗理論(classical test theory)有不一樣的方法。在古典測驗中,一個項目的「難度」被認為是參與答題者人中答對該項目的比率,越多人答對,難度越低。在項目反應理論中,我們可以從三個取逕來理解項目的難度。項目反應理論中的描述「難度」需要有兩個維度來定義,「樣本能力」和「答對機率」。在只有受試者只有1/0二元結果(答對或答錯)的情況下,以下圖為例,假設受試者的能力是0,則答對該項目的機率則為50%,則項目難度delta則為0。 同樣delta的概念,若在受試者的得分被評為三個等級,例如:0、1、2的時候,以下圖為例,黑色線(得0分的機率)和紅色線(得1分的機率)相交的地方,比50%小一點點的答對率;以及,紅色線(得1分的機率)和綠色線(得2分的機率)相交的地方,同樣比50%小一點點的答對率。前者往下延伸至x軸為delta1(難度為-0.5),後者往下延伸至x軸為delta2(難度為0.5)。delta1和delta2兩個節點,可以把人分成得0分、得1分和得2分機率最高的範圍。 如果把答對的機率累積起來,以下圖為例,則從50%答對率水平延伸至與黑線(得1分或2分的累積機率)和綠線(得2分的累積機率)相交(紅線為得1分、2分和3分的累積機率)後再往x軸延伸取得gamma1(難度為-0.5)和gamma2(難度為0.5)。gamma1和gamma2兩個節點,同樣可以把人分成得0分、得1分和得2分機率最高的範圍。 又或者利用預期得分,從受試者的能力去推估期可能的得分(0到2之間),當能力相同的時候,預期得分越高的項目,難度則越低;反之,難度則越高。或者,難度高的題目,給能力好和能力不好的兩個受試者去測試,能力好的受試者預期得分會高於能力不好的受試者。參考下圖:

在古典測驗理論(Classical Test Theory)中計算信度(reliability)

古典測驗理論(Classical Test Theory)中,存在一些假設:一、Observed Scored = True Score + (Measurement) ErrorX = T + E二、mean(X) = T三、Corr(E,T) = 0四、Corr(E1,E2) = 0五、Corr(E1,T2) = 0如果平行測驗的兩次所觀察到的分數滿足上述五個假設,則兩次的真實分數(True Score)相等,兩次的van(E)相等。van(E)為每一個題項(item)的變異數的總和。從古典測驗理論的假設下,可以延伸出以下:一、mean(E) = 0二、Var(X) = Var(T) + Var(E)三、[Corr(X,T)]squar = Var(T)/Var(X)四、Var(X) = Var(X’)(當兩者為平行測驗時)五、Corr(X,X’) = Var(T)/Var(X)(此用以計算單一測驗的信度) 計算單一測驗的信度,可利用Cronbach’s Alpha:Cronbach’s Alpha = (n/(n-1))*(Var(T)/Var(X))= (n/(n-1))*((Var(X) – Var(E))/Var(X))n/(n-1)用來校正,當n很大時,可忽略不計。 Cronbach’s Alpha作為信度係數,可以用測同一個構念的內部一致性(internal consistency)。若同一個構念中,含有多個子成分,各別子成分計算Cronbach’s Alpha,可討論各個子成分裡頭的內部一致性。然而,將以多個子成分組成的構念,再計算出一個屬於整體構念的Cronbach’s Alpha會很奇怪。[如果可以算一個Cronbach’s Alpha,為啥還要多個子成分的Cronbach’s Alpha?如果多個子成分才能組成一個構念,自然不存在內部一致性。]

使用R將預測變數的交互作用以圖形視覺化

當我們想要知道兩個變數之間是否存在交互作用時,可以使用下面函數產生視覺化的圖形加以輔助:interaction.plot(pred1, pred2, resp) pred1和pred2為要進行檢查的兩個變數,而resp則是反應變數。示例如下: interaction.plot(averagebyid$context, averagebyid$order, averagebyid$meanbyid) 從每個人的平均得分來看,在接觸1次的時候,高語境限制性和低語境限制性的得分並沒有太大的差異。 interaction.plot(averagebyword$context, averagebyword$order, averagebyword$meanbyword) 從每個字的平均得分來看,接觸1次、2次和3次新詞的在語境限制性的差異不大。 interaction.plot(averagebyid$order, averagebyid$context, averagebyid$meanbyid) 從每個人平均得分來看,接觸1次時,高語境限制性和低語境限制性的得分並沒有太大的差異。 interaction.plot(averagebyword$order, averagebyword$context, averagebyword$meanbyword) 從每個字平均得分來看,接觸1次時,高語境限制性和低語境限制性的得分並沒有太大的差異。 但是這些圖形只是暗示我們進一步檢定的話,可能存在交互作用。我們後續仍需要進刪統計檢定才可以驗證其顯著性。

在R進行有兩個隨機因子以上的混合線性模式

當我們只有一個隨機因子的時候,我們可以下面公式表示固定效果和隨機效果(以下公式皆使用lme4套件的lmer函數): correct ~ context + order + (context + order | id)correct ~ context + order + (1 +context + order | id) 上面兩種寫法,傳達相同的意思。兩種寫法中,前半的「context + order」為主要效果;後半的「(context + order | id)」和「(1 +context + order | id)」包含「|」的則是隨機效果。在「|」右邊的是隨機因子(id),而「|」左邊的則是受到隨機因子的影響,為了固定因子所產生、計算的截矩和斜率。 當我們有兩個隨機因子時,我們則必需先考慮這個因子的關係是交叉或套疊,才能撰寫相對應的公式。 當兩個因子彼此是套疊的時候,例如班級因子(class)套疊於學校因子(school),我們將兩者的交互作用另立一個欄位(school_class)去計算,如此我們可以有以下公式,下面兩個公式也是同義的公式: correct ~ context + order + (1 | school/class)correct ~ context + order + (1 | school) + […]

交叉因子(crossed factor)和套疊因子(nested factor)的差別

當我們只有一個因子的時候,我們不需要去擔心因子間交叉(crossing)或套疊(nesting)的區別。但當我們有兩個以上的因子時,分辨因子間的關係就非常重要,因為這會影響我們對於資料的分析。 當兩個因子交叉的時候,不論是在A因子中的每一個類別,都可以在B因子中每一個類別同時出現。換句話說,每一種來自兩個因子可能的組合都會出現於我們的觀察值中。 倘若一個因子套疊於(nested within)另一個因子之中,若其出現在第一個因子中,則不會出現在其它因子中。同理,觀察值若出現在第二個因子中,則我們知道會有另一個觀察值出現在第一個因子中。所有的組合不會同時出現。 當兩個因子交叉時,就可以計算交互作用;如果彼此套疊,則會因為沒有同時出現的組合,而無法進行如此動作。 將兩個因子以列聯表(cross tabulation)呈現時,就可以知道彼此的關係是交叉或套疊了。 參考文章

在R進行重覆量數(repeated-measur)ANOVA

我們想知道「語境限制性」(context)和「接觸新詞的次數」(order)是否會影響學習者對於新詞的理解(meanbyid)。我們在R使用以下語法: rmanovaid2<- aov(meanbyid ~  context * order + Error(id/ (context * order)), data = averagebyid) 裡頭的公式「meanbyid ~  context * order + Error(id/ (context * order)」可以分為兩個部分去理解。前半部分「meanbyid ~  context * order」,指的是學習者對於新詞的理解會受到語境限制性和接觸新詞的次數的影響。「*」是「context + order + context:order」的簡化,指的是考慮了語境限制性和接觸次數的主效應(main effect)和語境限制及接觸次數的交互作用(interaction)。後半部分的「Error(id/ (context * order)」,則是我們在可以進行適當的統計檢定不可或缺的要素。 「Error(id/ (context * order)」使得殘差平方和(Residual sum of squares, RSS)的來源,可以分成幾個可預知的部分(error strata)。它是「Error(id + id:context + id:order + id:context:order)」的簡化,指的是我們要將可預知的殘差分為來自「個人因素」、「個人和語境限制性的交互作用」、「個人和接觸次數的交互作用」以及「個人、語境限制性和接觸次數的交互作用」。 summary(rmanovaid2) 將我們一開始使用的語法進行摘要之後,我們得到以下結果: 對於語境限制性的檢定,是基於「個人和語境限制性的交互作用」,顯示在「Error:  […]

我讀《How Science Takes Stock: The Story of Meta-Analysis》:如果只看p值的話…

當p值小於.05的時候,進行假設檢定的人就可以推論實驗組和對照組有差異的機會在20次當中,只會有不到1次。而當我們真得遇見這樣的可能性時,我們就可以大膽地說實驗組和對照組確實存在差異。但是僅僅透過點估計(point estimate),很可能因為抽樣誤差而對於實際的情況有誇張或不足的推論。只看統計顯著性的p值,是無法告訴我們差距大小。信賴區間(confidence interval)是p值無法告訴我們的。越小的樣本,信賴區間會越大、越寬;相對的,大樣本,的信賴區間小,研究者就更有信心地說樣本的推論接近母體。 當實驗組和對照組的操弄或處理的效果是非常小的時候,要說明兩個組別確實存在差異時,可能就不夠力(powerful)。假設實驗處理只有很小、很小的效果,當樣本數也非常小的時候,它的信賴區間便會擴大,於是可能存在的效果就會被遺忘在較大的信賴區間裡了。 即使樣本夠大,它可以說明母體具有統計上的顯著的差異,但是只靠p值仍無法知道這樣的效果究竟多大,也許這樣的效果根本不值得我們去追求。 只看p值就會遇到以上的問題,它有點像一人一票(vote-counting),只看最後的結果。如果我們想知道實驗組和對照組的差異多大時,這是p值無法提供的。 Hunt, M. (1999). How Science Takes Stock: The Story of Meta-Analysis (Revised ed. edition). New York: Russell Sage Foundation.

在R進行兩比例值的比較

比例值資料是二項類別資料,族群資料之特徵只有兩種觀測值,如資料只有雌與雄、死與活、答對與答對。這些是沒有度量衡的測定單位。把其中一種特徵當成0,另一個特徵當成1,整個資料只有0和1兩種觀測值。這樣的族群稱為二項族群(Bernoulli population)。其平均數為p,而變方則為pq。甲選手在25場比賽中,贏了17場比較;乙選手在20場比賽中,贏了8場比賽。 甲選手和乙選手兩個人贏比賽的機率是否相等?(兩個族群的平均數是否相等?)prop.test(c(17,8),c(25,20),correct=FALSE) 甲選手贏比賽的機率是否等於乙選手贏比賽的機率(0.4)?乙選手贏比賽的機率是否等於甲選手贏比賽的機率(0.68)?某一個族群的平均數是否等於某個特定的值?binom.test(x=17,n=25,p=8/20)binom.test(x=8,n=20,p=17/25) http://stats.stackexchange.com/questions/123609/exact-two-sample-proportions-binomial-test-in-r-and-some-strange-p-valueshttps://stat.ethz.ch/R-manual/R-devel/library/stats/html/binom.test.html

我讀陳振宇的《整合分析》:效應量

每一個研究假設都會產生一個研究結果(或者效果),透過研究假設中兩個群體的比較,而且是有方向性預則的比較(可以是A大於B或B大於A,不可以只有A不等於B),並將這些結果轉換為能夠與其它襄究比較的單位。一個最典型、最傳統,用於在同一個問題意識下,但是不同的研究假設和研究成果的就是「效應量」(effect size、ES或效果量)。效應量告訴我們有關每個群體相對於另一個群體的位置的概念,以統計學家的話說就是「樣本資料所得到的差異是幾個標準差」,依據效應量的大小能夠判斷具有顯著差異的研究結果是否具有實驗意義或重要性。效應量越大,研究結果的實驗意義就越大;效應量越小,研究結果的實驗意義就越小。效應量的大小代表不同群體的資料分布的差異,是否足以說明兩個體立群體的平均數差異。 在單一研究時,個別受試者的行為表現是反應變項;進行整合研究(meta-analysis)時,會將很多個相同問題的的研究結果集合起來,這時候每一個研究的效果(效應量)就是反應變項了。

為什麼研究需要報告「效應值」(size effect)?因為型一錯誤和型二錯誤的不平衡

研究者在「虛無假設統計檢定」設定的顯著水準為0.05時,認為自己所做的推論犯錯的機會只有不到5%。然而,算進型二錯誤的話,犯錯的機會可能會提高。型二錯誤指的是真實的情況下,母體存在著差異,但是研究者卻做出了沒有差異的推論;與型二錯誤相對的就是統計檢定力(statistical power),即母體存在差異,且研究者的樣本資料也發現顯著差異。在真實的情況下,母體中兩個比較的群體存在差異的,由於抽樣後觀察到的檢計量或p值落在拒絕域之外,即p值大於0.05,於是研究者宣稱無法拒絕虛無假設並推論兩個群體並不存在差異,這就犯了型二錯誤。增加樣本數就會降低型二錯誤。在真實情況兩個群體(控制組和實驗組)存在差異時,要達到研究者所設定的顯著水準(比方0.05)而拒絕虛無假設時,則至少需要有1.645個標準差的差異。假設樣本數只有15個實驗組和15個控制組,標準差為0.38。如果檢定統計量落在1.645個標準差的右邊(單尾檢定,實驗組之於控制組有正向的效果)則拒絕虛無假設;但是檢定統計量也可能落在1.645個標準差的左邊,這時就無法拒絕虛無假設,就會犯了型二錯誤。在控制組和實驗組確實存在差異,且作出正確的推論的機率是37%(統計檢定力);同時,作為錯誤推論的機率則為63%(型二錯誤)。如果更改顯著水準自0.1(1.282個標準差)或0.01(2.327個標準差),那統計檢定力和型二錯誤的機率又會有所改變。 研究者所選取的顯著水準會使得型二錯誤和型一錯誤有不平衡的結果,於是也開始有研究者報告效應量(effect size、ES或效果量)來提供研究更多的訊息。 陳振宇. (2013). 整合分析. In 社會及行為科學研究法(三):資料分析 (3版.). 臺北市: 臺灣東華.