從每個人在每個項目的實際得分(observed score)和該人該項目的預期得分(expected score)的差,除以變異數,可以得到這個資料點對模型的標準化的殘差(standardised residual),把所有這些標準化的殘差平方後再求平均,就是未權重配適度均方(unweighted fit mean-squar);若根據該資料點的變異數進行權重,則叫作權重配適度均方(weighted fit mean-square)。前者也叫outfit,因為它對極端值(outlier)相當敏感,如果高能力的人答錯簡單的題或低能力的人答對較難的題,則整個均方就會變大,資料和模型的配適就不好;後者又叫infit,因為其根據每個資料所能提供的資訊(information fit)進行權重,極端值的變異較小(例如:0.9*0.1或0.1*0.9,但中間的資訊較多(0.5*0.5)。我們可以使用R裡頭的TAM套件的msq.itemfit,去取得模型中每個項目的outfit和infit。把outfit的值畫出來的話,會如下圖: 在有800個來自常態分佈的樣本下裡的20個項目中,越接近1的項目,配適地越好,反之則越差。 隨著樣本數的增加或減少,在模擬的情況下,可以操控fit和1的距離。下面為樣本數為80和8000的情況。 如果看配適度t值的話,就沒有上面的問題。但是,在真實資料的情況下,又會遇到另一個問題,當樣本數越大,則越容易發現配適地不好的項目,越容易發現資料和模型之間存在差異。 我們可以這麼去理解配適度,它是一個項目和其餘項目總和的關係。從這個角度去理解配適度的話,其實「信度」或「鑑別度」已經提供我們足夠的資訊去決定一個項目的優劣了。如果我們以「配適度」去決定是否要採用某個項目,那反而會將具有鑑別度的項目剔除。當outfit離1很遠的時候,有兩種情況:一個是正方向的離1很遠,一個是負方向的離1很遠。正方向的離1很遠具有好的鑑別度,但我們可能因為判斷它的配適度不佳而刪除。倘若要從配適度去剔除不好的題目,就從outfit值最小的開始吧!
Category: 研究方法
在項目反應理論(Item Response Theory)下,怎麼理解「難度」這個概念?三種取徑。
在項目反應理論(Item Response Theory)中,要描述一個項目的「難度」和古典測驗理論(classical test theory)有不一樣的方法。在古典測驗中,一個項目的「難度」被認為是參與答題者人中答對該項目的比率,越多人答對,難度越低。在項目反應理論中,我們可以從三個取逕來理解項目的難度。項目反應理論中的描述「難度」需要有兩個維度來定義,「樣本能力」和「答對機率」。在只有受試者只有1/0二元結果(答對或答錯)的情況下,以下圖為例,假設受試者的能力是0,則答對該項目的機率則為50%,則項目難度delta則為0。 同樣delta的概念,若在受試者的得分被評為三個等級,例如:0、1、2的時候,以下圖為例,黑色線(得0分的機率)和紅色線(得1分的機率)相交的地方,比50%小一點點的答對率;以及,紅色線(得1分的機率)和綠色線(得2分的機率)相交的地方,同樣比50%小一點點的答對率。前者往下延伸至x軸為delta1(難度為-0.5),後者往下延伸至x軸為delta2(難度為0.5)。delta1和delta2兩個節點,可以把人分成得0分、得1分和得2分機率最高的範圍。 如果把答對的機率累積起來,以下圖為例,則從50%答對率水平延伸至與黑線(得1分或2分的累積機率)和綠線(得2分的累積機率)相交(紅線為得1分、2分和3分的累積機率)後再往x軸延伸取得gamma1(難度為-0.5)和gamma2(難度為0.5)。gamma1和gamma2兩個節點,同樣可以把人分成得0分、得1分和得2分機率最高的範圍。 又或者利用預期得分,從受試者的能力去推估期可能的得分(0到2之間),當能力相同的時候,預期得分越高的項目,難度則越低;反之,難度則越高。或者,難度高的題目,給能力好和能力不好的兩個受試者去測試,能力好的受試者預期得分會高於能力不好的受試者。參考下圖:
我讀陳春敏、陳振宇的《實驗研究法》:單因子實驗設計和多因子實驗設計
陳春敏.; and 陳振宇. 2015. 實驗研究法. 社會及行為科學研究法, ed. by 瞿海源. 1版. 臺北市: 臺灣東華.
我讀陳春敏、陳振宇的《實驗研究法》:實驗設計的基本術語
依變項(變量)、自變項(因子)水準、實驗情境(處理)隨機選取(選機抽樣)、隨機分派受試者間、受試者內獨立樣本、相依樣本固定效果、隨機效果變異來源 陳春敏.; and 陳振宇. 2015. 實驗研究法. 社會及行為科學研究法, ed. by 瞿海源. 1版. 臺北市: 臺灣東華.
我讀陳振宇的《整合分析》:效應量
每一個研究假設都會產生一個研究結果(或者效果),透過研究假設中兩個群體的比較,而且是有方向性預則的比較(可以是A大於B或B大於A,不可以只有A不等於B),並將這些結果轉換為能夠與其它襄究比較的單位。一個最典型、最傳統,用於在同一個問題意識下,但是不同的研究假設和研究成果的就是「效應量」(effect size、ES或效果量)。效應量告訴我們有關每個群體相對於另一個群體的位置的概念,以統計學家的話說就是「樣本資料所得到的差異是幾個標準差」,依據效應量的大小能夠判斷具有顯著差異的研究結果是否具有實驗意義或重要性。效應量越大,研究結果的實驗意義就越大;效應量越小,研究結果的實驗意義就越小。效應量的大小代表不同群體的資料分布的差異,是否足以說明兩個體立群體的平均數差異。 在單一研究時,個別受試者的行為表現是反應變項;進行整合研究(meta-analysis)時,會將很多個相同問題的的研究結果集合起來,這時候每一個研究的效果(效應量)就是反應變項了。
為什麼研究需要報告「效應值」(size effect)?因為型一錯誤和型二錯誤的不平衡
研究者在「虛無假設統計檢定」設定的顯著水準為0.05時,認為自己所做的推論犯錯的機會只有不到5%。然而,算進型二錯誤的話,犯錯的機會可能會提高。型二錯誤指的是真實的情況下,母體存在著差異,但是研究者卻做出了沒有差異的推論;與型二錯誤相對的就是統計檢定力(statistical power),即母體存在差異,且研究者的樣本資料也發現顯著差異。在真實的情況下,母體中兩個比較的群體存在差異的,由於抽樣後觀察到的檢計量或p值落在拒絕域之外,即p值大於0.05,於是研究者宣稱無法拒絕虛無假設並推論兩個群體並不存在差異,這就犯了型二錯誤。增加樣本數就會降低型二錯誤。在真實情況兩個群體(控制組和實驗組)存在差異時,要達到研究者所設定的顯著水準(比方0.05)而拒絕虛無假設時,則至少需要有1.645個標準差的差異。假設樣本數只有15個實驗組和15個控制組,標準差為0.38。如果檢定統計量落在1.645個標準差的右邊(單尾檢定,實驗組之於控制組有正向的效果)則拒絕虛無假設;但是檢定統計量也可能落在1.645個標準差的左邊,這時就無法拒絕虛無假設,就會犯了型二錯誤。在控制組和實驗組確實存在差異,且作出正確的推論的機率是37%(統計檢定力);同時,作為錯誤推論的機率則為63%(型二錯誤)。如果更改顯著水準自0.1(1.282個標準差)或0.01(2.327個標準差),那統計檢定力和型二錯誤的機率又會有所改變。 研究者所選取的顯著水準會使得型二錯誤和型一錯誤有不平衡的結果,於是也開始有研究者報告效應量(effect size、ES或效果量)來提供研究更多的訊息。 陳振宇. (2013). 整合分析. In 社會及行為科學研究法(三):資料分析 (3版.). 臺北市: 臺灣東華.
我讀陳振宇的《整合分析》:「虛無假設統計檢定」的推論、作法與不足
研究者心裡面有一個所欲論述的假設(對立假設),與之相反的就是虛無假設。研究者盡力收集證據的情況下,仍沒有足夠的證據能夠支持虛無假設時,研究者於是可以認為對立假設為真。通常,研究者所欲證實的假設,指的是某個變項所進行的操弄是有效果;而虛無假設則是操弄沒有效果。每一次研究的觀察都可能出現抽樣的誤差。該次的抽樣所觀察到的效果可能是真實的,也可能是來自沒有效果的母群抽樣。於是,研究者必須採取某種標準判斷。以大多數專業期刊所採取的標準或顯著水準0.05為例,即該研究者認為如果來自沒有效果的母群抽樣的機率不到5%的話,那麼研究者願意判定這個效果不是來自虛無假設的母群,而宣稱對立假設成立。宣稱對立假設成立的同時,虛無假設仍有最高5%的機率為真的可能性。如果這樣的情況發生了,就是型一誤差。不過,只要沒有進行普查的話,我們永遠不知道型一誤差是否會發生。 「虛無假設統計檢定」的推論,決定選擇虛無假設或對立假設取決於研究者所採取的顯著水準。想像以下兩種情況,甲情況下p值是0.1,乙情況下p值是0.77,在顯著水準備為0.05的前提下,不論在甲情況或乙情況下,研究者都會選擇接受虛無假設,但是甲乙兩個情況下的檢定統計量可能是天差地遠。如果將顯著水準設為0.1,在甲情況下,研究者會拒絕虛無假設,而乙情況下仍會接受虛無假設。結果,只因為研究者的風險設定,就會決定了最後統計的判定和推論。 陳振宇. (2013). 整合分析. In 社會及行為科學研究法(三):資料分析 (3版.). 臺北市: 臺灣東華.