試題反應理論(Item Response Theory)中,需要看配適度(Fit)嗎?

從每個人在每個項目的實際得分(observed score)和該人該項目的預期得分(expected score)的差,除以變異數,可以得到這個資料點對模型的標準化的殘差(standardised residual),把所有這些標準化的殘差平方後再求平均,就是未權重配適度均方(unweighted fit mean-squar);若根據該資料點的變異數進行權重,則叫作權重配適度均方(weighted fit mean-square)。前者也叫outfit,因為它對極端值(outlier)相當敏感,如果高能力的人答錯簡單的題或低能力的人答對較難的題,則整個均方就會變大,資料和模型的配適就不好;後者又叫infit,因為其根據每個資料所能提供的資訊(information fit)進行權重,極端值的變異較小(例如:0.9*0.1或0.1*0.9,但中間的資訊較多(0.5*0.5)。
我們可以使用R裡頭的TAM套件的msq.itemfit,去取得模型中每個項目的outfit和infit。把outfit的值畫出來的話,會如下圖:

在有800個來自常態分佈的樣本下裡的20個項目中,越接近1的項目,配適地越好,反之則越差。

隨著樣本數的增加或減少,在模擬的情況下,可以操控fit和1的距離。下面為樣本數為80和8000的情況。

如果看配適度t值的話,就沒有上面的問題。但是,在真實資料的情況下,又會遇到另一個問題,當樣本數越大,則越容易發現配適地不好的項目,越容易發現資料和模型之間存在差異。

我們可以這麼去理解配適度,它是一個項目和其餘項目總和的關係。從這個角度去理解配適度的話,其實「信度」或「鑑別度」已經提供我們足夠的資訊去決定一個項目的優劣了。如果我們以「配適度」去決定是否要採用某個項目,那反而會將具有鑑別度的項目剔除。當outfit離1很遠的時候,有兩種情況:一個是正方向的離1很遠,一個是負方向的離1很遠。正方向的離1很遠具有好的鑑別度,但我們可能因為判斷它的配適度不佳而刪除。倘若要從配適度去剔除不好的題目,就從outfit值最小的開始吧!

Leave a Reply

Your email address will not be published. Required fields are marked *