在項目反應理論(Item Response Theory)下,怎麼理解「難度」這個概念?三種取徑。

在項目反應理論(Item Response Theory)中,要描述一個項目的「難度」和古典測驗理論(classical test theory)有不一樣的方法。在古典測驗中,一個項目的「難度」被認為是參與答題者人中答對該項目的比率,越多人答對,難度越低。在項目反應理論中,我們可以從三個取逕來理解項目的難度。

項目反應理論中的描述「難度」需要有兩個維度來定義,「樣本能力」和「答對機率」。在只有受試者只有1/0二元結果(答對或答錯)的情況下,以下圖為例,假設受試者的能力是0,則答對該項目的機率則為50%,則項目難度delta則為0。

同樣delta的概念,若在受試者的得分被評為三個等級,例如:0、1、2的時候,以下圖為例,黑色線(得0分的機率)和紅色線(得1分的機率)相交的地方,比50%小一點點的答對率;以及,紅色線(得1分的機率)和綠色線(得2分的機率)相交的地方,同樣比50%小一點點的答對率。前者往下延伸至x軸為delta1(難度為-0.5),後者往下延伸至x軸為delta2(難度為0.5)。delta1和delta2兩個節點,可以把人分成得0分、得1分和得2分機率最高的範圍。

如果把答對的機率累積起來,以下圖為例,則從50%答對率水平延伸至與黑線(得1分或2分的累積機率)和綠線(得2分的累積機率)相交(紅線為得1分、2分和3分的累積機率)後再往x軸延伸取得gamma1(難度為-0.5)和gamma2(難度為0.5)。gamma1和gamma2兩個節點,同樣可以把人分成得0分、得1分和得2分機率最高的範圍。

又或者利用預期得分,從受試者的能力去推估期可能的得分(0到2之間),當能力相同的時候,預期得分越高的項目,難度則越低;反之,難度則越高。或者,難度高的題目,給能力好和能力不好的兩個受試者去測試,能力好的受試者預期得分會高於能力不好的受試者。參考下圖:

在古典測驗理論(Classical Test Theory)中計算信度(reliability)

古典測驗理論(Classical Test Theory)中,存在一些假設:
一、Observed Scored = True Score + (Measurement) Error
X = T + E
二、mean(X) = T
三、Corr(E,T) = 0
四、Corr(E1,E2) = 0
五、Corr(E1,T2) = 0
如果平行測驗的兩次所觀察到的分數滿足上述五個假設,則兩次的真實分數(True Score)相等,兩次的van(E)相等。
van(E)為每一個題項(item)的變異數的總和。

從古典測驗理論的假設下,可以延伸出以下:
一、mean(E) = 0
二、Var(X) = Var(T) + Var(E)
三、[Corr(X,T)]squar = Var(T)/Var(X)
四、Var(X) = Var(X’)(當兩者為平行測驗時)
五、Corr(X,X’) = Var(T)/Var(X)(此用以計算單一測驗的信度)

計算單一測驗的信度,可利用Cronbach’s Alpha:
Cronbach’s Alpha
= (n/(n-1))*(Var(T)/Var(X))
= (n/(n-1))*((Var(X) – Var(E))/Var(X))
n/(n-1)用來校正,當n很大時,可忽略不計。

Cronbach’s Alpha作為信度係數,可以用測同一個構念的內部一致性(internal consistency)。若同一個構念中,含有多個子成分,各別子成分計算Cronbach’s Alpha,可討論各個子成分裡頭的內部一致性。然而,將以多個子成分組成的構念,再計算出一個屬於整體構念的Cronbach’s Alpha會很奇怪。[如果可以算一個Cronbach’s Alpha,為啥還要多個子成分的Cronbach’s Alpha?如果多個子成分才能組成一個構念,自然不存在內部一致性。]

輕鬆學習泰語聲母中、高、低子音

如果有一個「外星語言」,它肯定比起地球上,任何一個「外國語言」更難。地球人的發音部位、發音方式、聽覺器官都是同一套。至少不是像《降臨》裡頭的七肢桶語言,女主角形容就像「一隻濕漉漉的狗抖掉毛皮上的水時發出的聲音」,畢竟七肢桶有和地球人完全不一樣的發聲與聽覺器官結構。那為什麼我們學習外語會亂無章法,覺得理不出頭緒呢?我認為是因為我們太過於專注於第一語言和第二語言的差異,而忽略了第一語言和第二語言的共性。地球人能夠學好自己的母語(第一語言),就勢必能夠學習好外語(第二語言),至少比學習外星語言容易。

共性在哪裡?每個人都有一個嘴巴,兩個耳朵。

美國人的耳朵和日本人的耳朵聽到的是否一樣?去問問美國人和日本人聽到/r/和/l/這兩個音的時候,聽到的是一種聲音或兩種聲音?也許有些人認為這是不可逆的事實。但這不是現在文章要討論的重點,我們實驗室的同學王靖雯研究就認為這耳朵是可以被訓練,《聽清楚才能真的講明白:加強聽辨能力是否有助於發音》也將在第十八屆全國語言學論文研討會上發表。

除了兩個耳朵是一樣的,我們還有一個嘴巴是一樣的,所有人類的發音部位和發音方式都是一樣,只是某些語言不使用某些部位或方式。擁有格里菲斯大學(Griffith University)認知與應用語言學學位,而且精通東南亞和中國語言的王懷樂(Stuart Jay Raj)把泰語的發音部位、方式進行有系統的解構。配合泰語符號(泰文)的來源(天城文、梵語),其目標在於能夠最後學習好泰語(不只是停留在泰母聲母、韻母階段),王懷樂撰文提醒我們有12個小撇步可以更容易學會泰語聲母,同時也為往後的聲調打下基礎。

「為愛學語言」的王懷樂寫的文章,如果沒有一點兒「語言學」或「泰語」的底子,可能讀起來會很吃力。不過,如果用心慢慢地細讀,並對照其所提供的表格的話,應該是不會有太大的困難才是。我將12個小撇步中譯如下,配合王懷樂的表格應該有助於學習泰語聲母。

一、書寫泰語符號(泰文)的時候,都從有「圈圈」的地方開始。*
二、在泰語聲母表中,需要發出塞音(‘glottal’,第1個直欄),都是中子音。
三、在泰語聲母表中,不需要聲帶振動,直接送氣發出的聲音(‘Non-Voiced-Aspirate’,第2個直欄),都是高子音。
四、餘第3、4和5個直欄,都是低子音。
五、泰語的「中、高、低子音」和「聲調」有相關,但不代表高子音就會發上揚的聲調。**
六、印歐語言家族有濁音(‘voiced’)和送氣的濁音(‘voiced – aspirated’),泰語通通沒有。第2、3和4直欄的聲母,有幾乎一樣的發音,就是因為要聲帶振動的濁音以及強送氣的發音缺失。第2欄和第3、4欄唯一的差別就是在於高子音和低子音發音位置上的不同。***
七、有好幾個泰語聲母無法在對應到印歐語系。這些無法對應的聲母是來自於天城文(Devanagari),它們看起來幾乎一模一樣,只有在某個部位長得不一樣,這包括:低子音的ช和ซ(ch/s),中子音的ด和ต (d/t),中子音的ฎ和ฏ(d/t),中子音的บ和ป(b/p),低子音的พ和ฟ(ph/f)以及高子音的ผ和ฝ(ph/f)。
八、印歐語系的‘Sh’在泰語裡頭都發‘s’,而且都是高子音,包括ห (ho hiip)
九、低子音的‘s’ ซ不是來自印歐語系,而是同‘ch’ ช的發音位置上,以不同的發音方式發出。
十、泰語也沒有印歐語系的舌音(‘cerebral’),所以第3個橫列和第4個橫列幾乎就是一模一樣的翻版。第3個橫列就是原先在梵語(Sanskrit)裡頭會發舌音的符號。因此,比較第3個橫列和第4個橫列就會發現,第4個橫列(本來就是齒音(‘Dental’))較常出現,而第3個橫列(自舌音變形後的齒音)多出現在梵語詞彙。
十一、第1、2和3直欄、鼻音(nasals)以及可兼韻母的聲音(semi vowels)和ส是較常見的聲母。
十二、第4個直欄(過去是濁音送氣的發音方式)和第3個橫列(由舌音變形的齒音,包括本來不是齒音的ศ的ษ)就是比較少用的聲母。

*只有ก(ko kai)和ธ(tho thong)沒有「圈圈」。

**壯侗語言家族(Tai languages)傳統上被認為是帶聲調的單音節語言,然而泰語符號(泰文)的來源是複音節且沒有聲調的印歐書寫系統(Indic writing system)。泰語的聲母必須自帶中、高、低子音的屬性(聲音被發出時,所使用的方式),於整個音節中,自音節頭到音節尾依該聲母的屬性產生聲調。之所以要將聲母分為中、高、低子音,是為了可以運用標準聲調規則去知道音節的發音。

***以第1個橫列(發音部位為喉嚨)為例,隨著不同的發音方式,應該會發出k、kh、g、gh、ng五種聲音;但是在泰語裡頭是k、kh、kh、kh和ng。濁音的‘g’ 和‘gh’和泰語都是清音的‘kh’。

泰語聲調不困難,只要掌握這些規則:比起好幾頁的規則,一個表格就把所有規打包

學習一陣子泰語的同學,一定都清楚泰語有5個聲調:中平調(middle)、低平調(deep)、下降調(falling)、高平調(high)和上升調(rising)。有一些泰語老師會將這5個聲調按照順序編號,同時搭配泰語的調號,製作成表格提供泰語學習者作為閱讀泰語發音的輔助工具。有時候,這些輔助工具太多、太細,結果反而變成是在作「語言學」而不是「語言學習」了。

在以英語為主的泰語學習網路社群中,其實有不少人將泰語的聲調的規則進行整理,也有人以自己的學習經驗呼籲大家不要被亂無章法的泰語聲調嚇到,可以從幾個大原則開始學習。但是,直接從英語進行泰語學習時,可能會遇到一些術語無法理解。如果可以將這些術語的概念釐清的話,我們在學習泰語聲調的規則時就更輕鬆了。

對於華語母語者而言,聲調本來就不是什麼特別困難的事情,幾百、幾千個漢字的聲調我們都可以一一克服了。既然泰語聲母、韻母和調號都是可以數清的,在有限的組合裡發出5個聲調應該也不太困難才是。

為了讓華語母語者更容易掌握泰語聲調的規則,我將Ruedi Seiler的表格重製,並進行以下修改:一、將聲調以華語母語者所熟悉的符號重現。有一些英語社群所使用的聲調記號,利用國際音標(IPA)對泰語的5個聲調進行標注,但是對於華語母語者而言,我們也有視覺幫助我們學習四聲的輔助。然而,以華語母語者的習慣去讀以IPA所標注的泰語聲調時,對認知其實是一個負擔。因此,我將參考張君松老師《大家來學泰語》的拉丁調號作為輔助。中平調、低平調、下降調、高平調和上升調,分別以「-」、「ˇ」、「ˋ」、「~」和「ˊ」作為視覺輔助。二、在不影響泰語學習的條件下,將英語的術語,以華語概念相同或相似的詞語替換。在英語社群中,使用了許多語言學的術語,例如:「live syllable」vs. 「dead syllable」、「unchecked tone」vs. 「checked tone」等。華語並不是沒有類似的詞彙,例如「開音節」和「閉音節」、「清尾音」和「濁尾音」或者「入聲」。比較這些術語,並不會幫助我們學習泰語的聲調,我們只是需要這樣的概念去幫助我們快速判斷這些音節的聲調罷了。為了擁有這樣的概念,我會在表格內使用「入聲」這個術語。「入聲」在這個表格裡指的就是整個音節是短韻母或結尾有/p/、/t/、/k/的;其餘就是「非入聲」。

配合表格和口訣,應該可以快速記下泰語聲調的規則。

中、高、低,哪一個?(先把中、高、低子音的聲調,分別熟悉,就像我們熟悉華語的四聲一樣)

入聲音節急而短。(中、高子音的入聲音節,泰語裡只有兩個調號)

短韻母下降要注意。(低子音的入聲中,長韻母沒有調號,短韻母有像「點」的調號,其餘都是高平調)

基本上,一個表格就可以涵蓋所有規則了。如果你想看看起來「比較高級」的表格,就看英語的吧。

孫文學校的「孫文要聽論壇系列」:中華民國還是中華民國嗎?(民國106年1月12日,晚上七點,中國國民黨中央黨部一樓中山廳)

 「課綱」是用來取代「課本」的,用意是幫學生從「課本」的知識獨裁中解放出來的重要手段。「課綱」和「課本」有很不一樣的教育邏輯與教育目的,楊照如是說

但是,習慣「課本」而不理解「課綱」的台灣社會,用「課本」的概念去理解「課綱」,就變成楊照所形容的現況

找來討論「課綱」、訂「課綱」的各科「專家」就搞不懂「課綱」的精神。接著又有課本出版商人為了利益忽視「課綱」精深的做法,編出了根本除「課綱」內容外別無其他內容的貧乏課本。最根本的,家長滿腦子想的都是考試,而不是多元知識與教育,於是江河日下,「課綱」、「一綱多本」、「基測」通通變質。

因為把「課綱」當成「課本」,所以台灣社會對於「課綱微調」就當成是像「換課本」一樣,覺得茲事體大。同一個課綱在不同的出版商人的理解下,會產生不同的課本,所以造就了我們這樣多元的社會。換句話說,課綱的微調並不會使出版商人失去了對於課本內容的主體性。國民義務教育的內容有了課綱,就可以保障國民的基本能力;將以課綱取代課本就讓學生、教師、家長和出版商人有對於學習內容的主導權。

但是我們都在沒有理解課本和課綱的差別下,就去評論、歸因或解釋當下教育的現象,這樣就會有老一代覺得國立編譯本單一版本最簡化、最單純、最有道德;年輕一代的一綱多本最多元、最有創造力,同時又不知道怎麼考試的感覺。老一代和年輕一代明明共存於台灣社會,卻好像活在平行宇宙的感覺。

孫文學校舉辦了系列論壇,1月12日會有人分享和微調課綱的議題,同大家分享。

題目:中華民國還是中華民國嗎?
講者:段心儀老師
與談:黃光國 台灣大學教授
地點:中國國民黨中央黨部一樓中山廳(八德路2段232號)
電話:02-21731236

使用R將預測變數的交互作用以圖形視覺化

當我們想要知道兩個變數之間是否存在交互作用時,可以使用下面函數產生視覺化的圖形加以輔助:

interaction.plot(pred1, pred2, resp)

pred1和pred2為要進行檢查的兩個變數,而resp則是反應變數。示例如下:

interaction.plot(averagebyid$context, averagebyid$order, averagebyid$meanbyid)

從每個人的平均得分來看,在接觸1次的時候,高語境限制性和低語境限制性的得分並沒有太大的差異。

interaction.plot(averagebyword$context, averagebyword$order, averagebyword$meanbyword)

從每個字的平均得分來看,接觸1次、2次和3次新詞的在語境限制性的差異不大。

interaction.plot(averagebyid$order, averagebyid$context, averagebyid$meanbyid)

從每個人平均得分來看,接觸1次時,高語境限制性和低語境限制性的得分並沒有太大的差異。

interaction.plot(averagebyword$order, averagebyword$context, averagebyword$meanbyword)

從每個字平均得分來看,接觸1次時,高語境限制性和低語境限制性的得分並沒有太大的差異。

但是這些圖形只是暗示我們進一步檢定的話,可能存在交互作用。我們後續仍需要進刪統計檢定才可以驗證其顯著性。

在R進行有兩個隨機因子以上的混合線性模式


當我們只有一個隨機因子的時候,我們可以下面公式表示固定效果和隨機效果(以下公式皆使用lme4套件的lmer函數):

correct ~ context + order + (context + order | id)
correct ~ context + order + (1 +context + order | id)

上面兩種寫法,傳達相同的意思。兩種寫法中,前半的「context + order」為主要效果;後半的「(context + order | id)」和「(1 +context + order | id)」包含「|」的則是隨機效果。在「|」右邊的是隨機因子(id),而「|」左邊的則是受到隨機因子的影響,為了固定因子所產生、計算的截矩和斜率。

當我們有兩個隨機因子時,我們則必需先考慮這個因子的關係是交叉或套疊,才能撰寫相對應的公式。

當兩個因子彼此是套疊的時候,例如班級因子(class)套疊於學校因子(school),我們將兩者的交互作用另立一個欄位(school_class)去計算,如此我們可以有以下公式,下面兩個公式也是同義的公式:

correct ~ context + order + (1 | school/class)
correct ~ context + order + (1 | school) + (1 | school_class)

倘若兩個因子彼此是交叉的,例如不同受試者(id)和不同的新詞(word),那我們的公式會撰寫如下:

correct ~ context + order + (1 | id) +(1 | word)
correct ~ context + order + (1 | word) +(1 | id)

以上兩個寫法也是同義的,隨機因子在公式的順序在lme4套件中不受影響,但若使用nlme套件則有額外需要留心的地方,詳情可見此連結

Magezi, David A. 2015. Linear mixed-effects models for within-participant psychology experiments: an introductory tutorial and free, graphical user interface (LMMgui). Frontiers in Psychology 6. doi:10.3389/fpsyg.2015.00002. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4302710/.

交叉因子(crossed factor)和套疊因子(nested factor)的差別


當我們只有一個因子的時候,我們不需要去擔心因子間交叉(crossing)或套疊(nesting)的區別。但當我們有兩個以上的因子時,分辨因子間的關係就非常重要,因為這會影響我們對於資料的分析。

當兩個因子交叉的時候,不論是在A因子中的每一個類別,都可以在B因子中每一個類別同時出現。換句話說,每一種來自兩個因子可能的組合都會出現於我們的觀察值中。

倘若一個因子套疊於(nested within)另一個因子之中,若其出現在第一個因子中,則不會出現在其它因子中。同理,觀察值若出現在第二個因子中,則我們知道會有另一個觀察值出現在第一個因子中。所有的組合不會同時出現。

當兩個因子交叉時,就可以計算交互作用;如果彼此套疊,則會因為沒有同時出現的組合,而無法進行如此動作。

將兩個因子以列聯表(cross tabulation)呈現時,就可以知道彼此的關係是交叉或套疊了。

參考文章

在R進行重覆量數(repeated-measur)ANOVA

我們想知道「語境限制性」(context)和「接觸新詞的次數」(order)是否會影響學習者對於新詞的理解(meanbyid)。我們在R使用以下語法:

rmanovaid2<- aov(meanbyid ~  context * order + Error(id/ (context * order)), data = averagebyid)

裡頭的公式「meanbyid ~  context * order + Error(id/ (context * order)」可以分為兩個部分去理解。前半部分「meanbyid ~  context * order」,指的是學習者對於新詞的理解會受到語境限制性和接觸新詞的次數的影響。「*」是「context + order + context:order」的簡化,指的是考慮了語境限制性和接觸次數的主效應(main effect)和語境限制及接觸次數的交互作用(interaction)。後半部分的「Error(id/ (context * order)」,則是我們在可以進行適當的統計檢定不可或缺的要素。

「Error(id/ (context * order)」使得殘差平方和(Residual sum of squares, RSS)的來源,可以分成幾個可預知的部分(error strata)。它是「Error(id + id:context + id:order + id:context:order)」的簡化,指的是我們要將可預知的殘差分為來自「個人因素」、「個人和語境限制性的交互作用」、「個人和接觸次數的交互作用」以及「個人、語境限制性和接觸次數的交互作用」。

summary(rmanovaid2)

將我們一開始使用的語法進行摘要之後,我們得到以下結果:

對於語境限制性的檢定,是基於「個人和語境限制性的交互作用」,顯示在「Error:  id:context」;而對於接觸次數的檢定,則基於「個人和接觸次數的交互作用」,顯示在「Error:  id:order」;最後一層,則是對於語境限制性和接觸次數交互作用的檢定,其是基於「個人、語境限制性和接觸次數的交互作用」的誤差,顯示於「Error:  id:context:order」。

這個分析過程中,我們有隨機的個人效應(id),透過實驗操弄、固定的效應則有語境限制性(context)和接觸次數(order)。在重覆測量的設計下,受試者內的因子(within-subject factor),可以視為是固定效果(fixed effect),而隨機效果(random effect)則是來自受試者。Hays(1988)認為,合適的F統計量如下:

F(context in id) = MS(context) / MS(context : id) = 8.234
F(order in id) = MS(order) / MS(order : id) = 0.19

即便沒有深入統計學理的細節,我們是可以理解隨機效果和固定效果的差別。以語境限制性(context)這個固定效果為例,我們只比較了理解新詞詞義在高語境限制性和低語境限制性的差別。我們無法將這樣的效果一併適用於其它語境限制性,例如中等語境限制。我們可以說,語境限制性被固定在高語境限制性和低語境限制性兩個條件。在這兩個條件下對於新詞的理解,即便存在差異,也只限於這兩個條件,無法適用於其它條件。

當語境限制性(context)和接觸次數(order)都被視為固定效果時,對於其個別的主要效應進行檢定時,則是分別基於「個人和語境限制性的交互作用」和「個人和接觸次數的交互作用」。「Error()」就是實現我們進行如此檢定的語法。在我們的研究中,唯一個隨機效果就是個人效應(id)。30個受試者是來自眾多潛在的第二語言學習者中的隨機樣本。倘若我們的推論僅限於這30個人身上,那這對於研究的發現將有很大的侷限。如果沒有使用「Error(id/ (context * order)」語法,我們將會得到錯誤的統計量。語境限制性和接觸次數都將在未經分離處理的「殘差」進行檢定,這樣子的檢定是將所有殘差通通集合在一起。

還有一個「Error(id/ (context * order)」語法中值得注意的是「/」。「/」是讓aov()知道,context和order是巢嵌於每個受試者之內。也就是說,每個因為語境限制性和接觸次數的反應(對於新詞的理解),都必須在受試者內考量。

參考資料