Category: 心理學的理論與應用

不同的詞語知識測驗間,是否可以互相參照?

雖然都是測量詞語的知識,但是不同測驗間還是會些許的差別,Paul,Stallman and Rourke (1990) 比較二語學習者的選擇題、面試以及自評是否知道這個詞(Yes/No)三種測驗,發現三者的相關係數介於.66到.81之間。但是Nist and Olejnik (1995) 的研究,對於母語者在同樣的詞彙下進行造句、完成句子、意義與範例的四種測驗,則發現彼此的相關通通低於.7。Laufer and Goldstein (2004) 也在他們研究中的四種測驗發現測驗間的相關不高。 References Laufer, B. & Goldstein, Z. (2004). Testing vocabulary knowledge: Size, strength, and computer adaptiveness. Language learning, 54(3), 399-436. Nagy, W. E., Herman, P. A. & Anderson, R. C. (1985). Learning words from context. Reading research quarterly, , 233-253. Nation, I. (2013). […]

測量二語學習者的詞語知識時,我們是想知道什麼?

測量人們的詞語知識時,我們會關心兩個事情:一、某個特定的字是否為學習者所熟悉;二、對於詞語背後系統性的規律是否有意識(Nation, 2013) 。舉例來說,要求學習者去拼出agree、balloon和practice的時候,我們可能關心學習者是否能拼出這三個詞語;但是我們也可能測試學習者swimming、occurrence或spinner,這時候可能想知道的是學習者是否知道兩個子音可以接連出現的規律。若要知道隱藏在詞語背後的規律,則必須對於材料有很好的控制。對於詞語背後的規律的測驗是非常缺乏的。 References Laufer, B. & Goldstein, Z. (2004). Testing vocabulary knowledge: Size, strength, and computer adaptiveness. Language learning, 54(3), 399-436. Nagy, W. E., Herman, P. A. & Anderson, R. C. (1985). Learning words from context. Reading research quarterly, , 233-253. Nation, I. (2013). Testing vocabulary knowledge and use. In (), Learning Vocabulary in […]

將內容和語言整合學習(CLIL)實踐於華語短期班

CLIL(content and language integrated learning,內容和語言整合學習)是一平衡內容和語言兩個方面的教育取徑,透過標的語作為媒介,使內容和語言可以同時被學習。馬來西亞的教育中,使用英語學習數學和科學就是這樣子取徑的例子。 躬逢其盛,在台灣推行「新南向政策」的時候,我參加了由台灣的學校在泰國辦理的華語短期班。這個華語短期班歷時五天,由來自台灣的老師對泰國學習華語作為第二語言的學生進行授課。授課內容包括:台灣的經濟與政治、台灣的文化與社會、台灣的佛教發展、華語作為第二語言以及台灣美食烹飪。台灣美食烹飪和台灣的經濟與政治兩項課程的老師,在台灣就是相對應專業的老師,在CLIL裡頭,就是學科的老師(內容)。而其餘課程,包括台灣的文化與社會、台灣的佛教發展、華語作為第二語言則是由語言老師負責(語言)。 台灣的文化與社會課程中,負責的老師邀請精通華語和泰語的泰國人協助課程的進行,以確保學生可以獲取相對應的內容。 我負責其餘課程,剛接觸CLIL的我,正好有個能夠提槍上陣的機會,我怎麼能放棄這個大好機會。CLIL之所以不被人們所使用,可能和它的要求較苛有關,教師必須同時熟悉「語言」和「內容」兩個部分才行。對於我,作為一個語言教師而言,我可能是兩個都不熟悉。我不喜歡高高在上,好為人師的樣子,所以我不喜歡當一個語言老師(我可能不熟悉「語言」)。雖然我是一個佛教徒,但是我不一定了解台灣佛教的發展(我也可能不熟悉「內容」)。然而,我是華語文教學系的博士生,華語作為第二語言就是我應該熟悉的內容,如果這都不熟悉那就不要畢業了(這個「內容」我可能熟悉)! 其它的老師還有不少同學認為我講話太快了,有些內容即便是母語者也需要花力氣才能理解。最後一堂課結束後,在回辦公室的路上,正巧遇到一個參加課程的同學,我問她:「剛剛上課可以嗎?」,她也如同其它人的回答說:「老師講話很快。」,但她又接著說:「可是我知道老師的意思。」這不讓人覺得很興奮嗎?不過,我想這可能只限於參加華語作為第二語言那門課的學生,因為那堂課的同學參與討論也比較積極(也有可能是那堂課的同學第一次參加我的課,有一點兒新鮮感)。參加台灣佛教的發展那堂課的同學,我還真不知道他們的反應是怎麼樣,原因眾多:一、這群同學就是我每週固定會碰面六個小時的同學;二、台灣佛教的發展不是我熟悉的內容,所以我就會更緊張,語速就會更快(內容);三、沒有安排任何討論的環節,老師們列席,同學們聽我講,我也耍不了寶。我們可以想像,如果單獨由語言老師來負責學科內容,要撐起CLIL的取徑應該是很不容易的。至於學科老師,對於這樣子的學習有什麼評價,目前尚沒有機會得知。 將「語言」和「內容」放在一起學習,肯定要花更多的時間;不過,也因為「語言」和「內容」是放在一起學習,老師應該兩邊都照顧到,如果只有「語言」而沒有「內容」,那語言就變成考試的學科;如果只有「內容」沒有「語言」,學生可能完全無法理解內容,只是老師自說自話。因此,我們也不必要求所有學生對於「語言」和「內容」的學習是一致的,有些人學到語言多一些,有些人學到內容多一些,這不是老師單方面能夠決定的。

我們說學會一個詞,是能夠聽/看得懂一個詞?或者還包括會說/寫一個詞?這兩者有什麼關係?(Nation, 2013)

當我們說一個二語學習者「學會一個詞語」時,它可能指的是很多可能。這取決於我們認為「詞語知識」的構念為何!一個簡單地分類是依據語言傳遞的方向分為可以接受、理解的被動性詞彙(passive vocabulary)知識,以及能夠產出「主動性詞彙」(active vocabulary)。Laufer (1998)比較三種詞彙知識:被動性詞彙(passive)、控制下的主動性詞彙(controlled active)以及自由的主動性詞彙(free active),三種知識分別以不同的測驗形式進行。在16歲大的學習者身上發現,被動性詞彙都是會多於主動性詞彙,而且隨著年紀越大,被動性和主動性詞彙的差距會越來越大。 Laufer and Paribakht (1998)另一個研究,使用了同樣的三個測驗,比較了英語作為二語和英語作為外語的學習者的情況,發現被動性詞彙和主動性詞彙是存在相關的(二語:0.72;外語:0.89)。 Waring (1997)則比較了被動性詞彙和控制下的主動性詞彙在有較高詞彙量和較少詞彙量學習者身上的情況。他發現隨著在被動性詞彙總是大於主動性詞彙,而且隨著被動性詞彙的增加,它會和主動性詞彙的差距會越來越大。從被動性詞彙和主動性相對的比值來看,詞彙量多的學習者和詞彙量少的學習者並沒有差別。 Laufer (1998)發現英語作為二語和外語的兩群學習者在詞彙的發展上有不一樣的軌跡。對於英語作為外語的學習者而言,他們的被動性和主動性詞彙比較接近,Laufer (1998)認為可能和對於專注於語言形式(language-focused)的教學有關。 References Laufer, B. (1998). The development of passive and active vocabulary in a second language: same or different?. Applied linguistics, 19(2), 255-271. Laufer, B. & Paribakht, T. S. (1998). The relationship between passive and active vocabularies: Effects of languagelearning context. […]

我們可不可以直接將第二語言習得的研究成果應用在華語教學上?

 1980年代末期,測量第二語言學習者的語言表現(口語和書面的產出)有了三個方面:複雜度、準確度以及流暢度(complexity, accuracy, and fluency, CAF)(Skehan, 2009)。複雜度指的是從屬子句的數量,如果計算T- Unit(minimum terminable unit,最小可斷單位)的話,數量越多,則複雜度越高。準確度則指的是正確使用語言、沒有錯誤的比例。流暢度則是在實際使用語言的時候,不會有任何不必要的猶豫、停頓,它同樣可以由T- Unit或子句的長度來呈現(Skehan, 2009)。這個雖然說是第二語言語言表現的測量,但對於華語作為第二語言來說,可能不能完全套用。Yuan (2009) 認為在測量華語學習者口語產出的時候,在準備度和流暢度可以參考既有的研究,但是複雜度上稍稍需要調整。她認為除了看從屬子句的數量外,還應該加上詞彙的複雜度:測量學習者華語的複雜度應該看其在字(tokens)的數量、類別(types)、HSK1級的詞語比例、HSK2級的詞語比例以及專有名詞(地點名稱或專指名稱等)。 目前,以華語為主的第二語言習得研究仍以認知取向為大宗(Ke, 2012) ,倘若要使第二語言習得理論對於華語教學有所啟發的話,可能還是從社會文化取向著手(Zhang, 2016) 。 References Ke, C. (2012). Research in second language acquisition of Chinese: Where we are, where we are going. Journal of the Chinese Language Teachers Association, 47(3), 43-113. Skehan, P. (2009). Modelling second language performance: Integrating complexity, accuracy, […]

語言測驗的類型、目的和作法(Nation, 2013)

語言測驗在詞彙的學習上有幾種類型,其相對應的目的也有所差異: 一、診斷測驗(diagnostic tests):用來找出學習者學習上的困難,並從這裡去加強。學習者怎麼的詞彙學習策略也可以歸類於診斷測驗。二、分班測驗(placement tests):將學習者分到適合程度的班級。三、短期成就測驗(short-term achievement tests):去看學習者是否能夠將所研究的詞彙學習到。四、長期成就測驗(long-term achievement tests):評估整個課程在教學某些詞彙的時候是否成功、有效。五、能力測驗(proficiency tests):去看學習者會多少詞彙。 若要知道學習者在詞彙學習的策略(例如:從脈絡裡猜字(guessing from context)、使用詞語的部件(using word parts)、直接學習(direct learning)或使用詞典(dictionary use))應用是否存在困難時,可以使用經過設計的診斷測驗。學習詞語策略上的應用,Sasao (2013) 提供了測驗的方法。 直接詢問學習者是否學習過目標詞語則可以用於分班測驗。 短期成就測驗,語言教師有個簡易、可操作的流程:假設我們有20個目標語詞要測驗,可以先由學生自單元內挑選10個詞語,接著老師可以在這10個詞語旁邊標記:如果標記「S」,則學生必須用這個詞語造個句子;如果標記「C」,則學生要寫出這個詞語的三種搭配,即共現詞;如果標記「M」,則學生要解釋這個詞語的意思;如果標記「F」,則學習者要和這個詞彙在同一個家族的詞彙。然後,老師再另外選擇10個詞語進行測驗。這樣的測驗即個性化也有由老師所提供的詞語。 而長期成就測驗,必須符合課程目標,如果課程目標是廣展閱讀詞彙,則在句子脈絡下的理解測驗就比較適合。當然,來自各個單元的詞語是平均的。 學習者的詞彙量也有不少方法可以進行測量,通常是在既有的已分級的詞語表抽樣進行測驗以推估學習者的詞彙量。但是在測量學習者的詞彙量之前,我們有幾個問題必須回答: 一、「詞語」怎麼計算?怎麼樣我們會說這是「一個詞語」?二、我們如何選擇目標詞語去測驗?三、我們如何測量學習者是否「知道」/「學會」一個詞語?   References Nation, I. (2013). Testing vocabulary knowledge and use. In (), Learning Vocabulary in Another Language. Cambridge University Press. Sasao, Y. (2013). Diagnostic tests of English vocabulary learning proficiency: Guessing from […]

學習第二語言詞彙的時候,詞語表是否真的毫無用處?(Folse, 2004)

Laufer and Shmueli (1997)比較四種呈現詞語的方式:一、只有詞語;二、詞語加上簡短的脈絡;三、把詞語放在句子脈絡;四、把詞語放在文章裡頭。猶太語母語者學習英語為外語的學生在這四種方式下學習詞語,測驗其學習後能夠記得多少語詞,結果發現前兩種的得分高於後兩種。Prince (1996) 則比較高和低程度的學習者面對兩種呈現詞語方式(詞語對照一語的翻譯和詞語放在句子脈絡中)的學習成效,結果發現對於程度較低的學習者以有二語詞語搭配一語翻譯的詞語表學習,效果較佳。 這不是說我們應該要求學習者依詞語表去學習詞彙,我想說的是對於某些學習者而言,詞語表能夠提供的幫助可能大於其它方式。 References Folse, K. S. (2004). Myths about teaching and learning second language vocabulary: What recent research says. TESL reporter, 37(2), 1-13. Laufer, B. & Shmueli, K. (1997). Memorizing new words: Does teaching have anything to do with it?. RELC journal, 28(1), 89-108. Prince, P. (1996). Second Language Vocabulary […]

學習第二語言的時候,詞彙是不是沒有語法或其它領域那麼重要?(Folse, 2004)

第二語言學習者需要詞彙,而且都將詞彙的習得視為是絕大的挑戰(Meara, 1980)。第二語言詞彙的知識和第二語言閱讀能力(Haynes, 1993; James, 1996)與寫作能力(Laufer, 1998) 有很顯而易見的關係,聽力和口語任務也是如此(Newton, 1995) 。要求學習者進行表達的時候,常常可以聽到學習者用不完美語法說出句子,語法是老師在課堂上會強調的部分。然而,學習者在沒有足夠的詞彙時,表達也就同時受到限制。完全沒有語法仍可以進行溝通,但是缺少詞彙就是會卡住。 我曾經作為交換學生在泰國的法政大學讀書5個月,儘管泰語作為第二語言,對於學術使用的語言肯定比不上華語和英語,但是買東西、日常生活的溝通肯定是沒有問題。一天,腳踏車的鎖頭因為下雨淋溼而生鏽,我得去買一個新的鎖頭。我要的是鎖腳踏車的鎖,我到五金行去,我先向老闆要โซ่(鎖鍊),我必須把老闆帶到我的腳踏車前以肢體動作示意,老闆才拿出了腳踏車專用的鎖。除了โซ่(鎖鍊)之外,我也會說กุญแจ(鎖頭)。但是,會說กุญแจ並不保證我知道它的意思,ลูกกุญแจ(鑰匙)和กุญแจ(鎖頭)就是一個子和母的關係。我把กุญแจ當成鑰匙,於是我無法順利地完成溝通的任務。即使我有完美的語法,我缺少相對應的詞彙知識,就會中斷流暢地交談。 References Folse, K. S. (2004). Myths about teaching and learning second language vocabulary: What recent research says. TESL reporter, 37(2), 1-13. Haynes, M. (1993). Patterns and perils of guessing in second language reading. In (), Second Language Reading and Vocabulary Learning (Vol. 83). Ablex. James, […]

試題反應理論(Item Response Theory)中,需要看配適度(Fit)嗎?

從每個人在每個項目的實際得分(observed score)和該人該項目的預期得分(expected score)的差,除以變異數,可以得到這個資料點對模型的標準化的殘差(standardised residual),把所有這些標準化的殘差平方後再求平均,就是未權重配適度均方(unweighted fit mean-squar);若根據該資料點的變異數進行權重,則叫作權重配適度均方(weighted fit mean-square)。前者也叫outfit,因為它對極端值(outlier)相當敏感,如果高能力的人答錯簡單的題或低能力的人答對較難的題,則整個均方就會變大,資料和模型的配適就不好;後者又叫infit,因為其根據每個資料所能提供的資訊(information fit)進行權重,極端值的變異較小(例如:0.9*0.1或0.1*0.9,但中間的資訊較多(0.5*0.5)。我們可以使用R裡頭的TAM套件的msq.itemfit,去取得模型中每個項目的outfit和infit。把outfit的值畫出來的話,會如下圖: 在有800個來自常態分佈的樣本下裡的20個項目中,越接近1的項目,配適地越好,反之則越差。 隨著樣本數的增加或減少,在模擬的情況下,可以操控fit和1的距離。下面為樣本數為80和8000的情況。 如果看配適度t值的話,就沒有上面的問題。但是,在真實資料的情況下,又會遇到另一個問題,當樣本數越大,則越容易發現配適地不好的項目,越容易發現資料和模型之間存在差異。 我們可以這麼去理解配適度,它是一個項目和其餘項目總和的關係。從這個角度去理解配適度的話,其實「信度」或「鑑別度」已經提供我們足夠的資訊去決定一個項目的優劣了。如果我們以「配適度」去決定是否要採用某個項目,那反而會將具有鑑別度的項目剔除。當outfit離1很遠的時候,有兩種情況:一個是正方向的離1很遠,一個是負方向的離1很遠。正方向的離1很遠具有好的鑑別度,但我們可能因為判斷它的配適度不佳而刪除。倘若要從配適度去剔除不好的題目,就從outfit值最小的開始吧!

在項目反應理論(Item Response Theory)下,怎麼理解「難度」這個概念?三種取徑。

在項目反應理論(Item Response Theory)中,要描述一個項目的「難度」和古典測驗理論(classical test theory)有不一樣的方法。在古典測驗中,一個項目的「難度」被認為是參與答題者人中答對該項目的比率,越多人答對,難度越低。在項目反應理論中,我們可以從三個取逕來理解項目的難度。項目反應理論中的描述「難度」需要有兩個維度來定義,「樣本能力」和「答對機率」。在只有受試者只有1/0二元結果(答對或答錯)的情況下,以下圖為例,假設受試者的能力是0,則答對該項目的機率則為50%,則項目難度delta則為0。 同樣delta的概念,若在受試者的得分被評為三個等級,例如:0、1、2的時候,以下圖為例,黑色線(得0分的機率)和紅色線(得1分的機率)相交的地方,比50%小一點點的答對率;以及,紅色線(得1分的機率)和綠色線(得2分的機率)相交的地方,同樣比50%小一點點的答對率。前者往下延伸至x軸為delta1(難度為-0.5),後者往下延伸至x軸為delta2(難度為0.5)。delta1和delta2兩個節點,可以把人分成得0分、得1分和得2分機率最高的範圍。 如果把答對的機率累積起來,以下圖為例,則從50%答對率水平延伸至與黑線(得1分或2分的累積機率)和綠線(得2分的累積機率)相交(紅線為得1分、2分和3分的累積機率)後再往x軸延伸取得gamma1(難度為-0.5)和gamma2(難度為0.5)。gamma1和gamma2兩個節點,同樣可以把人分成得0分、得1分和得2分機率最高的範圍。 又或者利用預期得分,從受試者的能力去推估期可能的得分(0到2之間),當能力相同的時候,預期得分越高的項目,難度則越低;反之,難度則越高。或者,難度高的題目,給能力好和能力不好的兩個受試者去測試,能力好的受試者預期得分會高於能力不好的受試者。參考下圖: