揭示語言測試對齊CEFR的挑戰：評審標準與有效性探索

這篇研究主要圍繞在如何將語言測試對齊歐洲語言共同參考架構（CEFR）。CEFR是一個用來描述語言學習者語言能力的工具，它將語言能力分為六個等級，從A1到C2，涵蓋了從初學者到母語者的不同能力水平。

研究背景

研究指出，雖然很多主要的語言測試都聲稱與CEFR對齊，但實際上這個對齊過程存在很多挑戰。對齊測試與CEFR需要依賴人類的判斷，而這些判斷往往會受到偏見和認知捷徑的影響，這會影響對齊的有效性。

為了探討這些挑戰，研究者使用了一種叫做「項目-描述符匹配方法」的技術，邀請了十位有語言教學和測試背景的評審來參與。他們需要判斷聽力測試項目對應的CEFR描述符，並為每個項目分配一個CEFR等級。研究的目的是了解評審在做出這些判斷時使用了哪些標準，以及這些標準如何影響最終的對齊結果。

研究發現，評審對CEFR等級的判斷存在很大的差異，他們依賴於不同的標準和描述符來做出判斷，這導致對齊的結果不一致，進而影響測試分數的解釋和使用的有效性。因此，研究強調在對齊過程中需要仔細考慮CEFR描述符的具體含義，以確保對齊的有效性。

簡單來說，這篇研究探討了在語言測試對齊CEFR過程中的挑戰和問題，並提供了對這一過程的深入理解，旨在提高測試對齊的準確性和有效性。

研究方法

這項研究採用了混合方法，包含定量數據和質性數據，以全面分析評審在對齊測試項目到CEFR等級時所使用的標準和策略。具體方法如下：

項目-描述符匹配方法：
- 評審團隊：邀請了十位具有語言教學和測試背景的評審，其中包括研究者、現職教師和博士生。
- 材料準備：準備了六個聽力測試任務，共81個測試項目，以及五個CEFR聽力描述符量表。
- 步驟：
  1. 評審聽取測試音頻並回答問題，記錄挑戰和困難。
  2. 分析每個測試項目的要求，並選擇最符合的CEFR描述符。
  3. 根據分析結果，給每個測試項目分配一個總體CEFR等級。
  4. 比較評審之間的判斷，找出一致性和差異。
  5. 通過後續訪談，了解評審對對齊過程的看法和使用的策略。
數據分析：
- 定量數據：包括項目的難度評分、CEFR等級判斷以及使用的描述符。
- 質性數據：通過半結構化訪談收集，內容分析評審在對齊過程中的挑戰、標準使用和對方法的評價。

研究發現

標準和描述符使用的差異：
- 評審在選擇和使用CEFR描述符上存在很大差異，顯示出對描述符的理解和應用不一致。
- 不同評審依賴不同的標準來判斷項目對應的CEFR等級，有些評審更多依賴於項目難度特徵，而有些則依賴於個人經驗和直覺。
一致性和有效性問題：
- 評審之間對同一測試項目的CEFR等級判斷存在顯著差異，這導致對齊結果的一致性不高。
- 研究表明，如果對齊過程中不考慮CEFR描述符的具體含義，會導致對齊有效性問題，進而影響測試分數的解釋和使用。
對方法的評價：
- 評審認為項目-描述符匹配方法在理論上是合適的，但在實踐中，由於CEFR描述符的不明確和不足，對齊過程仍然充滿挑戰。
- 評審表示需要更多的培訓和標準化程序，以提高對齊過程的準確性和可靠性。

總結

這項研究揭示了在將語言測試對齊到CEFR時存在的挑戰，特別是在標準和描述符使用上的差異，以及由此導致的一致性和有效性問題。研究建議需要更明確的指導和培訓，以提高對齊過程的準確性，確保測試結果的有效性。

Harsch, C., & Hartig, J. (2015). What Are We Aligning Tests to When We Report Test Alignment to the CEFR?. Language Assessment Quarterly, 12(4), 333-362. https://doi.org/10.1080/15434303.2015.1092545

揭示語言測試對齊CEFR的挑戰：評審標準與有效性探索

研究背景

研究方法

研究發現

總結

Related

Leave a Reply Cancel reply