brown and orange house with outdoor plants

政治大學華語口語語料庫:搶救台灣語言遺產

政治大學發起的一個稱為“政大華語口語語料庫”的項目,該項目旨在收集並保存普通話、客家話和閩南話的口語數據,以供非營利研究之用。文章提到在台灣,大多數人講普通話、閩南話或客家話,這三種漢語方言不僅正在經歷語言變遷,而且講閩南話和客家話的人口也在減少。語料庫主要收集自然面對面的對話數據,並以簡單且易於使用的方式設計,使得數據可以有效地在數據庫中處理,並允許用戶直接從網絡上瀏覽語料數據。此外,文章還討論了其他中文及非中文的口語語料庫,並強調了建立口語語料庫對於語言研究的重要性,特別是對於瀕危語言的記錄和保存。

政大華語口語語料庫的數據收集主要通過以下幾個步驟進行:

  1. 音視頻錄製:與會者在錄音前需簽署同意書。對話參與者可以自由展開話題,他們會被錄製約一小時。
  2. 片段選擇:從每次對話中選取一部分,大約二十分鐘的對話,這部分是參與者在鏡頭前感覺較為自在的部分。
  3. 標註與正字法轉寫:對於每個片段,會標註講者身份、輪換、重疊、暫停、代碼轉換等。演講聲音會轉寫成中文字符。口語數據會被分割成不同的輪次。
  4. 音韻轉寫:普通話、客家話和閩南話的音韻轉寫分別遵循拼音系統、台灣客家語通用拼音系統和台灣閩南語羅馬字拼音系統,盡可能地反映講話者的實際發音。
  5. 英文逐詞解釋和翻譯:每個輪次的詞語都提供英文對照或語法縮寫,並且每個輪次都提供英文翻譯。
  6. 音頻剪輯:每個輪次的原始錄音被切割並以MP3格式保存。

透過這個過程,語料庫旨在收集自然產生的語言數據,以進行量化語言學研究,並保存語言的當前使用狀況。

整個政大華語口語語料庫包括三個子語料庫,分別是普通話、客家話和閩南話。從文件中提供的資訊可以看出:

  • 普通話子語料庫包含至少30段日常面對面對話的錄音,以及短篇口述故事的錄音。
  • 客家話子語料庫包括了來自電視談話節目和面對面對話的錄音,目前已收集10段錄音。
  • 閩南話子語料庫的具體規模未在文檔中詳細提及。

每段錄音大約20分鐘左右,數據主要是自然產生的面對面對話。這些錄音還伴隨著詳細的標註和轉寫,包括音韻轉寫和英文翻譯。根據文檔,儘管語料庫的數據量不是非常大,但這些口語數據足以進行初步觀察或試驗性研究。

Chui, K., & Lai, H.-L. (2008). The NCCU Corpus of Spoken Chinese: Mandarin, Hakka, and Southern Min. Taiwan Journal of Linguistics, 6(2), 119-144.

Leave a Reply

Your email address will not be published. Required fields are marked *