政治大學發起的一個稱為“政大華語口語語料庫”的項目,該項目旨在收集並保存普通話、客家話和閩南話的口語數據,以供非營利研究之用。文章提到在台灣,大多數人講普通話、閩南話或客家話,這三種漢語方言不僅正在經歷語言變遷,而且講閩南話和客家話的人口也在減少。語料庫主要收集自然面對面的對話數據,並以簡單且易於使用的方式設計,使得數據可以有效地在數據庫中處理,並允許用戶直接從網絡上瀏覽語料數據。此外,文章還討論了其他中文及非中文的口語語料庫,並強調了建立口語語料庫對於語言研究的重要性,特別是對於瀕危語言的記錄和保存。 政大華語口語語料庫的數據收集主要通過以下幾個步驟進行: 透過這個過程,語料庫旨在收集自然產生的語言數據,以進行量化語言學研究,並保存語言的當前使用狀況。 整個政大華語口語語料庫包括三個子語料庫,分別是普通話、客家話和閩南話。從文件中提供的資訊可以看出: 每段錄音大約20分鐘左右,數據主要是自然產生的面對面對話。這些錄音還伴隨著詳細的標註和轉寫,包括音韻轉寫和英文翻譯。根據文檔,儘管語料庫的數據量不是非常大,但這些口語數據足以進行初步觀察或試驗性研究。 Chui, K., & Lai, H.-L. (2008). The NCCU Corpus of Spoken Chinese: Mandarin, Hakka, and Southern Min. Taiwan Journal of Linguistics, 6(2), 119-144.
政治大學華語口語語料庫:搶救台灣語言遺產
- Post author By Dicky
- Post date
- Categories In 語料庫
- No Comments on 政治大學華語口語語料庫:搶救台灣語言遺產