Category: 語料庫

如何利用 CO-STAR 框架優化大型語言模型的應答:以編寫華語教材和學習者詞典詞條為例

去年 11 月,新加坡政府科技局(GovTech)舉辦了一場別開生面的活動──GPT-4 提示詞工程競賽。在超過 400 名參賽者中,Sheila Teo 脫穎而出,她使用的秘密武器是由 GovTech 的數據科學與人工智慧團隊開發的「CO-STAR」框架。這個框架以其整合性和高效性,成為構建提示詞以獲取大型語言模型(LLM)最有效回應的絕佳工具。 CO-STAR 框架 CO-STAR 框架提供了一個全面的指南,幫助使用者在構建提示詞時考慮到所有影響 LLM 輸出的重要方面。以下是框架中每個組成部分的關鍵作用: C 代表 Context(背景) 背景提供了有關任務的必要資訊,幫助 LLM 理解正在討論的具體情景,確保回應的精確度和相關性。 O 代表 Objective(目標) 目標明確定義了您希望 LLM 執行的任務。清晰地界定目標有助於 LLM 集中其回應,以達成該特定目的。 S 代表 Style(風格) 風格指定了所需的寫作風格,可以是某位著名作家的風格,或者是某個專業領域的專家,如商業分析師或 CEO。這一規範指導 LLM 採用符合用戶需求的表達方式和詞彙。 T 代表 Tone(語氣) 語氣設定了回應的情感或正式態度,可包括正式、幽默或富有同理心等。此組件確保 LLM 的輸出與預期的情感或情感背景相符。 A 代表 Audience(受眾) 確定受眾對於回應的定制至關重要。無論受眾是領域專家、初學者還是兒童,回應都必須在給定的背景中適當且易於理解。 R 代表 Response(回應格式) 回應格式規定了 LLM 應如何結構化其輸出,這對於與下游任務對齊至關重要。無論是需要列表、JSON 文件還是專業報告,指定格式都確保了輸出正是所需的。 用CO-STAR […]

建立中文學術常用詞表:方法與發現

本研究旨在建立一份中文學術常用詞表,針對來台灣的國際學生及華語學習者,以協助他們在學術寫作及閱讀中更有效地使用中文。研究收集了來自十大類人文社會科學領域的1,000篇學術文章,總計約900萬字,以詞頻及文本分布率為標準,最終編纂出含有2,405個詞語的中文學術常用詞表。研究發現該詞表中有557個詞語未收錄於TOCFL詞表,建議可根據文本分布率或兩詞表收錄之同/近義詞挑選適合的詞語加入TOCFL詞表。此外,研究建議此詞表可用於學術寫作輔助、教材編輯和學習工具設計等方面,以提供華語教學者、研究者及教材編輯者一個學術詞彙參考工具(劉貞妤、陳浩然、楊惠媚, 2016)。 TOCFL詞表 TOCFL詞表(Test of Chinese as a Foreign Language,海外華語文能力測驗詞表)是為了配合TOCFL測驗而編制的詞彙列表。TOCFL是一項旨在評估非中文母語者的華語文能力的測驗,類似於英語的TOEFL或IELTS。該詞表涵蓋了不同級別的華語學習者所需掌握的詞彙,目的是為了標準化華語教學和評估,並提供學習者一個明確的學習目標。以下是TOCFL詞表的一些主要特點: 總結來說,TOCFL詞表是為了促進華語教學和學習而設計的一套詞彙學習工具,其目的是為學習者提供一個全面、系統化的華語詞彙學習路徑。 中文學術常用詞表 該詞表是透過以下步驟編纂的: 通過這些步驟,編纂了包含2,405個詞語的「中文學術常用詞表」,其中有1,376個詞語廣泛分布在十大學科中​​。 TOCFL詞表和中文學術常用詞表的差別 TOCFL詞表和中文學術常用詞表的主要差別如下: 總之,兩個詞表在設計上針對不同的需求和目的,一個側重於一般語言學習和使用,另一個側重於學術領域的專業使用​​。 劉貞妤、陳浩然、楊惠媚(2016)。藉學術語料庫提出中文學術常用詞表:以人文社會科學為例。《華語文教學研究》,13(2),43-87。

跨學科學習的基石:國中學術詞彙表的重要性

本文探討如何從國中階段的教科書建立學術詞彙表。學術詞彙對於學術交流和學習具有重要意義,能夠幫助學生理解專業術語和概念。研究中使用國民中小學九年一貫課程綱要的國中階段七科教科書作為語料,進行斷詞處理後,刪除基本詞彙,最後編製出包含779個詞彙的國中學術詞彙表。研究發現,儘管考慮了跨領域的特性,數學科的學術詞彙出現比率與其他科目顯著不同。此外,通過集群分析,發現學術詞彙可以分為五組,反映了不同科目間的學術詞彙使用差異。研究最後討論了學術詞彙的特性,提出了國中學術詞彙表建置的反思,並對未來研究和教學提出建議。 學術詞彙表的重要性 學術詞彙表對於學生的學習和認知發展非常重要,原因如下: 綜上所述,學術詞彙表對於加深學生對學科知識的理解、提高語言能力、促進跨學科學習和支援個人的學術及職業發展具有重要作用​​。 學術詞彙表的編製過程 國中學術詞彙表的編製過程如下: 這個過程涉及從大量的教科書內容中提取和分析詞彙,並根據學術詞彙的定義和特性進行嚴格的篩選,最終形成針對國中階段學生的學術詞彙表​​。 國中學術詞彙表的特徵 國中學術詞彙表通過集群分析,將學術詞彙分為五組,每組反映了不同的學術詞彙特性和使用情境: 這五組反映了學術詞彙在國中教育階段各科目教學中的不同角色和重要性,有助於教育工作者和學生更好地理解和使用這些詞彙​​。 高/低出現單元比率組 高出現單元比率組和低出現單元比率組的特徵和例子如下: 高出現單元比率組 低出現單元比率組 總之,高出現單元比率組的詞彙在學生的學習過程中普遍且常用,而低出現單元比率組的詞彙則專業且針對性強,這兩組詞彙的不同反映了學術詞彙在教育過程中的不同應用和重要性​​。 李岳霖、鍾涵瀜、吳昭容(2022)。從教科書建置國中學術詞彙表。教科書研究,15(2),77-111。https://doi.org/10.6481/JTR.202208_15(2).03

商業新聞語料庫:挖掘學術與專業詞彙的寶藏

本研究的主要目的是檢視Coxhead的學術詞彙表(Academic Word List, AWL)在商業新聞文章中的覆蓋率,並創建基於商業新聞文章語料庫(Business News Article Corpus, BNAC)的詞彙表。語料庫收集了2023年1月至2月發布於CNN、BBC、The Guardian和Reuters網站上的商業新聞文章,包含1,258,448個運行詞。使用AntWordProfiler處理235個文本文件,產生了兩個初步詞彙表:商業新聞文章學術詞彙表(BNAAWL)和商業新聞文章專業詞彙表(BNASWL)。研究發現,儘管AWL詞彙和特定於商業領域的專業詞彙出現頻率較低,但在商業新聞文章中仍然具有顯著存在,分別占21.22%(279詞)和18.33%(241詞)。通過三名專家的驗證過程,從BNAAWL中刪除了35個詞彙,剩餘301詞,從BNASWL中刪除了108個詞彙,剩餘201詞。這兩個列表合併後,形成了包含502個詞項的最終詞彙表。此詞彙表旨在滿足學術和特定領域學生的詞彙需求,研究強調EAP和ESP從業者可以有效利用商業新聞文章作為補充材料來設計教學內容,鼓勵學生獨立接觸這些文章以增強他們的學術和專業詞彙​​。 Coxhead的學術詞彙表 Coxhead的學術詞彙表(Academic Word List, AWL)由Coxhead於2000年開發,目的是為了提供一份涵蓋各學科領域常用學術詞彙的清單,以幫助學習者提高他們在學術英語環境中的詞彙知識。AWL包含570個詞彙家族,從3.5百萬詞的學術文本語料庫中選取,這些文本來自藝術、科學、法律和商業等不同學科。這份清單排除了West(1953年)的常用服務詞彙表(General Service List, GSL)中的前2000個最常用詞彙家族,以確保詞彙表專注於學術用途。 AWL被劃分為10個子列表,每個子列表根據詞彙出現的頻率來編排,其中子列表1包含最常見的詞彙,而子列表10則包含最不常見的詞彙。這份詞彙表為英語學習者提供了一個目標,幫助他們學習和掌握在學術閱讀、寫作、聽力和口語交流中可能遇到的核心詞彙。AWL的廣泛應用不僅限於英語作為第二語言(ESL)和英語作為外語(EFL)的學習者,還包括作為學術英語教學(EAP)和專業英語教學(ESP)資源。 商業新聞文章語料庫(Business News Article Corpus, BNAC)的詞彙表 商業新聞文章語料庫(Business News Article Corpus, BNAC)的詞彙表是基於從商業新聞文章中提取的數據建立的。這些文章主要來自CNN、BBC、The Guardian和Reuters的商業版塊,時間範圍是2023年1月至2月。BNAC包含約1,258,448個運行詞,形成了兩個主要的詞彙表:商業新聞文章學術詞彙表(BNAAWL)和商業新聞文章專業詞彙表(BNASWL)。 這兩個詞彙表在研究過程中經過專家驗證,確保詞彙的選擇對學術英語目的(EAP)和專業英語目的(ESP)的學習者具有實際的教學價值。BNAC詞彙表的最終目的是為學習者提供一個全面的詞彙資源,幫助他們在學術和專業領域內有效地提高語言能力。 商業詞彙表的建置 這些詞彙表是通過對商業新聞文章語料庫(Business News Article Corpus, BNAC)的系統分析生成的。以下是產生商業新聞文章學術詞彙表(BNAAWL)和商業新聞文章專業詞彙表(BNASWL)的具體步驟: 通過這個過程,BNAAWL和BNASWL能夠精確反映出在商業領域中學術和專業語境下頻繁使用的詞彙。 Amornsiripong, S. (2022). Developing an Academic Word List in Business News Articles: A Corpus-Based Study. Independent Study, Master […]

法語學術詞彙的秘密:是否需要專門的詞彙表?

本文由Tom Cobb與Marlise Horst撰寫,討論的主題是法語中是否需要一個類似英語學術詞彙表(AWL)的專門詞彙列表。在英語學習中,通過大量的語料分析,學者們確定了最實用的高頻詞,這對於學習者來說非常重要。這些詞彙組成了英語核心詞匯的一部分,尤其對準備進入大學學習的學生來說,Coxhead提出的學術詞彙表(AWL)尤其有用。研究指出,如果學習者掌握了這張表上的570個詞彙家族和其他2000個高頻詞彙家族,他們在閱讀英語學術文本時大約能夠識別出85%的詞彙。 然而,這個研究引發了一個問題:其他語言是否也有這樣的高頻詞彙表呢?本研究對法語進行了初步探究。研究者建立了包含2000個最高頻法語詞彙家族的列表,並利用一款名為Vocabproªl的在線詞彙頻率分析程序來測試這些詞彙的覆蓋率。結果顯示,這些高頻詞彙對於不同類型的法語文本(如報紙、普及解說文和醫學文本)都有很好的覆蓋效果。更有趣的是,通過比較法語和英語的平行文本,研究發現法語的2000個高頻詞彙家族可以為讀者提供高達85%的覆蓋率,而在英語中達到這一覆蓋率需要學習2000個最常用詞加上570個AWL詞彙。因此,這似乎表明法語的常用詞彙列表已經足夠覆蓋日常和學術需求,法語中可能不需要一個像英語AWL那樣的附加詞彙列表來幫助理解學術文本。 英語的學術詞彙表 學習英語的學術詞彙表(AWL)是因為它提供了一個重要的詞彙基礎,幫助學習者有效地理解和使用學術文本。AWL包含了在不同學術領域的文本中高頻出現的詞彙,這些詞彙對於閱讀、理解和產生學術內容至關重要。以下是學習AWL的幾個理由: 總之,AWL是英語學術學習的關鍵組成部分,它支持學習者提高他們的語言技能,並在學術場合中有效地使用英語。 研究方法:法語學術詞彙表的建置 這項研究主要透過分析語料庫和建立詞彙頻率分析工具來進行。研究過程包括以下幾個步驟: 研究結果顯示,法語的2000高頻詞彙列表在日常和學術文本中提供了驚人的高覆蓋率(約85%),顯示出在法語中,學習這些高頻詞彙就足以達到良好的理解水平,而在英語中,要達到相同的覆蓋率則需要額外學習學術詞彙表(AWL)中的詞彙。 Cobb, T., & Horst, M. (2004). Is there room for an academic word list in French?

英文報紙必學詞彙:打造專業詞彙列表的科學方法

《Towards the Development of a Word List for English Newspapers》由Mostafa Saeedi、Reza Khany及Khalil Tazik撰寫,刊登於《Reflections》雜誌2023年5月至8月期。研究旨在開發一個英文報紙詞彙列表,收錄最常用且對理解英文報紙各部分極為有用的詞彙。研究透過分析1,221,970字的語料庫,根據頻率、範圍和專業化三個標準,得出包含858個詞族的詞彙列表。此詞彙列表與通用詞匯結合,覆蓋了語料庫中94.64%的詞彙使用頻率,對於學習英語作為外語或第二語言的學習者、英文報紙的讀者和作者均具有實際應用價值。 本研究基於大型語料庫建立詞彙列表,該語料庫由四份英美報紙的文本組成,涵蓋廣泛的新聞版塊。研究使用頻率、範圍和專業化三個標準選擇詞彙,結果顯示,與通用服務列表(GSL)結合後的新詞彙列表能有效覆蓋大量報紙文本。研究建議英語教學者和學生應關注此詞彙列表,以提高閱讀報紙的效率和理解能力。 三個詞彙選擇標準 提到的三個詞彙選擇標準包括頻率、範圍和專業化。 這三個標準共同作用,以確保所選詞彙列表既有廣泛的適用性,又能具有專業性和實用性,有助於英語作為外語或第二語言的學習者理解英文報紙的內容。 詞彙列表與語料來源 858個詞族的詞彙列表是由研究者通過對英文報紙語料庫的分析而得出的,這個語料庫包含1,221,970個詞彙。在選擇詞彙時,研究者採用了頻率、範圍和專業化作為主要標準。經過篩選,從最初的2,887個詞族中排除了一些與通用服務列表(GSL)重疊的詞族和專家認為過於通用的詞族,最終確定了858個詞族的詞彙列表。這份列表中的詞彙根據它們在語料庫中的出現頻率來排列,旨在幫助學習者更好地理解英文報紙的內容 。 研究中使用的四份英美報紙文本包括來自英國的《衛報》(The Guardian)和《獨立報》(The Independent),以及來自美國的《聖荷西水星報》(The San Jose Mercury)和《華爾街日報》(The Wall Street Journal)。這些報紙在各自的國家中讀者量大,影響力強。 這些報紙文本被分為五大新聞類別,進一步細分為20個部分和子部分,包括國際新聞、國內新聞、商業、娛樂、體育、藝術、商業、時尚、健康與醫學、宗教、軍事、教育、科學技術、歷史、天氣、電影、電視、經濟、廣告、食品、社會與人物新聞、觀點和廣告。這種廣泛的範圍和細分旨在確保詞彙列表涵蓋各種類型的報紙內容,以滿足不同讀者和學習者的需要。 Saeedi, M., Khany, R., & Tazik, K. (2023). Towards the Development of a Word List for English Newspapers. Reflections, 30(2), 506-525.

政治大學華語口語語料庫:搶救台灣語言遺產

政治大學發起的一個稱為“政大華語口語語料庫”的項目,該項目旨在收集並保存普通話、客家話和閩南話的口語數據,以供非營利研究之用。文章提到在台灣,大多數人講普通話、閩南話或客家話,這三種漢語方言不僅正在經歷語言變遷,而且講閩南話和客家話的人口也在減少。語料庫主要收集自然面對面的對話數據,並以簡單且易於使用的方式設計,使得數據可以有效地在數據庫中處理,並允許用戶直接從網絡上瀏覽語料數據。此外,文章還討論了其他中文及非中文的口語語料庫,並強調了建立口語語料庫對於語言研究的重要性,特別是對於瀕危語言的記錄和保存。 政大華語口語語料庫的數據收集主要通過以下幾個步驟進行: 透過這個過程,語料庫旨在收集自然產生的語言數據,以進行量化語言學研究,並保存語言的當前使用狀況。 整個政大華語口語語料庫包括三個子語料庫,分別是普通話、客家話和閩南話。從文件中提供的資訊可以看出: 每段錄音大約20分鐘左右,數據主要是自然產生的面對面對話。這些錄音還伴隨著詳細的標註和轉寫,包括音韻轉寫和英文翻譯。根據文檔,儘管語料庫的數據量不是非常大,但這些口語數據足以進行初步觀察或試驗性研究。 Chui, K., & Lai, H.-L. (2008). The NCCU Corpus of Spoken Chinese: Mandarin, Hakka, and Southern Min. Taiwan Journal of Linguistics, 6(2), 119-144.