這篇文章[1]評估了 ChatGPT 生成論述性文章的表現,並與人工寫的文章進行比較。作者進行了大規模的研究,使用標準評估標準評估 AI 生成的內容和人寫的文章。評估分析還考慮了語言特徵。結果顯示,ChatGPT 生成的文章相對人寫的文章在質量上更高,但在寫作風格上有所不同。文章建議教育系統應該利用 AI 模型來釋放時間,用類似計算器對數學的方式,采用 AI 工具作為輔助,利用學童自身完成學習目標。本研究為評估人寫和 AI 生成的論述性文本質量提供了統計學上嚴謹和系統化的方法, 為我們提供了解這些語言模型如何發展的洞見。
根據文獻(p. 1)ChatGPT生成的文章質量更高,這是根據使用標準評估標準比較人寫的論文和AI生成的內容所得出的。ChatGPT模型的寫作風格展現出與人寫的文章不同的語言特徵,例如使用的話語和知識標記較少,但是名詞化和詞匯豐富度更高。另外,文獻(p. 11)中的統計分析結果顯示,用ChatGPT生成的文章在語言掌握方面得分更高,而人寫的文章則更容易犯錯。這些指標說明ChatGPT生成的文章質量更高。
使用的話語和知識標記是指作為AI語言模型 ChatGPT 和人類寫手之間識別的一些特徵,表達作者意見和想法的方式有所不同(p. 3)且它們是用來評估人類寫作和AI生成的論述文本質量的標準(p. 1)。話語標記可以用來衡量文本的一致性質量,比如Somasnudaran等人研究了故事的講述方面,Nadeem等人則將它們納入了他們基於深度學習的自動文章評分方法中(p. 9)。排除了常用於表示話語關係以外的詞語(如“like”,“for”,“in”等)的PDTB話語標記列表被用於本研究中(p. 9)。知識標記則用於識別作者對自己語句的承諾,將有關epistemic的表達式,如“I think”,“it is believed”和“in my opinion”,識別為知識標記(p. 9)。
研究還建議,教育系統需要納入AI模型的使用,為其他學習目標釋放時間,就像數學使用計算器一樣(p. 1)。此外,本研究還討論了以前基準的限制以及模型所有者的利益衝突問題,這對於解釋性能構成問題(p. 4)。此研究提供了一種統計嚴謹和系統性的方法來評估人類撰寫和AI生成的辯論文本的質量,提供了這些語言模型如何隨時間發展的洞察(p. 1, 14)。