這篇論文[1]旨在比較人類專家和OpenAI開發的ChatGPT之間的能力,並分析它們在不同領域能力上的差距,如金融、醫學、法律和心理學。該研究基於Human ChatGPT Comparison Corpus(HC3)數據集進行,在該數據集中,人類專家和ChatGPT生成了近40,000個問題和答案。文獻呈現了全面的人類評估和語言分析,揭示了人類和ChatGPT所展現的有趣模式。此外,研究還開發了幾個聊天GPT檢測模型,在不同場景下表現出不錯的性能。為了未來的學術研究和在AI生成的內容上進行線上平台規範,該文獻開源了所有收集的比較語料庫、評估和檢測模型。
Human ChatGPT Comparison Corpus (HC3)是由Biyang Guo等人(p. 1)搜集的包含近40,000個問題和答案的資料集,其中包括人類專家和ChatGPT的回答(p. 1, 2)。該資料集被用來比較人類專家和ChatGPT在不同領域,如金融、醫學、法律和心理學等方面的能力(p. 1)。除了HC3資料集之外,該研究還對ChatGPT回答的各種特徵進行了分析和評估(p. 2)。研究人員進行了全面的人體評估和語言學分析,發現了人類和ChatGPT所體現的許多有趣的模式(p. 2, 5)。在分析中,ChatGPT的回答被評估的因素包括但不限於,組織良好的回答(p. 6)、提供詳細的答案(p. 6)、中立的立場(p. 6)等。
HC3數據集包括英文版和中文版,數據源主要從兩個方面構成:公開的問答數據集和維基文本。問答數據集包括reddit-eli5,open_qa、nlpcc_dbqa、medicine和finance;維基文本包括維基百科和百度百科(p. 3, 4, 19)。在研究中,通過人類評估和概括的方式,探究了英文和中文版本數據集中ChatGPT和人類間的詞匯、答案長度、詞性和依賴分析等方面的異同(p. 4, 7, 8)。另外,研究還開發了用於檢測ChatGPT所表現出來的痕跡的幾個模型(p. 12)。
根據文件(p. 5)ChatGPT在金融和心理學領域表現較好,他們發現ChatGPT通常能提供更具體和具體的建議,這些建議能夠使人驚訝,並在相應領域中較為有用。在金融領域,ChatGPT的表現非常好,其回答被認為非常有幫助。(p. 5) 在醫學領域,ChatGPT表現不佳,其回答往往過於冗長,而人類專家可能會直接給出明確的答案或建議。(p. 5)
大型語言模型(LLMs),如ChatGPT,可能會帶來假消息、抄襲和社會安全問題等潛在的負面影響(p. 2)。例如,Stack Overflow這樣著名的編程問答網站就暫時禁止ChatGPT生成的內容(p. 2)。另外,ChatGPT在法律、醫學和金融等問題上可能會產生潛在有害或虛假的信息(p. 2)。為此,我們收集了人類專家和ChatGPT生成的對比回答,並對其進行了全面的評估和分析,在分析中還開發了幾個ChatGPT檢測模型(p. 1, 2)。此外,Stack Overflow暫時禁止ChatGPT生成的內容,也證明了這種負面影響是實實在在存在的(p. 2)。
根據文檔(p. 5)的描述,ChatGPT與人類專家之間的語言使用有以下差別: (a) ChatGPT的回答通常嚴格固定在所給問題上,而人類的回答則會有所偏移,涉及其他相關話題。在內容的豐富性方面,人類會更加多元化,而ChatGPT則偏向於關注問題本身。人類可以根據自己的常識和知識回答問題中的隱含意義,而ChatGPT則只依賴所給問題的字面意思; (b) ChatGPT提供客觀的回答,而人類更喜歡使用主觀表達。整體而言,相比於人類,ChatGPT所生成的文本更為安全、平衡、中立和信息豐富。因此,ChatGPT擅長解釋術語和概念。另一方面,人類的回答更加具體,包含大量法律法規、書籍和論文等內容的詳盡引用,特別是在回答醫學、法律和技術問題時; (c) ChatGPT的回答通常比較正式,而人類的回答則更加口語化。人類往往更加簡潔,充滿口頭縮略語和俚語,例如”LOL”、”TL;DR”、”GOAT”等等。人類還喜歡使用幽默、反諷、隱喻和例子等表達方式,而ChatGPT則不會使用反置法。此外,人類的交流中還經常包含”網絡模因”,作為一種特定而生動的表達方式; (d) ChatGPT在回答中表達的情感較少,而人類則通過在上下文中使用多種標點符號和語法特征來傳達情感。人類使用多個感嘆號(”!”)、問號(”?”)、省略號(”…”)來表達強烈的情感,同時使用各種括號(”(“、”)”、”(p. “、”)”)來解釋事情。相比之下,ChatGPT更喜歡使用連詞和副詞來表達思路的邏輯流程,例如”總體而言”、”另一方面”、”首先… 其次… 最後”等等。(p. 6)
根據文檔中的分析,ChatGPT在名詞和動詞的使用上相對於人類專家更多,這通常表明文本更具有爭議性、信息量和客觀性(p. 7, 8)。此外,ChatGPT在文本中使用較少的副詞和標點符號來表達情感,相比之下,人類專家更傾向於使用多個標點符號來表達他們的感情(p. 6)。總的來說,與人類專家相比,ChatGPT可能更像一個保守的專家團隊,因為它可能缺乏個體性,但可以對問題有更全面和中立的看法(p. 6)。
研究提供了全面的人類評估和語言分析,揭示了人類和ChatGPT所表現出來的有趣模式。此外,研究還開發了幾個ChatGPT檢測模型,以在不同情況下展現良好的性能。研究還解決了與模型誤用相關的潛在風險,以及發布了所有收集的比較語料庫、評估和檢測模型,以便未來的學術研究和在線平台AI生成內容的監管。