2023AI大語言模型TOP10

2023-07-04 04:56:35米欄

互聯網周刊 2023年11期

關鍵詞：語義文本情感

米欄

時代變革的大幕已掀開一角，一場由OpenAI引領的全球AI大語言模型軍備競賽正式開啟。

3月14日，GPT-4正式發布，大語言模型開始具備圖片和文字同時處理的多模態能力，繼續占據先入為主的優勢。

全球大廠中率先回應的是百度。3月16日，百度大語言模型“文心一言”正式推出，對外啟動邀測。據公開報道，文心一言具備五項核心能力：文學創作、商業文案創作、數理邏輯推算、中文理解和多模態生成。

緊接著其他科技企業也陸續跟進。4月11日，2023阿里云峰會現場演示了通義千問的多項功能，并定向邀請企業用戶進行體驗測試；5月10日，谷歌時隔一年推出了新一代語言大模型PaLM 2，被視為對此前發布會翻車的有力回應。

此外，還有復旦大學在2月21日發布的“MOSS”、清華大學3月28日發布的“ChatGLM-6B”、360于4月10日發布的“360智腦”、商湯科技4月10日發布的“商量”、科大訊飛5月6日發布的“訊飛星火認知大模型”，等等。

截至5月，據不完全統計，國內已有超過40家公司、機構發布了大模型產品或公布了大模型計劃。項目數量井噴式爆發，可預見的是，下半年的國內AI大模型市場競爭將會變得空前激烈。

不止于“大”

提到大模型，很多人的關注點都會放在“大”字上，畢竟足夠量級的參數是語言模型實現智能涌現、形成質變的基礎。比如，不少大語言模型的參數量級達千億級，這也就意味著較為豐富的語言知識與較廣泛的語境理解能力。

不過，目前類GPT模型普遍采用的是Transformer架構，所以必然包含市面上存在的大量文本數據例如小說、教科書、論壇、開源代碼等內容的無監督預訓練過程，在此基礎上，僅需根據具體任務輸入少量的標簽數據進行監督學習。在這樣的模式下，訓練數據集質量的重要性開始愈發凸顯。

本次評測的結果就可以印證這一點。評測主要考察各大語言模型在中文語境下的理解與生成能力，基于目前用戶對大語言模型在生活、辦公的普遍需求，選取語義理解、邏輯推理、情感分析、百科知識、文本質量五個通用底層維度，以評估各大語言模型協助用戶日常處理事務、解決核心問題的能力，取0（無效應答）、1（有效應答）兩個分數，其中文本質量維度按照行文邏輯、信息密度，取0（一般）、0.5（良好）、1（優秀）三個分數。

評測問題也有別于針對BERT類判別式AI模型的選擇問法，采用更加適合AI生成式模型的相對開放式問法，以下為部分問題及回答評分示例：

在“I've got a thing for you，用文言文表達這句話”這一問題中，ChatGPT給出的回答是：“朕對汝有所鐘情。”理解正確，但生成文本質量欠佳，取0.5分。文心一言的輸出內容：“吾心向汝，實生情之。”文義相符，質量較高，取1分。星火認知大模型回答為：“吾有物以贈君。”存在理解有誤的情況，取0分。

從結果看ChatGPT在語義理解、邏輯推理、百科知識、文本質量四項中分別以18、19、19、18.5排名第一，綜合表現位居榜首，特別是在科技、學術、新聞等領域的文本生成部分領域表現突出，不過在相對復雜情景下的情感識別，以及散文、詩歌、文言文等較為考察深度理解能力方面表現相對乏善可陳。

文心一言作為首個全球大廠推出的知識增強大語言模型，本次排名位居國產大語言模型之首，效果僅次于ChatGPT，且在語義理解、情感分析兩項位列第一，分數分別為18、19，這或許與百度使用的自有數據集有關，在質量較高的文庫文本、百科數據等中文語料的訓練下，在語義理解和情感分析方面具有很高的精度，可以識別出復雜的情感表達和語言隱喻。

除此以外，谷歌PaLM在邏輯推理部分（分數19）、通義千問在語義理解（分數17）、清華ChatGLM在文本質量（分數15.5）等成績均可圈可點。

結語

未來大模型的迭代也將更有針對性，對開發者的評估能力提出更高的要求。如何在有限的時間和資源條件下做出客觀的評價并給出有用的反饋，讓數據團隊更有針對性地準備數據，讓研發不偏離方向，保障模型的健康迭代，將是所有行業從業者的共同挑戰。

《互聯網周刊》也將持續跟蹤與關注各大語言模型的更新與迭代情況，定期進行相關評測與分析。未來，相信隨著算法、硬件、數據和應用場景的不斷發展，大型語言模型將會在各種自然語言處理任務中發揮更加重要的作用，為社會創造更多的價值。