大規(guī)模多任務(wù)中文理解能力測試

2024-07-09 12:32:51曾輝

電腦知識與技術(shù) 2024年15期

曾輝

關(guān)鍵詞：中文大模型;多任務(wù)評測;zero-shot;few-shot;垂直領(lǐng)域任務(wù)

0引言

隨著ChatGPT[1]等大模型的驚艷亮相，ChatGLM[2]、MOSS[3]、文心一言、通義千問、商量等具備中文能力的大模型也相繼發(fā)布。雖然針對英文大語言模型已有較為完善的評測方式（如MMLU[4]），但目前仍缺乏針對中文大語言模型的評測方法。因此，推出一種科學(xué)的中文大模型評測方法并提供高質(zhì)量的中文評測數(shù)據(jù)集已迫在眉睫。

以Transformer[5]為架構(gòu)的中文預(yù)訓(xùn)練大模型采用大量文本語料（包括中文百科數(shù)據(jù)、海量中文電子書籍和眾多中文網(wǎng)站）進行預(yù)訓(xùn)練。然而，這種訓(xùn)練方式的模型在理解和解決諸多領(lǐng)域問題的能力尚未經(jīng)過科學(xué)、全面的評測。

由于近期發(fā)布的大語言模型大多經(jīng)過了指令微調(diào)訓(xùn)練，本測試提供了zero-shot和few-shot兩種測試方式。在few-shot模式中，模型會得到5個示例。測試題目為單項選擇和多項選擇題，每道選擇題可能有一個或多個正確答案，更類似于人類考試，難度也更大。

本次測試涵蓋醫(yī)療、法律、心理學(xué)和教育四個大類。其中，醫(yī)療類題目來自大學(xué)醫(yī)學(xué)專業(yè)考試，法律類題目來自國家統(tǒng)一法律職業(yè)資格考試，心理學(xué)題目源于心理咨詢師資格考試和心理學(xué)專業(yè)研究生入學(xué)綜合基礎(chǔ)考試，教育領(lǐng)域的題目取自全國普通高等學(xué)校統(tǒng)一招生考試。測試題目覆蓋范圍廣，專業(yè)知識點難度高，非常適合評估大模型的綜合能力。

值得一提的是，高達160億參數(shù)的MOSS模型在四大領(lǐng)域的zero-shot準(zhǔn)確率均低于26%，是評測中表現(xiàn)倒數(shù)第二的模型。而參數(shù)量至少1750億的GPT-3.5-turbo模型取得了41.3%的平均zero-shot準(zhǔn)確率（見表1）。

評測結(jié)果顯示，雖然大模型最近進展迅速，但最先進的模型仍未達到某個領(lǐng)域的專家水平。所有模型在法律領(lǐng)域任務(wù)上的準(zhǔn)確率都接近隨機準(zhǔn)確率。相關(guān)測試代碼見github.com/Felixgithub2017/MMCU。

1多任務(wù)測試

本研究開發(fā)了一個涉及多個任務(wù)的廣泛測試，包括各個領(lǐng)域知識的單選和多選題，涵蓋醫(yī)學(xué)、法學(xué)、心理學(xué)和教育學(xué)等領(lǐng)域。其中，醫(yī)療分為15個子任務(wù)，教育分為8個子任務(wù)。數(shù)據(jù)集中的問題由專業(yè)人員從在線免費資源中手動收集，涵蓋醫(yī)學(xué)院考試、全國法律資格考試、心理咨詢師資格考試、心理學(xué)研究生入學(xué)基礎(chǔ)綜合考試和全國普通高校招生考試等內(nèi)容。本研究共收集了11900個問題，設(shè)計為few-shot調(diào)試集和測驗集。few-shot調(diào)試集每個主題有5個問題，共55個問題；測驗集共有11845個問題。

1.1醫(yī)療

醫(yī)學(xué)領(lǐng)域涵蓋以下學(xué)科：基礎(chǔ)醫(yī)學(xué)、藥學(xué)、護理、病理、臨床診斷、感染病、手術(shù)、人體結(jié)構(gòu)、放射學(xué)、寄生蟲病、免疫、小兒科、皮膚病與性病、胚胎學(xué)、藥物學(xué)。醫(yī)療領(lǐng)域共有2819個問題。

以下是一個醫(yī)療問題示例：

針對初次出現(xiàn)的急性腰椎間盤膨出，首選的治療方式為：

A.嚴格的床上休息，三周之后佩戴腰帶進行下床活動。

B.保持臥床，但可進行站立和坐起動作。

C.在硬膜外進行皮質(zhì)類固醇注射。

D.對髓核進行化學(xué)溶解處理。

1.2法律

法律類問題包括以下領(lǐng)域：中國特色社會主義法律體系、法學(xué)基礎(chǔ)、憲法原理、中國法制史、國際法概論、法律職業(yè)倫理與司法體系、刑法基礎(chǔ)、刑事司法程序、行政法及其訴訟程序、民事法律、知識產(chǎn)權(quán)保護、商業(yè)法規(guī)、經(jīng)濟法理論、環(huán)境與資源法、勞動法與社會保障法規(guī)、跨國私法、國際商法、民事訴訟法律、法律職業(yè)道德與司法結(jié)構(gòu)。法律領(lǐng)域共有3，695個問題。

以下是一個法律問題示例：

依據(jù)法律規(guī)定，哪種情形應(yīng)受民法調(diào)整？

A.小明要求稅務(wù)部門退還多繳的所得稅。

B.小紅丟了手機，貼出尋物啟事：“歸還者將獲得現(xiàn)金獎勵。”

C.小李向女朋友保證：“若我在北京找到工作，便帶你去美國旅游。”

D.小王作為志愿者，定期在孤兒院提供幫助。

1.3心理學(xué)

心理學(xué)問題覆蓋以下領(lǐng)域：心理學(xué)基礎(chǔ)、個性及群體心理學(xué)、成長心理學(xué)、心理健康與異常、心理咨詢基礎(chǔ)、咨詢理念、評估心理學(xué)、咨詢技巧、咨詢實踐方法。心理學(xué)領(lǐng)域共有2，001個問題。

以下是一個心理學(xué)問題示例：

將與己無關(guān)的事物視為相關(guān)，這種臨床癥狀最可能見于：

A.被害型幻想

B.癡迷型幻覺

C.連接型錯覺

D.夸張型妄想

1.4教育

這部分包括語文、數(shù)學(xué)、物理、化學(xué)、政治、歷史、地理和生物，題目來自中國普通高等學(xué)校招生全國統(tǒng)一考試（中國高考）。教育領(lǐng)域共有3331個問題。

以下是一個數(shù)學(xué)問題示例：

如果一個圓錐的側(cè)面積是底面積的三倍，那么這個圓錐的側(cè)面展開成扇形時，扇形的中心角大小為（）。

A.六十度

B.九十度

C.一百二十度

D.一百八十度

2實驗

2.1實驗方法

為了衡量多任務(wù)測試的性能，本研究計算了所有模型在所有任務(wù)上的zero-shot和few-shot準(zhǔn)確率。評測了Bloom系列中的bloomz_560m、bloomz_1b1、bloomz_3b和bloomz_7b1_mt；同樣評測了清華大學(xué)知識工程與數(shù)據(jù)挖掘研究組開發(fā)的ChatGLM6B[2]、復(fù)旦大學(xué)創(chuàng)建的MOSS16B[3]以及OpenAI的GPT-3.5-tur?bo[1]。

在zero-shot模式下，將題目直接輸入到模型以獲取答案并計算準(zhǔn)確率。以下是一個zero-shot提問示例：

請閱讀以下選擇題并給出正確選項，不要解釋原因。

在笛卡爾坐標(biāo)系中，點P（m-3，4-2m）不可能位于（）

A.一象限

B.二象限

C.三象限

D.四象限

正確答案的序號是：

其中，粗體部分為問題的前綴和后綴，前綴告訴模型應(yīng)該怎樣給出答案，后綴引導(dǎo)模型輸出答案序號。而在few-shot模式下，先給模型提供5個問題和答案的例子，再附上問題讓模型給出答案。

2.2評測結(jié)果

1）模型的大小與其準(zhǔn)確性。表1對不同模型的zero-shot準(zhǔn)確率進行了比較。本研究發(fā)現(xiàn)GPT-3.5-turbo在四個領(lǐng)域都遙遙領(lǐng)先。還發(fā)現(xiàn)，MOSS16B模型雖然有160億參數(shù)，卻具有接近隨機的準(zhǔn)確率（大約25%）。相比之下，參數(shù)量更低的Bloom家族的bloomz_560m、bloomz_1b1、bloomz_3b、bloomz_7b1_mt以及ChatGLM6B的zero-shot準(zhǔn)確率都要更高。

盡管bloomz_560m模型的參數(shù)量最小，它的表現(xiàn)卻超越了參數(shù)量更大的bloomz_1b1模型和MOSS16B模型。這些結(jié)果表明，雖然模型參數(shù)量是實現(xiàn)強大性能的關(guān)鍵因素，但訓(xùn)練的方式和數(shù)據(jù)也非常重要。

turbo在大多數(shù)子任務(wù)上都取得了相對最高準(zhǔn)確率，緊隨其后的是ChatGLM6B，但這兩個模型的性能都不均衡。表3顯示了所有模型在教育子任務(wù)上的準(zhǔn)確性。它表明這兩個模型在所有任務(wù)上的表現(xiàn)都低于60%，GPT-3.5-turbo的準(zhǔn)確率從生物的59.9%到語文的31.0%不等，而ChatGLM6B的準(zhǔn)確率從歷史的44.8%到物理的25.6%不等。

總的來說，所有模型在物理任務(wù)上的表現(xiàn)均不佳。表2顯示，計算量大的數(shù)學(xué)、物理科目的準(zhǔn)確率往往較低。對于GPT-3.5-turbo而言，準(zhǔn)確率最低的任務(wù)依次是語文、物理、數(shù)學(xué)科目。部分原因可能是GPT-3.5-turbo的中文訓(xùn)練數(shù)據(jù)不足，導(dǎo)致中文語文科目表現(xiàn)不佳，并且與解決程序性問題相比，模型更容易解答陳述性問題。

測試還表明，所有模型在few-shot模式下都有不同程度的性能下降（見表3）。例如，與zero-shot準(zhǔn)確率相比，GPT-3.5-turbo在語文、化學(xué)、政治和地理子任務(wù)上的few-shot準(zhǔn)確率都有下降。而這種趨勢在ChatGLM6B模型上體現(xiàn)得更加明顯，ChatGLM6B在所有教育子任務(wù)上的few-shot準(zhǔn)確率都低于zero-shot準(zhǔn)確率。我們認為這可能是由于GPT-3.5-turbo和Chat?GLM6B已經(jīng)經(jīng)過了較為充分的指令微調(diào)和與人類偏好的對齊，因此few-shot模式下的5個示例反而給模型造成了困擾。

3討論

3.1評測結(jié)果分析

與針對英文語言的MMLU相同，本研究的測試方式不需要大型訓(xùn)練集。本研究假設(shè)模型已經(jīng)通過閱讀互聯(lián)網(wǎng)上大量不同的文本獲取了必要的知識，這個過程通常稱為預(yù)訓(xùn)練。

人類主要通過閱讀書籍、聽老師講課和做練習(xí)題來學(xué)習(xí)新知識。因此，本研究提供了few-shot測試模式，并為每個任務(wù)提供調(diào)試集和測驗集。調(diào)試集用于few-shot提示，測驗集用于計算最終準(zhǔn)確率。

以表4展示的醫(yī)療領(lǐng)域為例，所有模型在諸多醫(yī)療子任務(wù)上的準(zhǔn)確率都低于60%，表現(xiàn)僅次于GPT-3.5-turbo的ChatGLM6B在諸多醫(yī)療子任務(wù)上的zeroshot準(zhǔn)確率甚至沒有超過50%。因此，未來的研究應(yīng)該特別致力于提高模型在醫(yī)療、法律等垂直領(lǐng)域任務(wù)的準(zhǔn)確性。此外，所有模型在全部任務(wù)上的表現(xiàn)都未達到優(yōu)秀水平（90%）。

目前尚不清楚簡單地增大參數(shù)量是否能在這些任務(wù)上取得提升，因為數(shù)據(jù)也可能是一個重要的瓶頸。這些大模型訓(xùn)練通常采用海量互聯(lián)網(wǎng)公開數(shù)據(jù)，數(shù)據(jù)的高效篩選以及垂直領(lǐng)域高質(zhì)量數(shù)據(jù)的標(biāo)注也非常重要。

通過觀察表1-表4中的數(shù)據(jù)，可以發(fā)現(xiàn)一些有趣的趨勢。首先，在四個主要領(lǐng)域中，GPT-3.5-turbo的zero-shot準(zhǔn)確率普遍高于其他模型，這表明更大的模型參數(shù)量可能有助于提高模型在這些任務(wù)上的性能。

然而，即使是性能最佳的GPT-3.5-turbo，其在法律領(lǐng)域的準(zhǔn)確率也只有0.239，遠低于理想水平，這突出了法律領(lǐng)域?qū)δＰ屠斫饽芰Φ奶魬?zhàn)。

此外，在教育子任務(wù)中，所有模型在物理和數(shù)學(xué)科目上的表現(xiàn)普遍較差，這可能反映出這些科目的問題對模型的推理能力提出了更高的要求。相比之下，模型在歷史和政治科目上的表現(xiàn)相對較好，可能因為這些科目更依賴于語言理解能力。

從醫(yī)療子任務(wù)的表現(xiàn)來看，大多數(shù)模型在臨床醫(yī)學(xué)和皮膚性病學(xué)上的表現(xiàn)相對較好，而在組織胚胎學(xué)和藥物分析學(xué)上表現(xiàn)較差。這可能反映了不同醫(yī)學(xué)領(lǐng)域?qū)δＰ椭R和推理能力的不同要求。

總的來說，雖然大規(guī)模預(yù)訓(xùn)練模型在多任務(wù)測試中取得了一定的成績，但它們在特定領(lǐng)域和子任務(wù)上的表現(xiàn)仍然存在很大的差異。這強調(diào)了未來研究的重點應(yīng)該是提高模型在垂直領(lǐng)域任務(wù)上的性能。

3.2模型改進建議

1）領(lǐng)域特定的預(yù)訓(xùn)練。針對在法律和醫(yī)療等特定領(lǐng)域表現(xiàn)不佳的問題，可以采用領(lǐng)域特定的預(yù)訓(xùn)練方法。通過使用與目標(biāo)領(lǐng)域相關(guān)的文本進行預(yù)訓(xùn)練，可以增強模型在該領(lǐng)域的理解能力。

2）多任務(wù)學(xué)習(xí)。考慮到模型在不同任務(wù)上的表現(xiàn)存在差異，可以采用多任務(wù)學(xué)習(xí)方法，同時訓(xùn)練模型在多個任務(wù)上進行優(yōu)化。這種方法可以幫助模型學(xué)習(xí)到跨任務(wù)的通用特征，提高其在多個領(lǐng)域的表現(xiàn)。

3）任務(wù)特定的微調(diào)。在zero-shot測試中，模型可能沒有充分利用任務(wù)的特定信息。可以在微調(diào)階段引入任務(wù)特定的信息，例如使用與任務(wù)相關(guān)的提示或示例，以幫助模型更好地理解任務(wù)要求。

4）知識融合。考慮到模型在某些科目上的表現(xiàn)較差，可以嘗試將外部知識融合到模型中。例如，對于數(shù)學(xué)和物理等科目，可以將數(shù)學(xué)公式和物理定律作為先驗知識融入模型中，以提高模型在這些科目上的推理能力。

5）模型架構(gòu)的改進。針對模型在特定任務(wù)上的局限性，可以探索新的模型架構(gòu)。例如，對于需要強推理能力的任務(wù)，可以設(shè)計能夠進行邏輯推理和關(guān)系推斷的模型架構(gòu)。

6）數(shù)據(jù)增強。為了提高模型在特定任務(wù)上的表現(xiàn)，可以采用數(shù)據(jù)增強技術(shù)，生成更多樣化的訓(xùn)練樣本。這有助于模型學(xué)習(xí)到更豐富的特征表示，提高其泛化能力。

7）細粒度評估。在評估模型性能時，可以采用更細粒度的評估方法，針對不同的任務(wù)和子任務(wù)進行單獨評估。這有助于更準(zhǔn)確地識別模型在哪些方面存在不足，從而有針對性地進行改進。

通過采用這些改進方法，可以有效提高模型在多任務(wù)測試中的表現(xiàn)，特別是在那些模型表現(xiàn)不佳的領(lǐng)域和任務(wù)上。

5總結(jié)

本研究提出了一種新的中文語言測試，覆蓋醫(yī)學(xué)、法律、心理學(xué)和教育四個主要領(lǐng)域及其多個子任務(wù)，旨在評估預(yù)訓(xùn)練的中文大型語言模型在解決跨領(lǐng)域問題的能力。通過對不同規(guī)模模型的測試發(fā)現(xiàn)，模型的參數(shù)量增加并不總是能帶來性能的提升，模型的訓(xùn)練策略和所使用的數(shù)據(jù)集的質(zhì)量對其性能有著決定性的影響。即便是在性能最佳的模型中，其在特定任務(wù)上的表現(xiàn)也未能達到理想的優(yōu)秀水平，這表明當(dāng)前的模型仍然存在明顯的局限性。

為了進一步提升模型的性能，研究者們應(yīng)該關(guān)注如何設(shè)計更有效的模型架構(gòu)，以便更準(zhǔn)確地捕捉和學(xué)習(xí)文本數(shù)據(jù)中的知識。此外，開發(fā)和標(biāo)注高質(zhì)量的數(shù)據(jù)集也至關(guān)重要，這不僅能夠提供更豐富的訓(xùn)練材料，還能夠幫助模型更好地理解和處理復(fù)雜的問題。總之，未來的工作應(yīng)該著重于探索更先進的建模技術(shù)和優(yōu)化數(shù)據(jù)處理方法，以推動中文大型語言模型在多領(lǐng)域任務(wù)中的應(yīng)用和發(fā)展。

電腦知識與技術(shù)2024年15期

電腦知識與技術(shù)的其它文章: 醫(yī)療數(shù)據(jù)挖掘場景下的數(shù)據(jù)加工處理方法研究; 基于物理信息神經(jīng)網(wǎng)絡(luò)的波動方程優(yōu)化求解方法; 基于ThinkPHP的房地產(chǎn)企業(yè)營銷物資管理系統(tǒng)的設(shè)計與實現(xiàn); 基于ThinkPHP的生物觀察小程序設(shè)計與實現(xiàn); 基于SpringBoot在線教育網(wǎng)站設(shè)計; 教學(xué)環(huán)境下學(xué)生群體人臉識別技術(shù)的研究