999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大規(guī)模多任務(wù)中文理解能力測試

2024-07-09 12:32:51曾輝
電腦知識與技術(shù) 2024年15期

曾輝

關(guān)鍵詞:中文大模型;多任務(wù)評測;zero-shot;few-shot;垂直領(lǐng)域任務(wù)

0引言

隨著ChatGPT[1]等大模型的驚艷亮相,ChatGLM[2]、MOSS[3]、文心一言、通義千問、商量等具備中文能力的大模型也相繼發(fā)布。雖然針對英文大語言模型已有較為完善的評測方式(如MMLU[4]),但目前仍缺乏針對中文大語言模型的評測方法。因此,推出一種科學(xué)的中文大模型評測方法并提供高質(zhì)量的中文評測數(shù)據(jù)集已迫在眉睫。

以Transformer[5]為架構(gòu)的中文預(yù)訓(xùn)練大模型采用大量文本語料(包括中文百科數(shù)據(jù)、海量中文電子書籍和眾多中文網(wǎng)站)進行預(yù)訓(xùn)練。然而,這種訓(xùn)練方式的模型在理解和解決諸多領(lǐng)域問題的能力尚未經(jīng)過科學(xué)、全面的評測。

由于近期發(fā)布的大語言模型大多經(jīng)過了指令微調(diào)訓(xùn)練,本測試提供了zero-shot和few-shot兩種測試方式。在few-shot模式中,模型會得到5個示例。測試題目為單項選擇和多項選擇題,每道選擇題可能有一個或多個正確答案,更類似于人類考試,難度也更大。

本次測試涵蓋醫(yī)療、法律、心理學(xué)和教育四個大類。其中,醫(yī)療類題目來自大學(xué)醫(yī)學(xué)專業(yè)考試,法律類題目來自國家統(tǒng)一法律職業(yè)資格考試,心理學(xué)題目源于心理咨詢師資格考試和心理學(xué)專業(yè)研究生入學(xué)綜合基礎(chǔ)考試,教育領(lǐng)域的題目取自全國普通高等學(xué)校統(tǒng)一招生考試。測試題目覆蓋范圍廣,專業(yè)知識點難度高,非常適合評估大模型的綜合能力。

值得一提的是,高達160億參數(shù)的MOSS模型在四大領(lǐng)域的zero-shot準(zhǔn)確率均低于26%,是評測中表現(xiàn)倒數(shù)第二的模型。而參數(shù)量至少1750億的GPT-3.5-turbo模型取得了41.3%的平均zero-shot準(zhǔn)確率(見表1)。

評測結(jié)果顯示,雖然大模型最近進展迅速,但最先進的模型仍未達到某個領(lǐng)域的專家水平。所有模型在法律領(lǐng)域任務(wù)上的準(zhǔn)確率都接近隨機準(zhǔn)確率。相關(guān)測試代碼見github.com/Felixgithub2017/MMCU。

1多任務(wù)測試

本研究開發(fā)了一個涉及多個任務(wù)的廣泛測試,包括各個領(lǐng)域知識的單選和多選題,涵蓋醫(yī)學(xué)、法學(xué)、心理學(xué)和教育學(xué)等領(lǐng)域。其中,醫(yī)療分為15個子任務(wù),教育分為8個子任務(wù)。數(shù)據(jù)集中的問題由專業(yè)人員從在線免費資源中手動收集,涵蓋醫(yī)學(xué)院考試、全國法律資格考試、心理咨詢師資格考試、心理學(xué)研究生入學(xué)基礎(chǔ)綜合考試和全國普通高校招生考試等內(nèi)容。本研究共收集了11900個問題,設(shè)計為few-shot調(diào)試集和測驗集。few-shot調(diào)試集每個主題有5個問題,共55個問題;測驗集共有11845個問題。

1.1醫(yī)療

醫(yī)學(xué)領(lǐng)域涵蓋以下學(xué)科:基礎(chǔ)醫(yī)學(xué)、藥學(xué)、護理、病理、臨床診斷、感染病、手術(shù)、人體結(jié)構(gòu)、放射學(xué)、寄生蟲病、免疫、小兒科、皮膚病與性病、胚胎學(xué)、藥物學(xué)。醫(yī)療領(lǐng)域共有2819個問題。

以下是一個醫(yī)療問題示例:

針對初次出現(xiàn)的急性腰椎間盤膨出,首選的治療方式為:

A.嚴格的床上休息,三周之后佩戴腰帶進行下床活動。

B.保持臥床,但可進行站立和坐起動作。

C.在硬膜外進行皮質(zhì)類固醇注射。

D.對髓核進行化學(xué)溶解處理。

1.2法律

法律類問題包括以下領(lǐng)域:中國特色社會主義法律體系、法學(xué)基礎(chǔ)、憲法原理、中國法制史、國際法概論、法律職業(yè)倫理與司法體系、刑法基礎(chǔ)、刑事司法程序、行政法及其訴訟程序、民事法律、知識產(chǎn)權(quán)保護、商業(yè)法規(guī)、經(jīng)濟法理論、環(huán)境與資源法、勞動法與社會保障法規(guī)、跨國私法、國際商法、民事訴訟法律、法律職業(yè)道德與司法結(jié)構(gòu)。法律領(lǐng)域共有3,695個問題。

以下是一個法律問題示例:

依據(jù)法律規(guī)定,哪種情形應(yīng)受民法調(diào)整?

A.小明要求稅務(wù)部門退還多繳的所得稅。

B.小紅丟了手機,貼出尋物啟事:“歸還者將獲得現(xiàn)金獎勵。”

C.小李向女朋友保證:“若我在北京找到工作,便帶你去美國旅游。”

D.小王作為志愿者,定期在孤兒院提供幫助。

1.3心理學(xué)

心理學(xué)問題覆蓋以下領(lǐng)域:心理學(xué)基礎(chǔ)、個性及群體心理學(xué)、成長心理學(xué)、心理健康與異常、心理咨詢基礎(chǔ)、咨詢理念、評估心理學(xué)、咨詢技巧、咨詢實踐方法。心理學(xué)領(lǐng)域共有2,001個問題。

以下是一個心理學(xué)問題示例:

將與己無關(guān)的事物視為相關(guān),這種臨床癥狀最可能見于:

A.被害型幻想

B.癡迷型幻覺

C.連接型錯覺

D.夸張型妄想

1.4教育

這部分包括語文、數(shù)學(xué)、物理、化學(xué)、政治、歷史、地理和生物,題目來自中國普通高等學(xué)校招生全國統(tǒng)一考試(中國高考)。教育領(lǐng)域共有3331個問題。

以下是一個數(shù)學(xué)問題示例:

如果一個圓錐的側(cè)面積是底面積的三倍,那么這個圓錐的側(cè)面展開成扇形時,扇形的中心角大小為()。

A.六十度

B.九十度

C.一百二十度

D.一百八十度

2實驗

2.1實驗方法

為了衡量多任務(wù)測試的性能,本研究計算了所有模型在所有任務(wù)上的zero-shot和few-shot準(zhǔn)確率。評測了Bloom系列中的bloomz_560m、bloomz_1b1、bloomz_3b和bloomz_7b1_mt;同樣評測了清華大學(xué)知識工程與數(shù)據(jù)挖掘研究組開發(fā)的ChatGLM6B[2]、復(fù)旦大學(xué)創(chuàng)建的MOSS16B[3]以及OpenAI的GPT-3.5-tur?bo[1]。

在zero-shot模式下,將題目直接輸入到模型以獲取答案并計算準(zhǔn)確率。以下是一個zero-shot提問示例:

請閱讀以下選擇題并給出正確選項,不要解釋原因。

在笛卡爾坐標(biāo)系中,點P(m-3,4-2m)不可能位于()

A.一象限

B.二象限

C.三象限

D.四象限

正確答案的序號是:

其中,粗體部分為問題的前綴和后綴,前綴告訴模型應(yīng)該怎樣給出答案,后綴引導(dǎo)模型輸出答案序號。而在few-shot模式下,先給模型提供5個問題和答案的例子,再附上問題讓模型給出答案。

2.2評測結(jié)果

1)模型的大小與其準(zhǔn)確性。表1對不同模型的zero-shot準(zhǔn)確率進行了比較。本研究發(fā)現(xiàn)GPT-3.5-turbo在四個領(lǐng)域都遙遙領(lǐng)先。還發(fā)現(xiàn),MOSS16B模型雖然有160億參數(shù),卻具有接近隨機的準(zhǔn)確率(大約25%)。相比之下,參數(shù)量更低的Bloom家族的bloomz_560m、bloomz_1b1、bloomz_3b、bloomz_7b1_mt以及ChatGLM6B的zero-shot準(zhǔn)確率都要更高。

盡管bloomz_560m模型的參數(shù)量最小,它的表現(xiàn)卻超越了參數(shù)量更大的bloomz_1b1模型和MOSS16B模型。這些結(jié)果表明,雖然模型參數(shù)量是實現(xiàn)強大性能的關(guān)鍵因素,但訓(xùn)練的方式和數(shù)據(jù)也非常重要。

turbo在大多數(shù)子任務(wù)上都取得了相對最高準(zhǔn)確率,緊隨其后的是ChatGLM6B,但這兩個模型的性能都不均衡。表3顯示了所有模型在教育子任務(wù)上的準(zhǔn)確性。它表明這兩個模型在所有任務(wù)上的表現(xiàn)都低于60%,GPT-3.5-turbo的準(zhǔn)確率從生物的59.9%到語文的31.0%不等,而ChatGLM6B的準(zhǔn)確率從歷史的44.8%到物理的25.6%不等。

總的來說,所有模型在物理任務(wù)上的表現(xiàn)均不佳。表2顯示,計算量大的數(shù)學(xué)、物理科目的準(zhǔn)確率往往較低。對于GPT-3.5-turbo而言,準(zhǔn)確率最低的任務(wù)依次是語文、物理、數(shù)學(xué)科目。部分原因可能是GPT-3.5-turbo的中文訓(xùn)練數(shù)據(jù)不足,導(dǎo)致中文語文科目表現(xiàn)不佳,并且與解決程序性問題相比,模型更容易解答陳述性問題。

測試還表明,所有模型在few-shot模式下都有不同程度的性能下降(見表3)。例如,與zero-shot準(zhǔn)確率相比,GPT-3.5-turbo在語文、化學(xué)、政治和地理子任務(wù)上的few-shot準(zhǔn)確率都有下降。而這種趨勢在ChatGLM6B模型上體現(xiàn)得更加明顯,ChatGLM6B在所有教育子任務(wù)上的few-shot準(zhǔn)確率都低于zero-shot準(zhǔn)確率。我們認為這可能是由于GPT-3.5-turbo和Chat?GLM6B已經(jīng)經(jīng)過了較為充分的指令微調(diào)和與人類偏好的對齊,因此few-shot模式下的5個示例反而給模型造成了困擾。

3討論

3.1評測結(jié)果分析

與針對英文語言的MMLU相同,本研究的測試方式不需要大型訓(xùn)練集。本研究假設(shè)模型已經(jīng)通過閱讀互聯(lián)網(wǎng)上大量不同的文本獲取了必要的知識,這個過程通常稱為預(yù)訓(xùn)練。

人類主要通過閱讀書籍、聽老師講課和做練習(xí)題來學(xué)習(xí)新知識。因此,本研究提供了few-shot測試模式,并為每個任務(wù)提供調(diào)試集和測驗集。調(diào)試集用于few-shot提示,測驗集用于計算最終準(zhǔn)確率。

以表4展示的醫(yī)療領(lǐng)域為例,所有模型在諸多醫(yī)療子任務(wù)上的準(zhǔn)確率都低于60%,表現(xiàn)僅次于GPT-3.5-turbo的ChatGLM6B在諸多醫(yī)療子任務(wù)上的zeroshot準(zhǔn)確率甚至沒有超過50%。因此,未來的研究應(yīng)該特別致力于提高模型在醫(yī)療、法律等垂直領(lǐng)域任務(wù)的準(zhǔn)確性。此外,所有模型在全部任務(wù)上的表現(xiàn)都未達到優(yōu)秀水平(90%)。

目前尚不清楚簡單地增大參數(shù)量是否能在這些任務(wù)上取得提升,因為數(shù)據(jù)也可能是一個重要的瓶頸。這些大模型訓(xùn)練通常采用海量互聯(lián)網(wǎng)公開數(shù)據(jù),數(shù)據(jù)的高效篩選以及垂直領(lǐng)域高質(zhì)量數(shù)據(jù)的標(biāo)注也非常重要。

通過觀察表1-表4中的數(shù)據(jù),可以發(fā)現(xiàn)一些有趣的趨勢。首先,在四個主要領(lǐng)域中,GPT-3.5-turbo的zero-shot準(zhǔn)確率普遍高于其他模型,這表明更大的模型參數(shù)量可能有助于提高模型在這些任務(wù)上的性能。

然而,即使是性能最佳的GPT-3.5-turbo,其在法律領(lǐng)域的準(zhǔn)確率也只有0.239,遠低于理想水平,這突出了法律領(lǐng)域?qū)δP屠斫饽芰Φ奶魬?zhàn)。

此外,在教育子任務(wù)中,所有模型在物理和數(shù)學(xué)科目上的表現(xiàn)普遍較差,這可能反映出這些科目的問題對模型的推理能力提出了更高的要求。相比之下,模型在歷史和政治科目上的表現(xiàn)相對較好,可能因為這些科目更依賴于語言理解能力。

從醫(yī)療子任務(wù)的表現(xiàn)來看,大多數(shù)模型在臨床醫(yī)學(xué)和皮膚性病學(xué)上的表現(xiàn)相對較好,而在組織胚胎學(xué)和藥物分析學(xué)上表現(xiàn)較差。這可能反映了不同醫(yī)學(xué)領(lǐng)域?qū)δP椭R和推理能力的不同要求。

總的來說,雖然大規(guī)模預(yù)訓(xùn)練模型在多任務(wù)測試中取得了一定的成績,但它們在特定領(lǐng)域和子任務(wù)上的表現(xiàn)仍然存在很大的差異。這強調(diào)了未來研究的重點應(yīng)該是提高模型在垂直領(lǐng)域任務(wù)上的性能。

3.2模型改進建議

1)領(lǐng)域特定的預(yù)訓(xùn)練。針對在法律和醫(yī)療等特定領(lǐng)域表現(xiàn)不佳的問題,可以采用領(lǐng)域特定的預(yù)訓(xùn)練方法。通過使用與目標(biāo)領(lǐng)域相關(guān)的文本進行預(yù)訓(xùn)練,可以增強模型在該領(lǐng)域的理解能力。

2)多任務(wù)學(xué)習(xí)。考慮到模型在不同任務(wù)上的表現(xiàn)存在差異,可以采用多任務(wù)學(xué)習(xí)方法,同時訓(xùn)練模型在多個任務(wù)上進行優(yōu)化。這種方法可以幫助模型學(xué)習(xí)到跨任務(wù)的通用特征,提高其在多個領(lǐng)域的表現(xiàn)。

3)任務(wù)特定的微調(diào)。在zero-shot測試中,模型可能沒有充分利用任務(wù)的特定信息。可以在微調(diào)階段引入任務(wù)特定的信息,例如使用與任務(wù)相關(guān)的提示或示例,以幫助模型更好地理解任務(wù)要求。

4)知識融合。考慮到模型在某些科目上的表現(xiàn)較差,可以嘗試將外部知識融合到模型中。例如,對于數(shù)學(xué)和物理等科目,可以將數(shù)學(xué)公式和物理定律作為先驗知識融入模型中,以提高模型在這些科目上的推理能力。

5)模型架構(gòu)的改進。針對模型在特定任務(wù)上的局限性,可以探索新的模型架構(gòu)。例如,對于需要強推理能力的任務(wù),可以設(shè)計能夠進行邏輯推理和關(guān)系推斷的模型架構(gòu)。

6)數(shù)據(jù)增強。為了提高模型在特定任務(wù)上的表現(xiàn),可以采用數(shù)據(jù)增強技術(shù),生成更多樣化的訓(xùn)練樣本。這有助于模型學(xué)習(xí)到更豐富的特征表示,提高其泛化能力。

7)細粒度評估。在評估模型性能時,可以采用更細粒度的評估方法,針對不同的任務(wù)和子任務(wù)進行單獨評估。這有助于更準(zhǔn)確地識別模型在哪些方面存在不足,從而有針對性地進行改進。

通過采用這些改進方法,可以有效提高模型在多任務(wù)測試中的表現(xiàn),特別是在那些模型表現(xiàn)不佳的領(lǐng)域和任務(wù)上。

5總結(jié)

本研究提出了一種新的中文語言測試,覆蓋醫(yī)學(xué)、法律、心理學(xué)和教育四個主要領(lǐng)域及其多個子任務(wù),旨在評估預(yù)訓(xùn)練的中文大型語言模型在解決跨領(lǐng)域問題的能力。通過對不同規(guī)模模型的測試發(fā)現(xiàn),模型的參數(shù)量增加并不總是能帶來性能的提升,模型的訓(xùn)練策略和所使用的數(shù)據(jù)集的質(zhì)量對其性能有著決定性的影響。即便是在性能最佳的模型中,其在特定任務(wù)上的表現(xiàn)也未能達到理想的優(yōu)秀水平,這表明當(dāng)前的模型仍然存在明顯的局限性。

為了進一步提升模型的性能,研究者們應(yīng)該關(guān)注如何設(shè)計更有效的模型架構(gòu),以便更準(zhǔn)確地捕捉和學(xué)習(xí)文本數(shù)據(jù)中的知識。此外,開發(fā)和標(biāo)注高質(zhì)量的數(shù)據(jù)集也至關(guān)重要,這不僅能夠提供更豐富的訓(xùn)練材料,還能夠幫助模型更好地理解和處理復(fù)雜的問題。總之,未來的工作應(yīng)該著重于探索更先進的建模技術(shù)和優(yōu)化數(shù)據(jù)處理方法,以推動中文大型語言模型在多領(lǐng)域任務(wù)中的應(yīng)用和發(fā)展。

主站蜘蛛池模板: 免费在线不卡视频| 人妻精品久久无码区| 国产精品成人免费视频99| 亚洲精品老司机| 好紧好深好大乳无码中文字幕| 欧美国产中文| 欧美α片免费观看| 免费a级毛片18以上观看精品| 88av在线看| 国产成人综合网| 国产成人综合久久精品下载| 永久毛片在线播| 久久性妇女精品免费| 美女视频黄频a免费高清不卡| 真人免费一级毛片一区二区| 九九免费观看全部免费视频| 无码精品国产VA在线观看DVD | 欧美人与动牲交a欧美精品| 成年A级毛片| 波多野结衣视频网站| 久久久久久尹人网香蕉 | 伊人五月丁香综合AⅤ| 国产精品久久久久久搜索| 白丝美女办公室高潮喷水视频| 免费人成网站在线观看欧美| 超级碰免费视频91| 国产在线观看91精品亚瑟| 久久久受www免费人成| 五月天在线网站| 97视频精品全国在线观看| 久久精品嫩草研究院| 免费国产高清视频| 亚洲国产成人麻豆精品| 成人午夜福利视频| 国产一区二区三区精品久久呦| 91美女视频在线观看| AV网站中文| 国产99视频在线| 国产精品成人第一区| 久久精品娱乐亚洲领先| 国产在线一区视频| 国产精品久久久免费视频| 日本亚洲成高清一区二区三区| 日本欧美中文字幕精品亚洲| 欧美第二区| 欧美日韩在线国产| 高清免费毛片| a亚洲天堂| 国产欧美精品午夜在线播放| 在线观看无码a∨| 成人国产精品网站在线看| 午夜在线不卡| 精品99在线观看| 色屁屁一区二区三区视频国产| 国产成人精品优优av| 国产成人高清精品免费5388| 免费一级全黄少妇性色生活片| jizz在线观看| 国产欧美日本在线观看| 99精品免费在线| 国内丰满少妇猛烈精品播| 国产精品吹潮在线观看中文| 久久国产精品无码hdav| 亚洲欧美日韩另类在线一| 国产成人久视频免费| av一区二区人妻无码| 狠狠综合久久久久综| 精品夜恋影院亚洲欧洲| 激情乱人伦| 在线99视频| 99久久婷婷国产综合精| 欧美午夜视频在线| 亚洲无线国产观看| 久久香蕉国产线| 中国特黄美女一级视频| 四虎影院国产| 亚洲天堂网视频| 国产成人福利在线| 免费国产黄线在线观看| 久久久黄色片| 久久精品国产电影| 国产在线观看第二页|