大語(yǔ)言模型在信息化中的應(yīng)用研究

2023-11-03 02:58:28王玉平

中國(guó)教育網(wǎng)絡(luò) 2023年6期

文/王玉平

隨著ChatGPT 的出現(xiàn)，自然語(yǔ)言處理技術(shù)的發(fā)展再次引起業(yè)界的注意。而ChatGPT 模型1750 億參數(shù)的規(guī)格，使得業(yè)界大力訓(xùn)練超大規(guī)模參數(shù)的模型，也就是基于大規(guī)模參數(shù)的語(yǔ)言模型。隨后出現(xiàn)了大量大語(yǔ)言模型，如Meta AI 的LLaMa 和基于該模型的Alpaca、Vicuna，國(guó)內(nèi)復(fù)旦大學(xué)團(tuán)隊(duì)推出了MOSS 模型，清華大學(xué)團(tuán)隊(duì)推出了ChatGLM 模型。

大語(yǔ)言模型的能力

大語(yǔ)言模型之所以再次引起注意，是因?yàn)槠淇梢园凑杖祟?lèi)語(yǔ)言語(yǔ)法生成文本，而且文本與問(wèn)題相關(guān)。那么大語(yǔ)言模型除了人工智能領(lǐng)域的Transformer、參數(shù)等技術(shù)屬性和規(guī)格屬性之外，還具有什么特征呢？

根據(jù)現(xiàn)有大語(yǔ)言模型的表現(xiàn)，以及NLP 領(lǐng)域的研究，我們認(rèn)為大語(yǔ)言模型主要包含了知識(shí)內(nèi)容和推理能力。根據(jù)神經(jīng)網(wǎng)絡(luò)的技術(shù)架構(gòu)可以推斷出大語(yǔ)言模型存儲(chǔ)的內(nèi)容主要是權(quán)重，知識(shí)內(nèi)容主要是通過(guò)大規(guī)模語(yǔ)料訓(xùn)練使得大語(yǔ)言模型在已知文本的情況下可以預(yù)測(cè)到在人類(lèi)語(yǔ)言中與已知文本最相關(guān)的下一個(gè)字，從而在形式上讓人感覺(jué)到大模型存儲(chǔ)了知識(shí)。而推理能力則是因?yàn)閰?shù)超大規(guī)模后涌現(xiàn)出來(lái)的一種能力，其科學(xué)機(jī)理仍在研究中，但是從表現(xiàn)來(lái)看，大語(yǔ)言模型已經(jīng)具備鏈?zhǔn)剿伎嫉哪芰ΑＳ绕涫峭ㄟ^(guò)提示（Prompt）告訴大語(yǔ)言模型如何推理問(wèn)題，使其更有效、更正確地按步驟推理問(wèn)題。

大語(yǔ)言模型應(yīng)用場(chǎng)景

高等教育信息化主要是指發(fā)揮信息化在教學(xué)、科研、管理和生活中的作用，提高四個(gè)領(lǐng)域的效能。根據(jù)前幾年的探索，我們把大語(yǔ)言模型定位在新型的人機(jī)交互接口、副駕駛（Copilot）或者助手。這種定位主要描述了大語(yǔ)言模型不能取代人類(lèi)，只能在人類(lèi)的指導(dǎo)下，幫助人類(lèi)去完成特定工作。

在自然語(yǔ)言處理分為自然語(yǔ)言理解和自然語(yǔ)言生成的基礎(chǔ)上，針對(duì)高校育人為本的任務(wù)，我們把大語(yǔ)言模型適用的場(chǎng)景分為三類(lèi)：內(nèi)容創(chuàng)作助手、內(nèi)容消費(fèi)助手和任務(wù)過(guò)程助手。內(nèi)容創(chuàng)作助手主要是指根據(jù)師生指令從無(wú)到有地生成內(nèi)容，譬如撰寫(xiě)郵件、撰寫(xiě)報(bào)告等。內(nèi)容消費(fèi)助手則是指基于現(xiàn)有知識(shí)庫(kù)回答師生的問(wèn)題，譬如智能客服、新型業(yè)務(wù)入口。任務(wù)過(guò)程助手則是指人工智能根據(jù)問(wèn)題自動(dòng)思考解決問(wèn)題的子任務(wù)并按序自動(dòng)執(zhí)行這些子任務(wù)，最終解決問(wèn)題，譬如Auto GPT。

根據(jù)以上分類(lèi)，我們首先試驗(yàn)了上海海事大學(xué)官方網(wǎng)站上內(nèi)容的問(wèn)答交互方式。在該試驗(yàn)下，訪客不再通過(guò)搜索引擎訪問(wèn)，而是由人工智能自行檢索相關(guān)內(nèi)容并給出答案。另一個(gè)試驗(yàn)是在學(xué)校門(mén)戶(hù)上集成了規(guī)章制度、通知公告、新聞動(dòng)態(tài)的問(wèn)答系統(tǒng)，以及網(wǎng)上辦事中心的業(yè)務(wù)檢索系統(tǒng)。下一步，我們將探索根據(jù)語(yǔ)音輸入結(jié)合數(shù)據(jù)智能生成業(yè)務(wù)申請(qǐng)表單，而大語(yǔ)言模型在教學(xué)、科研中的作業(yè)則因?qū)W科特點(diǎn)和研究?jī)?nèi)容的不同差異較大，只能有針對(duì)性地引入大語(yǔ)言模型。

大語(yǔ)言模型的微調(diào)

目前，開(kāi)源大語(yǔ)言模型訓(xùn)練的語(yǔ)料多是英文語(yǔ)言，無(wú)法直接適用于國(guó)內(nèi)中文環(huán)境。此外，開(kāi)源模型的語(yǔ)料多是網(wǎng)上公開(kāi)的內(nèi)容，內(nèi)容的準(zhǔn)確性、專(zhuān)業(yè)性都有待考量。因此，開(kāi)源模型無(wú)法直接在高校落地應(yīng)用，必須對(duì)其進(jìn)行定制微調(diào)。

大語(yǔ)言模型定制的方法主要有精校技術(shù)、參數(shù)高效微調(diào)（PEFT）技術(shù)和提示微調(diào)技術(shù)。自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)模型基本采取了預(yù)訓(xùn)練和精校兩階段的策略。這種策略主要是將重復(fù)的、高成本的訓(xùn)練過(guò)程獨(dú)立出來(lái)，形成階段性的預(yù)訓(xùn)練模型，之后再根據(jù)不同應(yīng)用場(chǎng)景進(jìn)行適配性的精校，從而達(dá)到高效復(fù)用的目標(biāo)。這種策略吸引了大量研究人員投入自然語(yǔ)言處理領(lǐng)域的研發(fā)，也推動(dòng)了自然語(yǔ)言處理技術(shù)再應(yīng)用。

精校技術(shù)在中小模型的模型微調(diào)中是適用的，但是對(duì)于大規(guī)模語(yǔ)言模型則因?yàn)閰?shù)規(guī)模非常大，精校的成本非常高，讓人卻步。而PEFT 技術(shù)的出現(xiàn)則比較好地解決了這個(gè)問(wèn)題，其在盡可能減少所需參數(shù)和計(jì)算資源的情況下，實(shí)現(xiàn)對(duì)預(yù)訓(xùn)練語(yǔ)言模型的有效微調(diào)。這種技術(shù)特別適用于對(duì)英文大語(yǔ)言模型加入中文語(yǔ)料的微調(diào)，使之同樣理解中文語(yǔ)義。目前常見(jiàn)的Alpaca、Vicuna 模型均是通過(guò)PEFT 技術(shù)進(jìn)行微調(diào)所得。提示微調(diào)則是使用大語(yǔ)言模型的能力，重點(diǎn)通過(guò)調(diào)整輸入提示，求得問(wèn)題的答案，其對(duì)模型并不進(jìn)行改造。

常見(jiàn)大語(yǔ)言模型

除了閉源的以服務(wù)方式運(yùn)行的ChatGPT 大語(yǔ)言模型外，Meta AI 發(fā)布了開(kāi)源模型LLaMa，斯坦福大學(xué)團(tuán)隊(duì)在此基礎(chǔ)上通過(guò)微調(diào)技術(shù)生成了Alpaca 模型，之后多家機(jī)構(gòu)聯(lián)手發(fā)布了同樣基于LLaMa 的Vicuna。130億參數(shù)的Vicuna 模型能力接近于OpenAI 的GPT-4 模型。以上開(kāi)源模型主要適配英文，對(duì)中文的效果不理想，近期出現(xiàn)了對(duì)以上開(kāi)源模型的中文微調(diào)模型。而B(niǎo)LOOMChat 多語(yǔ)言大模型則直接支持了中文，但是其模型文件大小超過(guò)100GB。清華大學(xué)團(tuán)隊(duì)的ChatGLM和復(fù)旦大學(xué)團(tuán)隊(duì)的MOSS 模型也是可用的模型之一。

除了開(kāi)源大語(yǔ)言模型，國(guó)內(nèi)還出現(xiàn)了云服務(wù)方式提供的大語(yǔ)言模型，如百度的文心一言、科大訊飛的星火和阿里的通義千問(wèn)等模型。云服務(wù)方式的大語(yǔ)言模型需要用戶(hù)將文本傳給云端進(jìn)行處理，部分用戶(hù)不一定適用這種模式，可能更喜歡本地化部署。

本地化部署大語(yǔ)言模型

大多數(shù)高校使用大語(yǔ)言模型主要是通過(guò)提示微調(diào)的方式，而非通過(guò)PEFT 技術(shù)對(duì)模型進(jìn)行微調(diào)。提示微調(diào)的方式側(cè)重于應(yīng)用，恰好符合了高校教育信息化的特點(diǎn)，也是最早可行落地的方案。圖1 是通過(guò)提示微調(diào)使用大語(yǔ)言模型的流程。

該流程主要分為四個(gè)步驟：第一步，用戶(hù)對(duì)前端代理提出問(wèn)題；第二步，代理提交問(wèn)題給向量數(shù)據(jù)庫(kù)，獲得相關(guān)文本片段；第三步，代理將問(wèn)題和文本片段提交給大語(yǔ)言模型，大語(yǔ)言模型作閱讀理解，返回問(wèn)題答案；第四步，代理將答案反饋給用戶(hù)。

通過(guò)以上步驟，可以看出本地化使用大語(yǔ)言模型的核心點(diǎn)在于查找問(wèn)題相關(guān)的文本片段和大語(yǔ)言模型作閱讀理解的能力。

大語(yǔ)言模型應(yīng)用試驗(yàn)

為了能夠選擇足夠好的解決方案，我們對(duì)查找問(wèn)題相關(guān)的文本片段和閱讀理解能力進(jìn)行了實(shí)驗(yàn)。我們節(jié)選了學(xué)校主頁(yè)上的學(xué)校介紹、網(wǎng)上辦事中心的服務(wù)指南、新聞，作為知識(shí)庫(kù)，并整理了9 個(gè)問(wèn)題，針對(duì)這9 個(gè)問(wèn)題評(píng)估詞向量模型、向量數(shù)據(jù)庫(kù)和大語(yǔ)言模型的優(yōu)劣。

1.詞向量模型

據(jù)表1 可知，OpenAI 的詞向量模型最佳，其次是chinese-roberta-wwm-ext-large，該模型是與GPT 同期出現(xiàn)的基于Transformer 技術(shù)的BERT 模型，擅長(zhǎng)閱讀理解，故而其語(yǔ)義相關(guān)性的能力在開(kāi)源模型中相對(duì)較強(qiáng)。

表1 詞向量模型測(cè)試結(jié)果

2.向量數(shù)據(jù)庫(kù)

向量數(shù)據(jù)庫(kù)有多種產(chǎn)品，如提供云服務(wù)的Pinecone，開(kāi)源的Chroma。經(jīng)過(guò)以上9 個(gè)問(wèn)題的測(cè)試，結(jié)果都是100%命中，所以在此不予以列表展示。

3.大語(yǔ)言模型

人工挑選出針對(duì)9 個(gè)問(wèn)題的文本，將問(wèn)題和文本提供給大語(yǔ)言模型去理解并給出答案。同時(shí)，為了驗(yàn)證提示微調(diào)的技術(shù)，同一個(gè)文本和問(wèn)題分別提供有提示和無(wú)提示兩種方式實(shí)驗(yàn)。

據(jù)表2 可知，OpenAI（GPT-3.5-Turbo）模型是最佳模型，在沒(méi)有提示的情況下，所有問(wèn)題均給出了較為通順的答案。其次是中文微調(diào)過(guò)的Alpaca 7B 模型，9 個(gè)問(wèn)題中僅錯(cuò)了1 個(gè)。

目前，大語(yǔ)言模型依然在快速進(jìn)化中，但是針對(duì)中文的詞向量模型和大語(yǔ)言模型還不夠完美，仍需要進(jìn)一步優(yōu)化。高校在信息化過(guò)程中，可以按照新型人機(jī)交互接口的方式去探索大語(yǔ)言模型的應(yīng)用方式，挖掘更多的應(yīng)用場(chǎng)景。對(duì)于企業(yè)，則可以探索利用大語(yǔ)言模型助力教學(xué)過(guò)程的應(yīng)用場(chǎng)景。