999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大語(yǔ)言模型在信息化中的應(yīng)用研究

2023-11-03 02:58:28王玉平
中國(guó)教育網(wǎng)絡(luò) 2023年6期
關(guān)鍵詞:文本內(nèi)容語(yǔ)言

文/王玉平

隨著ChatGPT 的出現(xiàn),自然語(yǔ)言處理技術(shù)的發(fā)展再次引起業(yè)界的注意。而ChatGPT 模型1750 億參數(shù)的規(guī)格,使得業(yè)界大力訓(xùn)練超大規(guī)模參數(shù)的模型,也就是基于大規(guī)模參數(shù)的語(yǔ)言模型。隨后出現(xiàn)了大量大語(yǔ)言模型,如Meta AI 的LLaMa 和基于該模型的Alpaca、Vicuna,國(guó)內(nèi)復(fù)旦大學(xué)團(tuán)隊(duì)推出了MOSS 模型,清華大學(xué)團(tuán)隊(duì)推出了ChatGLM 模型。

大語(yǔ)言模型的能力

大語(yǔ)言模型之所以再次引起注意,是因?yàn)槠淇梢园凑杖祟?lèi)語(yǔ)言語(yǔ)法生成文本,而且文本與問(wèn)題相關(guān)。那么大語(yǔ)言模型除了人工智能領(lǐng)域的Transformer、參數(shù)等技術(shù)屬性和規(guī)格屬性之外,還具有什么特征呢?

根據(jù)現(xiàn)有大語(yǔ)言模型的表現(xiàn),以及NLP 領(lǐng)域的研究,我們認(rèn)為大語(yǔ)言模型主要包含了知識(shí)內(nèi)容和推理能力。根據(jù)神經(jīng)網(wǎng)絡(luò)的技術(shù)架構(gòu)可以推斷出大語(yǔ)言模型存儲(chǔ)的內(nèi)容主要是權(quán)重,知識(shí)內(nèi)容主要是通過(guò)大規(guī)模語(yǔ)料訓(xùn)練使得大語(yǔ)言模型在已知文本的情況下可以預(yù)測(cè)到在人類(lèi)語(yǔ)言中與已知文本最相關(guān)的下一個(gè)字,從而在形式上讓人感覺(jué)到大模型存儲(chǔ)了知識(shí)。而推理能力則是因?yàn)閰?shù)超大規(guī)模后涌現(xiàn)出來(lái)的一種能力,其科學(xué)機(jī)理仍在研究中,但是從表現(xiàn)來(lái)看,大語(yǔ)言模型已經(jīng)具備鏈?zhǔn)剿伎嫉哪芰ΑS绕涫峭ㄟ^(guò)提示(Prompt)告訴大語(yǔ)言模型如何推理問(wèn)題,使其更有效、更正確地按步驟推理問(wèn)題。

大語(yǔ)言模型應(yīng)用場(chǎng)景

高等教育信息化主要是指發(fā)揮信息化在教學(xué)、科研、管理和生活中的作用,提高四個(gè)領(lǐng)域的效能。根據(jù)前幾年的探索,我們把大語(yǔ)言模型定位在新型的人機(jī)交互接口、副駕駛(Copilot)或者助手。這種定位主要描述了大語(yǔ)言模型不能取代人類(lèi),只能在人類(lèi)的指導(dǎo)下,幫助人類(lèi)去完成特定工作。

在自然語(yǔ)言處理分為自然語(yǔ)言理解和自然語(yǔ)言生成的基礎(chǔ)上,針對(duì)高校育人為本的任務(wù),我們把大語(yǔ)言模型適用的場(chǎng)景分為三類(lèi):內(nèi)容創(chuàng)作助手、內(nèi)容消費(fèi)助手和任務(wù)過(guò)程助手。內(nèi)容創(chuàng)作助手主要是指根據(jù)師生指令從無(wú)到有地生成內(nèi)容,譬如撰寫(xiě)郵件、撰寫(xiě)報(bào)告等。內(nèi)容消費(fèi)助手則是指基于現(xiàn)有知識(shí)庫(kù)回答師生的問(wèn)題,譬如智能客服、新型業(yè)務(wù)入口。任務(wù)過(guò)程助手則是指人工智能根據(jù)問(wèn)題自動(dòng)思考解決問(wèn)題的子任務(wù)并按序自動(dòng)執(zhí)行這些子任務(wù),最終解決問(wèn)題,譬如Auto GPT。

根據(jù)以上分類(lèi),我們首先試驗(yàn)了上海海事大學(xué)官方網(wǎng)站上內(nèi)容的問(wèn)答交互方式。在該試驗(yàn)下,訪客不再通過(guò)搜索引擎訪問(wèn),而是由人工智能自行檢索相關(guān)內(nèi)容并給出答案。另一個(gè)試驗(yàn)是在學(xué)校門(mén)戶(hù)上集成了規(guī)章制度、通知公告、新聞動(dòng)態(tài)的問(wèn)答系統(tǒng),以及網(wǎng)上辦事中心的業(yè)務(wù)檢索系統(tǒng)。下一步,我們將探索根據(jù)語(yǔ)音輸入結(jié)合數(shù)據(jù)智能生成業(yè)務(wù)申請(qǐng)表單,而大語(yǔ)言模型在教學(xué)、科研中的作業(yè)則因?qū)W科特點(diǎn)和研究?jī)?nèi)容的不同差異較大,只能有針對(duì)性地引入大語(yǔ)言模型。

大語(yǔ)言模型的微調(diào)

目前,開(kāi)源大語(yǔ)言模型訓(xùn)練的語(yǔ)料多是英文語(yǔ)言,無(wú)法直接適用于國(guó)內(nèi)中文環(huán)境。此外,開(kāi)源模型的語(yǔ)料多是網(wǎng)上公開(kāi)的內(nèi)容,內(nèi)容的準(zhǔn)確性、專(zhuān)業(yè)性都有待考量。因此,開(kāi)源模型無(wú)法直接在高校落地應(yīng)用,必須對(duì)其進(jìn)行定制微調(diào)。

大語(yǔ)言模型定制的方法主要有精校技術(shù)、參數(shù)高效微調(diào)(PEFT)技術(shù)和提示微調(diào)技術(shù)。自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)模型基本采取了預(yù)訓(xùn)練和精校兩階段的策略。這種策略主要是將重復(fù)的、高成本的訓(xùn)練過(guò)程獨(dú)立出來(lái),形成階段性的預(yù)訓(xùn)練模型,之后再根據(jù)不同應(yīng)用場(chǎng)景進(jìn)行適配性的精校,從而達(dá)到高效復(fù)用的目標(biāo)。這種策略吸引了大量研究人員投入自然語(yǔ)言處理領(lǐng)域的研發(fā),也推動(dòng)了自然語(yǔ)言處理技術(shù)再應(yīng)用。

精校技術(shù)在中小模型的模型微調(diào)中是適用的,但是對(duì)于大規(guī)模語(yǔ)言模型則因?yàn)閰?shù)規(guī)模非常大,精校的成本非常高,讓人卻步。而PEFT 技術(shù)的出現(xiàn)則比較好地解決了這個(gè)問(wèn)題,其在盡可能減少所需參數(shù)和計(jì)算資源的情況下,實(shí)現(xiàn)對(duì)預(yù)訓(xùn)練語(yǔ)言模型的有效微調(diào)。這種技術(shù)特別適用于對(duì)英文大語(yǔ)言模型加入中文語(yǔ)料的微調(diào),使之同樣理解中文語(yǔ)義。目前常見(jiàn)的Alpaca、Vicuna 模型均是通過(guò)PEFT 技術(shù)進(jìn)行微調(diào)所得。提示微調(diào)則是使用大語(yǔ)言模型的能力,重點(diǎn)通過(guò)調(diào)整輸入提示,求得問(wèn)題的答案,其對(duì)模型并不進(jìn)行改造。

常見(jiàn)大語(yǔ)言模型

除了閉源的以服務(wù)方式運(yùn)行的ChatGPT 大語(yǔ)言模型外,Meta AI 發(fā)布了開(kāi)源模型LLaMa,斯坦福大學(xué)團(tuán)隊(duì)在此基礎(chǔ)上通過(guò)微調(diào)技術(shù)生成了Alpaca 模型,之后多家機(jī)構(gòu)聯(lián)手發(fā)布了同樣基于LLaMa 的Vicuna。130億參數(shù)的Vicuna 模型能力接近于OpenAI 的GPT-4 模型。以上開(kāi)源模型主要適配英文,對(duì)中文的效果不理想,近期出現(xiàn)了對(duì)以上開(kāi)源模型的中文微調(diào)模型。而B(niǎo)LOOMChat 多語(yǔ)言大模型則直接支持了中文,但是其模型文件大小超過(guò)100GB。清華大學(xué)團(tuán)隊(duì)的ChatGLM和復(fù)旦大學(xué)團(tuán)隊(duì)的MOSS 模型也是可用的模型之一。

除了開(kāi)源大語(yǔ)言模型,國(guó)內(nèi)還出現(xiàn)了云服務(wù)方式提供的大語(yǔ)言模型,如百度的文心一言、科大訊飛的星火和阿里的通義千問(wèn)等模型。云服務(wù)方式的大語(yǔ)言模型需要用戶(hù)將文本傳給云端進(jìn)行處理,部分用戶(hù)不一定適用這種模式,可能更喜歡本地化部署。

本地化部署大語(yǔ)言模型

大多數(shù)高校使用大語(yǔ)言模型主要是通過(guò)提示微調(diào)的方式,而非通過(guò)PEFT 技術(shù)對(duì)模型進(jìn)行微調(diào)。提示微調(diào)的方式側(cè)重于應(yīng)用,恰好符合了高校教育信息化的特點(diǎn),也是最早可行落地的方案。圖1 是通過(guò)提示微調(diào)使用大語(yǔ)言模型的流程。

該流程主要分為四個(gè)步驟:第一步,用戶(hù)對(duì)前端代理提出問(wèn)題;第二步,代理提交問(wèn)題給向量數(shù)據(jù)庫(kù),獲得相關(guān)文本片段;第三步,代理將問(wèn)題和文本片段提交給大語(yǔ)言模型,大語(yǔ)言模型作閱讀理解,返回問(wèn)題答案;第四步,代理將答案反饋給用戶(hù)。

通過(guò)以上步驟,可以看出本地化使用大語(yǔ)言模型的核心點(diǎn)在于查找問(wèn)題相關(guān)的文本片段和大語(yǔ)言模型作閱讀理解的能力。

大語(yǔ)言模型應(yīng)用試驗(yàn)

為了能夠選擇足夠好的解決方案,我們對(duì)查找問(wèn)題相關(guān)的文本片段和閱讀理解能力進(jìn)行了實(shí)驗(yàn)。我們節(jié)選了學(xué)校主頁(yè)上的學(xué)校介紹、網(wǎng)上辦事中心的服務(wù)指南、新聞,作為知識(shí)庫(kù),并整理了9 個(gè)問(wèn)題,針對(duì)這9 個(gè)問(wèn)題評(píng)估詞向量模型、向量數(shù)據(jù)庫(kù)和大語(yǔ)言模型的優(yōu)劣。

1.詞向量模型

據(jù)表1 可知,OpenAI 的詞向量模型最佳,其次是chinese-roberta-wwm-ext-large,該模型是與GPT 同期出現(xiàn)的基于Transformer 技術(shù)的BERT 模型,擅長(zhǎng)閱讀理解,故而其語(yǔ)義相關(guān)性的能力在開(kāi)源模型中相對(duì)較強(qiáng)。

表1 詞向量模型測(cè)試結(jié)果

2.向量數(shù)據(jù)庫(kù)

向量數(shù)據(jù)庫(kù)有多種產(chǎn)品,如提供云服務(wù)的Pinecone,開(kāi)源的Chroma。經(jīng)過(guò)以上9 個(gè)問(wèn)題的測(cè)試,結(jié)果都是100%命中,所以在此不予以列表展示。

3.大語(yǔ)言模型

人工挑選出針對(duì)9 個(gè)問(wèn)題的文本,將問(wèn)題和文本提供給大語(yǔ)言模型去理解并給出答案。同時(shí),為了驗(yàn)證提示微調(diào)的技術(shù),同一個(gè)文本和問(wèn)題分別提供有提示和無(wú)提示兩種方式實(shí)驗(yàn)。

據(jù)表2 可知,OpenAI(GPT-3.5-Turbo)模型是最佳模型,在沒(méi)有提示的情況下,所有問(wèn)題均給出了較為通順的答案。其次是中文微調(diào)過(guò)的Alpaca 7B 模型,9 個(gè)問(wèn)題中僅錯(cuò)了1 個(gè)。

目前,大語(yǔ)言模型依然在快速進(jìn)化中,但是針對(duì)中文的詞向量模型和大語(yǔ)言模型還不夠完美,仍需要進(jìn)一步優(yōu)化。高校在信息化過(guò)程中,可以按照新型人機(jī)交互接口的方式去探索大語(yǔ)言模型的應(yīng)用方式,挖掘更多的應(yīng)用場(chǎng)景。對(duì)于企業(yè),則可以探索利用大語(yǔ)言模型助力教學(xué)過(guò)程的應(yīng)用場(chǎng)景。

猜你喜歡
文本內(nèi)容語(yǔ)言
內(nèi)容回顧溫故知新
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
讓語(yǔ)言描寫(xiě)搖曳多姿
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
我有我語(yǔ)言
如何快速走進(jìn)文本
主站蜘蛛池模板: 视频二区亚洲精品| 蜜桃视频一区二区| 天天综合网色| 青青草久久伊人| 97国产在线播放| 亚洲男人天堂网址| 国产毛片高清一级国语 | 亚洲一区二区三区麻豆| 国产aⅴ无码专区亚洲av综合网| 亚洲毛片在线看| 99久久亚洲精品影院| 色综合国产| 国产成人精品一区二区不卡| 伊人国产无码高清视频| 国产精品私拍在线爆乳| 亚洲中文字幕手机在线第一页| 午夜国产精品视频黄 | 国产成在线观看免费视频| 亚洲第一黄片大全| 99re精彩视频| 欧美一区二区三区欧美日韩亚洲| 无码高潮喷水专区久久| 中文无码日韩精品| 91精品福利自产拍在线观看| 2021天堂在线亚洲精品专区| 国产精品太粉嫩高中在线观看| 91精品国产91久无码网站| 亚洲成肉网| 国产精品所毛片视频| 538精品在线观看| 午夜久久影院| 少妇被粗大的猛烈进出免费视频| 18禁色诱爆乳网站| 免费毛片网站在线观看| 毛片在线播放网址| 香蕉eeww99国产精选播放| 亚洲中文字幕av无码区| 婷婷色一二三区波多野衣| 免费看久久精品99| 亚国产欧美在线人成| 国产精品成人第一区| 欧美日韩高清在线| 全裸无码专区| 国产香蕉在线| 狠狠躁天天躁夜夜躁婷婷| 超碰精品无码一区二区| 国产毛片高清一级国语 | 精品一区国产精品| 亚洲热线99精品视频| 国产91麻豆视频| 亚洲美女一级毛片| 在线观看视频一区二区| 91精品专区国产盗摄| 乱系列中文字幕在线视频| 国产成人精品综合| 首页亚洲国产丝袜长腿综合| 黄色网站在线观看无码| 国产综合精品一区二区| 亚洲男人在线天堂| 亚洲an第二区国产精品| 欧美精品v欧洲精品| 国产在线八区| 狼友视频一区二区三区| 天天躁狠狠躁| 久久先锋资源| 亚洲一区二区三区香蕉| 伊人久综合| 在线一级毛片| 欧美综合一区二区三区| 国产无码在线调教| 欧美爱爱网| 亚洲精品大秀视频| 色老二精品视频在线观看| 久99久热只有精品国产15| 一级在线毛片| 国产真实自在自线免费精品| 日韩精品欧美国产在线| 91麻豆精品国产高清在线| 国内精品小视频在线| 国产综合另类小说色区色噜噜| av在线人妻熟妇| 欧美国产精品拍自|