鍵詞:大語言模型;知識圖譜;可解釋性;幻覺問題;知識語言協(xié)同
中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)08-002-2255-12
doi:10.19734/j.issn.1001-3695.2024.12.0532
Review of large language models integrating knowledge graph
Cao Rongrong',Liu Lin1?,Yu Yandong2,Wang Hailong1 (1.CollegeofpuerSieceamp;TchoogrogolaNalUiestHoo2ina;2.UanqabKLbatofI telligent InformationProcessingamp;Security,JiningNormal University,UlanqabNei MongolO12ooo,China)
Abstract:LLMshavedemonstrated exceptional performanceacrossmultipleverticaldomains,yettheir practicaldeployment remainsconstrainedbylimitedexplainabilityandhallcinationisues ingeneratedcontent.KGs,whichstorefactualknowledgein structured semantic networks,providea novel pathway toenhance thecontrolabilityand knowledgeconstraintsof LLMs.To addressthesechallenges,this paper systematicallyreviewed technical approaches for integrating KGs withLLMs.It analyzedrepresentative methodsacross threekeystages—pretrainingadaptation,architectural modification,andfine-tuning optimization,andsummarized their mechanisms for improvingmodel explainabilityandsuppressinghallucinations.Furthermore,itidentifiedcorechalengessuchasmultimodalknowledgerepresentationalignmentandlatencyindynamicknowledge integration.Theanalysisrevealsthatdeep integrationofKGssignificantlyenhancesthefactualconsistencyofLLM-generated content.However,futureresearchmustovercomecriticaltechnicalbotlenecksinmultimodal knowledgealignment,lightweight incrementalfusion,andcomplexreasoning verification toshiftLLMsfromlanguage-centrictoknowledge-language-augmented paradigms,therebyestablishing theoreticalandtechnicalfoundationsforbuilding trustworthyandinterpretableAIsystems.
Key words:large languagemodels(LLM);knowledgegraph(KG);explainability;halucinationproblem;knowledgelanguage synergy
0 引言
大語言模型(LLM)[1]作為人工智能領(lǐng)域的前沿技術(shù),特指基于超大規(guī)模語料庫訓(xùn)練,參數(shù)量超過百億級別的深度神經(jīng)網(wǎng)絡(luò)模型。其技術(shù)演進(jìn)經(jīng)歷了基于 n -gram的統(tǒng)計(jì)語言模型、依托分布式表示的神經(jīng)網(wǎng)絡(luò)模型[2]以及當(dāng)前基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型(PLM)三個(gè)關(guān)鍵階段。其中預(yù)訓(xùn)練語言模型通過“預(yù)訓(xùn)練-微調(diào)\"兩階段范式實(shí)現(xiàn)知識獲取[3]:首先在自監(jiān)督學(xué)習(xí)框架下完成通用語言表征建模,隨后通過參數(shù)微調(diào)實(shí)現(xiàn)特定任務(wù)適配。而大語言模型作為參數(shù)規(guī)模和數(shù)據(jù)規(guī)模擴(kuò)展至千億量級的預(yù)訓(xùn)練語言模型,在文本分類4、機(jī)器翻譯[5]問答系統(tǒng)[6]邏輯推理[7]、代碼生成[8]等自然語言處理任務(wù)中展現(xiàn)出顯著優(yōu)勢。然而,大語言模型展現(xiàn)出的涌現(xiàn)能力[9]及其伴生的幻覺問題[10]引發(fā)了學(xué)術(shù)界對其實(shí)際應(yīng)用的擔(dān)憂。由于模型固有的黑箱特性導(dǎo)致決策過程缺乏透明性,其可解釋性難以滿足高敏感場景的需求,特別是在金融、醫(yī)療等對數(shù)據(jù)安全要求極高的領(lǐng)域應(yīng)用時(shí),還存在潛在的隱私泄露風(fēng)險(xiǎn)。為應(yīng)對這些挑戰(zhàn),學(xué)術(shù)界和工業(yè)界亟需通過模型架構(gòu)優(yōu)化與外部知識融合相結(jié)合的方式,增強(qiáng)模型的確定性知識表征能力。在此背景下,知識圖譜因其顯式的語義關(guān)聯(lián)結(jié)構(gòu)和良好的可解釋性優(yōu)勢受到關(guān)注——通過專家構(gòu)建的領(lǐng)域知識圖譜可提供精確可靠的知識源,顯著提升系統(tǒng)的可信度。因此,探索知識圖譜與大語言模型的深度融合機(jī)制,已成為提升模型可解釋性的重要研究方向。知識圖譜作為符號主義范式的典型代表,與以深度學(xué)習(xí)為核心的聯(lián)結(jié)主義存在顯著的方法論差異。知識圖譜本質(zhì)上是一種基于圖結(jié)構(gòu)構(gòu)建的語義網(wǎng)絡(luò),采用形式化方法對客觀世界的實(shí)體(包含概念,人物,事件等)及其語義關(guān)系進(jìn)行系統(tǒng)化表征。其核心特征在于采用(頭實(shí)體,關(guān)系,尾實(shí)體)三元組作為基本知識單元,通過結(jié)構(gòu)化存儲實(shí)現(xiàn)事實(shí)性知識的顯式表達(dá)與語義關(guān)聯(lián)建模。其構(gòu)建涵蓋數(shù)據(jù)獲取、知識抽取、融合推理等關(guān)鍵環(huán)節(jié)。根據(jù)知識表征形態(tài)和應(yīng)用場景的差異,現(xiàn)有知識圖譜體系可分為通用知識圖譜、領(lǐng)域知識圖譜和跨模態(tài)知識圖譜三類。通用知識圖譜側(cè)重構(gòu)建大規(guī)模開放域知識體系,通過廣譜的實(shí)體覆蓋和豐富的語義關(guān)系滿足普適性知識服務(wù)需求;領(lǐng)域知識圖譜則聚焦垂直領(lǐng)域的專業(yè)知識建模,采用領(lǐng)域本體約束下的精細(xì)化知識表示方法,服務(wù)于專業(yè)場景下的智能決策支持:跨模態(tài)知識圖譜突破了傳統(tǒng)單模態(tài)知識表示的局限性,通過異構(gòu)數(shù)據(jù)的模態(tài)對齊和聯(lián)合表征,構(gòu)建支持多模態(tài)交互的知識服務(wù)體系。
知識增強(qiáng)型語言模型的研究可追至預(yù)訓(xùn)練語言模型發(fā)展的早期階段,此時(shí)有研究基于知識類型的差異性特征,系統(tǒng)性地將事實(shí)知識、領(lǐng)域知識、常識知識、語義知識及專業(yè)知識融入模型架構(gòu)中[11]。文獻(xiàn)[12]根據(jù)模型結(jié)構(gòu)從輸入端、中間層和輸出端分別融合知識進(jìn)行模型增強(qiáng),進(jìn)一步地,針對自然語言處理任務(wù)范式的差異性。研究者從自然語言理解和自然語言生成的角度分別介紹知識增強(qiáng)的方法[13],在語義知識融合方面,知識圖譜因其結(jié)構(gòu)化語義表征特征成為研究焦點(diǎn)。有研究者從預(yù)訓(xùn)練模型內(nèi)部與外部協(xié)同的角度提出以隱式和顯式兩類方法對融合知識圖譜到模型進(jìn)行介紹[14];還有研究突破單一技術(shù)路線,提出知識圖譜與大模型優(yōu)勢互補(bǔ)的統(tǒng)一路線圖[15];更有研究將知識的粒度與知識注人方法和知識參數(shù)化程度相結(jié)合[16]。根據(jù)模型的結(jié)構(gòu)特點(diǎn)和訓(xùn)練階段從預(yù)訓(xùn)練、修改模型結(jié)構(gòu)以及微調(diào)階段對融合知識圖譜技術(shù)加以總結(jié),圖1清楚地論述了融合知識圖譜以增強(qiáng)大模型的準(zhǔn)確路線。
圖1知識圖譜融合大模型的方法
1相關(guān)工作
大模型與知識圖譜作為人工智能領(lǐng)域的兩大前沿技術(shù),近年來呈現(xiàn)出蓬勃發(fā)展的態(tài)勢。盡管兩者在技術(shù)范式與研究路徑上具有相對獨(dú)立而清晰的發(fā)展脈絡(luò),但針對兩者的基礎(chǔ)理論和技術(shù)路線的深入研究具有重要的學(xué)術(shù)價(jià)值和應(yīng)用意義。本章將系統(tǒng)闡釋大模型的核心概念與主流技術(shù)架構(gòu)以及知識圖譜的類型,為后續(xù)探討知識圖譜與大模型的深度融合奠定必要的理論基礎(chǔ)。
1.1 大模型定義
大語言模型與預(yù)訓(xùn)練語言模型在模型架構(gòu)與訓(xùn)練范式上具有繼承性與擴(kuò)展性關(guān)系,因而介紹先從預(yù)訓(xùn)練語言模型開始。
經(jīng)典預(yù)訓(xùn)練語言模型[17]通常采用“預(yù)訓(xùn)練-微調(diào)”的兩階段訓(xùn)練范式,先是在大規(guī)模無標(biāo)簽數(shù)據(jù)集上以自監(jiān)督方式進(jìn)行訓(xùn)練,學(xué)習(xí)語言的豐富表示和結(jié)構(gòu),然后在小規(guī)模數(shù)據(jù)集上監(jiān)督微調(diào)并用于具體的下游任務(wù)。預(yù)訓(xùn)練語言模型的這種訓(xùn)練過程可視為一種遷移學(xué)習(xí),顯著提升了模型在機(jī)器翻譯[18]、情感分析[19]、問答系統(tǒng)[20]及文本摘要[21]等任務(wù)上的泛化性能。
大語言模型本質(zhì)上是基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的參數(shù)密集型擴(kuò)展模型[22],其通過超大規(guī)模語料庫訓(xùn)練與深層非線性變化實(shí)現(xiàn)語言理解的涌現(xiàn)特性和生成任務(wù)的泛化能力。在復(fù)雜語境推理、細(xì)粒度語義解析及跨領(lǐng)域任務(wù)遷移等方面表現(xiàn)出色,但也面臨著計(jì)算資源耗費(fèi)大、數(shù)據(jù)隱私泄露、模型幻覺與價(jià)值觀對齊偏差以及知識產(chǎn)權(quán)歸屬等系統(tǒng)性風(fēng)險(xiǎn)。
1.2大模型主流架構(gòu)介紹
經(jīng)大規(guī)模語料庫訓(xùn)練的大語言模型在各種自然語言處理任務(wù)中表現(xiàn)出色。當(dāng)前主流架構(gòu)均是基于Transformer模型的自注意力機(jī)制[23]。相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型如 CNN[24] RNN[25]LSTM[26]等,2017年提出的Transformer通過檳棄循環(huán)結(jié)構(gòu)、完全依賴多頭自注意力機(jī)制實(shí)現(xiàn)序列建模、成為技術(shù)分水嶺。此后出現(xiàn)的 BERT[27] 和 GPT[28] 系列均沿此架構(gòu)演進(jìn)。其中BERT模型通過雙向Transformer-Encoder結(jié)構(gòu)實(shí)現(xiàn)上下文深度表征,推動預(yù)訓(xùn)練模型參數(shù)規(guī)模的快速增長。現(xiàn)有大模型架構(gòu)主要分為基于Encoder-Decoder架構(gòu)的大模型、基于Encoder架構(gòu)的大模型和基于Decoder架構(gòu)的大模型三類。在對此三類架構(gòu)進(jìn)行總結(jié)匯總之前先了解下Transformer結(jié)構(gòu),如圖2所示。
Fig.2Structure of Transformer model
Transformer是一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),主要由編碼器(Encoder)和解碼器(Decoder)組成,其核心工作原理是通過自注意力機(jī)制計(jì)算輸入序列中每個(gè)元素與其他元素的關(guān)聯(lián)權(quán)重來動態(tài)捕捉全局依賴關(guān)系,結(jié)合位置編碼注入序列順序信息,利用多頭注意力并行提取多維度特征。編碼器逐層抽象輸人特征,解碼器則基于編碼結(jié)果和掩碼注意力生成目標(biāo)序列,所有計(jì)算通過殘差連接[29]和層歸一化[30]操作穩(wěn)定訓(xùn)練。該架構(gòu)完全檳棄循環(huán)結(jié)構(gòu)實(shí)現(xiàn)并行化,從而高效處理長序列并廣泛應(yīng)用于自然語言處理、圖像識別等多領(lǐng)域任務(wù)。
Transformer模型的Encoder-Decoder架構(gòu)及其自注意力機(jī)制為后續(xù)大模型設(shè)計(jì)奠定了核心基礎(chǔ)范式。此類結(jié)構(gòu)的典型模型如T5[31]通過跨度掩蔽訓(xùn)練重構(gòu)文本片段; UL2[32] 構(gòu)建混合去噪框架融合多任務(wù)目標(biāo); ST-MoE[33] 基于稀疏專家動態(tài)路由機(jī)制擴(kuò)展模型容量; GLM[34] 采用自回歸空白填充方法,結(jié)合二維位置編碼實(shí)現(xiàn)雙向上下文學(xué)習(xí)。這類模型通過統(tǒng)一訓(xùn)練框架,靈活目標(biāo)設(shè)計(jì)及結(jié)構(gòu)創(chuàng)新,在文本生成任務(wù)中展現(xiàn)出強(qiáng)大的語義建模能力,但也面臨推理效率、訓(xùn)練穩(wěn)定性等工程挑戰(zhàn)。
不同于基于Encoder-Decoder雙塔架構(gòu)的大模型,基于Encoder架構(gòu)的大模型通過掩碼語言建模、替換詞檢測等自監(jiān)督任務(wù),在無須Decoder模塊的情況下實(shí)現(xiàn)雙向語義理解。其核心思想是通過對輸入文本進(jìn)行隨機(jī)掩碼或詞替換驅(qū)動模型重建原始語義結(jié)構(gòu),從而學(xué)習(xí)上下文敏感的深層語義表征。以BERT為代表的雙向Transformer-Encoder架構(gòu),突破傳統(tǒng)單向語言模型的上下文建模局限,通過全連接自注意力機(jī)制全面捕捉上下文語義。此外還有改進(jìn)的ALBERT[35]、ROBERTA[36]ELECTRA[37]等模型。此類模型在文本分類、實(shí)體識別等自然語言理解任務(wù)中表現(xiàn)優(yōu)異,但因缺乏自回歸解碼機(jī)制,難以直接支持序列生成任務(wù)。在長序列生成任務(wù)中,Decoder架構(gòu)大模型如 GPT[28] 系列通過自回歸生成機(jī)制逐詞預(yù)測輸出序列,其核心設(shè)計(jì)包含單向因果注意力掩蔽機(jī)制,通過遮蔽當(dāng)前位置右側(cè)的上下文,確保模型僅基于歷史信息生成后續(xù)內(nèi)容。這種機(jī)制既避免了生成過程中的信息泄露問題,又適配自回歸任務(wù)的逐步擴(kuò)展特性。相較于Encoder架構(gòu),Decoder模型通過自注意力層的前向傳遞動態(tài)維護(hù)鍵值緩存,顯著提升了長序列生成的推理效率,成為開放域文本生成的主流解決方案。
1.3知識圖譜類型介紹
知識圖譜是基于圖結(jié)構(gòu)的三元組知識庫,根據(jù)其存儲的知識類型可劃分為通用知識圖譜、特定領(lǐng)域知識圖譜以及多模態(tài)知識圖譜三個(gè)類別。
通用知識圖譜是一種結(jié)構(gòu)化的語義知識庫,旨在描述物理世界中的概念及其相互關(guān)系,通過對不同來源的信息加以構(gòu)建,包括百科全書、知識庫等。代表性的知識圖譜項(xiàng)目有:CYC[38,39]是最早期的人工智能常識知識庫項(xiàng)目,由DouglasLenat在1984年發(fā)起,目標(biāo)是創(chuàng)建一個(gè)包含大量通用知識的綜合性知識庫; WordNet[40] 是一個(gè)同義詞集合與詞匯語義關(guān)系網(wǎng)絡(luò),由普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室開發(fā),主要用于詞義消歧和語義關(guān)系分析;Freebase[41]原為一個(gè)眾包式知識庫,是谷歌構(gòu)建知識圖譜的核心數(shù)據(jù)源;DBpedia[42]是一個(gè)多語言的百科知識圖譜,通過抽取維基百科中的信息構(gòu)建而成,是鏈接數(shù)據(jù)的核心項(xiàng)目之一;NELL[43]采用自學(xué)習(xí)方式從網(wǎng)頁中自動抽取知識,并不斷更新知識庫; YAGO[44] 整合了維基百科和Word-Net的數(shù)據(jù),特點(diǎn)是對實(shí)體進(jìn)行了類型推斷,并利用WordNet的分類體系來構(gòu)建本體;Wikidata[45]是使用和覆蓋范圍面最為廣泛的知識圖譜。
特定領(lǐng)域知識圖譜是針對垂直行業(yè)或?qū)W科構(gòu)建的專業(yè)化知識系統(tǒng),其核心在于通過本體工程建立領(lǐng)域概念體系,并運(yùn)用信息抽取技術(shù)將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化知識網(wǎng)絡(luò)。例如,金融知識圖譜[46]的數(shù)據(jù)來源包括財(cái)務(wù)報(bào)表、公告、新聞、研報(bào)等,這些數(shù)據(jù)經(jīng)過結(jié)構(gòu)化處理形成知識圖譜中的節(jié)點(diǎn)和關(guān)系。IBMWatsonHealth 知識圖譜[47]集合了大量醫(yī)學(xué)文獻(xiàn)、臨床案例和研究數(shù)據(jù),通過人工智能技術(shù)輔助醫(yī)生診斷疾病并推薦治療方案,已在重大疾病治療等領(lǐng)域取得顯著成效。此外還有地質(zhì)學(xué)[48]、生物學(xué)[49]、化學(xué)[50] 數(shù)學(xué)[51]等領(lǐng)域的知識圖譜。
多模態(tài)知識圖譜是一種通過跨模態(tài)語義對齊技術(shù),將文本、圖像、音頻、視頻等多源異構(gòu)數(shù)據(jù)映射到統(tǒng)一語義空間的知識表示框架,它突破傳統(tǒng)知識圖譜的單一模態(tài)局限,顯著提升了語義理解深度與跨模態(tài)任務(wù)性能。IMGpedia[52]是一個(gè)大規(guī)模的鏈接數(shù)據(jù)集,旨在通過視覺內(nèi)容描述符和視覺相似關(guān)系豐富數(shù)據(jù);MMKG[53]融合文本和圖像類型的數(shù)據(jù);Richpedia[54]將文本、圖像數(shù)據(jù)之外的視頻、音頻數(shù)據(jù)融合到知識圖譜中,增強(qiáng)知識圖譜的表達(dá)能力和適用范圍。
2知識圖譜融合大模型的方法
大語言模型雖在自然語言處理任務(wù)中展現(xiàn)卓越性能,但其不可控的幻覺問題引發(fā)廣泛關(guān)注。鑒于知識圖譜具備結(jié)構(gòu)化語義關(guān)聯(lián)與確定性推理能力[55],學(xué)者提出融合知識圖譜至大模型的技術(shù)路線以增強(qiáng)生成結(jié)果可解釋性。如圖1所示,根據(jù)對模型的訓(xùn)練階段劃分,本文將從三個(gè)方面進(jìn)行總結(jié)論述:a)預(yù)訓(xùn)練階段將知識圖譜融合到大模型中,分別通過改進(jìn)掩蔽策略方法改進(jìn)知識表示任務(wù),豐富嵌入信息和結(jié)構(gòu);b)修改模型結(jié)構(gòu),通過在模型結(jié)構(gòu)中增加單獨(dú)的知識編碼器修改原有的知識編碼層,以及添加適配器的方法;c微調(diào)階段,通過知識注人、提示、檢索生成的方法將結(jié)構(gòu)化知識注入模型。
2.1預(yù)訓(xùn)練時(shí)期融合方法
神經(jīng)網(wǎng)絡(luò)模型在BERT模型之后就將“預(yù)訓(xùn)練-微調(diào)”作為模型的訓(xùn)練范式,然而為解決之后的大模型訓(xùn)練參數(shù)的迅速膨脹以及產(chǎn)生的幻覺問題,學(xué)者們研究將事實(shí)知識融合進(jìn)大模型。現(xiàn)有大模型大多采用自監(jiān)督學(xué)習(xí)在大規(guī)模語料庫上預(yù)訓(xùn)練,雖然在下游任務(wù)中表現(xiàn)優(yōu)異,但其對事實(shí)性知識建模不足,生成結(jié)果缺乏可解釋性等問題引發(fā)廣泛爭議。為增強(qiáng)模型的知識感知與推理能力,本節(jié)探討在模型預(yù)訓(xùn)練階段融合知識圖譜的方法,各方法的總結(jié)對比如表 1[56~72] 所示。
2.1.1改進(jìn)掩蔽策略方法
掩碼語言模型自2018年由谷歌提出后,一直是預(yù)訓(xùn)練語言模型的核心預(yù)訓(xùn)練任務(wù)之一。在BERT等模型中,掩碼語言模型被用來學(xué)習(xí)從掩碼文本中恢復(fù)單詞信息,這是通過隨機(jī)選擇輸入序列中的部分詞元進(jìn)行掩蔽,并讓模型預(yù)測這些被掩蔽的詞元來實(shí)現(xiàn)的。不同掩蔽策略會影響模型的訓(xùn)練效果和性能。隨機(jī)掩蔽方法可能會破壞連續(xù)單詞之間的相關(guān)性,給預(yù)訓(xùn)練語言模型學(xué)習(xí)語義信息帶來困難。為解決這一問題,一些研究提出用知識掩蔽策略替代隨機(jī)掩蔽策略,該策略根據(jù)知識圖譜的知識選擇掩蔽目標(biāo),迫使模型學(xué)習(xí)足夠的知識來準(zhǔn)確預(yù)測被屏蔽的內(nèi)容。例如2019年ERNIE-Baidu[56]受BERT掩蔽策略的啟發(fā),提出了實(shí)體級掩蔽和短語級掩蔽的知識掩蔽策略。實(shí)體級策略掩蔽了通常由多個(gè)單詞組成的實(shí)體,短語級策略掩蔽了整個(gè)短語,它是由幾個(gè)詞作為一個(gè)概念單位組成。通過該策略,ERNIE-Baidu隱式地學(xué)習(xí)關(guān)于知識和更長的語義依賴信息。
實(shí)體作為構(gòu)成知識圖譜的基礎(chǔ),通過關(guān)系相互連接構(gòu)成一個(gè)豐富的語義網(wǎng)絡(luò),通過設(shè)計(jì)特定的預(yù)訓(xùn)練任務(wù)或策略,能夠使語言模型在預(yù)訓(xùn)練階段接觸到豐富的實(shí)體知識,從而提高其在知識密集型任務(wù)上的性能。在實(shí)體掩碼語言模型的基礎(chǔ)上,E-BERT[57]受ERNIE-Baidu將短語級掩蔽和實(shí)體級掩蔽集成到BERT策略的影響,如圖3所示,增加了自適應(yīng)混合掩蔽策略和鄰居產(chǎn)品重建兩個(gè)預(yù)訓(xùn)練任務(wù),通過構(gòu)建一個(gè)高質(zhì)量的電子商務(wù)短語池屏蔽領(lǐng)域短語,同時(shí)將單詞掩蔽和短語掩蔽與自適應(yīng)混合掩蔽相結(jié)合,在不影響性能的情況下加快了模型的收斂速度。
在特定任務(wù)情境下,選擇與任務(wù)相關(guān)的知識進(jìn)行掩蔽,能夠針對性地提升模型在特定任務(wù)上的語義關(guān)聯(lián)建模能力。情感分析任務(wù)中,SKEP[58]采用情感掩蔽策略將情感知識集成到預(yù)訓(xùn)練語言模型中,借鑒BERT構(gòu)造屏蔽目標(biāo)的方法對包括情感詞預(yù)測、詞極性預(yù)測、方面-情感對預(yù)測在內(nèi)的三個(gè)預(yù)訓(xùn)練目標(biāo)進(jìn)行情感預(yù)訓(xùn)練,同時(shí)采用Roberta作為強(qiáng)基線模型,運(yùn)用自監(jiān)督訓(xùn)練在句子級情感分類、方面級情感分類、意見角色標(biāo)記三個(gè)情感分析任務(wù)上進(jìn)行驗(yàn)證。SKEP情感掩蔽是基于自動挖掘的情感知識識別輸入序列的情感信息,并通過刪除這些情感信息產(chǎn)生一個(gè)損壞的版本,接著將三個(gè)情感預(yù)訓(xùn)練目標(biāo)通過Transformer模塊恢復(fù)缺失的情感信息。SKEP采用PMI點(diǎn)互信息挖掘方法從未標(biāo)記的數(shù)據(jù)中挖掘情感知識。PMI方法采用少量的情感種子詞確定具有積極和消極的情感詞,對在詞掩蔽目標(biāo)中識別出來的情感詞分配更高的掩蔽概率,通過訓(xùn)練以學(xué)習(xí)更具體的情感表示。
表1預(yù)訓(xùn)練時(shí)期融合方法對比
Tab.1Comparison of fusion methods during the pre-training perioc
與上述隨機(jī)選擇掩蔽實(shí)體、短語模型不同, GLM[59] 提出知識圖譜指導(dǎo)的實(shí)體屏蔽方案。該方案將一定跳數(shù)內(nèi)可以到達(dá)的實(shí)體認(rèn)定為最重要的學(xué)習(xí)實(shí)體,并且在學(xué)習(xí)過程中給予它們更高的掩蔽概率訓(xùn)練,這有助于模型在自由形式的文本中學(xué)習(xí)結(jié)構(gòu)化的知識。此外,還提出了一個(gè)干擾抑制排序目標(biāo),利用來自知識圖譜的負(fù)樣本作為干擾進(jìn)行有效訓(xùn)練。結(jié)果表明,通過自監(jiān)督任務(wù)為預(yù)訓(xùn)練的語言模型配備結(jié)構(gòu)化知識的實(shí)體掩蔽策略在相關(guān)下游任務(wù)上的表現(xiàn)優(yōu)異。
隨著多模態(tài)數(shù)據(jù)的興起,傳統(tǒng)知識圖譜缺乏對多模態(tài)知識的支持,為了擴(kuò)展預(yù)訓(xùn)練語言模型的能力,研究者開始探索多模態(tài)知識掩蔽任務(wù)。VILT[6]采用全詞掩碼和圖像增強(qiáng)策略并通過Transformer模塊處理視覺和文本輸人的交互,增強(qiáng)了模型對多模態(tài)信息的理解和融合能力。CLIP模型[6]使用對比學(xué)習(xí)方法,通過預(yù)測圖像和文本的配對來學(xué)習(xí)多模態(tài)表示。這種方法可以看作是一種多模態(tài)知識掩蔽,因?yàn)樗ㄟ^對比正樣本和負(fù)樣本學(xué)習(xí)多模態(tài)信息。文獻(xiàn)[62]提出了一種用于醫(yī)療視覺與語言預(yù)訓(xùn)練的自監(jiān)督學(xué)習(xí)方法,即多模態(tài)掩碼自編碼器(M3AE),通過從隨機(jī)掩碼的圖像和文本中重建缺失的像素和標(biāo)記來學(xué)習(xí)跨模態(tài)領(lǐng)域知識。
圖3知識指導(dǎo)的掩蔽策略 Fig.3Knowledge-guided masking strategies
盡管多模態(tài)知識掩蔽是一項(xiàng)重要技術(shù),但也存在諸多難點(diǎn)。多模態(tài)數(shù)據(jù)通常來源不同,并且具有不同的結(jié)構(gòu)和時(shí)間尺度,將這些數(shù)據(jù)對齊并同步是一項(xiàng)挑戰(zhàn)。此外現(xiàn)有研究表明,傳統(tǒng)掩蔽策略與知識增強(qiáng)型掩蔽策略中的掩蔽比例設(shè)定主要依賴于經(jīng)驗(yàn)性假設(shè)與實(shí)驗(yàn)驗(yàn)證,因此當(dāng)前研究仍存在以下亟待解決的問題:a)不同掩蔽范式如隨機(jī)掩蔽、實(shí)體感知掩蔽等策略在相同掩蔽比例下對同一下游任務(wù)的性能影響差異缺乏系統(tǒng)性對比驗(yàn)證;b)同一掩蔽策略采用不同的掩碼比例如 15% 或者 30% 時(shí)的任務(wù)表現(xiàn)變化規(guī)律尚未建立完整的量化分析框架;c)針對模型容量差異性、任務(wù)特異性及數(shù)據(jù)分布特性的多維變量耦合作用,如何構(gòu)建基于自動化調(diào)參機(jī)制的掩蔽比例動態(tài)優(yōu)化方法亟待深入探索。
上述研究空白凸顯三個(gè)關(guān)鍵科學(xué)問題:首先,掩蔽策略與比例參數(shù)之間的交互效應(yīng)對模型知識獲取能力的作用機(jī)理需要理論建模:其次,在面向異構(gòu)下游任務(wù)的掩蔽比例遷移規(guī)律尚未被充分揭示;最后,現(xiàn)有經(jīng)驗(yàn)驅(qū)動的參數(shù)設(shè)置范式難以適應(yīng)大規(guī)模預(yù)訓(xùn)練場景下的復(fù)雜優(yōu)化需求,亟需發(fā)展數(shù)據(jù)驅(qū)動的自適應(yīng)掩蔽策略優(yōu)化框架。未來研究可通過設(shè)計(jì)控制變量實(shí)驗(yàn)矩陣,系統(tǒng)量化不同掩蔽機(jī)制與比例組合在多層次評估基準(zhǔn)上的性能表現(xiàn),同時(shí)結(jié)合元學(xué)習(xí)算法構(gòu)建掩蔽參數(shù)與模型架構(gòu)-任務(wù)目標(biāo)-數(shù)據(jù)特征的動態(tài)映射關(guān)系,從而推動掩蔽策略從經(jīng)驗(yàn)導(dǎo)向向理論指導(dǎo)的范式轉(zhuǎn)變。
2.1.2改進(jìn)知識表示任務(wù)
知識表示任務(wù)作為預(yù)訓(xùn)練任務(wù)的一部分,主要關(guān)注如何有效地將知識圖譜中的實(shí)體、關(guān)系和圖等結(jié)構(gòu)化信息轉(zhuǎn)換為向量形式的知識表示。這些表示可以用于后續(xù)的自然語言處理任務(wù),如實(shí)體鏈接、語義匹配等。雖然知識表示任務(wù)在自然語言處理領(lǐng)域取得了顯著的進(jìn)展,但仍存在一些挑戰(zhàn)和問題需要解決。例如,如何更好地融合不同類型的知識表示方法,如何處理大規(guī)模知識圖譜中的噪聲和冗余信息等。
為顯示融合知識圖譜的結(jié)構(gòu)化語義信息與文本的上下文表征,KEPLER[63]提出統(tǒng)一的知識增強(qiáng)預(yù)訓(xùn)練框架,其核心是通過共享編碼器將文本與知識圖譜嵌人聯(lián)合優(yōu)化。該方法采用預(yù)訓(xùn)練語言模型同時(shí)編碼文本序列和知識實(shí)體描述,使文本詞嵌入與知識實(shí)體嵌入映射至同一語義空間,并共同優(yōu)化知識嵌人和掩碼語言建模自標(biāo),實(shí)現(xiàn)了知識的顯式利用。
知識增強(qiáng)大模型[64]的研究中,在模型的輸入端將知識圖譜作為輸入語料的一部分輸入模型是解決模型幻覺問題的一個(gè)可行方案。給出一個(gè)知識圖譜以及相應(yīng)的語句,受BERT模型基礎(chǔ)掩碼策略的啟發(fā), Sun 等人[56]在ERNIE-Baidu的基礎(chǔ)上提出了ERNIE 2.0[65] 的持續(xù)預(yù)訓(xùn)練框架,該框架支持不斷引入各種定制任務(wù),這是通過持續(xù)的多任務(wù)學(xué)習(xí)來實(shí)現(xiàn)的。當(dāng)給定一個(gè)或多個(gè)新任務(wù)時(shí),連續(xù)多任務(wù)學(xué)習(xí)方法可以有效地同時(shí)訓(xùn)練新引入的任務(wù)以及原始任務(wù),而不會忘記先前學(xué)習(xí)的知識。通過這種方式,該框架可以根據(jù)掌握的先前訓(xùn)練的參數(shù)增量地訓(xùn)練分布式表示。此外,在該框架中,所有任務(wù)共享相同的編碼網(wǎng)絡(luò),從而使跨不同任務(wù)的詞匯、句法和語義信息編碼成為可能。ERNIE3. 0[66] 提出了一個(gè)通用知識-文本預(yù)測任務(wù),是知識掩碼語言模型的擴(kuò)展,訓(xùn)練一個(gè)集成自回歸網(wǎng)絡(luò)和自編碼器網(wǎng)絡(luò)為一體的統(tǒng)一預(yù)訓(xùn)練語言模型框架。該框架將知識圖譜的三元組編碼成向量表示輸入模型,如圖4所示,并與輸入的相應(yīng)百科全書中的文本序列相連接,一同在模型中接受訓(xùn)練,隨機(jī)將三元組中關(guān)系標(biāo)簽和句子中的標(biāo)簽掩蔽。在預(yù)測三元組中掩蔽的關(guān)系標(biāo)簽時(shí),先對頭實(shí)體和尾實(shí)體的出現(xiàn)情況進(jìn)行檢測,并與句子中提及的實(shí)體進(jìn)行語義關(guān)系對齊。然而三元組中的標(biāo)簽與句子標(biāo)簽對齊時(shí)可能會出現(xiàn)知識噪聲問題。
圖4知識-文本預(yù)測任務(wù)Fig.4Knowledge-text prediction task
上述模型均關(guān)注如何將外部知識(如知識圖譜)融入預(yù)訓(xùn)練語言模型,以提升模型在知識密集型任務(wù)中的表現(xiàn),卻并未深入討論如何動態(tài)更新知識嵌人以反映最新的知識變化。
2.1.3豐富輸入信息和結(jié)構(gòu)
KALM[67] 并沒有創(chuàng)建更大的模型或添加特定于知識的體系結(jié)構(gòu),而是充分利用預(yù)訓(xùn)練語言模型結(jié)構(gòu)中的現(xiàn)有參數(shù),方法是簡單地讓模型意識到實(shí)體可以表現(xiàn)為的各種形式以及它在周圍文本中的角色。更具體地說,這種知識意識是通過提供給PLM的輸入和預(yù)訓(xùn)練期間的輸出來傳達(dá)的。對于輸入感知,使用實(shí)體名稱字典將單詞范圍標(biāo)記為最常用的實(shí)體,例如,作為基于模糊頻率的實(shí)體注釋,將這些實(shí)體標(biāo)記與單詞標(biāo)記一起作為并行輸人通道;對于輸出感知,除了語言建模目標(biāo)外,還添加了一個(gè)實(shí)體預(yù)測任務(wù),指導(dǎo)模型從各種負(fù)面干擾中區(qū)分正確的實(shí)體。這兩個(gè)目標(biāo)共同明確地指導(dǎo)語言模型在不改變網(wǎng)絡(luò)架構(gòu)的情況下,在預(yù)訓(xùn)練期間不僅預(yù)測正確的單詞,而且預(yù)測這些單詞背后的正確實(shí)體。KALM通過在預(yù)訓(xùn)練過程中向語言模型發(fā)出實(shí)體存在的信號來提高語言模型的知識學(xué)習(xí)能力,這種簡單的知識感知顯著提高了Transformer模塊預(yù)訓(xùn)練的參數(shù)效率。
Deterministic LLM[68] 為捕獲事實(shí)知識,訓(xùn)練PLM學(xué)習(xí)剩余上下文和被屏蔽內(nèi)容之間的確定性關(guān)系。確定性關(guān)系保證了被掩蓋的事實(shí)內(nèi)容可以根據(jù)上下文中已有線索進(jìn)行確定性推斷,這將為PLM捕獲事實(shí)知識提供比隨機(jī)掩蔽更穩(wěn)定的模式,只將具有確定性關(guān)系的實(shí)體跨度掩蓋為問題,并進(jìn)一步引入了兩個(gè)預(yù)訓(xùn)練任務(wù)——線索對比學(xué)習(xí)和線索分類目標(biāo),以激勵(lì)PLM在填充掩碼時(shí)依賴確定性關(guān)系。
K-BERT[69]指出過多的知識整合可能會使句子偏離其本身的意思,產(chǎn)生知識噪聲問題。為了克服此問題,K-BERT模型在BERT模型的基礎(chǔ)上做出改進(jìn),其由知識層、嵌入層、可見層和編碼層組成。對于一個(gè)輸入語句,知識層首先從知識圖譜中提取相關(guān)三元組注入其中,并將輸入語句表示成一個(gè)知識樹結(jié)構(gòu)輸入到嵌入層和可見層。嵌人層將句子樹轉(zhuǎn)換為可輸入的嵌入標(biāo)記,利用軟位置和可見矩陣控制每個(gè)標(biāo)記的可見范圍,防止知識注入帶來的語句原意的改變。為了進(jìn)一步降低知識噪聲增強(qiáng)準(zhǔn)確性,CoLAKE[70]通過擴(kuò)展掩碼語言模型目標(biāo)共同學(xué)習(xí)語言和知識的語境化表示,具體而言是先將一個(gè)句子標(biāo)記為一系列標(biāo)記,并將它們完全連接為一個(gè)詞圖;然后針對句子中提及的實(shí)體,使用實(shí)體鏈接器在某個(gè)知識圖譜中提取以這些實(shí)體為中心的子圖,將提取的子圖與單詞圖拼接成一個(gè)統(tǒng)一的異構(gòu)圖,即詞-知識圖;最后使用鏈接實(shí)體取代提及實(shí)體。通過替換,模型被注人實(shí)體知識,從而實(shí)現(xiàn)了在一個(gè)共同的表示空間中共同學(xué)習(xí)語言表示和知識表示的目標(biāo)。
以上方法在為大語言模型注入大量知識時(shí)只關(guān)注了高頻的實(shí)體而忽略了低頻率和長尾的實(shí)體。DKPLM[7]旨在改進(jìn)大語言模型對這些實(shí)體的表示,提出了一種新的度量方法來確定長尾實(shí)體,然后用偽標(biāo)記嵌人代替文本中選擇的實(shí)體作為大型語言模型的新輸入。此外,Dict-BERT[72]提出利用英語詞典如維基詞典中的罕見詞定義來增強(qiáng)語言模型預(yù)訓(xùn)練。具體而言,首先從字典中獲取罕見單詞的定義,將其添加到輸入文本序列的末尾,并用Transformer編碼器對整個(gè)序列進(jìn)行編碼,訓(xùn)練輸入文本和罕見詞定義之間的詞級和句子級對齊以增強(qiáng)帶有字典的預(yù)訓(xùn)練語言模型表征。
2.2改變模型結(jié)構(gòu)的方法
隨著計(jì)算機(jī)硬件資源的發(fā)展,研究人員已經(jīng)將自光轉(zhuǎn)移到模型結(jié)構(gòu)本身,希望能夠通過調(diào)整模型結(jié)構(gòu)使得大模型的理解和生成能力得到顯著的提升。
2.2.1增加知識編碼器
在語言模型結(jié)構(gòu)中添加額外的知識編碼器可以有效將知識圖譜信息融合到大語言模型中。基于模型架構(gòu)的差異,當(dāng)前主流的知識編碼器可分為基于Transformer的知識編碼器和基于圖神經(jīng)網(wǎng)絡(luò)的知識編碼器。例如,ERNIE- ?THU[73] 提出了一種文本-知識雙編碼器的模型架構(gòu)。在架構(gòu)中,T-encoder對輸入模型的文本進(jìn)行編碼,從輸入的標(biāo)記中捕獲基礎(chǔ)詞法和句法信息;K-encoder將額外面向標(biāo)記的知識信息集成到底層的文本信息中,從而將標(biāo)記和實(shí)體的異構(gòu)信息表示到統(tǒng)一的特征空間中。模型中T-encoder為多層Transformer編碼器,與其在BERT中的實(shí)現(xiàn)相同。為了提取和編碼知識信息,首先識別文本中的命名實(shí)體提及,然后將這些實(shí)體提及與知識圖譜中相應(yīng)的實(shí)體對齊,采用TransE等知識嵌入算法對知識圖譜的圖結(jié)構(gòu)進(jìn)行編碼,然后將信息實(shí)體嵌人作為ERNIE的輸人。模型結(jié)構(gòu)如圖5所示。CokeBERT[74]的知識編碼器同樣基于Trans-former架構(gòu),利用自注意力機(jī)制來處理文本和知識上下文。不同于ERNIE-THU知識編碼器注重實(shí)體級的嵌入,CokeBERT使用三個(gè)模塊來選擇上下文知識并嵌入知識上下文。具體來說,文本編碼器計(jì)算輸入文本的嵌人,知識上下文編碼器動態(tài)選擇基于文本上下文的知識上下文并計(jì)算知識嵌人,知識融合編碼器融合文本上下文和知識上下文的嵌入,以更好地進(jìn)行語言理解。
盡管基于Transformer的模型能夠捕捉全局特征,但在捕捉局部細(xì)節(jié)方面可能并不如專門的局部特征提取模型如CNN模型。此外,Transformer模型的復(fù)雜度較高,可能導(dǎo)致訓(xùn)練和推理時(shí)間較長,尤其是在處理超大規(guī)模數(shù)據(jù)時(shí),因此,有學(xué)者研究基于圖神經(jīng)網(wǎng)絡(luò)的知識編碼器。例如,盡管BERT-MK[75]也采用了與ERNIE-THU相似的雙編碼器模型架構(gòu),使用了一個(gè)圖上下文的知識嵌人模塊,用于學(xué)習(xí)子圖中的知識,但卻是通過圖卷積操作來捕捉知識圖譜中的結(jié)構(gòu)信息。具體而言是提出了一種從子圖中學(xué)習(xí)知識的方法,將圖上下文知識注入預(yù)訓(xùn)練語言模型。該模型中的知識學(xué)習(xí)模塊用于學(xué)習(xí)知識庫中存在的圖情景化知識,語言模型預(yù)訓(xùn)練模塊將學(xué)習(xí)到的知識整合到語言模型中進(jìn)行知識泛化。然而,在知識編碼器中輸入的相鄰實(shí)體可能與輸入的文本關(guān)聯(lián)度不高,從而給模型帶來額外的知識冗余和知識噪聲。因此,結(jié)合Transformer和GNN的知識編碼器給這一問題的解決提供了思路。GreaseLM[7]為避免在輸出層簡單地融合文本和知識兩種模態(tài)設(shè)計(jì)了GreaseLM層。首先使用語言模型層(LM)對文本進(jìn)行編碼,然后使用GNN層對KG進(jìn)行推理,通過模態(tài)交互層將LM和GNN的表示進(jìn)行融合,有效增強(qiáng)了模型的推理能力。CokeBERT模型[74]中的動態(tài)知識上下文編碼器中使用了S-GNN(語義驅(qū)動圖神經(jīng)網(wǎng)絡(luò)模型),給定文本上下文中提到的實(shí)體,S-GNN利用注意力機(jī)制過濾與輸入文本不相關(guān)的知識圖譜信息,并動態(tài)地選擇適當(dāng)?shù)淖訄D作為給定實(shí)體提到的知識上下文,從而避免了知識圖譜中冗余和模糊的知識與輸入文本不匹配的問題。
圖5增加知識編碼器方法Fig.5Adds to theknowledge encoder method
2.2.2修改知識編碼層
知識編碼器可將知識圖譜中的實(shí)體和關(guān)系轉(zhuǎn)換為高維向量表示,捕獲全局的知識結(jié)構(gòu),但也存在計(jì)算復(fù)雜度高、難以集成的問題,而知識編碼層靈活性高、計(jì)算效率高的特點(diǎn)恰好彌補(bǔ)了這一缺陷。 JAKET[77] 直接將PLM的編碼器分解為兩個(gè)模塊,第一個(gè)語言模塊負(fù)責(zé)為第二個(gè)語言模塊和知識圖譜提供嵌入,第二個(gè)語言模塊則結(jié)合文本和實(shí)體嵌入生成最終表示。這種分解使得模型能夠更好地融合文本和實(shí)體嵌入,提高了模型的知識表示能力,但也存在模型性能極大程度依賴知識圖譜質(zhì)量的問題。而在此之前,KnowBERT[78]提出了一種通用方法,通過知識注意和再情景化機(jī)制將多個(gè)知識庫插入到一個(gè)大型預(yù)訓(xùn)練模型中。模型設(shè)計(jì)的關(guān)鍵在于輸人文本中顯示地建模實(shí)體跨度,并使用實(shí)體鏈接器從知識庫中檢索相關(guān)的實(shí)體嵌入,以形成知識增強(qiáng)的實(shí)體跨度表示;然后該模型通過單詞到實(shí)體的關(guān)注將實(shí)體-跨度表示重新語境化,以允許上下文詞表示與上下文中的所有實(shí)體跨度之間的長距離交互。該方法是在未標(biāo)記的數(shù)據(jù)上通過自監(jiān)督學(xué)習(xí)實(shí)體鏈接器,使得通用知識表示增強(qiáng),廣泛適用于下游任務(wù)。而K-BERT]則將傳統(tǒng)的Transformer編碼器修改為掩碼Transformer,引入軟位置和可見矩陣,軟位置允許模型在處理知識圖譜時(shí)考慮實(shí)體的位置信息,可見矩陣則控制知識圖譜中實(shí)體和關(guān)系的可見性,從而避免知識注入帶來的語句原意的改變。這種修改使得模型能夠更有效地融合知識圖譜中的信息。同時(shí),考慮到圖神經(jīng)網(wǎng)絡(luò)易于捕獲知識圖譜中實(shí)體和關(guān)系信息,KG-BART[79]在遵循BART架構(gòu)時(shí),采用了與傳統(tǒng)Transformer結(jié)構(gòu)不同的基于圖的編碼器-解碼器設(shè)計(jì),用知識增強(qiáng)的編碼器捕獲概念之間的關(guān)系,其中知識圖譜作為圖注意機(jī)制的附加輸入,增強(qiáng)了模型的推理能力。與增加知識編碼器相比,修改知識編碼層僅是在現(xiàn)有模型的編碼層中調(diào)整結(jié)構(gòu)或引入新的機(jī)制如注意力機(jī)制、記憶網(wǎng)絡(luò)等,而不是增加新模塊,因而參數(shù)量增加較少,并且知識編碼層與主模型緊密結(jié)合,避免了額外的數(shù)據(jù)對齊問題,但同時(shí)也產(chǎn)生了一些問題。如直接修改編碼層可能破壞原有模型的性能,給調(diào)試帶來困難;同時(shí)受限于編碼層的結(jié)構(gòu),可能無法處理復(fù)雜的知識表示需求,并且修改后的編碼層對特定領(lǐng)域或特定知識的適應(yīng)性仍待進(jìn)一步研究。
2.2.3 添加獨(dú)立功能插件
上述增加知識編碼器和修改知識編碼層的方式將知識圖譜信息融合到大模型中進(jìn)行知識的動態(tài)更新,但也造成了模型結(jié)構(gòu)的改變使得模型的計(jì)算復(fù)雜度提高,資源消耗加劇,在模型結(jié)構(gòu)中添加獨(dú)立的功能插件如適配器,將減少訓(xùn)練成本。
適配器結(jié)構(gòu)小巧,可在凍結(jié)原模型參數(shù)的情況下獨(dú)立訓(xùn)練。K-Adapter[80]以RoBERTA為骨干模型,用適配器將知識注人預(yù)訓(xùn)練模型,保留固定的預(yù)訓(xùn)練模型的原始參數(shù),每一種注入的知識都有一個(gè)神經(jīng)適配器,就像一個(gè)插件連接到RoBERTA,不同的適配器之間彼此獨(dú)立,因此可以獨(dú)立并行訓(xùn)練多個(gè)適配器,這種方式促進(jìn)了知識的動態(tài)更新。其模型結(jié)構(gòu)如圖6所示。
為解決適配器與預(yù)訓(xùn)練模型聯(lián)合訓(xùn)練產(chǎn)生的昂貴開銷及微調(diào)過程中可能導(dǎo)致的知識災(zāi)難性遺忘問題,OM-ADAPT[81]提出使用適配器的輕量級知識增強(qiáng)方案,通過凍結(jié)BERT主干網(wǎng)絡(luò)參數(shù),僅獨(dú)立訓(xùn)練適配器模塊,將ConceptNet知識圖譜與OMCS常識語料編碼為結(jié)構(gòu)化知識嵌入,并利用適配器模塊將其動態(tài)注人BERT的上下文表示中,有效實(shí)現(xiàn)了知識注人與模型穩(wěn)定性的平衡。文獻(xiàn)[82]和CKGA[83]均提出了一種基于特定領(lǐng)域知識的適配器架構(gòu)。文獻(xiàn)[82]以生物醫(yī)學(xué)領(lǐng)域?yàn)槔剿骰赨MLS、Metathesaurus圖,針對疾病的Wikipedia文章和生物醫(yī)學(xué)概念的語義分組信息的PLM的三個(gè)特定知識適配器,并且還合并了一個(gè)基于門控機(jī)制的知識控制器模塊,自適應(yīng)地調(diào)整適配器的激活級別,增加了實(shí)驗(yàn)結(jié)果的可解釋性。此外,預(yù)訓(xùn)練的適配器可直接與多個(gè)PLM集成,證明了體系結(jié)構(gòu)的可移植性。而CKGA[8]在為情感分類任務(wù)引入了一種新的基于常識知識圖譜的適配器時(shí),更是使用了GNN提取結(jié)構(gòu)化信息。
圖6適配器結(jié)構(gòu)Fig.6Adapter structure
如表2所示的改變模型結(jié)構(gòu)的方法對比,與增加知識編碼器,修改知識編碼層一樣,增加適配器插件同樣可以提高模型的知識表示能力。然而,適配器插件的知識表示能力受限于其較小的容量,難以處理復(fù)雜的知識需求。此外,其性能高度依賴主模型的能力,如果主模型本身的知識表示能力不足,適配器插件可能無法完全彌補(bǔ)這一缺陷。另外,通過改變模型結(jié)構(gòu)的方式來融合知識圖譜存在著模型結(jié)構(gòu)復(fù)雜度提升、預(yù)訓(xùn)練以及聯(lián)合訓(xùn)練成本增加的問題,同時(shí)在面對多模態(tài)數(shù)據(jù)和需要實(shí)時(shí)更新知識的場景中也存在著諸多挑戰(zhàn),前者面臨著模態(tài)對齊、表示一致性和計(jì)算復(fù)雜度的挑戰(zhàn),后者則面臨著更新成本、知識沖突和知識遺忘的問題。
表2改變模型結(jié)構(gòu)方法對比
Tab.2 Comparison of changing the model structure and methods
2.3 微調(diào)時(shí)期融合方法
上述通過修改模型結(jié)構(gòu)融合知識圖譜的方法雖可以有效地將知識圖譜與大語言模型中的文本表示結(jié)合,但是該方法忽視了現(xiàn)實(shí)世界知識的時(shí)效性,并且該方法需要對模型進(jìn)行重新訓(xùn)練才能更新參數(shù)引人最新的知識。因此有學(xué)者提出了知識圖譜調(diào)優(yōu)來增強(qiáng)大模型的個(gè)性化能力。
大模型在大規(guī)模無標(biāo)注數(shù)據(jù)集上訓(xùn)練后,為適應(yīng)下游個(gè)性化任務(wù)的需求,需要在有標(biāo)注數(shù)據(jù)集上進(jìn)行有監(jiān)督微調(diào)[84]。微調(diào)能有效減少訓(xùn)練成本,微調(diào)模型可以快速適配下游任務(wù),但也伴隨著模型參數(shù)的破壞,有學(xué)者研究利用知識圖譜對語言模型進(jìn)行微調(diào)以提升模型的個(gè)性化能力,并取得了不錯(cuò)的效果。
2.3.1知識圖譜注入微調(diào)
知識圖譜注入微調(diào)是指在預(yù)訓(xùn)練語言模型的微調(diào)階段,通過知識嵌入、圖神經(jīng)網(wǎng)絡(luò)模塊或知識約束損失函數(shù)等技術(shù)手段將結(jié)構(gòu)化的知識圖譜信息整合到模型中,以增強(qiáng)模型對事實(shí)性知識、語義關(guān)系和領(lǐng)域邏輯的理解能力。其核心目標(biāo)是彌補(bǔ)純文本數(shù)據(jù)在事實(shí)準(zhǔn)確性、邏輯推理和領(lǐng)域知識覆蓋上的不足,同時(shí)減少模型幻覺,提升決策可解釋性,并緩解小樣本場景下的數(shù)據(jù)稀缺問題。該方法可顯著提升模型在問答、推理、對話生成、實(shí)體鏈接等知識密集型任務(wù)中的表現(xiàn)。
KALA[85]提出一種領(lǐng)域自適應(yīng)框架,通過由實(shí)體及其實(shí)體關(guān)系組成的領(lǐng)域知識調(diào)節(jié)預(yù)訓(xùn)練語言模型的中間隱藏表示,目標(biāo)是在特定任務(wù)的微調(diào)步驟中直接將特定領(lǐng)域的知識集成到PLM中,從而避免傳統(tǒng)領(lǐng)域自適應(yīng)預(yù)訓(xùn)練。首先注意到實(shí)體和關(guān)系是解決特定于領(lǐng)域的下游任務(wù)所需知識的核心構(gòu)建塊,引入實(shí)體記憶庫(它是實(shí)體嵌入的來源,但獨(dú)立于PLM參數(shù)),然后利用知識圖譜進(jìn)一步挖掘?qū)嶓w的關(guān)系結(jié)構(gòu),剩下的步驟是如何在微調(diào)期間將知識集成到PLM中。為此,該文提出了一個(gè)名為知識條件特征調(diào)制的新層,通過使用檢索到的知識表示來調(diào)節(jié)PLM的中間隱藏表示,從而縮放和移位它們。這種知識集成的優(yōu)點(diǎn)是在不修改原始PLM體系結(jié)構(gòu)的基礎(chǔ)上實(shí)現(xiàn)集成到任何PLM的目的,它只需要邊際的計(jì)算和內(nèi)存開銷,同時(shí)消除了過度的進(jìn)一步預(yù)訓(xùn)練的需要。最后,它可以有效地處理來自知識圖譜的關(guān)系知識和看不見的實(shí)體,這些實(shí)體通過自適應(yīng)預(yù)訓(xùn)練被嵌入。與KALA框架直接在微調(diào)階段將結(jié)構(gòu)化知識集成到模型的方式不同,Xie等人[8]提出一種新的知識注入訓(xùn)練框架KeBioSum,并以多個(gè)PLM為基礎(chǔ)進(jìn)行了生物醫(yī)學(xué)文獻(xiàn)提取摘要的實(shí)驗(yàn)。該文研究了生成和判別訓(xùn)練技術(shù),將領(lǐng)域知識融合到知識適配器中,并利用適配器融合將知識適配器有效地注入到基本PLM中,以微調(diào)提取摘要任務(wù)。在三個(gè)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,通過結(jié)合KeBioSum知識適配器,現(xiàn)有PLMs(BERT、RoBERTa、BioBERT和PubMedBERT)得到了改進(jìn)。該研究是在基于特定領(lǐng)域知識任務(wù)的情境下利用知識插件進(jìn)行模型微調(diào)的有效嘗試。
KagNet[87] 與文獻(xiàn)[88]均在微調(diào)階段利用注意力機(jī)制處理知識。前者通過注意力機(jī)制引導(dǎo)模型關(guān)注知識圖譜中與問題相關(guān)的多跳推理路徑篩選,增強(qiáng)答案的可解釋性和準(zhǔn)確性;后者在微調(diào)階段動態(tài)融合外部知識圖譜中的常識知識,提升模型對上下文的理解和生成質(zhì)量。
知識圖譜調(diào)優(yōu)(knowledge graph tuning,KGT)[89]可以基于用戶反饋實(shí)現(xiàn)實(shí)時(shí)的大語言模型個(gè)性化。通過編輯用戶的個(gè)性化知識圖譜代替對模型參數(shù)的微調(diào),為用戶提供個(gè)性化的事實(shí)知識,增強(qiáng)了大模型的定制能力。KGT不需要對LLM進(jìn)行反向傳播,只需要進(jìn)行推理,這大大降低了延遲和計(jì)算成本。編輯的知識三元組是可理解的,確保了該方法的可解釋性。
上述知識圖譜注入微調(diào)模型通過顯式引入結(jié)構(gòu)化知識,使語言模型兼具文本理解與知識推理能力,尤其適合需要高事實(shí)準(zhǔn)確性和復(fù)雜邏輯的任務(wù)。該方法的核心價(jià)值在于彌補(bǔ)純文本訓(xùn)練的局限性,但也面臨知識依賴性強(qiáng)和實(shí)現(xiàn)復(fù)雜度高的挑戰(zhàn)。未來在包括輕量化注人方法如K-Adapter、KG-Adapter[90]動態(tài)知識更新機(jī)制以及多模態(tài)知識注人微調(diào)方向有進(jìn)一步的研究空間,而KGT又給基于參數(shù)化微調(diào)的方法提供了另外的研究思路,即動態(tài)調(diào)整知識圖譜,未來可結(jié)合多模態(tài)知識更新融合來提高模型生成的可解釋性和準(zhǔn)確性。
2.3.2知識增強(qiáng)提示調(diào)優(yōu)
提示工程(promptengineering)[91]是一種設(shè)計(jì)和優(yōu)化輸入提示(prompt)的技術(shù),旨在引導(dǎo)預(yù)訓(xùn)練語言模型(如GPT、BERT等)生成期望的輸出。提示工程的核心思想是通過設(shè)計(jì)合適的提示模板,將任務(wù)形式轉(zhuǎn)換為語言模型更擅長的文本生成或文本分類問題,從而提升模型在特定任務(wù)上的性能。基于知識圖譜的提示調(diào)優(yōu)(knowledge graph-based prompt tuning)[92]是一種結(jié)合知識圖譜和提示工程的技術(shù)方法,旨在通過引入結(jié)構(gòu)化知識來增強(qiáng)提示設(shè)計(jì),從而提升預(yù)訓(xùn)練語言模型(如GPT、BERT等)在特定任務(wù)上的性能。這種方法的核心是利用知識圖譜中的實(shí)體、關(guān)系和屬性信息,設(shè)計(jì)更精準(zhǔn)的提示模板,并在微調(diào)過程中優(yōu)化模型對提示的理解和生成能力。
為將事實(shí)知識整合到預(yù)訓(xùn)練語言模型中,大多數(shù)現(xiàn)有方法通過修改PLM的內(nèi)部結(jié)構(gòu)來堆疊復(fù)雜的模塊,并從知識庫(KB)中引入冗余和不相關(guān)的事實(shí)知識。基于此,基于知識提示的PLM框架KP-PLM[93]引入一種開創(chuàng)性的知識提示范式,可以靈活地與現(xiàn)有的主流PLM相結(jié)合。具體來說,首先為每個(gè)上下文從KB構(gòu)建一個(gè)知識子圖;然后,根據(jù)設(shè)計(jì)的多個(gè)連續(xù)提示規(guī)則,將知識子圖轉(zhuǎn)換為自然語言提示。為了進(jìn)一步利用這些提示中的事實(shí)知識,該文提出了提示相關(guān)性檢查和掩蔽提示建模兩個(gè)新穎的知識感知自我監(jiān)督任務(wù)。在多個(gè)自然語言理解(NLU)任務(wù)的廣泛實(shí)驗(yàn)表明,KP-PLM在全資源和低資源環(huán)境中都優(yōu)于其他先進(jìn)的方法。OntoPrompt[94旨在根據(jù)有限數(shù)量的樣本進(jìn)行預(yù)測,利用結(jié)構(gòu)化數(shù)據(jù)(例如知識圖譜和本體庫)來使各種任務(wù)中的小樣本設(shè)置受益。然而,現(xiàn)有方法采用的先驗(yàn)存在具有挑戰(zhàn)性的知識缺失、知識噪聲和知識異質(zhì)性問題,這阻礙了小樣本學(xué)習(xí)的性能。這項(xiàng)研究探索了使用預(yù)先訓(xùn)練的語言模型進(jìn)行知識注入,并提出了本體增強(qiáng)的提示調(diào)整(OntoPrompt)。具體來說,該模型開發(fā)了基于外部知識圖譜的本體轉(zhuǎn)換來解決知識缺失問題,實(shí)現(xiàn)了結(jié)構(gòu)知識并將其轉(zhuǎn)換為文本,并進(jìn)一步通過可見矩陣引入了跨度敏感知識,以選擇信息豐富的知識來處理知識噪聲問題。為了彌合知識和文本之間的差距,該文提出了一種集體訓(xùn)練算法來聯(lián)合優(yōu)化表示,并使用8個(gè)數(shù)據(jù)集,分關(guān)系提取、事件提取和知識圖譜完成三項(xiàng)任務(wù)評估OntoPrompt。實(shí)驗(yàn)結(jié)果表明,該方法可以獲得比基線更好的小樣本性能。提示調(diào)優(yōu)的核心思想是將文本片段(即模板)插入到輸入中,并將分類任務(wù)轉(zhuǎn)換為掩碼語言建模問題。但是,對于關(guān)系提取,確定合適的提示模板需要領(lǐng)域?qū)I(yè)知識,并且獲取合適的標(biāo)簽詞既瑣又耗時(shí)。
此外,在關(guān)系標(biāo)簽中存在的豐富語義和先驗(yàn)知識也不容忽視。為此,Chen等人[95]專注于將關(guān)系標(biāo)簽之間的知識整合到關(guān)系提取的提示調(diào)整中,并提出一種具有協(xié)同優(yōu)化的知識感知提示調(diào)整方法(KnowPrompt)。該方法將關(guān)系標(biāo)簽中包含的潛在知識注入到提示構(gòu)建中,包括可學(xué)習(xí)的虛擬類型詞和答案詞。該設(shè)計(jì)在豐富提示詞的同時(shí)也可能帶來知識噪聲。
知識增強(qiáng)提示調(diào)優(yōu)未來的發(fā)展趨勢包括高效知識注入、動態(tài)知識更新、多模態(tài)知識融合、少樣本學(xué)習(xí)和領(lǐng)域自適應(yīng),旨在提升大語言模型在復(fù)雜任務(wù)中的表現(xiàn);然而,該領(lǐng)域仍面臨知識質(zhì)量與覆蓋范圍、計(jì)算資源消耗、知識與提示匹配、動態(tài)知識更新、領(lǐng)域知識獲取、模型可解釋性和知識偏差等挑戰(zhàn),需要通過技術(shù)創(chuàng)新和跨領(lǐng)域合作來解決。
2.3.3知識增強(qiáng)檢索微調(diào)
除將知識圖譜以特定結(jié)構(gòu)集成到大模型的方法外,也可將知識圖譜作為外部知識庫,通過檢索外部知識庫增強(qiáng)生成模型的能力。 RAG[96] 作為檢索增強(qiáng)生成領(lǐng)域的開山之作,首次將信息檢索和文本生成結(jié)合,利用外部知識源(如維基百科)中的相關(guān)信息,通過檢索器(基于DPR模型)動態(tài)檢索相關(guān)文檔,并利用生成器(基于BART或T5模型)生成高質(zhì)量文本。該架構(gòu)支持RAG-token(逐詞檢索)和RAG-sequence(整句檢索)兩種生成模式,分別適用于細(xì)粒度和粗粒度的生成任務(wù),在開放域問答、事實(shí)驗(yàn)證等任務(wù)中顯著提升了生成結(jié)果的準(zhǔn)確性和事實(shí)一致性。作為RAG 檢索模塊基礎(chǔ)的 DPR[9]是一種基于稠密向量檢索的方法,使用雙塔模型(queryencoder和passageencoder)進(jìn)行高效檢索。對RAG進(jìn)行改進(jìn)與擴(kuò)展的REALM模型[98]通過學(xué)習(xí)文本知識檢索增強(qiáng)語言模型預(yù)訓(xùn)練算法,與將知識存儲在參數(shù)中的模型相反,要求模型明確地暴露世界知識來決定檢索和使用哪些知識。在進(jìn)行預(yù)測之前,語言模型使用檢索器從大型語料庫中檢索文檔,然后處理這些文檔以幫助預(yù)測。端到端學(xué)習(xí)模型需要考慮整個(gè)文本知識語料庫的檢索步驟進(jìn)行反向傳播,成功提高了開放域問答的性能。EMAT[99]將外部知識編碼為鍵值存儲器,并利用快速最大內(nèi)積搜索進(jìn)行內(nèi)存查詢,與檢索增強(qiáng)模型相比,檢索效率更快,結(jié)果也更準(zhǔn)確。
傳統(tǒng)RAG技術(shù)主要依賴非結(jié)構(gòu)化文本進(jìn)行檢索增強(qiáng),而近年來研究者正探索將知識圖譜等結(jié)構(gòu)化信息融人RAG框架。通過引入實(shí)體關(guān)系網(wǎng)絡(luò)、事例圖譜等結(jié)構(gòu)化語義關(guān)聯(lián),基于圖的RAG可突破關(guān)鍵詞匹配局限,實(shí)現(xiàn)多跳推理與上下文感知的精準(zhǔn)檢索。在大模型融合知識圖譜的背景下,知識注入、提示微調(diào)和檢索增強(qiáng)是三種核心技術(shù)范式,分別從不同角度解決了大語言模型在知識利用上的局限性。盡管三者目標(biāo)一致,即通過引入結(jié)構(gòu)化知識提升模型的語義理解、事實(shí)準(zhǔn)確性和推理能力,但其實(shí)現(xiàn)路徑、技術(shù)特點(diǎn)和應(yīng)用場景存在顯著差異。從表3的對比結(jié)果來看,知識注人、提示微調(diào)、檢索增強(qiáng)既是獨(dú)立的微調(diào)方向,又可通過交叉設(shè)計(jì)實(shí)現(xiàn)互補(bǔ)。知識注入強(qiáng)化模型內(nèi)部的知識表示,提示微調(diào)可以輕量化引導(dǎo)知識利用,檢索增強(qiáng)動態(tài)擴(kuò)展知識的邊界。實(shí)際應(yīng)用中,三者常以混合形式出現(xiàn),如“注入 + 檢索”“提示 + 檢索\"以平衡性能、效率與靈活性。未來趨勢可能進(jìn)一步探索三者無縫協(xié)同的架構(gòu),以更高效地融合結(jié)構(gòu)化知識與大語言模型能力。
表3微調(diào)時(shí)期融合方法對比
Tab.3Comparison of fusion methods in the fine-tuning period
3 總結(jié)和展望
大語言模型融合知識圖譜作為一個(gè)研究新方向,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[100]。本文旨在對這一領(lǐng)域的研究進(jìn)展進(jìn)行綜述,首先,介紹了大模型的定義、基本主流架構(gòu)、以及知識圖譜的類型;然后,根據(jù)模型的訓(xùn)練范式和模型本身的結(jié)構(gòu)對現(xiàn)有的融合方法進(jìn)行了分類,并對每個(gè)分類進(jìn)行介紹;最后對該領(lǐng)域面臨的挑戰(zhàn)和未來有價(jià)值的研究方向進(jìn)行探討。
3.1 挑戰(zhàn)與局限性分析
1)理論建模的認(rèn)知斷層當(dāng)前知識融合方法在理論層面存在顯著缺陷,其核心問題在于缺乏系統(tǒng)性指導(dǎo)框架。現(xiàn)有研究多憑經(jīng)驗(yàn)選擇適配器、圖注意力等模塊架構(gòu),卻未能構(gòu)建可驗(yàn)證的數(shù)學(xué)理論體系,具體表現(xiàn)為兩方面:首先,跨模態(tài)語義對齊方法存在泛化性短板。由于靜態(tài)實(shí)體嵌人無法捕捉多義詞的動態(tài)上下文特征,強(qiáng)行對其齊文本與知識圖譜表示空間時(shí),極易引發(fā)語義偏差。其次,知識選擇機(jī)制的決策邏輯缺乏因果支撐。這類方法雖能通過權(quán)重計(jì)算篩選相關(guān)知識,卻難以用數(shù)學(xué)方法嚴(yán)格驗(yàn)證“何時(shí)需要激活知識”以及“激活哪些知識”的必要條件。這種黑箱操作可能使模型過度依賴局部高頻知識,陷入全局次優(yōu)解。理論建模的缺失,已成為制約知識融合可解釋性與泛化能力的根本瓶頸。
2)動態(tài)推理的收斂性困境現(xiàn)有方法將知識圖譜視為靜態(tài)數(shù)據(jù)庫的假設(shè),嚴(yán)重脫離現(xiàn)實(shí)場景的動態(tài)性需求,主要體現(xiàn)在兩個(gè)層面:一方面,多跳推理過程缺乏收斂保障。主流技術(shù)雖通過預(yù)設(shè)步長限制計(jì)算深度,但未從數(shù)學(xué)層面證明推理路徑必然終止,這可能導(dǎo)致模型在復(fù)雜邏輯鏈條中無限循環(huán)。另一方面,跨模態(tài)協(xié)同停留于表面數(shù)據(jù)對齊。現(xiàn)有研究更多關(guān)注文本與知識圖譜的形態(tài)轉(zhuǎn)換,卻未建立知識表示與語言推理在數(shù)學(xué)層面的統(tǒng)一表達(dá)框架。這種認(rèn)知斷層使得模型難以處理動態(tài)知識更新或假設(shè)性推理,嚴(yán)重制約了復(fù)雜決策場景的應(yīng)用。
3)架構(gòu)效率與領(lǐng)域遷移瓶頸現(xiàn)有融合架構(gòu)在工程落地時(shí)面臨雙重挑戰(zhàn):首先是技術(shù)實(shí)現(xiàn)層面,串行融合設(shè)計(jì)導(dǎo)致信息傳遞效率衰減。圖神經(jīng)網(wǎng)絡(luò)的全連接特性在知識圖譜節(jié)點(diǎn)超過百萬級時(shí),計(jì)算復(fù)雜度呈指數(shù)增長,難以滿足實(shí)時(shí)響應(yīng)需求。在應(yīng)用遷移層面,垂直領(lǐng)域知識融合存在語義斷層風(fēng)險(xiǎn)。由于專業(yè)術(shù)語體系與通用常識的表示空間不兼容,直接遷移訓(xùn)練易引發(fā)負(fù)遷移效應(yīng),如將金融風(fēng)控知識注人醫(yī)療對話模型,可能導(dǎo)致診斷建議包含不相關(guān)經(jīng)濟(jì)指標(biāo)。加之當(dāng)前評估體系過度依賴任務(wù)指標(biāo),缺乏細(xì)粒度知識感知能力診斷,進(jìn)一步加劇領(lǐng)域適配的不確定性。
3.2 未來研究展望
1)構(gòu)建神經(jīng)-符號協(xié)同的數(shù)學(xué)底座針對知識融合理論零散且缺乏數(shù)學(xué)嚴(yán)謹(jǐn)性的核心缺陷,未來研究需構(gòu)建神經(jīng)-符號協(xié)同的統(tǒng)一框架。具體而言,可基于信息幾何理論建立文本與知識圖譜的聯(lián)合流形空間模型,通過微分同胚映射嚴(yán)格推導(dǎo)語義相容性邊界,例如在醫(yī)療領(lǐng)域建模病癥與藥品的拓?fù)潢P(guān)系,避免語義錯(cuò)配問題。同時(shí)引入動態(tài)邏輯框架支撐時(shí)變知識更新,當(dāng)法律條款修訂時(shí),系統(tǒng)可自動推導(dǎo)新舊條款的邏輯沖突。在將描述邏輯規(guī)則轉(zhuǎn)換為可微分約束的方法時(shí),如把“吸煙導(dǎo)致肺癌”等公理編碼為損失函數(shù)時(shí),可使模型同時(shí)遵循數(shù)據(jù)規(guī)律與先驗(yàn)知識,此類理論突破將直接解決現(xiàn)有知識選擇機(jī)制的可驗(yàn)證性缺陷。
2)打造輕量化認(rèn)知增強(qiáng)引擎為突破架構(gòu)效率與領(lǐng)域遷移瓶頸,需重點(diǎn)研發(fā)輕量化認(rèn)知增強(qiáng)技術(shù)。其中可微分知識路由機(jī)制可通過動態(tài)子圖采樣降低計(jì)算負(fù)載,例如對話系統(tǒng)提及“蘋果”時(shí)僅激活科技或農(nóng)業(yè)相關(guān)圖譜節(jié)點(diǎn)。路徑熵約束策略可模擬人類解題時(shí)的思維剪枝,優(yōu)先遍歷高置信度推理路徑以實(shí)現(xiàn)高效計(jì)算。在領(lǐng)域適配方面,構(gòu)建因果干預(yù)門控網(wǎng)絡(luò)能有效識別專業(yè)術(shù)語與常識的語義斷層,當(dāng)金融模型遷移至醫(yī)療場景時(shí)自動過濾無關(guān)經(jīng)濟(jì)指標(biāo)。這些技術(shù)創(chuàng)新將顯著提升復(fù)雜場景下的推理實(shí)時(shí)性與跨領(lǐng)域魯棒性。
3)建立圖模共生的智能生態(tài)知識圖譜與大模型的協(xié)同應(yīng)突破單向注入模式,構(gòu)建雙向增強(qiáng)的智能生態(tài)。一方面利用大模型的生成能力補(bǔ)全知識圖譜缺失的關(guān)系,同時(shí)通過圖譜校驗(yàn)生成內(nèi)容的科學(xué)性,例如自動驗(yàn)證新藥副作用的描述是否符合醫(yī)藥知識庫;另一方面發(fā)展多模態(tài)協(xié)同系統(tǒng),如整合手術(shù)視頻圖譜與實(shí)時(shí)語音講解以構(gòu)建沉浸式教學(xué)環(huán)境。在此過程中需要建立決策溯源機(jī)制,將治療方案推薦邏輯轉(zhuǎn)換為可視化知識路徑,如病歷報(bào)告一樣可供審查質(zhì)疑,此機(jī)制將實(shí)質(zhì)性提升系統(tǒng)可信度。
4)大語言模型與智能體協(xié)同以大語言模型為核心的智能體正在重塑人工智能的邊界,其本質(zhì)是賦予機(jī)器“知行合一”的能力。智能體作為具備環(huán)境感知、自主決策與物理交互能力的實(shí)體,通過大模型的語義理解與推理能力,實(shí)現(xiàn)從抽象認(rèn)知到具象行動的閉環(huán),兩者的協(xié)同將推動理論范式與技術(shù)路徑的深層變革。在認(rèn)知理論層面,基于動態(tài)因果推理的認(rèn)知架構(gòu)正在興起,通過建立語言符號與物理世界的因果映射關(guān)系,使智能體能理解“旋轉(zhuǎn)閥門”這一指令背后的力學(xué)原理與操作邊界,而非僅依賴統(tǒng)計(jì)關(guān)聯(lián);在具身智能領(lǐng)域,多模態(tài)感知-行動聯(lián)合建模技術(shù)突破虛擬與現(xiàn)實(shí)的鴻溝,例如機(jī)器人通過觸覺反饋實(shí)時(shí)調(diào)整抓取力度,結(jié)合大模型對“易碎品”的語義解析動態(tài)生成安全操作策略。技術(shù)革新聚焦虛實(shí)融合的交互機(jī)制-基于物理仿真的強(qiáng)化學(xué)習(xí)框架,使智能體在數(shù)字孿生環(huán)境中預(yù)演方次操作后再進(jìn)行實(shí)體部署,大幅降低訓(xùn)練風(fēng)險(xiǎn);而跨模態(tài)對齊技術(shù)將語言指令轉(zhuǎn)換為肌肉電信號級別的控制參數(shù),已在仿生義肢等醫(yī)療場景中實(shí)現(xiàn)了精準(zhǔn)的人機(jī)協(xié)同。當(dāng)前谷歌的RT-2模型驅(qū)動的機(jī)械臂、達(dá)芬奇手術(shù)機(jī)器人以及波士頓動力Atlas的自主避障系統(tǒng),均展現(xiàn)出大模型與具身智能融合的突破性進(jìn)展。這種協(xié)同不僅催生了可自適應(yīng)復(fù)雜環(huán)境的新型智能體,更是在智能制造、康復(fù)醫(yī)療等領(lǐng)域開辟人機(jī)共生的新維度,其最終目標(biāo)是通過“硅基軀體”與“碳基思維”的融合,構(gòu)建能理解物理法則、適應(yīng)動態(tài)環(huán)境并與人自然協(xié)作的具身智能生態(tài)。
參考文獻(xiàn):
[1]蔡睿,葛軍,孫哲,等.AI預(yù)訓(xùn)練大模型發(fā)展綜述[J].小型微 型計(jì)算機(jī)系統(tǒng),2024,45(10):2327-2337.(CaiRui,GeJun, SunZhe,etal.Overview of the development of AI pre-trained large models[J].Journal of Chinese Computer Systems,2024,45 (10):2327-2337.)
[2]徐磊,胡亞豪,潘志松,針對大語言模型的偏見性研究綜述 [J].計(jì)算機(jī)應(yīng)用研究,2024,41(10):2881-2892.(XuLei,Hu Yahao,Pan Zhisong. Review of biased research onlarge language model[J].ApplicationResearchofComputers,2024,41(10): 2881-2892. )
[3]孫麗萍,童子龍,錢乾,等.基于醫(yī)療臨床數(shù)據(jù)的兩階段專業(yè)級 大語言模型微調(diào)[J].計(jì)算機(jī)應(yīng)用研究,2024,41(10):2906- 2910.(Sun Liping,Tong Zilong,Qian Qian,et al. Two-phases finetuning of profesional large language model via clinical data[J].Application Research of Computers,2024,41(10): 2906-2910.)
[4]Chen Xinying,Cong Peimin,Lyu Shuo.A long-text classification method ofChinese newsbased onBERTand CNN[J].IEEEAccess,2022,10:34046-34057.
[5]Nunez-Marcos A, Perez-de-Vinaspre O,Labaka G. A survey onsign language machine translation[J]. Expert Systems with Applications,2023,213:118993.
[6]Chang Weilin, Zheng Lianmin, Sheng Ying,et al. Chatbot Arena: an open platform for evaluating LLMs by human preference[EB/OL]. (2024-03-08).https://arxiv.or/abs/2403.04132.
[7]Huang Jie, Chang K C C. Towards reasoning in large language models : a survey[EB/OL].(2022-12-21).https://arxiv.org/abs/2212. 10403.
[8]Nam D,MacVean A,Hellendoorn V,et al.Using an LLM to help with code understanding[C]//Proc of the 46th IEEE/ACM International Conference on Software Engineering. New York: ACM Press, 2024:1-13.
[9]Wei J, TayY,Bommasani R,et al.Emergent abilities of large language models [EB/OL].(2022-08-31).https://arxiv.org/abs/ 220607682.
[10]Bang Yejin,Cahyawijaya S,Lee N,et al.Amultitask,multingual, multimodal evaluation of ChatGPTon reasoning,hallcination,and interactivity[EB/OL].(2023-02-08). htps://arxiv.org/abs/2302. 04023.
[11]李瑜澤,欒馨,柯尊旺,等.知識感知的預(yù)訓(xùn)練語言模型綜述 [J].計(jì)算機(jī)工程,2021,47(9):18-33.(Li Yuze,Luan Xin,Ke Zunwang,etal.Surveyof knowledge-aware pre-trained language models[J].Computer Engineering,2021,47(9):18-33.)
[12]韓毅,喬林波,李東升,等.知識增強(qiáng)型預(yù)訓(xùn)練語言模型綜述 [J].計(jì)算機(jī)科學(xué)與探索,2022,16(7):1439-1461.(Han Yi, Qiao Linbo,Li Dongsheng,et al.Review of knowledge-enhanced pre-trained language models[J]. Journal of Frontiers of Computer Science and Technology,2022,16(7):1439-1461.)
[13]Hu Linmei,Liu Zeyi, Zhao Ziwang,et al. A survey of knowledge enhanced pre-trained language models [J]. IEEE Trans on Knowledgeand Data Engineering,2023,36(4):1413-1430.
[14]楊杰,劉納,徐貞順,等.融合知識圖譜的預(yù)訓(xùn)練模型研究綜述 [J].太原理工大學(xué)學(xué)報(bào),2024,55(1):142-154.(Yang Jie,Liu Na,Xu Zhenshun,et al.Survey on pre-trained models fusing knowledge graphs [J]. Journal of Taiyuan University of Technology, 2024,55(1):142-154.)
[15]Pan Shirui,Luo Linhao,Wang Yufei,et al.Unifying largelanguage models and knowledge graphs:a roadmap [J]. IEEE Trans on Knowledge and Data Engineering,2024,36(7):3580-3599.
[16]YangJian,Hu Xinyu,Xiao Gang,et al.A surveyof knowledge enhanced pre-trained language models [EB/OL].(2022-11- 11). https://arxiv.org/abs/2211.05994.
[17]Qiu Xipeng,Sun Tianxiang,Xu Yige,et al.Pre-trained models for natural language processing:a survey[J]. Science China Technological Sciences,2020,63(10):1872-1897.
[18]Wu Yonghui,Schuster M,Chen Zhifeng,et al.Google’s neural machine translation system:bridging the gap between human and machine translation [EB/OL].(2016-09-27).https://arxiv.org/abs/ 1609.08144.
[19]Medhat W,Hassan A,KorashyH.Sentiment analysis algorithms and applications:asurvey[J].Ain Shams Engineering Jourmal, 2014,5(4) : 1093-1113.
[20]Mishra A, Jain S K. A survey on question answering systems with classification[J].Journal of King Saud University-Computer and Information Sciences,2016,28(3): 345-361.
[21]El-Kassas WS,Salama CR,Rafea A A,et al. Automatic text summarization: a comprehensive survey [J]. Expert Systems with Applications,2021,165:113679.
[22]戴瓊海.大模型技術(shù):變革、挑戰(zhàn)與機(jī)遇[J].中國科學(xué)基金, 2023,37(5):713.(Dai Qionghai.Large AI model:change,challenge,and chance[J].Buletin of National Natural Science Foundation of China,2023,37(5):713.)
[23]Vaswani A,ShazeerN,ParmarN,etal.Attention isall you need [C]//Proc of the 31st International Conferenceon Neural Information Processing System.Red Hook,NY:Curran Associates Inc., 2017 :6000-6010.
[24]LeCun Y,BotouL,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE, 1998,86(11): 2278-2324.
[25]Cho K,van Merienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].(2014-06-03).htps://arxiv.org/abs/1406. 1078.
[26] Gers FA,Schmidhuber J, Cummins F. Learning to forget: continual prediction with LSTM[J].Neural Computation,200o,12(10): 2451-2471.
[27]DevlinJ,Chang Mingwei,Lee K,et al. BERT: pre-training of deep Bidirectional Transformers for languageunderstanding[EB/OL]. (2022-10-12). https://arxiv.org/abs/181004805.
[28]Radford A. Improving language understanding by generative pretraining[EB/OL].(2018).htps://cdn.openai.com/researchcovers/language-unsupervised/language_understanding_paper. pdf.
[29]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press ,2016: 770-778.
[30]BaJL,Kiros JR,Hinton G E.Layer normalization[EB/OL]. (2016--7-22). https://arxiv.org/abs/1607.06450.
[31]ColinR,NoamS,AdamR,et al.Exploring the limitsof transfer learning with a unified text-to-text transformer[J].Journal of Machine Learning Research,2020,21(140):1-67.
[32]TayY, Dehghani M,Tran VQ,et al. UL2:unifyinglanguage learning paradigms[EB/OL].(2022-10-08). https://arxiv.org/abs/ 2205. 05131.
[33] Zoph B,Bell I,Kumar S,et al.ST-MoE:designing stable and transferable sparse expert models[EB/OL].(2022-04-29).https://arxiv.org/abs/2202.08906.
[34]Du Zhengxiao,Qian Yujie,Liu Xiao,et al.GLM:generallanguage model pretraining with autoregressive blank infilling [EB/OL]. (2021-03-18).htps://rxiv.org/abs/2103.10360.
[35]Lan Z.ALBERT:aliteBERTforsefsupervisedleaingoflanguage representations [EB/OL].(2019-09-26).https://arxiv.org/abs/1909. 11942.
[36]Liu Yinhan,OttM,GoyalN,etal.RoBERTA:a robustly optimized BERT pretraining approach[EB/OL].(2019-07-26).htps ://arxiv. org/abs/1907.11692.
[37] Clark K,Luong M T,LeQV,et al.ELECTRA:pre-training text encoders as discriminators rather than generators[EB/OL].(2020- 03-23).https://arxiv.org/abs/2003.10555.
[38]Lenat D B.CYC:a'large-scale investment in knowledge infrastructure [J].Communications of the ACM,1995,38(11): 33-38.
[39] Lenat D,Prakash M,Shepherd M.CYC:using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks[J].AlMagazine,1985,6(4):65-85.
[40]Miller GA.WordNet:alexical databaseforEnglish[J].Communications of the ACM,1995,38(11) : 39-41.
[41]Bollacker K,Evans C,Paritosh P,et al.Freebase:acollaboratively created graph database for structuring human knowledge [C]//Proc of ACM SIGMOD International Conference on Management of Data. New York:ACM Press,2008:1247-1250.
[42]Auer S, Bizer C,Kobilarov G,et al.DBpedia: a nucleus for a Web of open data[C]//Proc:of International Semantic Web.Berlin: Springer,2007: 722-735.
[43]Carlson A,BetteridgeJ,Kisiel B,et al.Toward an architecture for never-ending language learning[C]// Proc of AAAI Conference on Artificial Inteligence.Palo Alto,CA:AAAI Press,2010:1306-1313.
[44] Suchanek FM,Kasneci G,Weikum G. YAGO:a core of semantic knowledge [C]//Proc of the 16th International Conference on World WideWeb.2007:697-706.
[45]Vrandecic D,Krotzsch M. Wikidata [J]. Communications of the ACM,2014,57(10):78-85.
[46]Liu Yang,Zeng Qingguo,Meré JO,et al. Anticipating stock market of the renowned companies: a knowledge graph approach [J]. Complexity,2019,2019(1):9202457.
[47]Bodenreider O. The unified medical language system (UMLS): integrating biomedical terminology[J].Nucleic Acids Research, 2004,32:D267-D270.
[48] Zhu Yueqin, Zhou Wenwen, Xu Yang,et al. Intelligent learning for knowledge graph towards geological data[J].Scientific Programming,2017,2017(1):5072427.
[49] Choi W,Lee H. Inference of biomedical relations among chemicals, genes,diseases,and symptoms using knowledge representation learning[J].IEEE Access,2019,7:179373-179384.
[50]Farazi F,Salamanca M, Mosbach S,etal. Knowledge graph approach to combustion chemistry and interoperability[J]. ACS Omega,2020,5(29):18342-18348.
[51]Wang Jianing.Math-KG:construction and applications of mathematical knowledge graph[EB/OL].(2022-05-08). htps://arxiv.org/ abs/2205.03772.
[52]FerradaS,BustosB,Hogan A.IMGpedia:a linked dataset with content-based analysis of Wikimedia images [C]//Proc of the 16th International Semantic Web Conference.Cham:Springer,2Ol7:84-93.
[53]Liu Ye,Li Hui,Garcia-Duran A,et al.MMKG:multi-modal knowledge graphs [C]//Proc of the 16th International Semantic Web Conference. Cham:Springer,2019:459-474.
[54]Wang Meng,Wang Haofen,QiGuilin,et al.Richpedia:a largescale,comprehensive multi-modal knowledge graph [J]. Big Data Research,2020,22:100159.
[55]Zou Xiaohan.A survey on application of knowledge graph[J].Journal of Physics:Conference Series,2020,1487(1):012016.
[56] Sun Yu,Wang Shuohuan,Li Yukun,et al.ERNIE:enhanced representation through knowledge integration[EB/OL].(2019-04-19). https://arxiv.org/abs/1904.09223.
[57]Zhang Denghui, Yuan Zixuan,Liu Yanchi,et al.E-BERT: a phrase and product knowledge enhanced language model for e-commerce [EB/OL]. (2020-09-07). htps://arxiv.org/abs/2009.02835.
[58]Tian Hao,Gao Can,Xiao Xinyan,et al.SKEP:sentiment knowledgeenhanced pre-training for sentiment analysis[EB/OL]. (2020). https://arxiv.org/abs/2005.05635.
[59]Shen Tao,Mao Yi,He Pengcheng,etal.Exploiting structured knowledge in text via graph-guided representation learning[EB/ OL].(2020-05-12). https://arxiv.org/abs/2004.14224.
[60]Kim W,SonB,KimI. VILT: vision-and-language Transformer without convolution or region supervision[C]//Proc of International Conference on Machine Learning. 2021: 5583-5594.
[61]Radford A,KimJW,Hallacy C,et al.Learning transferablevisual models from natural language supervision [C]//Proc of International Conference on Machine Learning. 2021: 8748-8763.
[62]Chen Zhihong,Du Yuhao,Hu Jinpeng,et al.Multi-modal masked autoencoders for medical vision-and-language pre-training[C]//Proc of International Conference on Medical Image Computing and ComputerAssisted Intervention.Cham:Springer,2022:679-689.
[63]Wang Xiaozhi, Gao Tianyu, Zhu Zhaocheng,et al. KEPLER: a unified model for knowledge embedding and pre-trained language representation [J].Transactions of the Association for Computational Linguistics,2021,9:176-194.
[64]王海峰,孫宇,吳華.知識增強(qiáng)預(yù)訓(xùn)練模型[J].中興通訊技術(shù), 2022,28(2):16-24.(Wang Haifeng,Sun Yu,Wu Hua.Knowledge-enhanced pre-trained models [J]. ZTE Technology Journal, 2022,28(2):16-24.)
[65] Sun Yu,Wang Shuohuan,Li Yukun,et al.ERNIE 2.O:a continual pre-training framework for language understanding [C]//Proc of AAAI Conference on Artificial Inteligence.Palo Alto,CA:AAAI Press,2020: 8968-8975.
[66] Sun Yu,Wang Shuohuan,F(xiàn)eng Shikun,et al. ERNIE3.O:largescale knowledge enhanced pre-training for language understanding and generation [EB/OL]. (2021-07-06). htps://arxiv.org/abs/2107. 02137.
[67]Rosset C,Xiong Chenyan,Phan M,et al.Knowledge-aware language model pretraining[EB/OL].(2020-06-29). htps://arxiv. org/abs/2007.00655.
[68]Li Shaobo,Li Xiaoguang,Shang Lifeng,et al. Pre-training language models with deterministic factual knowledge[EB/OL].(2022-10- 20).https://arxiv.org/abs/2210.11165.
[69] Liu Weijie, Zhou Peng,Zhao Zhe,et al. K-BERT: enabling language representation with knowledge graph [C]// Proc of AAAI Conference on Artificial Intellgence.Palo Alto,CA:AAAI Press,2020: 2901-2908.
[70]Sun Tianxiang,Shao Yunfan,Qiu Xipeng,et al. CoLAKE:contextualized language and knowledge embedding [EB/OL].(2020-10- 01).https://arxiv.org/abs/2010.00309.
[71] Zhang Taolin,Wang Chengyu,Hu Nan,et al.DKPLM: decomposable knowledge-enhanced pre-trained language model for natural language understanding[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2022:11703-11711.
[72]Yu Wenhao, Zhu Chenguang,F(xiàn)ang Yuwei,et al.Dict-BERT: enhancing language model pre-training with dictionary[EB/OL]. (2021-10-13).https://arxiv.org/abs/211006490.
[73] Zhang Zhengyan, Han Xu, Liu Zhiyuan,et al. ERNIE:enhanced language representation with informative entities [EB/OL].(2019- 05-17).hps://arxiv.org/abs/190507129.
[74]Su Yusheng, Han Xu, Zhang Zhengyan, et al. CokeBERT: contextual knowledge selection and embedding towards enhanced pre-trained language models[J].Al Open,2021,2: 127-134.
[75]He Bin, Zhou Di, Xiao Jinghui,et al. Integrating graph contextualized knowledge into pre-trained language models[EB/OL].(2019- 11-30).https://arxiv.org/abs/1912.00147.
[76] Zhang Xikun,Bosselut A,Yasunaga M,et al.GreaseLM: graph reasoning enhanced language models for question answering [EB/OL]. (2022-01-21). https://arxiv. org/abs/2201.08860.
[77]Yu Donghan,Zhu Chenguang,Yang Yiming,et al.JAKET: joint pre-training of knowledge graph andlanguage understanding[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2022:11630-11638.
[78]Peters M E,Neumann M,Logan I R L,et al.Knowledge enhanced contextual word representations[EB/OL].(2019-09-09)).https:// arxiv.org/abs/190904164.
[79]Liu Ye,Wan Yao,He Lifang,et al.KG-BART: knowledge graphaugmented BART for generative commonsense reasoning [C]// Proc of AAAI Conference on Artificial Intellgence.Palo Alto,CA:AAAI Press,2021: 6418-6425.
[80]Wang Ruize,Tang Duyu,Duan Nan,et al.K-Adapter:infusing knowledge into pre-trained models with adapters [C]//Findings of the Association for Computational Linguistics. Stroudsburg,PA:ACL Press, 2021.
[81] Lauscher A,Majewska O,Ribeiro L FR,et al. Common sense or worldknowledge? Investigatingadapter-based knowledge injection into pretrained Transformers[EB/OL].(2020-05-24). htps://arxiv. org/abs/2005.11787.
[82]Lu Qiuhao,Dou Dejing,Nguyen TH.Parameter-efficient domain knowledgeintegration from multiple sources for biomedical pre-trained language models [C]//Findings of the Association for Computational Linguistics. Stroudsburg,PA:ACL Press,2021:3855-3865.
[83]Lu Guojun,Yu Haibo,Yan Zehao,et al. Commonsense knowledge graph-based adapter for aspect-level sentiment clasification [J]. Neurocomputing,2023,534:67-76.
[84]Hinton G. Distilling the knowledge in a neural network [EB/OL]. (2015-06-09). https://arxiv.org/abs/1503.02531.
[85]Kang M,Baek J,Hwang S J.KALA:knowledge-augmented language model adaptation [EB/OL]. (2022-01-15). htps://arxiv. org/abs/2204.10555.
[86] Xie Qianqian,Bishop JA,Tiwari P,et al.Pre-trained language models with domain knowledge for biomedical extractive summarization[J].Knowledge-Based Systems,2022,252:109460.
[87]LinBY,Chen Xinyue,Chen J,et al.KagNet:knowledge-aware graph networks for commonsense reasoning[EB/OL].(2019-09- 05).https://arxiv.org/abs/1909.02151.
[88]Chang Tingyun,Liu Yang,Gopalakrishnan K,etal. Incorporating commonsense knowledge graph in pretrained models for social commonsense tasks [EB/OL].(2021-05-12). htps://arxiv.org/abs/ 210505457.
[89]Sun Jingwei,Du Zhixu,Chen Yiran.Knowledge graph tuning:realtime large language model personalization based on human feedback [EB/OL]. (2024-05-30).https://arxiv.org/abs/240519686.
[90] Tian Shiyu,Luo Yangyang,Xu Tianze,et al.KG-Adapter:enabling knowledge graph integrationinlargelanguagemodels through parameter-efficient fine-tuning[C]//Findings of the Association for Computational Linguistics ACL. Stroudsburg,PA:ACL Press,2024:3813-3828.
[91]蘇杭,胡亞豪,潘志松.利用提示調(diào)優(yōu)融合多種信息的低資源事 件抽取方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(2):381-387,400. (Su Hang,Hu Yahao,Pan Zhisong.Low-resource event extraction method using multi-information fusion with prompt tuning[J]. Application Research of Computers,2024,41(2):381-387,400.)
[92]王浩,王珺,胡海峰,等.PMoE:在P-tuning中引入混合專家的 參數(shù)高效微調(diào)框架[J].計(jì)算機(jī)應(yīng)用研究,2025,42(7):1956- 1963.(Wang Hao,Wang Jun,Hu Haifeng,et al.PMoE:Introduce the parameter efficient fine-tuning framework of mixed experts in Ptuning[J]. Application Research of Computers,2025,42(7): 1956-1963.)
[93]Wang Jianing,Huang Wenkang,Qiu Minghui,et al.Knowledge prompting in pre-trained language model for natural language understanding[EB/OL].(2022-10-16)).https://arxiv.org/abs/2210. 08536.
[94]Ye Hongbin, Zhang Ningyu,Deng Shumin,et al. Ontology-enhanced prompt-tuning for few-shot learning[C]//Proc of ACM Web Conference.New York:ACM Press,2022:778-787.
[95]Chen Xiang,Zhang Ningyu,Xie Xin,et al. KnowPrompt:knowledge-aware prompt-tuning with synergisticoptimization for relation extraction[C]//Proc of ACM Web Conference.New York:ACM Press,2022: 2778-2788.
[96]Lewis P,Perez E,Piktus A,et al.Retrieval-augmented generation forknowledge-intensive NLP tasks[C]//Advances in Neural Information Processing Systems.2020: 9459-9474.
[97]Karpukhin V,Oguz B,Min S,et al.Dense passage retrieval for open-domain question answering[EB/OL].(2020-04-10).https://arxiv.org/abs/2004.04906.
[98] Gu K,Lee K,Tung Z,et al. Retrieval augmented language model pre-training[C]//Proc of International Conference on Machine Learning. 2020:3929-38.
[99]Wu Yuxiang,ZhaoYu, HuBaotian,et al.Aneffcient memory-augmented transformer for knowledge-intensive NLP tasks[EB/OL]. (2022-10-30). https://arxiv.org/abs/2210.16773.
[100]陳露,張思拓,俞凱.跨模態(tài)語言大模型:進(jìn)展及展望[J].中 國科學(xué)基金,2023,37(5):776-785.(Chen Lu,Zhang Sitao,Yu Kai. Cross-modal large language models : progress and prospects [J]. Buletin of National Natural Science Foundation of China,2023, 37(5) : 776-785.)