999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合語義路徑與語言模型的元學習知識推理框架

2022-12-28 07:54:10封皓君張碧瑩劉江舟劉海潮
電子與信息學報 2022年12期
關鍵詞:模型

段 立 封皓君* 張碧瑩 劉江舟 劉海潮②

①(海軍工程大學電子工程學院 武漢 430033)

②(中國人民解放軍 91202部隊 葫蘆島 125004)

1 引言

知識推理是一種通過已有知識排除錯例或推斷新知識的過程,是計算機獲得認知智能的基礎[1]。基于知識圖譜的推理技術則將圖譜作為先驗知識,以剔除其中錯誤3元組、挖掘更多潛在的關聯關系,為實體鏈接、推薦系統、智能問答等場景賦能,具有較高的落地價值[2]。傳統基于路徑或統計規則的推理方式在人的思維基礎上完成推理,顧及了模型層面的可解釋性,卻存在復雜度高、計算困難等缺陷,例如Lao等人[3]提出的路徑排序算法、Yang等人[4]提出邏輯規劃框架等。近年來,各類神經網絡與表示模型[5]相繼被提出,知識推理在效率上取得長足的進步,劉藤等人[6]提出一種基于聯合一階邏輯(First Order Logic, FOL)規則的表示學習框架,通過優化得分函數使之適配大多數推理模型;Zhang等人[7]提出一種基于強化學習的推理方法,將推理問題轉化為序列決策問題,取得了不錯的效果。總的來說,神經網絡憑借其良好性能極大方便推理活動的同時,也帶來解釋性不足等缺陷,同時無法全局考慮語義、路徑等多種影響因素,泛化能力有待提升。隨后,眾多學者開始利用多種方法建模,混合推理方法逐漸被提出,Wang等人[8]利用長短期記憶網絡(Long Short-Term Memory,LSTM)與注意力機制記錄過往推理路徑完成推理;陳海旭等人[9]提出一種基于嵌入和路徑組合的表示模型,利用路徑和關系向量相似度聯合計算推理概率。總的來說,將圖譜路徑與深度學習模型結合是兼顧計算能力與可解釋性的有效途徑之一,但仍難以解決小樣本下(few-shot)知識推理問題。文獻[10]指出,在維基數據中,大約有10%的關系對應的3元組的數量不超過10個,需要更優秀的設計為推理活動賦能,元學習技術逐漸被用到知識推理中,例如Chen等人[11]提出關系元與梯度元等概念,通過轉移元學習器中特定的參數完成小樣本下的鏈接預測。Lü等人[10]提出一種基于長短期記憶網絡和元學習的知識推理框架,有較深刻的啟發意義。

基于傳統推理方法無法兼顧計算能力與可解釋性,并在小樣本下推理困難的問題,本文提出一種基于語義路徑與雙向Transformer編碼表示(Bidirectional Encoder Representations from Transformers, BERT)[12]的元學習推理框架,由基訓練和元訓練兩個階段構成,在基訓練階段提出一種路徑表示方案保留框架整體可解釋性,并利用BERT的自注意力機制更新語義向量,掌握語義間的關聯程度,在框架之上繼續添加微調層提升推理水平;在元訓練階段融合模型無關元學習(Model-Agnostic Meta-Learning, MAML)框架[13]獲得優化后的初始參數,使小樣本推理問題更快收斂。最后使用FB15K-237, WN18RR標準數據集以及OpenKG人物關系圖譜、CN-DBpedia部分子集對框架進行驗證,結果表明,與目前主流推理方法相比,該框架的多項性能指標高于平均水平,同時可以完成小樣本推理問題的學習與快速收斂。

2 相關工作

2.1 BERT模型

谷歌在2018年提出一種預處理語言表示模型BERT,旨在通過海量無監督文本中的詞語相互關系獲得詞或句子級別的特征表示,在眾多自然語言任務中具有良好表現。雖然XLNet[14]曾短暫超越BERT,但據臉書(Facebook)的相關研究表明,如果增加數據量并且訓練更久,BERT依然可以重返最佳水平。其優勢在于引入了自注意力方法與Transformers結構,并設置掩碼語言模型(Masked Language Model, MLM)和下一句預測(Next Sentence Prediction, NSP)聯合預訓練任務,取得不錯的效果,同時證明了深度模型仍可能繼續提升自然語言處理(Natural Language Processing, NLP)任務準確率。基于該模型設計知識推理框架,在提升計算水平同時離線保存推理經驗,并將參數量巨大預訓練模型快速賦能于推理行為,滿足時效性要求。

2.2 MAML框架

模型無關元學習(Model-Agnostic Meta-Learning, MAML)框架是一個通用的元學習框架,通常由若干個子任務(Task)構成,每個Task有獨立的損失函數。該框架旨在獲得一組初始化參數,主要方法是通過對各個Task訓練獲得梯度經驗信息,并針對初始化參數進行調整,從而完成新任務的快速收斂。該框架與傳統訓練方法對比如圖1所示,φ0表示訓練的初始化參數,當訓練第m個子任務Task#m時,計算其損失函數可以獲得其獨有的梯度優化參數θm,如圖1(a)φ0引出虛線所示;再基于θm計算任務m新的損失函數并得到其在θm上的梯度,此時該梯度會代回初始參數φ0中,在新的學習率下得到φ1,φ0~φ1的直線與θm引出的虛線應是平行的,表示梯度的傳遞。而傳統訓練方法摒棄了初始參數更新與梯度傳遞,導致過往訓練信息無法保留。此時再對Task#(m+1)進行訓練,經過一步梯度下降得到θn,計算損失函數在θn上的梯度并更新φ1,以此類推,最終提升模型的整體學習能力,快速高效地適應新任務。

圖1 MAML與傳統訓練方法對比

MAML框架簡單實用,能適應多種任務,有效解決小樣本問題,本文場景下具有一定的應用價值。

3 框架設計

本文在深入調研基礎上,提出一種基于語義路徑與BERT語言模型的元學習推理框架,基訓練階段設計基礎的知識推理框架,元訓練階段提出一種小樣本下的快速學習方案,設計如下。

3.1 基訓練階段

本文將基礎的知識推理問題定義為實體間關聯關系的判斷與預測,由圖譜中的已知路徑作為依據。因此,首要任務是完成實體間路徑挖掘。

框架首先在任意兩實體間搜索N跳之內的其他路徑獲得訓練數據。需要注意的是,并不是實體間所有路徑都能轉化為有效路徑,某些核心節點例如“中國”、“美國”等可以延伸出非常多關系結構,同時也有很多實體因涉及國家3元組與這些核心節點產生關聯,使得節點之間途徑國家產生多跳關系,而實際上節點間的關系一般無法通過相同國家推斷出。基于此,首先應剔除部分核心節點,避免產生無效推理。通過搜索得到的路徑與實體間直連路徑將被看作同義路徑,作為一部分訓練數據。跳數N設置越大,包含的路徑越多,推理條件更寬松,但難以找到通識規律;N設置越小,推理條件越準確,但后續可供學習的訓練數據減少,因此一般設置2~3為宜[15],本文為了簡化驗證過程取2。此時,這些路徑還無法直接與語言模型產生聯系,需設計一種路徑表示方案,定義部分標識如表1所示。

表1 部分變量標識

每條路徑用一個短分句表示,以[SEP]分隔,按照<節點/關系的方向標識/關系/節點>的順序排列。給定節點之間的同義路徑構成一條序列,以[CLS]起始,表示多種同義的推理關系,應當包含兩條及以上的短分句。最終將各實例的子圖結構轉化為若干條序列,如圖2所示。

圖2 語義路徑表示方案

任意推理路徑均可利用上述方式構成序列表示的推理實例,作為一部分訓練數據傳入后續框架中。然而這些推理實例對框架來說都是正例,為了提升學習能力,還需要負采樣一部分錯誤樣本。本文參考百度ERNIE模型[15],基于以下策略對正例進行修改構建負例:(1)隨機替換語義路徑下的1個或多個元素/方向標識;(2)隨機替換語義路徑下的某個短分句。等概率調用兩者,且需要確認新的負例不在推理實例集合中。

將訓練數據加入BERT模型中,通過給定的12層Transformer結構并添加一個額外的池化與輸出層進行微調[16]以完成推理過程,如圖3所示。

圖3 基于BERT微調的推理框架設計

文獻[12]提出取[CLS]的最終隱層狀態c(c∈RH)作為輸出,即最后一個Transformer的結果,H為BERT模型隱層單元數,取768。此時[CLS]的狀態c經過自注意力變換可以對整個序列的特征進行表達。然而在實際使用過程中這種方式可能會導致過擬合情況的發生,泛化能力不佳。因此,本文在Transformer后增加一個池化層(Pooling),采用均值-最大池化(Mean-Max-Pool)策略,對所有狀態按維度取均值與最大值并進行拼接,以增加非線性特征的表達能力。最終得到整個序列表示記為cp(cp∈R2H)。

此外,還需要額外訓練一層權重W(W∈R2H×K),為了區分路徑同義/不同義兩種情況,K在此取2。用Sigmoid函數定義關系概率P,如式(1)P是一個2維向量,兩個維度分別表示路徑同義/不同義的概率,訓練時的損失函數設置為交叉熵函數,如式(2),其優勢在于易于計算且能較好展示分布差異[17]

將候選關系填入[MASK]中,經Transformer與池化(Pooling)后獲得新的特征表示,并將訓練好的權重W代入,獲得同義概率。定義相信度閾值blv∈[0,1],當概率大于該閾值時,認為填入關系是合理的,該值通過后文實驗確定。

3.2 元訓練階段

將MAML框架應用到本文知識推理任務中,目標是獲得更好的初始化權重W,使推理訓練過程快速收斂,總體設計如圖4所示。

圖4 基于MAML的推理框架設計

本框架設計思路如下:沿用上一階段的訓練集,將不同的直連關系劃分并依次用Task集合表示,所有Task構成任務池。同時,將每個Task中的序列實例按比例分為Support與Query集合,舉例如表2所示。

表2 Task舉例與表示

設定一個隨機初始化參數W,對Support集合進行訓練,在Query集合上驗證并計算損失函數,得到梯度信息。所有Task上的梯度信息一起構成梯度元信息,基于此不斷調整初始化W,具體需要執行兩步梯度下降算法,分別設置學習率α, β:

(1)在內層循環中,使m個Task都在W的基礎上完成一次獨立的梯度更新,得到m個優化后的結果,記為W1,W2,···,Wm,更新公式即為一般的梯度下降公式,如式(5)所示,此時Wi只對應于Task#i較優的權值,并非適用于所有任務。

(2)在外層循環中,以W1,W2,···,Wm為參數,在原始W上再進行1次梯度更新,得到優化后的權值Wnew,如式(6)所示,該參數可以適配更多訓練任務

在實際使用過程中,使用改進的早停法(early stopping)防止過擬合情況的發生,即訓練一定的周期后,在隨后的每一個周期當中都計算框架在驗證集上的誤差,在誤差變大時停止訓練,取上一步的結果作為最終參數。

該元學習知識推理框架可有效賦能于圖譜補全,基于碎片化知識中可能蘊含新關系類,該框架可以實現其快速學習并泛化到整個知識圖譜中,如圖5所示。當某文本中產生<殲20,中國代號,威龍>3元組,且“中國代號”關系在圖譜中從未出現過時,該框架可以結合任務池中大量推理經驗,對該任務進行學習并獲得權重參數。隨后通過遍歷圖譜預測出更多包含“中國代號”的3元組,例如<殲31,中國代號,鶻鷹>、<殲轟7,中國代號,飛豹>等。這些預測出的3元組經人工確認后方可以加入圖譜,完成動態補全過程。該任務也將被加入任務池中,繼續賦能于接下來的小樣本新任務,實現“1生2,2生3”的知識完善過程。

圖5 基于圖譜補全過程

4 實驗與分析

驗證推理框架的有效性往往利用鏈接預測(Link Prediction, LP)與事實預測(Fact Prediction,FP)任務。鏈接預測旨在預測3元組中缺失的部分,主要評價指標包括平均排名(Mean Rank,MR)、平均排名倒數(Mean Reciprocal Rank,MRR)與正確3元組所在前K百分比(Hits@K)。其中MR越低,Hits@K越高,則推理方法表現越好。事實預測旨在判斷3元組是否為真,利用平均精度均值(Mean Average Precision, MAP),如式(7)所示,其中n是樣本總和,ti為測試集,rank(true)與rank(false)為正、負樣本的排名,該值越高則框架表現越好

共設置4個實驗數據集,包含兩個通用基準圖譜數據FB15K-237與WN18RR,還加入了中文人物關系圖譜以及從CN-DBpedia中抽取的部分子集。FB15K-237是大型知識庫Freebase的子集,包含237種關系和14k種實體,其關系種類較多,實體之間的聯系較頻繁;WN18RR是大型知識庫Word-Net的子集,包含18種關系和40k種實體。相較于FB15K-237數據集,WN18RR有更多的實體,但關系種類非常少,展現較為稀疏;OpenKG中文人物關系圖譜包含近100k條關系數據,可支撐多項應用嘗試和科學研究工作,涉及人物71243個,大類關系102個,小類關系266條;CN-DBpedia是中文全領域知識圖譜,從中抽取軍事、體育、科技等部分領域3元組繼續進行實驗,約含有5K個3元組。同時,本文還繼續對小樣本下模型的學習能力進行驗證。

4.1 參數設置

框架需要設定的參數除了部分已在模型設計中闡釋外,還包括一些模型訓練的基礎參數與相信度閾值blv等,其中部分訓練基礎參數參考文獻[12, 13],采用給定的參數,如表3所示。

表3 基礎參數設定

相信度閾值blv需要通過實驗進行設定。本文在CN-DBpedia子集上進行小范圍的監督訓練,結果如圖6所示,blv設置為0.92時準確率最高,達到95.24%,后文均以0.92為標準。

圖6 blv與準確率的關系

4.2 鏈接預測驗證

本文利用鏈接預測任務驗證基訓練推理框架的特征表達能力,并與傳統的聯合表示學習方案進行比較,結果如表4所示,表4的部分數據取自先前論文,存在部分缺失值。在中文人物關系圖譜上進行關系預測任務,剩下圖譜上則等比例地完成關系與實體預測。

表4 不同方案鏈接預測效果比較

通過結果可知,本推理框架有3個指標達到最佳。同時,框架在WN18RR數據集上表現最好,在人際關系圖譜上表現則相對平庸,但均在幾種常見推理方案的平均水準之上。

4.3 事實預測驗證

事實預測任務旨在驗證框架識別3元組的能力,結果如表5所示。

表5 不同方案事實預測效果對比

本框架在事實預測任務中表現相對穩定,在WN18RR仍然表現最佳。總體而言,在兩個實驗共計16個評價指標中,該框架有4項排名第1,共計14項指標排名前3。同時,不同的推理方法往往適用于不同圖譜,例如TransE方法[18]在FB15K-237數據集中表現最佳、R-GCNs[19]更適合人際關系圖譜等。該框架在WN18RR總共4項評價指標中有3項位于第1,優于其他推理方案。

4.4 小樣本學習能力驗證

為了驗證框架在小樣本下的推理能力,本文在CN-DBpedia子集中人工標注6種小樣本關系(配偶、所屬地區、前型級、具備能力、隊友、合作),分別記為關系1~6,并將其直接代入推理框架進行200代訓練,記錄訓練過程中的損失變化曲線(如圖7紅線所示)。再依次將某關系看作小樣本Task,其余關系代入MAML框架,獲得優化后的初始W。將W作為初始化參數代入小樣本推理框架中,同樣進行200代訓練并記錄損失變化曲線(如圖7藍線所示),結果如下。

圖7 不同方式下的損失變化曲線

由結果可知,在MAML框架賦能下,有3種關系獲得了更快的收斂能力(關系1、關系5、關系6)。除此之外,關系4獲得了損失更少的起始點,關系2、關系3在訓練中的跳變程度更小,訓練更穩定。總體上看,MAML框架使小樣本推理問題平均提前收斂近10代,有效提升了學習能力。

5 結論

本文提出一種基于語義路徑與BERT的元學習推理框架,在基訓練階段通過語義路徑表示方案獲得圖譜推理路徑,保留整個框架的可解釋性;再利用BERT微調建模,基于語義特征進行訓練并保留預訓練模型,繼而判定推理關系。元訓練階段利用MAML框架對若干子任務進行訓練并保留元信息,獲得更優的初始化參數,為小樣本下的推理問題賦能。實驗表明,該文推理框架在16個指標中均高于平均水平,并有4個達到最優。同時,引入MAML框架可以使部分任務更快收斂,在本文數據集下平均提前約10代,滿足智能化解決推理問題的需求。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 在线观看国产小视频| 99在线免费播放| 欧美日韩中文字幕在线| 国产精品视频导航| 国产三级毛片| 亚洲天堂成人| 亚洲精品天堂在线观看| 中文字幕伦视频| 狠狠操夜夜爽| 国产一区二区在线视频观看| 国产无码高清视频不卡| 欧美亚洲另类在线观看| 国内精品视频| 国产jizz| 亚洲欧州色色免费AV| 爽爽影院十八禁在线观看| 免费av一区二区三区在线| 免费看av在线网站网址| 久久香蕉国产线看观| 无码AV动漫| 91欧美亚洲国产五月天| 91丝袜乱伦| 在线观看国产精美视频| 免费毛片网站在线观看| 91网站国产| 精品91自产拍在线| 在线精品欧美日韩| 亚洲欧洲日产无码AV| 国产男人天堂| 国产91在线|中文| 亚洲欧美自拍一区| 欧美午夜精品| 精品国产免费观看| 女高中生自慰污污网站| 亚洲欧美成aⅴ人在线观看| 日本高清有码人妻| 欧美一级夜夜爽www| 亚洲日韩精品伊甸| 欧美一区福利| 久久婷婷五月综合97色| 国产极品粉嫩小泬免费看| 欧美日韩一区二区在线播放| 亚洲精品天堂在线观看| 免费a级毛片视频| 久久精品亚洲专区| 国产成人高清精品免费| 国产高清免费午夜在线视频| 国产精品入口麻豆| 国产一区二区三区在线观看视频| 91久久精品日日躁夜夜躁欧美| 精品久久久久成人码免费动漫| 亚洲综合久久成人AV| 国产女同自拍视频| 色丁丁毛片在线观看| 91网址在线播放| 欧美亚洲日韩中文| 国产一区二区网站| 精品撒尿视频一区二区三区| 丁香亚洲综合五月天婷婷| 国产在线小视频| 天天综合色网| 91探花国产综合在线精品| 国产真实乱人视频| 国产99视频在线| 宅男噜噜噜66国产在线观看| 国产剧情一区二区| 四虎影视库国产精品一区| 亚洲高清资源| 国产精品自拍露脸视频| 成年人国产网站| 国产女人在线视频| 国产综合另类小说色区色噜噜| 欧美黄色网站在线看| 五月婷婷精品| 在线精品视频成人网| 亚洲精品少妇熟女| 国产女人综合久久精品视| 91久久性奴调教国产免费| 天天综合网在线| 欧美成人精品一区二区| 香蕉99国内自产自拍视频| 九九久久精品免费观看|