張 宇,郭文忠,林 森,文朝武,龍潔花
1.北京農業智能裝備技術研究中心,北京 100097
2.吉林農業大學信息技術學院,長春 130118
隨著物聯網、人工智能、大數據等技術的不斷發展,知識數據呈指數爆炸式增長。為了可以簡潔明了描述知識和建立世界萬物之間的關系,并隨時管理、更新及應用知識數據,知識圖譜順勢而生。2012年,谷歌公司正式提出了知識圖譜[1-8](knowledge graph),其本質就是一種大規模的語義網絡,以圖的知識表達方式形式直觀表現客觀世界中的實體(概念、人、事物)及其之間關系的網絡化結構。比起傳統的語義網絡,它不僅規模巨大,而且語義豐富、質量優異、結構友好,可以支持組織網絡數據,從而提供智能搜索服務的知識庫。具體地,李艷茹等[1]針對傳統知識圖譜中知識點存儲與推理方法的弊端,提出一種CRA模型,可以便捷且有效地構建和展示高中數學課程知識圖譜;文獻[2]利用KG的潛力來解決行業產品開發和服務創新點進行全面和徹底的討論,對工業產品和服務中的KG開發以及提高實踐適應性的定制進行了系統調查;Majid等[3]提出了一種波斯語知識圖譜群體系統,該系統從從網絡中爬行的無標簽原始文本中提取知識;曹永強等[4]利用文獻計量Citespace可視化分析軟件,采用文獻計量、共被引分析、引文網絡結構變換、可視化等方法探究作物需水研究領域發展現狀,繪制作物需水研究領域的科學合作、學科發展演化規律、潛在影響力文獻或主題結構網絡等知識圖譜,以找出作物需水研究領域的科學合作特征、研究主題的演化規律并預測具有潛在影響力的主題和學者;孫龍龍等[5]為全面、系統、客觀地反映建筑安全領域計算機視覺技術的研究成果及其不足,運用知識圖譜分析工具VOSviewer 對來自WOS 數據庫核心合集上的166 篇相關研究文獻進行了可視化定量分析并輔以定性分析,分析了計算機視覺技術在建筑安全領域的研究現狀與發展趨勢;Deng等[6]定義并構建了一個專利知識圖譜,以捕獲專利域中關鍵字之間的語義信息,然后,根據專利知識圖譜將專利和公司描述為加權圖譜。最后,通過比較基于圖表編輯距離度量的加權圖譜來生成建議;Liu等[7]提出了一種基于知識圖譜的生成問題回答方法,包括知識詞匯構建、數據預處理和答案生成三個部分。實驗結果表明,該方法在WebQA 數據集上比其他方法具有卓越的性能;龔樂君等[8]基于長鏈非編碼核糖核酸和疾病關系的分析,對LncRNA 和疾病知識概念建模,提出一種有效的LncRNA與疾病關系的知識圖譜構建方法,并通過SPARQL 查詢語言和可視化技術展示知識查詢的推理效果。實際上,知識圖譜源于1997 年圖靈獎獲得者愛德華·費根鮑姆提出的“知識工程”的概念,本質上,知識圖譜就是一個具有圖數據庫的知識庫。
知識圖譜由節點和邊組成。節點可以是實體、抽象的概念。邊可以是實體的屬性、實體之間的關系。例如:中國-首都-北京,這種描述方式為三元組事實描述,其中中國為頭實體,首都為關系,北京為尾實體,意思為中國的首都是北京。知識圖譜正是因為其基于圖結構的數據格式、二元關系為基礎的描述形式、語義表達能力豐富、描述形式統一、表示方法對人類和計算機友好,所以被廣泛關注和應用。
目前,面向開放領域和垂直領域構建了各種大規模知識圖譜,例如Freebase[9]、Wikidata[10]、Schema.ORG[11],都是人工或者半自動方式由下到上構建,導致這些圖譜中存在大量實體之間的隱含關系沒有被挖掘出來或者挖掘的關系是錯誤關系。這些缺點限制了AI領域的應用發展。所以如何將現有知識圖譜的知識補充完整成為知識圖譜的炙手可熱的重要問題之一。
知識補全(knowledge graph completion)[12-15]技術便是應對知識圖譜中知識不完整或者知識錯誤問題的方法,知識推理為其中方法之一。知識推理指從已有的知識出發,通過運用各種方法對各種事物進行思考、理解、認知、分析和決策,找出其中隱含的知識,或者推斷出未知知識的過程,使知識圖譜逐漸完整。現在的AI領域,都可以利用深度學習,隨著深度學習的的不斷發展,深度學習與知識推理相結合的方法逐漸顯示出強大的魯棒性。本文通過簡單介紹面向知識圖譜的知識推理相關概念,歸納總結基于深度學習的是推理研究進展,并討論了相關問題和下一步研究建議。
推理在科技進步和社會發展中一直扮演著重要的角色,包含了思考-認知-理解-創新到再思考-認知-理解-創新,一直是一個循環狀態,也是感知世界的重要途徑。知識推理[16-20]種類繁多,根據側重點不同,可以分為很多種,詳細見圖1。Gilgur 等[21]認為推理是一種自上而下的邏輯推理,是指在給定的一個或多個前提的情況下,推斷出一個必然成立的結論的過程。Steven 等[22]認為推理是一種自下而上的推理,指基于已有的部分觀察得出一般結論的過程。孫婧婧等[23]認為推理是給定一個或多個已有觀察事實并根據已有的知識推斷出對已有觀察最簡單且最有可能的解釋的過程。Yuan 等[24]認為推理有助于理解他人的意圖,并有助于在符號及其參考者之間建立對應關系,將已知事物上的結論遷移到新的事物上的過程。實質上,知識推理指根據已有的知識去推斷未知知識的過程。

圖1 知識推理分類Fig.1 Classification of knowledge reasoning
目前研究的大多數知識圖譜中,知識都是以三元組形式進行存儲,所以知識推理是圍繞實體和關系進行推理,主要包括實體預測,即已知頭實體(h)、尾實體(t)和關系(r),預測最有可能的尾實體或頭實體,使構成事實三元組;鏈接預測,已知兩個實體,推理出關系,使之成為完整三元組。
由于分析的角度不同,有很多種推理方法。官賽萍等[25]按照推理背景的不同將知識推理分為傳統知識推理和面向知識圖譜的知識推理。漆桂林等[26]認為面向知識圖譜的知識推理按照推理方法的不同可分為基于本體的推理、基于圖結構的推理和基于深度學習的推理等。基于深度學習[27-31]的知識推理利用不同的模型建模知識圖譜事實三元組,得到預測實體或預測關系的K命中率和模型的準確率、召回率,K命中率為事實三元組的評價標準。Chen 等[32]提出了一種基于LSTM 的輿論模型。通過多模態信息融合,該模型利用多源信息的互補優勢來提高模型的估計性能,在豬肉價格預測任務中,取得了更好的預測效果。李曉英等[33]利用基于深度學習的不均衡文本分類方法選擇不均衡文本特征將評分標準設置為文檔概率相關度之差的最小值,令所選取文本特征均衡分布于多數類以及少數類中,改進文本特征的均衡性。實驗結果表明,該方法可有效分類不均衡文本,分類精度高達99.5%以上。
面向知識圖譜的推理主要圍繞關系的推理展開,利用圖譜中已有的事實或關系推斷出未知的事實或關系,主要考察實體、關系與圖譜結構的特征信息。但是隨著數據的增長,傳統的知識推理方法逐漸無法推理出正確率高的事實三元組。隨著人工智能技術的發展,深度學習在大數據和計算能力的支持下煥發了驚人的能量,它的分布式表示和深層結構為知識推理提供了強大的建模功能,具有強大的學習能力,而基于深度學習的知識推理使深度學習和知識推理相互促進,以更強大的學習能力進行推理。近幾年,隨著深度學習的不斷研究,深度學習和知識推理的結合吸引了越來越多研究者的目光,本文簡介其研究進展,并說明各類推理模型的基本思路與方法。
基于深度學習的知識推理的主要思路是利用深度學習的分布式表示和深層架構來建模知識圖譜的事實三元組。具體的,基于深度學習的知識推理依據知識的屬性分為基于知識表示學習的推理、基于知識獲取的推理以及基于知識計算應用的推理。
基于知識表示學習[34]的推理通過挖掘現實文本中的實體和關系信息,能夠將知識組織成結構化的知識網絡。利用這些豐富的結構化信息將有助于我們再知識驅動下更好地完成各種場景下的推理任務。本節介紹三種基于知識表示學習的推理,從細節到整體、從點到面依次介紹三種推理方法。其中CTransR 模型對頭尾實體間的潛在關系進行聚類,并為每一個聚類的簇單獨建立向量表示;PTransE 模型將知識圖譜中的關系路徑融入知識表示模型中;TKRL模型將實體以不同的方式投影到各自的關系空間中,但各個實體的投影矩陣可能不同,且投影矩陣的構建受到實體層次類型指導。
2.1.1 CTransR模型
在知識圖譜中,很多不同的三元組在相同的關系會有一定的多樣性。比如,關系“屬于”可以出現在2008年奧運會舉辦權屬于中國北京、臺灣屬于中國等多種情況中。為了進一步增強模型對這種復雜關系的建模能力,劉知遠等[35]提出一種在TransR[36]的基礎上的CTransR模型,CTransR 模型給予分段線性回歸的思路,對TransR進行了進一步拓展。模型對頭實體和尾實體之間可能存在的關系進行聚類,并為每一個聚類的簇單獨建立向量表示。所有訓練數據包含的特定關系r的實體對(h,t)將會根據(h-t)被聚類到若干組中,其中h、t為TransE[37]得到的實體嵌入。對于任意一個三元組(h,r,t),實體嵌入為h,t∈Rk,相應關系嵌入為r∈Rd,但是實體嵌入和關系嵌入的維數不一定相同,即k≠d。通過對于每個關系設置一個投影矩陣Mr∈Rk×d,它可以將實體從實體空間投影到關系空間。通過映射矩陣,將實體的投影向量定義為hr=hMr,tr=tMr。假設同一組內的實體對所表現的關系r呦相近的特征,而不同組內的關系r可能表達不同意義。因此,對每一組實體對c,CTransR 學習了一個單獨的關系嵌入rc,相應的得分函數通過一下定義:

||rc-r旨在確保特定于集群的關系向量不會離原始向量太遠,而α控制次約束的效果,對于任意的h,r,t,有||h||2 ≤1,||r||2 ≤1,||t||2 ≤1,||hMr||2 ≤1,||tMr||2 ≤1。
為了證明CTransR 模型的優越性,利用WN11、WN18[38]、FB13K、FB15K[39]數據集,在鏈接預測、三元組分類及文本關系抽取任務上進行了實驗,采用兩種不同的負例采樣算法unif(均衡采樣)和bern(基于頭尾實體分布伯努利采樣),最后的結果證明CTransR 模型要比TransE和TransH模型在效率和復雜度上表現更為平衡。
CTransR 模型在一對一和多對多數據中表現優異,但是在一對多和多對一種表現較差。
2.1.2 PTransE模型
TransE 模型及其擴展模型以往只考慮到了實體之間的直接關系,但在很多知識圖譜中,實體之間的多步關系路徑蘊含了豐富的語義信息,而關系路徑的特征對進行知識表示具有重要的意義。比如,hat隱含了h和t之間的爺爺祖父關系,即(h,祖父,t)。由此劉知遠等人提出了PTransE 模型,將知識圖譜中的關系路徑融入知識表示學習模型中。
PTransE的簡易示意圖如圖2所示。

圖2 PTransE建議示意圖Fig.2 Proposed schematic diagram of PTransE
PTransE 仍是平移假設,但單個關系三元組以關系路徑取代,即PTransE為關系三元組定義的得分函數考慮了實體間的多步路徑信息:

其中,E(h,r,t)用直接關系三元組描述了實體與關系之間的相關性,比如TransE中定義的:

而E(h,P,t)是PTransE 模型的不同之處,它通過多步路徑來描述關系層面的推理信息。因為一個實體對(h,t)在知識圖譜中可能存在多個不同的關系路徑,不同關系路徑在體現實體間聯系方面的可靠性也大不相同,所以定義E(h,P,t)為各關系路徑下得分函數根據其可靠性加權平均的結果:


PTransE模型通過編碼關系路徑將實體和關系嵌入一個低緯空間之中,并且利用路徑約束的資源分配算法和語義復合算法來表示路徑。可以實現高性能的知識圖譜補全(實體預測和關系預測)和文本關系抽取。但是如果不考慮知識圖譜的特征,PTransE 相比于TransE是有一定劣勢的,因為知識圖譜的實體表示為關系預測提供了關鍵信息。而且在頭實體多對多預測中,PTransE模型命中率只有60%。
2.1.3 TKRL模型
由于傳統的知識表示方法對實體嵌入加以約束的監督僅使用知識圖譜之間的關系信息,難以深入理解實體和三元組。而且實體層次類型信息具有人工定義的結構化體系,可以看作一種較為準確的先驗知識。一些開放式的大規模知識圖譜都維護著一套自己的實體層次類型信息。因此,劉知遠等[35]提出將實體層次類型信息應用在世界知識表示學習中,他們認為特定關系下的實體有更需要突出的實體類型,而這些實體在突出不同類型時應該有不同的知識表示。例如,在圖3中的實體層次類型信息樣例中,會發現在效力這個關系下,姚明更應該突出籃球運動員這個類型,而休斯頓火箭隊更應該突出籃球隊這個類型,這些相對重要的實體在圖3中以實現進行連接。所以,對于圖3 中的三元組,應該由姚明在效力上的知識表示與休斯頓火箭隊在籃球隊上的知識表示進行交互。劉知遠等人[35]提出了融合實體層次類型信息的知識表示學習模型(TKRL),它可以通過利用實體的類型信息來指導知識表示學習,使不同情景下的實體具有不同的嵌入表示。

圖3 Freebase實體層次類型信息示例Fig.3 Example of Freebase entity level type information
TKRL 模型基于平移假設思想,從TKRL 的能量函數式(7)中可以看出,TKRL 模型對各個實體的投影矩陣的構建受到實體層次類型指導,因此投影矩陣可能不同。

其中,Mc為層次類型c的投影矩陣。尾實體t的投影矩陣同理可以得到。

基于加權層次編碼器的模型快于基于遞歸層次編碼器的模型,在關系類型預測中,基于RHE 的TKRL 模型表現較好,在實體預測中,基于WHE的TKRL模型表現較好。TKRL模型蘊含了豐富的信息,能夠幫助建立更精確的知識表示,而且在加以軟類型限制的前提下,可以進一步提高知識表示的精確度。但是當數據類型不加以限制時,TKRL模型的平均排名、一命中率、十命中率等都會下降。
基于知識的自動獲取[41]的推理指利用實體或關系抽取的視角介紹語言知識的自動獲取。本節主要以關系抽取為切入點,關系抽取指在沒有標注過的文本中抽取實體間的關系,然后將實體與關系結構化為語言知識擴充到相應的知識圖譜之中。本節將基于語言多樣性分別介紹基于關系層次注意力機制的關系抽取的知識推理、基于對抗訓練的多語言知識關系抽取的知識推理和基于跨語言詞匯的義原預測的知識推理。基于關系層次注意力機制的關系抽取的知識推理根據每個實例在表達特定關系上的重要程度計算一個注意力得分;基于對抗訓練的多語言知識關系抽取的知識推理能夠有效使用對抗訓練技術在多語言環境下學習單一語言的獨特性質,同時在全局融合多種語言的共同特性,使抽取系統利用多語言語料進行更高效的知識獲取;基于跨語言詞匯的義原預測的知識推理旨在現有的義原知識圖譜出發,更高效地為其他語言建立義原知識圖譜。
2.2.1 基于關系層次注意力機制的關系抽取知識推理


圖4 基于關系層次注意力機制的關系抽取模型結構Fig.4 Structure of relational extraction model based on relational hierarchical attention mechanism

為了綜合利用不同層次上不同細粒度[43]的注意力特性,基于層次選擇注意力機制對不同層的文本關系表示進行拼接,實例包S(h,t)的最終表示為:

最終,s(h,t)會被作為模型后續部分的輸入通過一個Softmax層計算條件概率計算,即:

其中,θ是全部模型的參數,|R|是關系類型的總數量,o是神經網絡的最終輸出向量,表示對所有關系類型的預測分數,具體為o=Ms(h,t)+d,其中d是偏置向量,M是所有關系類型的表示矩陣。
此模型通過利用關系層次可以充分考慮到關系之間的聯系,以此提供不同粒度的實例選擇能力,幫助抽取長尾關系,但是提升的結果有限。且當數據比較稀疏時,它的穩定性相對較差,所以未來要著重研究如何解決長尾關系的問題。
2.2.2 基于對抗訓練的多語言關系抽取的推理
由于數據的爆炸式增長,互聯網信息資源多種多樣,單語言場景下的關系抽取已經無法滿足當前的多語言環境,而且在當前環境下基于跨語言注意力機制的關系抽取模型也無法有效抽取深層的各語言一致的語義信息和多樣的結構信息,因此劉知遠等[35]提出一種基于對抗訓練的多語言關系抽取的推理模型(AMNRE),如圖5 所示。該模型引入語言2 獨立語義空間,能夠有效地與語言1 獨立語義空間進行對抗訓練。同時引入句子編碼器和多語言注意力機制,其中,AMNRE 采用神經網絡得到實例的表示向量。此外,AMNRE分別利使用卷積和循環神經網絡實現句子編碼器,并且利用編碼獨立信息和跨語言信息的編碼器對每種語言分別編碼,有效地分開了兩種信息的編碼;AMNRE利用多語言注意力機制來捕捉語料中信息豐富的實例,并在語言間一致和獨立的語義空間中分別利用。在多語言環境下學習單一語言的獨特性質,同時在全局融合多種語言的共同特性,從而幫助抽取系統利用多言語料進行更高效的知識推理來獲得更完善的知識。

圖5 基于對抗訓練的多語言關系抽取模型結構Fig.5 Structure of multilingual relation extraction model based on adversarial training

他們將來自不同語言的實例編碼到了一個統一的一直語義空間,但是在一種不同語言的句子聚集在同一空間中的不同位置且線性可分的情況下,模型難以達到挖掘不同語言一致性信息的目標,受Ganin等[44]的齊發,AMNRE 采用對抗訓練以保證來自不同語言的實例在語義空間中的嵌入得到充分的混合,以便有效地進行關系抽取。
在對抗訓練中,設計一個判別器來斷定特征的語言歸屬,結構定義如下:

其中,MLP 是一個兩層的多層感知機模型。與判別器相對,AMNRE希望不同語言的句子編碼器能夠生成判別器難以區分的表示向量。所以,整體的對抗訓練形式如下:

其中,Tj是第j種語言的所有實例集合。
AMNRE 模型還考慮到每種語言獨特的語義特征可能錯誤地被編碼到語言一致空間中,這樣會對語言一致空間中特征的一致性產生較大的負面影響,所以提出一種正交約束[45]來緩解這個問題。

其中,Ij和Cj是兩個特征矩陣,其行向量為第j類語言通過句子編碼器EI j和EC j編碼出的實例向量。||·||F是Frobenius函數。在正交約束下,語言特性和語言共性特征會被區分的十分明顯。

AMNRE 模型通過將多語言蘊含的各語言的獨立信息和跨語言的一致信息分別編碼到不同的語義空間,并采用對抗訓練機制來更深層地抽取出跨語言的語義信息,構建統一的語義空間,達到提升多語言場景下的關系抽取效果的目的。多語言數據中的信息十分豐富,可以顯著增強關系抽取模型效果;AMNRE 框架中的一致語義空間是多語言數據蘊含的語言一致性信息能被更好地挖掘,并在單語言場景下的效果更好;雖然AMNRE模型是多語言的關系抽取模型,但是在真正多語言場景下的關系抽取精度是低于單語言場景下的關系抽取精度。
2.2.3 基于跨語言詞匯的義原預測知識推理
基于目前沒有基于義原的語言知識圖譜的很多語言無法充分理解甚至利用,加上手工構建基于義原的語言知識圖譜需要消耗許多語言專家的精力。而且詞和義原存在語義上的差異,需要構建詞與義原之間的語義表示獲取它們之間的語義關聯以便識別一個詞在其他語言中的語義。劉知遠等人[35]提出基于跨語言詞匯的義原預測的知識推理模型(CLSP),定義有標注義原的語言為源語言,無標注義原的為目標語言,通過聯合學習將原語言和目標語言的詞嵌入到同一個語義空間,然后利用與目標語言的待推薦詞語義相近的源語言中的詞的義原標注信息,為目標詞推薦義原。CLSP 模型主要包括三個模塊:單語言的詞嵌入學習、跨語言的詞嵌入對齊和基于義原的詞嵌入學習。模型的目標函數為:

(1)單詞語表示
由于源語言和目標語言預料非平行的性質,Lmono包含兩個彼此獨立的單語項即:

其中,上標S和T分別表示源語言和目標語言。本章選擇了Skip-gram[46]這一次表示學習模型來獲得單詞語嵌入。
(2)跨語言詞嵌入對齊
跨語言詞嵌入對齊時為了源語言和目標語言中的詞可以構建統一的語義空間,所以本章使用基于種子詞典和匹配[47]作為跨語言信號的方法來進行跨語言詞嵌入對齊。所以,Lcross由基于種子詞典的對齊Lseed和通過匹配的對齊Lmatch組成,即:

其中,λs和λm是控制兩項相對權重的參數。
(3)通過種子詞典對齊
種子詞典項Lseed的作用是可以通過L2正則項使一個種子詞典D中的翻譯詞對的詞嵌入更加接近,即:

(4)通過匹配機制對齊
假設每個目標語言詞都語某個源語言詞或特殊空間次匹配,同理,每個源語言詞也都與某個目標語言詞或特殊空詞匹配,而匹配的目的是為了彼此找到對應最合適的語言詞,提升所有匹配次對的概率,其損失函數可以表達為:

(5)基于義原的詞表示
基于義原[48]的詞表示方法目的是通過引入源語言的語言知識圖譜信息改進用于醫院預測的詞嵌入質量。本章主要介紹一種基于義原嵌入的詞表示方法,它聯合學習詞嵌入和義原嵌入充分考慮到醫院和詞之間的復雜關系及不同義原之間的關系,并且將采用分布式向量表示的義原和詞嵌入放在相同的語義空間之中,可以充分利用基于義原的語言知識圖譜信息。基于義原嵌入放入方法利用義原嵌入作為正則項同時學習詞嵌入和義原嵌入來學習更好的詞嵌入。假設從知網中提取出源語言的詞-義原矩陣MS,當MS=1 時,說明詞wSs表示詞被標注了義原xj;當MS=0 時,則反之。通過對MS的分解,損失函數定義為:

CLSP模型不僅考慮義原信息可以提升單詞語嵌入的效果,而且在跨語言詞義原預測方面也有顯著的提升。但是,它可以準確預測比較普遍的義原,若遇到一些很少出現的義原是,準確率就會下降。而且人手工標準的知識圖譜在標注目標詞時出現的不可避免的錯誤也會影響模型的效果。當模型預測的目標詞出現的頻率很高的時候,它的詞嵌入會更好,則預測的義原效果就更好。
在國內,最普遍的文獻查詢網址-中國知網,作為一種基于語言知識的計算應用,是一種基于義原表示學習和構建的語言知識圖譜。知網中包含的豐富知識信息可以改善自然語言處理中很多下游任務,例如自然語言推理、關系預測和情感分析等。本章從語言的最小語義單位出發介紹兩種方法,其中基于義原注意力機制的層次解碼器架構(HDSA)采用序列到序列解碼器來進行層次分類,并利用注意力機制將義原信息融入;基于義原驅動的語言模型(SDLM)則是可以利用到句子中每一個詞的義原信息。
2.3.1 基于義原注意力機制的層次解碼器結構推理
LIWC[49]是一個詞頻計數工具,依據人工標注的標簽由粗到細來對詞進行分類,現在已經應用到很多交叉應用領域。原始的LIWC詞典是英文版的,但是近些年來,漢語已經成為世界上使用人口最多的語言,也逐漸設計出了中文版的LIWC,然而中文版的LIWC 詞典中的詞數卻只有7 000多個[50],遠遠少于記載的56 008個,因此中文版LIWC詞典的擴展勢在必行,但是人工標注的擴展方法既耗時又費力。所以劉知遠[35]等人提出一種基于義原注意力機制的層次解碼器(HDSA),旨在將層次解碼器使用詞嵌入作為初始狀態,在解碼詞語標簽序列時使用注意力機制來整合義原信息,然后以序列生成的方式來預測詞語的標簽層次結構以便更好的擴展LIWC詞典。
基于義原注意力機制的層次解碼器的結構圖,如圖6所示。

圖6 HDSA模型結構Fig.6 Model structure of HDSA
HDSA模型的目標函數用交叉熵來定義:


其中,eij=vTtanh(W1yi-1+W2hj) 是用來衡量某個義原嵌入hj和當前預測標簽yi的相關性,v∈Ra,W1和W2是權重矩陣,a是注意力模型中隱層的維度。
采用集束搜索解決層次多標簽的問題一遍對詞語標簽進行預測[52],而依據經驗設置來一個閾值δ在只有一個詞語的標簽序列y滿足約束lnP( )y>δ時,才將y賦值給這個詞語。
HDSA 模型為了使相同的義原在不同類別下擁有不同的權重,在它每一個時間步預測詞語標簽時都會選擇關注一個義原。在義原注意力機制的幫助下(義原提供的外部信息),HDSA 模型可以處理一詞多義和詞類低區分度的問題,所以也就能更準確、更容易理解地預測并擴展LIWC詞典,而且HDSA還可以降低反向傳播時出現的誤差。但是義原有時候會產生誤導,所以在以后的工作中,應該著重考慮義原之間的關系,從而可以更好地利用義原信息;并且由于低區分度的問題,HDSA可能產生區分不同類別的錯誤。
2.3.2 基于義原驅動的語言模型推理
現在很多自然語言技術(NLP)[43]處理中都利用到義原這一知識,但是很少有人將義原應用到神經網絡模型中,雖然神經網絡模型中采用的是連續性的詞表示,但將離散的義原知識利用到模型中還是有幫助的。因此,劉知遠等[35]提出一種基于義原驅動的語言模型推理(SDLM),旨利用句子中的每個詞的可解釋性好的義原信息提高語言模型的性能和可解釋性,而且SDLM模型主要關注序列到序列的解碼器來利用義原信息進行句子生成。
SDLM 模型利用義原信息來預測下一個詞出現的概率,主要包括義原預測器、義項[53]探測器以及詞探測器三部分,模型結構圖如圖7所示。下面簡單介紹一下這三部分:

圖7 SDLM模型結構Fig.7 Model structure of SDLM
(1)義原預測器
假設給定上下文w,詞w包含義原ek(k∈{1,2,…,K})是獨立的,然后義原預測器將將w的向量g∈RH1作為輸入,因為義原是最小的語義單位,各個義原之間不存在語義重疊,所以要輸出每個義原的權重。他們設計了一個以Sigmoid 函數為激活函數的義原預測器,因此,下一個詞包含義原ek的概率可以表達為:

其中,vk∈RH1和bk∈R是可以訓練的參數,σ(·)表示Sigmoid激活函數。
(2)義項預測器

(3)詞探測器
由圖7知,通過義項預測器提供的義項概率累加可以得到詞的預測概率:

SDLM模型在單義詞和多義詞的性能有所提高,特別是多義詞,并且性能隨著義原數量的增加得到更大的提升。但是當義原標注的準確性很低時,模型的性能在也會隨之降低。在未來的探索中,可以進一步考慮義原和詞匯之間復雜的結構和關系。
知識推理現在還處于新興階段,但已有不少學者基于不同的方面對知識圖譜的推理進行研究。比如,典型的基于圖結構的推理方法PRA(path ranking algorithm)[55]和CoR-PRA(constant and reversed path ranking algorithm)[56]。PRA 和CoR-PRA 都利用實體節點之間的路徑當作特征從而進行鏈接預測推理,包括頭尾實體預測和關系預測,不同的是PRA的路徑是單向搜索,CoR-PRA的路徑是雙向搜索。還有基于規則學習的知識推理,旨快速有效地從大規模知識圖譜上學習置信度較高的規則,然后精確且可解釋的進行關系推理。Luis[57]將整條規則在圖中構成一個閉環結構,這種規則叫霍恩規則(AMIE)。AMIE 包含增加懸掛原子、增加實例化的原子及增加閉合原子三個挖掘算子,而且在探索規則結構的過程中還引入了最低規則頭覆蓋過濾和即時增加規則的置信度兩個剪枝策略來縮小搜索空間,然后通過SPARQL 在知識圖譜上的查詢對規則的質量進行評估。
典型的知識推理一般旨應用于對現有的知識圖譜中的信息進行推理,然后得出新的信息以補充或更新舊的知識圖譜中的知識,但是隨著知識推理的深入研究,它逐漸深入到生活之中比如生活娛樂[58]、中醫臨床[59]、電商[60]和企業商業[61]等領域,甚至涉及到了軍事領域[62]。最初設計知識圖譜是為了提升搜索引擎的能力,如今隨著技術的進步,知識圖譜在輔助智能問答、NLP、大數據分析計算、輔助搜索、人工智能等多個方面也展現出了豐富的應用價值。比如,現在的“阿里系”“騰訊系”的一系列APP,都是通過智能搜索,然后利用知識推理排出最適合用戶的消息。一些金融類的專家通過分析近幾年的股票基金,然后推理出一些較為合適的、可以制造收益的選項供廣大用戶選擇。幫助用戶挑出最優的選擇,然后輔助人們進行決策。
隨著科技的迅速發展,我國要在20 世紀中葉基本實現建設信息化軍隊,打贏信息化戰爭戰略目標。并且堅持以機械化為基礎,信息化為主導,推進信息化與機械化相結合共同發展,實現軍隊火力、突擊力、機動能力、防護能力和信息能力整體提高。將知識推理應用到現代信息化軍隊建設中有著一定的作用,例如,在紅藍軍進行演習時,紅軍可以將藍軍的戰斗地點、方式等各種信息抽取出來,然后通過推理模型的計算,可以得出藍軍進攻的下一目標排名,依此,紅軍可以相應作出防御,阻止藍軍順利進攻。當然戰爭是瞬息萬變的,沒有任何機器可以準確預料到對方的下一步行動,所以知識推理只能盡可能地預測對手的下一步行動從而作出調整。
知識圖譜和信息化軍隊的結合,可以鏈接作戰部隊、指揮部、裝備庫等各類作戰要素,可以打通各兵種不同業務領域。而且隨著軍隊信息化建設的深入開展,新型指揮信息系統已經成為作戰指揮的基礎平臺。但是,通過信息系統體驗,目前還停留在輔助“勞力”而不是輔助“智能”階段,對于指揮員的態度、決策或者對抗推演等智能化較高的問題等無法給出完美的解決方法。但是,隨著軍事改革,構建軍事領域知識圖譜是必須的,因為它是軍隊作戰指揮智能化發展的基礎,是提高作戰數據的輔助決策水平重要技術之一。
知識圖譜與軍事的相結合在情報偵察挖掘、作戰指揮控制、戰場態勢感知和網電空間安全方面已經取得了重大突破。為充分利用知識圖譜在軍事方面的優勢,可在深入研究以下幾個方面:一是加強專業知識圖譜基礎技術研究,充分利用人工智能、深度學習等技術;二是加強建設知識圖譜基礎平臺,目前知識圖譜基礎平臺建設技術還無法有效應對超大規模實時并發響應需求,可以將云計算、物聯網等技術的聯合攻關,有效推動知識圖譜基礎平臺建設能力和水平;三是拓展知識圖譜在軍事領域的應用,將產生巨大的軍事效益。
知識圖譜相關技術研究雖然已經在軍事領域取得了較大進展,但仍然面臨著一下問題:(1)有效軍事數據的降噪問題;(2)不同結構的軍事數據融合問題;(3)面向軍事應用的大規模分布式知識圖譜在線實時響應問題。
目前,隨著科技的進步,人們的購物方式也越來越多,很多人在家里用手機就可以進行購物,而且種類應有盡有。因此,電商的發展十分迅速,特別是我國2020年新冠病毒的蔓延,電商更是走向了巔峰。因此電商知識圖譜就變得十分重要,所謂電商,它的核心內容是滿足各種人需要的商品。國內著名的電商有淘寶、拼多多、京東等;國外著名的電商有亞馬遜等。但是論發展程度,我國的電商雖然起步晚,無論是速度和質量遠超于國外,例如淘寶,整個服務不僅有商品,還有快遞服務、商品保險服務甚至智能導購服務,因為淘寶的商品知識大腦學習了大量的行業規范與國家標準,可以從公共媒體、專業社區中的信息識別出近期熱詞,甚至在使用阿里系的其他APP 時,通過近期瀏覽和大數據分析,會推薦一些關于近期瀏覽信息的商品,使購物者省去搜索的時間,給出最優的選擇排名,輔助購物者決策。
電商的發展主要是通過大數據分析等技術從大量的商品圖片、文字描述等數據中收集信息然后構建知識圖譜,電商知識圖譜的數據包含國內-國外數據、商業-國家數據和線上-線下等多源數據;然后通過對近期瀏覽或者關聯APP 的歷史記錄中對數據分析而進行智能推理給出滿足購物者的商品。通過收集數據信息和大數據分析,既可以節省消費者的時間,也可以降低電商后臺操作的壓力,同時也滿足了消費者的需求。
這些電商類知識圖譜需大量多源異構數據匯集,主要利用大規模聚集大規模實體鏈指、大規模層次分類等技術對商品和產品兩個核心節點的知識融合,其中難度最大的是在于商品或產品的類目細分和混淆度,以及大規模訓練數據的生成和降噪;電商知識圖譜的實體量和成本比通用知識圖譜大很多。同時,電商有利有弊,所有的電商平臺都存在泄露用戶信息的風險,所以電商平臺需最大限度保護知識產權、消費者權益以及最重要的用戶隱私。
中醫藥學在數千年的發展中積累了豐富的臨床經驗,已經形成了完整的知識體系,并產生了大量的文獻。現在如何將臨床指南、中醫醫案以及方劑知識等結合起來、如何挖掘整理中醫臨證經驗和學術思想,使中醫藥知識服務更加智能化、個性化。知識圖譜的提出可以幫助實現中醫臨床知識的關聯、整合與可視化,促進中醫臨床研究,輔助中醫臨床決策。因此知識是圖譜在中醫臨床領域有著廣闊的應用前景。
在國內比較有知名度的有由中國中醫科學院中醫藥信息研究所初步構建的中醫臨床知識圖譜系統。該系統以“證、治、效”為中心,將領域專家設計的中醫臨床領域本體當作知識圖譜的骨架,從術語系統、數據庫和文本等知識源中獲取名醫經驗、經驗指南、中醫醫案(核心)等多種龐大的知識資源,對知識圖譜內容進行自動、半自動的補充、修改等系統梳理。所里的學者們還研發了中醫醫案語義分析與挖掘工具,以實現醫案文本預處理、分詞、語義標注、醫案文本瀏覽等功能。利用知識圖譜里的各種推理模型可以依據與當前主題相關的醫案、指南和知識庫內容,發現他們之間的潛在聯系,然后推理出各種臨床規律輔助醫生進行決策。
構建中醫臨床知識圖譜,實質是一個知識抽象和歸納的過程。在整個過程中,一方面要完成知識抽取,對海量醫案文本進行分析和標注從而抽取中醫知識,過程繁瑣且耗時;另一方面,實現知識的結構化表示,旨從醫案文本到結構化知識的轉化,此過程需將所有的非結構化和半結構化數據進行轉化。所以,在構建中醫臨床知識圖譜時,要考慮到各種知識之間的聯系,方可進行嚴格的邏輯推理,所以由于這些數據的復雜性,再加入療效這個因素,使得三者的維度過高,目前的計算機模型很難處理,只能選擇驗案作為作為研究方證對應關系的數據資源。
利用中醫臨床知識圖譜,能夠發現中醫藥概念之間的相關關系,揭示各種臨床規律,從而不斷完善中醫臨床知識體系,直接推動中醫臨床研究的快速發展。
近年來深度學習和知識推理發展迅速,雖然在速度和數量上表現優秀但是在發展的過程中仍然存在一定的問題。本章簡要描述當前知識推理研究進展的幾個至今未解決的問題,然后有提出一些建議,最后展望基于深度學習的知識推理的研究發展前景。
(1)知識結構問題。義原語言知識和實體關系知識大部分是以三元組的形式表示兩個對象之間的關系。三元組結構直觀,既能存儲又能計算而且效率也高,但隨著時代的發展,人類知識的結構會愈加復雜多元,比如知識包含所有發生過的事件,每個事件又至少包括時間、地點、人物、類型等基本信息,無法用一個個孤立的三元組簡單表示。所以,目前的知識結構面臨著結構過于簡單的局限性。
(2)知識推理的數據問題。知識推理中的大規模數據集無非就是NYT(new york times)系列、FB(freebase)系列和WN(wordnet)系列等數據集。所有的推理模型無論是訓練集、測試集還是驗證集都是這些系列的一部分,雖然這些數據集信息量龐大且一直更新補充但是難免會出現數據質量不高且形式不統一的問題,而且基于深度學習的知識推理對噪音十分敏感,尤其在基于分布式表示與深度學習相結合的推理模型,影響頗大。所以,知識推理目前只能驗證或者只符合與這些數據集,而在這些之外的數據集,效果還未知。知識推理既有對這些數據集依賴的問題,還存在內部信息質量問題。
(3)知識推理可利用信息問題。在對知識推理的研究中發現,目前大部分學者研究基于語義的推理方法,通過利用實體和關系的屬性信息,只有很少一部分人利用基于義項和義原信息去研究推理方法。實際上,義原是最基本的語義單位,比如詞語“apple”,主要有兩個義項,一個是水果(apple),另一個是品牌(Apple),對應品牌有手機、Ipad、Macbook 等義原,可以很好地增強詞的表達效果。知識圖譜內存在大量能夠作為實體和關系的標簽的義原信息,這些義原信息是十分重要的推理依據,而這些信息尚未引起廣泛重視。
(4)知識獲取問題。目前現有的知識獲取技術只能對應解決簡單的三元組知識。如在實體關系抽取方面,將其轉換為文本分類任務,將兩實體出現的句子作為樣例,將關系類型作為分類體系。即使是對應這種簡單的三元組知識獲取,依然存在不少未解決的問題,如何跨越句子邊界、如何跨越語言邊界以及如何跨越預定義的關系類型體系。這些問題的探索解決有助于建立更有效的知識獲取技術。
(1)超越三元組。針對知識結構的問題,可以試著使用超越三元組,通過描述不同場景下不同抽象層次的信息,提升對更復雜的知識結構的表示、獲取和計算能力。目前,解決復雜知識結構的方式還只是降解為三元組分別處理。未來,在機器學習工具的支持下,有效利用復雜知識結構和知識獲取技術是值得研究的。
(2)數據集的補充。針對知識推理推理模型對現有的數據集系列的依賴性,和數據集內部存在質量問題。考慮可以根據每個行收集每個行業的數據集,所謂“術業有專攻”,本行業的數據集由本行業專家半自動完成,數據集中的實體和關系組成的三元組可以解決數據集的質量問題,也可以在一定程度上減輕推理模型對數據集的依賴性。
(3)擴大信息利用率。世界中現有大規模知識圖譜中的信息內容還是十分豐富的,既包括實體、實體的屬性等信息,還包括關系信息,如三元組、多元組等。再往深挖一步,還可以挖掘實體的義原信息,細粒度更細,提供的知識更具體。可以借鑒2.3.2小節的基于義原驅動的語言模型推理,在推理過程中利用到了每個詞的義原信息來提高模型的可解釋性和準確性。
知識推理是結構化知識圖譜存在的重要意義之一,也是可解釋人工智能從數據感知到智能認知的實現途徑,對NLP和補充更新知識圖譜都起著重要作用。簡單講,將知識圖譜當作人的大腦知識庫,那么知識推理就是大腦中無數個神經元的結合,是將大腦知識庫中的知識認知、過濾、思考、再認知、再過濾、在思考的循環過程,一直將某件事物的最新消息傳遞給人們。
目前,所有的知識推理技術只是理論研究較為快速,在應用方面要發展到成熟完美還是困難重重的。當前,研究知識推理的學者們逐年上升,取得的理論成果也頗為成功,主要包括基于規則、分布式表示學習、深度學習以及交叉混合的推理方法。目前的知識圖譜尚處于起步階段,對知識圖譜的定義至今沒有統一,并且在發展的過程中雖然方法眾多,但是沒有開元可靠的工具,阻礙知識推理的發展。目前,在知識補全方面有著較大的效果,逐漸完善知識圖譜構建技術。但是知識推理的發展最終要應用到人類相關生活中,在未來對AI領域的發展起關鍵作用,可以在越來越多的場景下擁有著屬于自己的領域。