田 玲,張謹川,張晉豪,周望濤,周 雪
(1.電子科技大學計算機科學與工程學院,成都 611731;2.電子科技大學信息與軟件工程學院,成都 610054)
隨著計算機科學相關領域研究的不斷深入,人工智能的研究重心由感知智能轉向認知智能。專家系統和語義網絡作為認知智能的早期代表,提出“將知識引入人工智能領域”,在某些特定領域具備一定的問題解決能力,但仍存在規模較小、自動化構建能力不足、知識獲取困難等一系列問題。
知識圖譜(Knowledge Graph,KG)的出現,改變了傳統的知識獲取模式,將知識工程“自上而下”方式轉變為挖掘數據、抽取知識的“自下而上”方式。經過長期的理論創新與實踐探索,知識圖譜已經具備體系化的構建與推理方法。然而,對于實體關系,知識圖譜雖然有較強的建模能力,但難以表達普遍存在的多元關系。知識超圖通過引入超邊關系,能夠完整表達各種復雜的關系類型,得到學術界和工業界的高度關注。此外,知識圖譜和知識超圖能夠結合深度學習(Deep Learning,DL)等人工智能技術,實現高效推理。
本章將從知識圖譜定義引入,介紹知識圖譜的發展歷程、常見的知識圖譜分類以及知識圖譜的邏輯架構。
知識圖譜在維基百科中的定義是:使用語義檢索,從多種來源收集信息,以提高搜索質量的知識庫[1]。本質上,知識圖譜是真實世界中存在的各種實體、概念及其關系構成的語義網絡圖,用于形式化地描述真實世界中各類事物及其關聯關系。
如圖1所示,1965年,斯坦福大學的E.A.Feigenbaum提出專家系統(Expert System,ES)的概念,基于知識進行決策,使人工智能的研究從推理算法主導轉變為知識主導。

圖1 知識圖譜發展歷程Fig.1 Development history of knowledge graph
之后,在1968年,M.R.Quillian提出語義網絡(Semantic Network,SN)的知識表達模式,用相互連接的節點和邊來表示知識,知識庫(Knowledge Base,KB)的構建和知識表示(Knowledge Representation,KR)方法成為研究的熱點。
1977年,在第五屆國際人工智能聯合會議上,E.A.Feigenbaum提出知識工程(Knowledge Engineering,KE)概念,以知識為處理對象,基于人工智能的原理、方法和技術,研究如何用計算機表示知識,進行問題的求解。
1989年,Tim Berners-Lee發明了萬維網(World Wide Web,WWW),并于1998年提出語義網(Semantic Web,SW)概念,將傳統人工智能的發展與萬維網結合,以資源描述框架(Resource Description Framework,RDF)為基礎,在萬維網中應用知識表示與推理方法。
XML作為最早的語義網描述語言,以文檔為單位表示知識,可以用于標記數據和定義數據類型。通過XML,用戶可以自由地設計元素和屬性標簽;但由于不能顯式地定義標簽的語義約束,靈活、個性化的標簽設置導致XML通用性差。
本節將分別介紹早期知識庫、開放知識圖譜、中文常識知識圖譜和領域知識圖譜等。
1.2.1 早期知識庫
早期知識庫通常由相關領域專家人工構建,準確率和利用價值高,但存在構建過程復雜、需要領域專家參與、資源消耗大、覆蓋范圍小等局限。典型的早期知識庫包含WordNet[3]、ConceptNet[4]等。
NER方法可分為基于規則、基于統計模型和基于神經網絡三類,如表4所示。
ConceptNet是一個常識知識庫,源于麻省理工學院媒體實驗室在1999年創立的OMCS(Open Mind Common Sense)項目。ConceptNet采用了非形式化、類似自然語言的描述,側重于詞與詞之間的關系。ConceptNet以三元組形式的關系型知識構成,已經包含近2 800萬個關系描述。
1.2.2 開放知識圖譜
開放知識圖譜類似于開源社區的數據倉庫,允許任何人在遵循開源協議和開放性原則的前提下進行自由的訪問、使用、修改和共享,典型代表為Freebase[5]、Wikidata[6]等。
Freebase是MetaWeb從2005年開始研發的開放共享的大規模鏈接知識庫。Freebase作為Google知識圖譜的數據來源之一,包含多種話題和類型的知識,包括人類、媒體、地理位置等信息。Freebase基于RDF三元組模型,底層采用圖數據庫存儲,包含約4 400萬個實體,以及29億相關的事實。
Wikidata是一個開放、多語言的大規模鏈接知識庫,由維基百科從2012年開始研發。Wikidata以三元組的形式存儲知識條目,其中每個三元組代表一個條目的陳述,例如“Beijing”的條目描述為“Beijing,isTheCapitalOf,China”。Wikidata包含超過2 470萬個知識條目。
1.2.3 中文常識知識圖譜
高臺縣羅城中型灌區屬于黑河下游中段中型自流灌區,擔負著羅城鎮13個行政村87個自然社、總人口1.38萬人、0.38萬hm2耕地的灌溉任務,灌區現有水庫4座,總庫容1 496.62萬m3。共有灌溉干渠渠道10條,長85.35 km,支渠渠道3條,長度8.02 km,斗渠274條,長度132.37 km。灌區依黑河沿岸布局,地下水位較高,地表鹽漬化嚴重。
與英文百科數據相比,中文百科數據結構更為多樣,語義內涵更為豐富,且包含的結構化、半結構化數據有限,為知識圖譜的構造提出了更大的挑戰。當前,中文常識圖譜的主要代表為Zhishi.me[7]、CN-DBpedia[8]等。
Zhishi.me采用與DBpedia類似的方法,從百度百科、互動百科和維基百科中提取結構化知識,并通過固定的規則將它們之間的等價實體鏈接起來。Zhishi.me包含超過1 000萬個實體和1.25億個三元組。
老大爺阿扁做的車輪不是自行車的車輪啦,那個時候還沒有自行車。那個時候的車輪還是木頭的。他在齊國給國君齊桓公做車輪。齊桓公當時要稱霸,需要很多車馬,所以阿扁一天到晚都很忙。齊桓公也很專心地學習治國之道。
CN-DBpedia是一個大規模的中文通用知識圖譜,由復旦大學于2015年開始研發。CN-DBpedia主要從中文百科類網站(如百度百科、互動百科、中文維基百科等)中提取信息,并且對提取的知識進行整合、補充和糾正,極大地提高了知識圖譜的質量。CN-DBpedia包含940萬個實體和8 000萬個三元組。
1.2.4 領域知識圖譜
領域知識圖譜面向軍事、公安、交通、醫療等特定領域,用于復雜的應用分析或輔助決策,具有專家參與度高、知識結構復雜、知識質量要求高、知識粒度細等特點。
例如“星河”知識圖譜[9],作為一個軍事知識圖譜,具有暗網數據、互聯網數據、傳統數據庫、軍事書籍等多種數據來源?!靶呛印敝R圖譜按軍事事件類型和實體類型進行劃分,包括88個國家和6大作戰空間的武器裝備,共10萬余裝備實體數據、330個軍事本體類別。
分別稱取的空白樣品20.00 g,添加適量的樹莓酮標準溶液,使其濃度為1.0、2.0和10.0 μg/kg,每個濃度進行6樣本分析,結果見表2。本方法的回收率為75.4%~82.3%,相對標準偏差為5.97%~8.40%。
其余典型的領域知識圖譜還包括IBM Watson Health醫療知識圖譜[10]、海致星圖金融知識圖譜[11]、海信“交管云腦”交通知識圖譜[12]等。
知識圖譜在邏輯架構層面可分為模式層和數據層,如表1所示。

表1 知識圖譜邏輯結構Tab.1 Logical structureof knowledgegraph
1.3.1 知識圖譜模式層
應力控制下的肢體創傷修復、畸形矯正與再生重建,是21世紀骨科學發展的大趨勢,中國在這個新興學科領域已經由跟跑者成為領跑者之一。秦泗河教授牽頭申辦成功“第六屆世界外固定肢體延長與重建大會”主辦權(2023-北京),屆時將有上百個國家的代表匯集北京共鑲盛會。為在這個學科領域培育國際化青年俊才,推動中國四肢矯形骨科在世界上的地位,秦泗河教授決定,在全國范圍招收青年骨科進修醫生。
1.3.2 知識圖譜數據層
數據層是以事實(Fact)三元組等知識為單位,存儲具體的數據信息。知識圖譜一般以三元組G={E,R,F}的形式表示。其中,E表示實體集合{e1,e2,…,eE},實體e是知識圖譜中最基本的組成元素,指代客觀存在并且能夠相互區分的事物,可以是具體的人、事、物,也可以是抽象的概念。R表示關系集合{r1,r2,…,rR},關系r是知識圖譜中的邊,表示不同實體間的某種聯系。F表示事實集合{f1,f2,…,fF},每一個事實f又被定義為一個三元組(h,r,t)∈f。其中,h表示頭實體,r表示關系,t表示尾實體。例如,事實的基本類型可以用三元組表示為(實體,關系,實體)和(實體,屬性,屬性值)等。
其中,早期的NER方法一般是基于規則的方法和基于統計模型的方法。
(實體,關系,實體)三元組可以表示為有向圖結構,以單向箭頭表示非對稱關系,以雙向箭頭表示對稱關系。具體示例如圖2所示,實體“Arthur”與實體“Carl”間存在“ColleagueOf(同事)”對稱關系;實體“Carl”與實體“Barry”存在“HasChild(父子)”非對稱關系。
本研究中顯示:血脂異常、吸煙和冠心病家族史均為年輕心肌梗塞的主要危險因素,這表明年輕心肌梗塞患者的危險因素不同于中老年人,如果有冠心病家族史,通過調整正常的作息方式和良好的飲食習慣來控制血脂異常,有吸煙史的立即戒煙,會在一定程度上預防對心肌梗塞的發生。

圖2 三元組示例1 Fig.2 Tripleexample1
(實體,屬性,屬性值)三元組可以表示為有向圖結構,單向箭頭表示實體的屬性,由實體指向屬性值。具體示例如圖3所示,實體“Barry”的屬性有“DateOfBirth(出生日期)”等。其中,“DateOfBirth”屬性值為“2012.12.31”。

總體而言,知識圖譜可以看作是事實的結構化表征,包括事實的實體、關系、屬性以及語義描述。
知識表示與存儲是知識圖譜構建、管理和應用的基礎?,F代知識圖譜基于海量的互聯網數據,規模日益增長,對知識的高效表示和有效存儲提出了新的挑戰。本章將分析介紹現有的知識表示方法與存儲方式。
知識圖譜中,知識表示是一種對知識的描述方式,利用信息技術將真實世界中的海量信息轉化為符合計算機處理模式的結構化數據。
如表2所示,早期的知識表示方法有一階邏輯(First-Order Logic,FOL)[13]、霍恩邏輯(Horn Logic,HL)[14]、語義網絡(SN)[15]、產生式規則(Production Rules,PR)[16]、框架系統(Frame Systems,FS)[17]、腳本理論(Script Theory,ST)[18]等。隨著互聯網絡的發展和語義網SW的提出,需要用于面向語義網知識表示的標準語言。因此,萬維網聯盟(W 3C)提出了XML(eXtensible Markup Language)[19]、RDF[20]、RDFS(RDF Schema)[21]和OWL(Web Ontology Language)[22]描述語言。
模式層在數據層之上,是知識圖譜的核心。主要內容為知識的數據結構,包括實體(Entity)、關系(Relation)、屬性(Attribute)等知識類的層次結構和層級關系定義,約束數據層的具體知識形式。在復雜的知識圖譜中,一般通過額外添加規則或公理表示更復雜的知識約束關系。
通過支架合理工作阻力及支架結構優化,最終確定6上109待采工作面換用當時國內外首套最大工作阻力的ZF21000/25/45D 四柱放頂煤支架。

表2 早期知識表示方法對比Tab.2 Comparison of early knowledge representation methods
2012年,Google提出知識圖譜概念[2]。不同于傳統專家系統和知識工程主要依靠手工獲取知識的方式,知識圖譜作為新時代的知識工程技術,以RDF三元組和屬性圖表示知識,數據規模巨大,需要使用機器學習(Machine Learning,ML)、自然語言處理(Natural Language Processing,NLP)等技術進行自動化的圖譜構建。
RDF提供一個統一的標準以“主體(Subject)-謂詞(Predicate)-賓語(Object)”的SPO三元組來描述實體和資源。RDF可以表示為有向圖結構,其中謂詞作為邊,可以是連接主體和賓語的關系或是連接主體和數據的屬性等;但RDF中缺乏對類和屬性的明確定義,抽象能力不足。
RDFS可以看作RDF的拓展,在RDF的基礎上,對RDF中的類、屬性及關系提供了模式定義,為RDF提供了數據模型和簡單的約束規則;但RDFS只能聲明子類關系,無法對互斥類、多個類或實例進行聲明。
以某企業實際立體倉庫為研究對象,運用MATLAB編程并仿真,驗證同軌雙車貨位分配模型的適用性及EMBBO算法的優越性。
OWL則是在RDFS的基礎上,針對復雜場景,添加了額外的預定義詞匯來描述資源,如可以聲明數據的等價性、屬性的傳遞性、互斥性、函數性、對稱性等。
然而,這些傳統的知識表示方法都是基于符號邏輯,能夠刻畫顯式、離散的知識,卻不能表示真實世界中大量不易于用符號邏輯解釋的知識,難以有效挖掘分析知識實體間的語義關系。
參照《中藥新藥臨床研究指導原則》“中藥新藥治療慢性腎功能衰竭臨床研究指導原則”中的腎虛證及濕熱證兩種證候的診斷標準[9],擬定腎虛濕熱證的標準。主癥:腰酸膝軟,口中粘膩,肢體困重,納差,口干,口苦;次癥:乏力,脘腹脹滿不適,骨痛,惡心,嘔吐;舌苔脈象:舌質紅苔黃膩或黃厚,脈濡數;診斷條件:主癥必備,次癥或兼,結合舌脈。
隨著信息時代數據量的爆炸式增長,知識圖譜的規模日益增大,對知識的管理和存儲提出了更高的要求。
知識存儲的目的是確定合理高效的知識圖譜存儲方式?,F有研究中,大部分知識圖譜都是基于圖的數據結構,如表3所示,主要的存儲方式有三種:RDF數據庫、傳統關系型數據庫(Relational Database,RDB)存 儲 和 圖 數 據 庫(Graph Database,GDB)存儲。
4.平茬。如果所培育的大苗干形成不合要求,長勢不旺,或地上部分遭到嚴重損傷,可在春季發芽前,齊地面進行平茬,以使重新長出端直強壯的主干。平茬時要求切口光滑,有利于傷口愈合和萌生枝條。平茬后覆蓋3—5厘米的土,以防止水分蒸發和傷口干燥,當萌條長出后,要及時定干。

表3 知識存儲方式對比Tab.3 Comparison of knowledge storage methods
2.2.1 RDF數據庫
RDF數據庫存儲就是將組成RDF數據集的三元組抽象為圖的形式存儲數據。其優點是圖結構描述直觀,可以最大限度保持RDF數據的語義信息,易于數據的共享和發布;但是RDF不包含實體的屬性信息、所需存儲空間大,沒有圖查詢相應引擎,導致查詢和搜索效率低下,且在處理新增數據時需要重構整個圖。目前學術界主要的開源RDF數據庫包括:Jena[23]、RDF4J[24]和gStore[25]等。
2.2.2 關系型數據庫
RDB發展歷史久遠,理論體系成熟,是知識圖譜存儲的常用方式。RDB使用三元組、水平表、屬性表、垂直劃分和六重索引等建表方式存儲知識三元組,知識存儲和查詢效率都比較高;但是在進行深度的關聯關系查詢或多跳查詢時效率較低,且難以處理實時的關系查詢。目前主流的開源RDB有PostgreSQL[26]和MySQL[27]等。
2.2.3 圖數據庫
GDB是一種非關系型數據庫,基于GDB的存儲是目前知識存儲的主流方式。其優點是以節點和邊表示數據,明確地列出了數據節點間的依賴關系,具有完善的圖查詢語言且支持各種圖挖掘算法,在深度關聯查詢速度上優于傳統的關系型數據庫;但由于分布式存儲特性,資源消耗大。典型的GDB有Neo4j[28]、JanusGraph[29]和HugeGraph[30]等。
構建大規模、高質量的通用知識圖譜或基于行業數據的領域知識圖譜,實現大量知識的準確抽取和快速聚合,需要運用多種高效的知識圖譜構建技術。
如圖4所示,知識圖譜是通過知識抽?。↘nowledge Extraction,KE)、知識融合(Knowledge Fusion,KF)、知識加工(Knowledge Processing,KP)和知識更新(Knowledge Update,KU)等構建技術,從原始數據(包括結構化數據、半結構化數據和非結構化數據)和外部知識庫中抽取知識事實。根據知識的語義信息進行知識的融合、加工,再通過知識更新技術保障知識圖譜的時效性,最終得到完整的知識圖譜。本章將對這些構建技術及相關方法進行闡述。

圖4 知識圖譜構建技術流程Fig.4 Flowchart of knowledgegraph construction technique
知識抽取是知識圖譜構建的首要任務,通過自動化或半自動化的知識抽取技術,從原始數據中獲得實體、關系及屬性等可用知識單元,為知識圖譜的構建提供知識基礎。
早期知識抽取主要是基于規則的知識抽取,通過人工預先定義的知識抽取規則,實現從文本中抽取知識的三元組信息;但是這種傳統方法主要依賴具備領域知識的專家手工定義規則,當數據量增大時,規則構建耗時長、可移植性差,難以應對數據規模龐大的知識圖譜構建。
相比早期基于規則的知識抽取,基于神經網絡的知識抽取將文本作為向量輸入,能夠自動發現實體、關系和屬性特征,適用于處理大規模知識,已成為知識抽取的主流方法。本節將以關系抽取(Relation Extraction,RE)為核心,介紹知識抽取的三類主要任務。
由于市場環境的變化也會導致工程造價預算的精準度,所以要加強市場環境的預測管理。作為建筑企業應該要求預算人員做好對市場環境隨時發生變化的預測,加強對各種原材料的價格因市場環境發生變化的預測分析,為建筑工程選擇原材料價格提供依據。
3.1.1 實體識別
不過觀察上證50和白馬股,會發現二者的關聯度還是很高,在道指創出新低之際,上證50也結束一個季度的盤整開始新一輪探底。我們認為這種現象主要與A股國際化有關,2017年納入MSCI后A股與國際主要市場逐步接軌,上證50成為外資重點配置的方向,理論上兩個指數里面的資金屬性是一樣的。
實體識別即命名實體識別(Named Entity Recognition,NER),是自然語言處理和知識圖譜領域的基礎任務。其目的是從海量的原始數據(如文本)中準確提取人物、地點、組織等命名實體信息。實體識別的準確率影響了后續的關系抽取等任務,決定了知識圖譜構建的質量。
WordNet是由普林斯頓大學認知科學實驗室從1985年開始開發的詞典知識庫,主要用于詞義消歧。WordNet主要定義了名詞、動詞、形容詞和副詞之間的語義關系。例如名詞之間的上下位關系中,“Canine”是“Dog”的上位詞。WordNet包含超過15萬個詞和20萬個語義關系。

表4 命名實體識別方法對比Tab.4 Comparison of named entity recognition methods
在事實中,實體一般指特定的對象或事物,如具體的某個國家或某本書籍等;關系表示實體間的某種外在聯系,屬性和屬性值表示一個實體或概念特有的參數名和參數值。
基于規則的方法通過專家手工構建規則集,將文本等數據與規則集匹配來得到命名實體信息。該方法在處理小規模的知識圖譜時精度較高,但是隨著知識圖譜規模的增大,規則構建困難,且由于規則基于人工構建,難以進行大規模擴展并應用于不同領域的知識圖譜。
基于統計模型的方法將NER作為序列標注問題,以完全或部分標注的語料進行模型訓練。常見的統計模型有條件馬爾可夫模型(Conditional Markov Model,CMM)[31]、隱馬爾可夫(Hidden Markov Model,HMM)[32]、條件隨機場(Conditional Random Fields,CRF)[33]和最大熵(Maximum Entropy,ME)[34]等。基于統計模型的方法在構建一個新的領域知識圖譜時需要做的改動較少,通用性強;但是統計模型的狀態搜索空間龐大、訓練時間長,高度依賴特征選取和語料庫,難以從海量數據中發現復雜且隱含的關鍵特征。
經過三個晝夜的苦思冥想,甲洛洛把希望寄托在了自己身上,他決定不惜一切代價,自己去偵查誰是小偷,并根據以下情況列了排序:
由于深度學習能夠自動地從數據中學習復雜的隱藏特征,所需的領域專業知識和經驗知識較少,基于神經網絡的NER已成為目前主流方法,主要模型有卷積神經網絡(Convolutional Neural Network,CNN)和 循 環 神 經 網 絡(Recurrent Neural Network,RNN)等。
Collobert等[35]最先提出使用卷積層提取句子的局部特征并構造全局特征向量?;谶@項工作,Strubell等[36]提出了IDCNN,相較于傳統的CNN,在大量的文本和結構化數據預測中具有更好的性能。Huang等[37]提出使用長短時記憶網絡(Long Short-Term Memory,LSTM)、雙 向 長 短 時 記 憶 網 絡(Bidirectional Long Short-Term Memory,Bi-LSTM)等模型進行序列標注,能夠有效利用序列的上下文信息。?ukov-Gregori?等[38]則是在先前研究的基礎上,使用多個獨立的Bi-LSTM分布計算進行實體識別,減少了參數總數。楊飄等[39]針對中文NER普遍存在無法表征字的多義性問題,通過嵌入BERT(Bidirectional Encoder Representation from Transformers)預訓練語言模型,構建BERT-BiGRU(Bidirectional Gated Recurrent Unit networks)-CRF模型表征語句的特征,有效提升中文NER效果。
此外,還有一些基于神經網絡的改進模型,如Lin等[40]提出了“實體觸發器(Entity Trigger,ET)”概念,針對NER問題作出解釋性注釋,通過觸發器匹配網絡(Trigger Matching Network,TMN)對ET進行編碼,提高實體標記的有效性,減少了NER人工注釋的成本。
3.1.2 關系抽取
關系抽?。≧E)是知識圖譜領域的研究重點,也是知識抽取中的核心內容。通過獲取實體之間的某種語義關系或關系的類別,自動識別實體對及聯系這一對實體的關系所構成的三元組[41]。
近年來,RE研究大多是基于神經網絡方法,主要包括基于CNN、基于RNN、基于注意力機制(ATTention mechanism,ATT)、基于圖卷積網絡(Graph Convolutional Network,GCN)、基于對抗訓練(Adversarial Training,AT)、基于強化學習(Reinforcement Learning,RL)的RE以及實體-關系聯合抽?。↗oint Entity and Relation Extraction,JERE)。
1)基于卷積神經網絡的關系抽取。
近年來,基于深度學習的知識表示學習(Knowledge Representation Learning,KRL)在語音識別、圖像分析和自然語言處理領域得到廣泛關注。知識表示學習面向知識庫實體和關系,通過將研究對象(如三元組)中的語義信息投影到稠密的低維向量空間,實現對實體和關系語義信息的分布式表示,能夠高效地計算實體、關系間的復雜語義關系,易于深度學習模型的集成。
CNN通過將嵌入表示和文本信息等數據組織為類似圖像的二維結構,使用卷積核提取特征信息并用于關系抽取。
賢莊村片區水力主要是確定水泵型號后,管道輸水能力的復核。選定水泵設計流量為192 m3/h。流量調整后管線的水頭損失為14.2 m,管道地形沿程為55 m,考慮出水口剩余水頭為2.0 m,確定調整流量后輸水系統輸水損失為71.2 m,小于水泵額定揚程73 m。
針對基于統計機器學習的關系抽取方法過度依賴提取的特征質量問題,Zeng等[42]首次提出使用CNN提取單詞和句子級特征,形成特征向量預測關系分類。之后,Nguyen等[43]提出多窗口CNN研究語料庫不平衡情況下的關系抽取。PATMR[44]使用分段CNN(Piecewise CNN,PCNN)對每個句子編碼,挖掘未標記語料庫的相互關系,結合實體類型與隱式關系進行關系抽取。
CNN方法為基于深度學習的關系抽取提供了思路,后續很多基于神經網絡的關系抽取方法都利用CNN提取單詞和句子的特征。
2)基于循環神經網絡的關系抽取。
RNN可以很好地利用內部的記憶機制處理時序相關信息,適用于處理和表示短語及句子的組合向量。
Socher等[45]首次提出基于RNN的語義合成模型MVRNN,學習任意長度的組合向量表示并用于名詞間因果或主題信息等語義關系分類。此外,SDP-LSTM(Shortest Dependency Path with LSTM)[46]利用實體間的最短依賴路徑保留最相關信息,并使用多通道RNN對句子中的實體關系分類。Geng等[47]使用雙向樹形LSTM提取基于句子依存關系樹的結構特征,并使用雙向順序LSTM提取基于單詞的特征,將結構特征與基于單詞的特征結合以優化關系抽取性能。
3)基于注意力機制的關系抽取。
ATT能夠基于權重篩選上下文相關性強的信息,提高關系抽取的質量。目前已有多種根據不同的ATT進行關系抽取的方法。
Attention-CNN[48]考慮文本中不同信息與實體的相關性,利用詞嵌入信息,將文本段編碼為語義信息,通過單詞級ATT確定句子中的哪些部分對實體影響最大。Lin等[49]針對關系抽取中摻雜錯誤標簽,導致抽取性能低下的問題,提出基于句子級ATT的關系抽取模型,通過CNN嵌入句子的語義信息,在多個實例上建立句子級ATT,減少噪聲的權重。針對如何有效選擇實 體,APCNNs(sentence-level Attention model based on PCNNs)[50]提出利用知識庫中的信息,基于句子級ATT,補充實體背景知識。此外,SeG(Selective Gate)[51]使用自注意力機制(Self-ATTention mechanism,SATT)獲取上下文的依存關系,與選擇性ATT相比,該方法即使在只有一個句子時也能穩定抽取關系。
4)基于圖卷積網絡的關系抽取。
GCN可以捕捉圖的全局信息,具有很好的節點表示能力?;贕CN的關系抽取針對文本依存樹中各詞語的依存關系編碼,將關系知識編碼信息引入關系抽取,挖掘句子中更深層的語義信息。
C-GCN(Contextualized GCN)[52]針對現有依存樹模型在不同結構樹下計算效率低、剪枝導致忽視信息等問題,提出基于GCN和修剪依存樹的關系抽取方法。AGGCNs(Attention Guided GCNs)[53]針對如何有效選取依存樹中的相關信息問題,改進現有的硬剪枝策略,將ATT和GCN結合,使用軟剪枝方法自動選擇依存樹中的相關子結構。SGCN(Selfdetermined GCN)[54]使用SATT確定加權圖,并使用GCN對自定義圖進行編碼來完成關系抽取。
5)基于對抗訓練的關系抽取。
基于神經網絡的模型通常忽略了輸入數據中的噪聲,導致模型效果不佳。將對抗訓練AT引入關系抽取,對訓練數據產生對抗噪聲來優化分類算法,能夠有效提升模型魯棒性。
Wu等[55]首次提出在關系抽取中應用AT策略,Wang等[56]在此基礎上,提出了AMNRE(Adversarial Multi-lingual Neural Relation Extraction),以AT策略保證對多種語言的句子表征,提取出語義一致的關系。馮沖等[57]使用生成式對抗網絡(Generative Adversarial Network,GAN),將帶ATT的BiGRU與AT相融合,并引入因果關系解釋語句提高因果關系抽取效果。DSGAN(Distant Supervision GAN)[58]引入AT框架提升關系抽取性能。
6)基于強化學習的關系抽取。
強化學習(RL)是一類學習、預測和決策的方法框架,通過訓練策略網絡選擇最優實例,結合神經網絡進行關系抽取。
Qin等[59]提出了使用深度強化學習(Deep Reinforcement Learning,DRL)策略產生假陽性指標,在沒有監督信息的情況下自動識別假陽性的關系類型。Takanobu等[60]針對現有大部分方法將實體識別和關系抽取分開,關系抽取可能存在重疊關系,提出HRL(Hierarchical RL),將實體識別和關系抽取分為兩級RL策略,提升了處理重疊關系時的性能。JRE_TRL(Joint entity and Relation Extraction model with Transformer and RL agent)[61]通過強化學習策略和獎勵機制過濾噪聲句子并進行關系分類。
7)實體-關系聯合抽取。
實體-關系聯合抽取旨在針對實體識別和關系抽取作為兩個串聯子任務時存在的錯誤傳播問題,對實體和關系進行聯合建模。能夠考慮到實體與關系間的語義相關性,有效解決關系重疊問題,減少誤差累積,提高知識抽取的整體效果。
最早的實體-關系聯合抽取方法是Miwa等[62]提出的堆疊雙向樹型LSTM-RNNs模型,在考慮實體信息的情況下進行關系抽取。本質上,該方法的實體識別和關系抽取仍然是分離的,無關的實體輸入還導致了信息的冗余。對此,Zheng等[63]使用標注機制,將聯合抽取轉換為標注任務,通過計算偏重損失提升實體標簽間的相關性,實現聯合抽取。
進一步地,考慮實體標簽間的長距離依賴關系,Zheng等[64]提出了一種混合模型,包括用于實體抽取的雙向編碼器-解碼器LSTM模型和用于關系分類的CNN模型,獲得單詞間的長距離交互關系和標簽間的長距離依賴關系。陳仁杰等[65]提出FETI(Fusing Entity Type Information)模型,融合頭尾實體的類別信息,提升聯合抽取性能。
此外,還有一些方法以元組形式進行實體-關系聯合抽取。例如,Nayak等[66]使用編碼器-解碼器模型,通過關系元組表示方法聯合抽取實體和關系。
綜上,基于神經網絡的關系抽取方法對比如表5所示。

表5 基于神經網絡的關系抽取方法對比Tab.5 Comparison of relation extraction methodsbased on neural network
3.1.3 屬性抽取
屬性抽取是知識庫構建和應用的基礎,通過從不同信息源的原始數據中抽取實體的屬性名和屬性值,構建實體的屬性列表,形成完整的實體概念,實現知識圖譜對實體的全面刻畫。
屬性抽取方法一般可分為傳統的監督、無監督和半監督屬性抽取,基于神經網絡的屬性抽取和其他類型(如元模式、多模態等)的屬性抽取。
目前大部分屬性抽取是從文本數據中抽取信息。傳統方法中監督學習的屬性抽取一般使用HMM和CRF等抽取屬性。Raju等[67]使用名詞聚類方式,從名詞類中抽取屬性。Shinzato等[68]則提出一種無監督的屬性抽取方式,自動對語料庫質量進行注釋,生成知識庫。
基于神經網絡的屬性抽取一般作為序列標注任務,使用序列標注模型抽取文本中的屬性值。如Zhao等[69]基于BERT預訓練模型,使用LSTM結合CRF的序列標簽模型抽取文本中的屬性。
基于元模式的屬性抽取如Jiang等[70]提出的MetaPAD,將類型化的文本模式結構命名為元結構,可以在海量語料庫中發現元模式。在屬性抽取的場景中,能使用這種方法發現文本中高質量的屬性描述語句,作為實體的屬性值。
此外,Logan等[71]針對屬性抽取大部分是基于文本數據的現狀,提出了多模態屬性抽?。∕ultimodal Attribute Extraction,MAE)方法及數據集,實現對多種類型數據(如圖像、視頻、音頻等)的屬性抽取。
知識融合是融合各個層面的知識,包括融合不同知識庫的同一實體、多個不同的知識圖譜、多源異構的外部知識等,并確定知識圖譜中的等價實例、等價類及等價屬性,實現對現有知識圖譜的更新。如表6所示,知識融合的主要任務包含實 體 對 齊(Entity Alignment,EA)和 實 體 消 歧(Entity Disambiguation,ED)。

表6 知識融合主要任務Tab.6 Main tasksof knowledge fusion
3.2.1 實體對齊
實體對齊是知識融合階段的主要工作,旨在發現不同知識圖譜中表示相同語義的實體。一般而言,實體對齊方法可分為傳統概率模型、機器學習和神經網絡等類別。
傳統概率模型基于屬性相似性關系,將實體對齊看作概率分類模型,根據相似度評分選擇對齊實體。常用的模型有CRF、馬爾可夫邏輯網絡(Markov Logic Network,MLN)和隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)等。
基于機器學習的實體對齊將實體對齊問題看作二分類問題,可分為監督學習和無監督學習。在監督學習實體對齊中,使用預先人工標注部分來訓練模型,對未標注數據進行分類。如決策樹(Decision Tree,DT)、支持向量機(Support Vector Machine,SVM)等方法通過比較特征向量進行實體對齊,或考慮實體的相似度,使相似實體聚類對齊,如Cohen等[72]提出的自適應實體對齊和聚類技術。
在神經網絡方法中,基于嵌入的實體對齊將不同的知識圖譜表示為低維嵌入,并通過計算實體嵌入間的相似度來進行實體對齊,是目前實體對齊方法的研究重點。
Sun等[73]將實體對齊看作分類問題,提出基于嵌入的實體對齊Bootstrapping方法,將可能的實體對齊標記并迭代添加到訓練數據中,保證對齊的精度。Zhang等[74]針對實體對齊中實體特征沒有被發現或沒有被統一處理的問題,提出通過統一多個實體視圖來學習實體對齊嵌入的框架,并通過組合策略提升跨圖譜間實體對齊的性能。
此外,Trisedya等[75]則是從學習不同圖譜中的實體間相似性出發,提出兩個知識圖譜間的實體對齊框架,將實體嵌入和屬性嵌入結合,學習兩個圖譜的統一嵌入空間,提升實體對齊性能。車超等[76]提出基于屬性信息和雙向對齊的圖卷積模型(Bidirectional alignment Graph Convolutional Network with Attribution information,BiGCN-A),在實體對齊中融入屬性信息,并在對齊預測階段使用雙向對齊提高準確率。
3.2.2 實體消歧
實體消歧是根據給定文本,消除不同文本中實體指稱的歧義(即一詞多義問題),將其映射到實際的實體上。
根據有無目標知識庫劃分,實體消歧主要有命名實體聚類消歧和命名實體鏈接消歧等方法。命名實體聚類消歧將所有的實體指稱與實際的目標實體進行聚類。命名實體鏈接消歧則是根據文本的上下文信息,將文本中的實體指稱鏈接到候選的實際目標實體列表中。
近年來,詞嵌入(Word Embedding,WE)在自然語言處理領域應用廣泛,可以利用分布式低維向量中的語義特征消除文本中實體指稱的歧義。如Zuheros等[77]使用LSTM對目標實體的上下文信息編碼,無需使用知識庫等外部資源。Ganea等[78]針對文檔級實體消歧,提出了一種結合實體嵌入和局部上下文注意力機制(Local Context ATTention mechanism,LCATT)的深度學習框架,提升消歧效率。
此外,針對傳統實體消歧方法難以處理上下文信息有限或相似度較高的短文本的問題,Zhu等[79]提出了一種基于語義和上下文相似度的命名實體消歧方法,通過計算各個單詞間的語義相似度提高實體消歧的性能。張晟旗等[80]通過拼接消歧文本和實體知識描述文本,將短文本轉換為長文本,并使用局部注意力機制(Local ATTention,LATT)增強實體鄰近上下文的語義信息。
知識加工是在知識抽取、知識融合的基礎上,對基本的事實進行處理,形成結構化的知識體系和高質量的知識,實現對知識的統一管理。知識加工的具體步驟包括本體構建(Ontology Construction,QC)、知識推理(Knowledge Reasoning,KR)和質量評估(Quality Evaluation,QE),如表7所示。

表7 知識加工主要任務Tab.7 Main tasks of knowledge processing
3.3.1 本體構建
本體構建是指在模式層構建知識的概念模板,規范化描述指定領域內的概念及概念之間的關系,其過程又包括概念提取和概念間關系提取兩部分。根據構建過程的自動化程度不同,可將常用的本體構建方法分為手工構建、半自動構建以及自動構建,如表8所示。

表8 本體構建方法對比Tab.8 Comparison of ontology construction methods
1)手工構建。
手工構建是指領域專家通過手工編輯的方式構建本體,使用該方法能夠獲得高質量的本體。目前,手動構建本體的研究集中于開發一系列可視化的建模工具。典型的可視化手工本體構建工具包括:OilEd[81]、WebODE[82]、OntoEdit[83]和Protege[84]等。
手工構建本體雖然能夠嚴格控制內容,但需要人工編輯大量的數據,構建成本高、效率低、擴展性差。
2)半自動構建。
半自動構建是指通過人工參與機器輔助的方式完成本體構建,相比傳統的手工構建方法,該方法能夠更快速、更全面地構建本體。例如,用戶可以通過Jena[85]提供的開源編程環境,構建知識概念及概念間關系,實現本體的半自動構建。
半自動構建雖然在一定程度上提升了本體構建的效率,但依賴人工提取概念和關系,難以完成大規模的本體構建。
3)自動構建。
自動構建是指利用機器自動地從各種數據源中提取概念及概念間關系,以實現本體的構建。該方法快捷高效,并且能夠處理隱含知識,已經成為目前本體構建的重要研究方向。例如,MindNet[86]使用了自動化的方式完成本體構建。
然而,本體自動構建的研究仍處于起步階段,尚無法完全替代人工構建,仍待進一步研究。
3.3.2 知識推理
知識推理是針對知識圖譜中已有事實或關系的不完備性,挖掘或推斷出未知或隱含的語義關系。一般而言,知識推理的對象可以為實體、關系和知識圖譜的結構等。
如表9所示,知識推理主要有邏輯規則、嵌入表示和神經網絡三類方法,后續章節將對這些方法進行詳細的闡述。

表9 知識推理方法對比Tab.9 Comparison of knowledge reasoningmethods
3.3.3 質量評估
知識圖譜質量評估通常在知識抽取或融合階段進行,對知識的置信度進行評估,保留置信度高的知識,有效保障知識圖譜質量。質量評估的研究目的通常為提高知識樣本的質量,提升知識抽取的效果,增強模型的有效性。
例如,Zeng等[87]基于RL框架,通過比較深度模型的關系抽取結果和答案生成長期獎勵,從而引導關系抽取的訓練過程。Feng等[88]提出基于噪聲數據的句子級關系分類模型,借助強化學習思路建立實例選擇器,選擇高質量的句子樣本,然后基于關系分類器的正確率設計獎勵函數,再反饋回實例選擇器,促進其選出更高質量的樣本,實現了樣本選擇與關系分類的聯合優化。
除了設置獎勵和剔除低質量句子,為提高樣本利用率,低質量或者錯誤的數據樣本也可以作為訓練集中的負樣本進行數據增強。如Qin等[59]利用DRL技術,完成標簽質量的自動檢測。不同于直接丟棄識別的錯誤標簽樣本,該模型將假陽性句子以負樣本形式加入到數據集中,在提高數據質量的同時實現了數據增強,從而顯著改善關系抽取效果。
知識更新是隨著時間的推移或新知識的增加,不斷迭代更新知識圖譜的內容,保障知識的時效性。
知識更新有模式層更新和數據層更新兩種層次,包括全面更新和增量更新兩種方式,如表10所示。

表10 知識更新內容Tab.10 Content of knowledgeupdate
3.4.1 知識更新層次
1)模式層更新。
當新增的知識中包含了概念、實體、關系、屬性及其類型變化時,需要在模式層中更新知識圖譜的數據結構,包括對實體、概念、關系、屬性及其類型的增、刪、改操作。一般而言,模式層更新需要人工定義規則表示復雜的約束關系。
2)數據層更新。
數據層更新主要是指新增實體或更新現有實體的關系、屬性值等信息,更新對象為具體的知識(如三元組),更新操作一般通過知識圖譜構建技術自動化完成。在進行更新前,需要經過知識融合、知識加工等步驟,保證數據的可靠性和有效性。
3.4.2 知識更新方式
1)全面更新。
全面更新指將更新知識與原有的全部知識作為輸入數據,重新構建知識圖譜。全面更新方法操作簡單,但消耗資源多。
2)增量更新。
增量更新只以新增的知識作為輸入數據,在已有的知識圖譜基礎上增加知識,消耗的資源較少,但是技術實現較為困難,且需要大量的人工定義規則。
知識推理在整個知識圖譜理論與技術框架中占據著十分重要的地位,是知識圖譜研究的一大重點和難點,在實際工程中也有非常廣泛的應用場景。因此,本章將詳細介紹基于邏輯規則、基于嵌入表示和基于神經網絡的知識推理方法。
基于邏輯規則的推理是指通過在知識圖譜上運用簡單規則及特征,推理得到新的事實,該方法能夠很好地利用知識的符號性,精確性高且能為推理結果提供顯式的解釋。
根據推理過程中所關注的特征不同,又可將基于邏輯規則的知識圖譜推理方法分為基于邏輯的推理、基于統計的推理以及基于圖結構的推理。
4.1.1 基于邏輯的推理
基于邏輯的推理是指直接使用一階謂詞邏輯FOL、描述邏輯(Description Logic)等方式對專家制定的規則進行表示及推理,這類方法具有精確性高、可解釋性強的特點。根據規則依托的表示方式不同,基于邏輯的推理方法又可分為基于一階謂詞邏輯的推理和基于描述邏輯的推理。
1)基于一階謂詞邏輯的推理。
基于一階謂詞邏輯的推理是指使用一階謂詞邏輯對專家預先定義好的規則進行表示,然后以命題(Propositions)為基本單位進行推理,該方法使用接近人類自然語言的方式對知識進行表示和推理,精確性高且可解釋。
其中,命題包含個體和謂詞,個體對應知識圖譜中的實體,謂詞對應知識圖譜中的關系。如圖5所示,已知三元組(Bruce,HasChild,Carl)和(Bruce,IsCitizenOf,New York),則 有如下的一階謂詞邏輯推理規則:

圖5 基于邏輯規則的推理實例Fig.5 Example of knowledge reasoning based on logic rules
(Bruce,HasChild,Carl)∧(Bruce,IsCitizenOf,New York)?(Carl,IsCitizenOf,New York)
典型工作是Richardson等[89]提出的馬爾可夫邏輯網絡(MLN),結合專家定義的邏輯規則與概率圖模型構建網絡,并在構建好的網絡上執行推理。后續,研究者們對MLN進行了進一步的研究。例如,Pujara等[90]為了在MLN中引入置信值,使用概率軟邏輯來執行推理,Ku?elka等[91]在理論上研究了缺少數據的情況下從知識圖譜中學習MLN權重的適用性?;谝浑A謂詞邏輯的知識圖譜推理方法簡單、易理解,在小規模知識圖譜上取得了較好的精度。
2)基于描述邏輯的推理。
基于描述邏輯的推理關鍵在于將知識圖譜中的復雜實體或關系推理轉換為一致性檢測問題,該方法有效地降低了知識圖譜模型的推理復雜度,取得了表達能力和推理復雜度的平衡。具體而言,使用描述邏輯表示的知識圖譜由術語集(Terminological Axioms,TBox)和斷言集(Assertional Axioms,ABox)組成[92],TBox包含描述概念和關系的一系列公理,ABox中則包含TBox中概念的實例,基于描述邏輯的推理方法通過確定一個描述是否滿足邏輯一致性,實現知識圖譜推理。
典型算法是Halaschek-Wiener等[93]提出的描述邏輯推理算法,該方法通過添加和刪除ABox斷言補全知識圖譜。在此基礎上,許多學者對基于描述邏輯的知識圖譜推理進行了進一步研究。例如,Calvanese等[94]提出了基于認知的一階查詢語言EQL,用于處理推理過程知識圖譜的信息不完備問題。Li等[95]和Stoilos等[96]通過使用模糊理論擴展了傳統的描述邏輯,使推理具有模糊能力。Kr?tzsch等[97]提出了屬性描述邏輯,豐富了知識圖譜對現實世界的建模能力。胡博等[98]提出了一種基于描述邏輯的上下文知識獲取與推理方法,用于上下文感知。此外,Bienvenu等[99]開發了一個框架,為描述邏輯推理提供可解釋性。
4.1.2 基于統計的推理
基于統計的推理關鍵在于利用機器學習方法,從知識圖譜中自動挖掘出隱含的邏輯規則,并將這些規則用于推理。該方法摒棄了專家定義規則的模式,可利用挖掘的規則解釋推理結果?;诮y計的推理方法又分為基于歸納邏輯編程的推理和基于關聯規則挖掘的推理。
1)基于歸納邏輯編程的推理。
基于歸納邏輯編程(Inductive Logic Programming,ILP)的推理是指使用機器學習和邏輯編程技術,在知識圖譜上自動歸納出抽象的規則集,以完成推理,該方法摒棄了人工定義規則的模式,在小規模的知識圖譜上具有較好的推理能力。
典型算法是Schoenmackers等[100]提出的一階規則學習算法(First Order Inductive Learner,FOIL),該方法將知識圖譜中關系的霍恩子句集(Horn Clauses)作為特征,采用窮舉搜索算法,為每個關系建立判別器,以預測指定實體間是否存在該關系。后續出現了許多關于FOIL算法的改進算法,例如,Landwehr等[101]通過將貝葉斯算法與FOIL算法結合在一起,擴展了FOIL算法處理不確定知識的能力,隨后,他們又在FOIL算法中引入核方法[102],降低了算法復雜度。
2)基于關聯規則挖掘的推理。
基于關聯規則挖掘的推理關鍵在于從知識圖譜中自動挖掘出高置信度的規則,并利用這些規則在知識圖譜上推理以得到新的知識,相較于傳統的歸納邏輯編程方法,基于關聯規則挖掘的推理可以處理更復雜、更龐大的知識圖譜,且規則挖掘的速度更快。
典型算法是Galárraga等[103]提出的基于不完備知識庫的關聯規則挖掘算法(Association rule Mining under Incomplete Evidence,AMIE)。AMIE算法通過在知識圖譜上挖掘霍恩規則(Horn Rules),并將這些規則應用于知識圖譜中得到新的事實,以補全知識圖譜并檢測圖譜中的錯誤。在此基礎上,Galárraga等[104]又提出了AMIE+系統,以挖掘更大的知識圖譜。Wang等[105]提出了RDF2Rules模型,克服了AMIE和AMIE+系統一次只能挖掘一條規則的缺點。文獻[106-107]分別針對AMIE規則質量的評估方式和規則挖掘的速度進行了改進。此外,李智星等[108]提出了一種基于非結構化文本增強關聯規則的知識圖譜推理方法,從非結構化文本表述中抽象出文本表述模式,然后結合知識圖譜已有知識構建規則。
4.1.3 基于圖結構的推理
基于圖結構的推理是指利用圖譜的結構作為特征完成推理任務。其中,知識圖譜中最為典型的結構是實體間的路徑特征,對于知識圖譜推理具有重要作用。基于圖結構的知識圖譜推理具有推理效率高且可解釋的優點。例如,在圖5中,從實體“Carl”出發,利用關系路徑“HasW ife→HasChild”能夠推理出實體“Carl”和實體“Barry”可能存在“HasChild”關系。根據關注特征的粒度不同,基于圖結構的推理方法又可分為基于全局結構的推理以及加入局部結構的推理。
1)基于全局結構的推理。
基于全局結構的推理是指對整個知識圖譜進行路徑提取,然后將實體之間的路徑作為特征用于判斷實體間是否存在目標關系,該方法能夠自動挖掘路徑規則且具有可解釋性。
典型算法為Lao等[109]提出的路徑排序算法(Path Ranking Algorithm,PRA)。該算法將知識圖譜中連接目標關系實體對的路徑作為特征,為每類關系訓練一個邏輯回歸模型,從而完成知識圖譜推理任務。PRA采用的隨機游走策略需要巨大的計算代價,為此,出現了Cor-PRA[110]、CPRA[111]、ELP(Enhance Link Prediction)[112]等改進算法,旨在提升PRA算法路徑搜索的效率及推理性能。知識圖譜中的實體和關系服從長尾分布,即只有少量的實體和關系擁有較高的出現頻率[113],由此導致的數據稀疏性問題對基于全局結構的推理算法性能影響較大。
2)引入局部結構的推理。
引入局部結構的推理是指利用與推理高度相關的局部圖譜結構作為特征進行計算,以實現知識圖譜的推理,相較于基于全局結構的推理,該方法的特征粒度更細且計算代價低。
典型算法包含SFE(Subgraph Feature Extraction)[114]、HIRI(Hierarchical Random-walk Inference)[115]等。對于目標實體,SFE算法首先使用廣度優先搜索法得到局部子圖,然后對其進行多特征提取,最后根據提取的特征進行推理。HIRI算法是一種分層隨機游走算法,通過提取知識圖譜中特定關系子圖的拓撲結構,來提高基于隨機游走的推理性能。此外,劉嶠等[116]提出了一種雙層隨機游走算法(Two-tier Random Walk Algorithm,TRWA),同時考慮特定關系的子圖和關系語義的雙向性。這類方法考慮更細的局部結構特征,提升了推理能力和推理效率;但由于只考慮了特定實體或關系子圖的結構,忽略了子圖之間的關系,具有一定的局限性。
綜上,基于邏輯規則的知識圖譜推理各類方法對比分析如表11所示。

表11 基于邏輯規則的知識圖譜推理方法對比Tab.11 Comparison of knowledgegraph reasoningmethods based on logic rules
在機器學習中,嵌入表示是一種非常重要的技術手段,通過嵌入表示可以將復雜的數據結構轉化為向量化的表示,為后續工作的開展提供便利。對于知識圖譜推理,嵌入表示的技術優勢同樣明顯。通過將圖結構中隱含的關聯信息映射到歐氏空間,使得原本難以發現的關聯關系變得顯而易見。因此,基于嵌入表示的推理是知識圖譜推理技術的重要組成部分。
接下來介紹三類嵌入推理的方法,分別是張量分解方法、距離模型和語義匹配模型。
4.2.1 張量分解方法
張量分解(Tensor Decomposition,TD)方法是通過特定技術將關系張量分解為多個矩陣,利用這些矩陣可以構造出知識圖譜的一個低維嵌入表示。通過對基本張量分解算法進行改進和調整,并加以應用,這類模型能夠快速訓練出一個知識圖譜的嵌入表示。
當前用于嵌入推理的張量分解方法以RESCAL[117-118]為主。該模型將知識圖譜中的知識以一個三階張量的形式表示,該張量反映了知識圖譜中實體-關系-實體的三元組結構。RESCAL通過對張量進行分解,得到實體和關系類型的嵌入表示,該嵌入表示反映的是實體或關系鄰域結構的相似性。如圖6所示,“Carl”和“Arthur”均是一個學生的導師,均教授一門課程,也都主持了一個項目。由于兩人鄰域結構高度相似,RESCAL模型得到的兩人的嵌入表示也是相近的,由此可推理出二人存在關聯關系,結合背景知識,這一關系很可能是“ColleagueOf”。

圖6 嵌入表示知識推理實例Fig.6 Exampleof knowledge reasoningbased on embedding representation
RESCAL是一個十分經典的張量分解模型,但由于其分解原理簡單,考慮因素相對單一,不適應于部分復雜的應用場景。因此,部分研究以此為基礎,提出了改進的模型。YAGO[119]在RESCAL的基礎上添加了用于處理實體屬性信息的模塊,是RESCAL模型的一個擴展。Rendle等[120]考慮了知識圖譜中的二元組關系,即主體-關系類型關系、主體-客體關系、關系類型-客體關系。Rendle等[121]進一步提出在線性時間內學習大規模的關系型數據,該方法在知識圖譜的鏈路預測和推薦系統方面有重要價值。Jenatton等[122]提出了通過概率模型學習稀疏的關系表示,以此處理關系數量極大的知識圖譜嵌入表示問題。
4.2.2 距離模型
距離模型(Distance Model,DM)又可稱為平移模型(Translational Model,TM),該類模型將知識圖譜中的每個關系看作從主體向量到客體向量的一個平移變換。通過最小化平移轉化的誤差,將知識圖譜中的實體和關系類型映射到低維空間。
典型的距離模型是TransE[123],該模型將知識圖譜中的實體和關系類型都嵌入為低維的向量。將知識圖譜中的每個關系理解為從主體向量到客體向量的一個平移變換,即該模型要求主體向量、關系類型向量和客體向量滿足h+r≈t。
如圖7所示,TransE通過學習已有知識,將四個人物實體映射為低維空間的四個點(即點A、B、C、D),同時將“Thomas”和“Pamela”二人之間已知的“ColleagueOf”關系映射為向量α(即向量ˉ→ˉˉCD)。在推理“Carl”和“Arthur”是否存在同事關系時,只需判斷“ColleagueOf”這一關系的嵌入向量α能否在低維空間中近似地實現從“Carl”的嵌入點(A點)到“Arthur”的嵌入點(B點)的平移。如果能,則可推出(Carl,ColleagueOf,Arthur)這一關系存在;反之則認為該關系不存在。

圖7 TransE實體和關系映射實例Fig.7 Example of entity and relation mapping of TransE
TransE模型通過上述這種直觀的映射方式,使得知識推理在實際應用中有很好的可解釋性。然而,TransE模型的性能受到兩個方面的制約:一方面是其平移轉化這一要求過于嚴格,導致靈活性和魯棒性受到影響;另一方面則是該模型無法處理知識圖譜中的非一對一的關系,對學習效果造成了一定影響。針對這兩個問題,研究者們對TransE做出了改進。
針對第一個問題,一些松弛化模型被提出。TransM[124]模型給每種關系類型定義了一個權重,以衡量該關系類型在優化目標中的重要性。ManifoldE[125]將平移轉化約束做了進一步松弛,提出了一種基于流形的知識圖譜嵌入模型,要求平移后的向量落在相應的流形之上。TransF[126]則是以一種線性的方式對平移轉化約束做出松弛化處理,增強了模型處理復雜的帶噪聲數據的能力。TransAt[127]在模型中引入了注意力機制,更加關注與特定關系相關的屬性,忽略無關屬性的干擾,使得算法更具魯棒性。TransA[128]是一種基于馬氏距離的更靈活的知識圖譜嵌入模型。
針對第二個問題,主要思路是將實體和關系在特定投影空間進行平移轉化。為了能夠更好地處理非一對一的關系,并且一定程度上保留TransE的效率和簡潔性,TransH[129]將關系類型擬合為一個超平面。TransR[130]受此啟發,引入了實體空間和關系空間的概念,將實體和關系類型在各自的空間中分別建模。TransR模型是對TransE的一個非常經典的改進,但存在的主要問題是運算開銷過高。一些研究嘗試在保留TransR性能的同時,降低其模型復雜度。TransD[131]中每一個實體或關系都被表示為兩個向量,這大大減少了參數的數量,同時避免了大量矩陣乘法,降低了運算開銷。TransSparse[132]也是對投影矩陣的一個簡化,利用稀疏矩陣顯著降低了模型的參數數量,降低了訓練的復雜度。TransAH[133]采用了一種自適應的度量方法,加入了對角權重矩陣將得分函數中的度量由歐氏距離轉換為加權歐氏距離,并實現了為每一個特征維區別地賦予權重,引入面向特定關系的超平面模型,將頭實體和尾實體映射至給定關系的超平面加以區分。
除了上述兩類改進模型以外,研究者還提出了對于TransE的一些其他改進思路。KG2E[134]是一種基于密度的知識圖譜嵌入表示學習方法,在多維高斯分布空間中學習知識圖譜的嵌入表示。TransG[135]將實體和關系類型表示為服從高斯分布的隨機向量,認為同一個關系在不同的首尾實體的背景下可能有多個語義。Rotate[136]引入了復空間,將實體和關系類型的嵌入表示構建在復空間中,將關系看作是頭實體經過旋轉變換得到尾實體,而非平移變換,這一觀念的轉變是極具啟發性的。TorusE[137]則將嵌入的空間從向量空間遷移到一個環面(Torus)上,將這個環面作為知識圖譜的嵌入空間 。 CEKGRL(Category-Enhanced Knowledge Graph Representation Learning)[138]模型在TransE模型的基礎上引入實體的類別表示,旨在學習三元組知識的同時,能夠通過類別信息得到更加準確的知識表示。彭敏等[139]在TransE的基礎上提出了聚合鄰域信息的聯合知識表示模型TransE-NA(Neighborhood Aggregation on TransE),緩解數據稀疏問題,改善知識表示性能。MCKRL(Knowledge Representation Learning based on Multi-source information Combination)[140]引入卷積神經網絡和圖注意力機制,構建了基于TransE的編碼器-解碼器模型,對知識圖譜中的三元組信息、文本描述信息、實體層次類型信息和圖結構信息進行融合,實現基于多源信息組合的知識表示學習。
4.2.3 語義匹配模型
語義匹配模型(Semantic Matching Models)通過設計基于相似度的目標函數,在低維向量空間匹配不同實體和關系類型的潛在語義,定義基于相似性的評分函數,度量一個關系三元組的合理性。該類模型認為訓練集中存在的關系三元組應該有較高的相似度,而訓練集中沒有的關系應該有相對較低的相似度。
常用的語義匹配模型,如TATEC(Two And Three-way Embeddings Combination)[141]模型,主要思路是對知識圖譜中的二元語義和三元語義進行匹配,衡量各關系的合理性。在匹配主體-關系類型-客體的三元語義的同時,也對主體與關系類型、關系類型與客體和主體與客體等三類語義進行匹配,使得模型有更強的擬合能力和靈活性。
例如,針對圖6中的關系網絡,TATEC模型首先定義一個語義評分函數,用于衡量三元和二元語義關系的合理性。如對于三元組(Carl,Teaches,OperatingSystem),其對應的三元語義的 評 分 為 0.35, 二 元 語 義 (Carl,Teaches)、(Teaches,OperatingSystem)和(Carl,OperatingSystem)的評分分別為0.25、0.13和0.18。將上述四個分數求和,即得到關系三元組(Carl,Teaches,OperatingSystem)的語義評分為0.91。訓練時要求所有已知關系三元組的語義評分盡可能高。在推理“Carl”和“Arthur”是否為同事關系時,根據訓練得到的實體和關系的嵌入表示,計算得(Carl,ColleagueOf,Arthur)這一三元組的語義評分為0.85,該評分高于預設的經驗性閾值0.75,因此可判斷該關系成立。
TATEC模型的運算復雜度較高,因為其空間映射矩陣中待訓練參數數量較大,改進模型嘗試平衡TATEC的效果和復雜度。DistMult[142]要求模型中的空間映射矩陣是一個對角矩陣,以此大大減少模型的參數數量,使得模型的訓練難度降低,但也導致其效果相比TATEC略弱。張金斗[143]提出在DistMult的基礎上引入偏序關系建模層次結構的方法,實現了結合層次類別信息的知識圖譜表示學習。HolE[144]引入了向量卷積,實現了主客體的信息融合,基于DistMult,一定程度上增加了復雜度,卻大幅提升了模型擬合能力。ComplEx[145]在DistMult模型的基礎上引入了復空間,將實體和關系類型映射到低維復數空間。QuatE[146]在ComplEx的復向量表示基礎上,提出了超復空間(Super-Complex Space)的向量表示,并將實體和關系映射到該空間。ANALOGY[147]模型在TATEC基礎上,進一步考慮了實體的隱喻關系。
為了提高對非線性模式的捕捉能力,一系列基于神經網絡的模型被提出。SME(Semantic Matching Energy)[148]模型是基于神經網絡學習關系和實體低維向量表示的模型。該模型首先將實體和關系輸入到神經網絡的輸入層,并將其映射為向量,通過學習兩個帶參數的函數,可以得到關系和實體的低維向量表示形式。NTN(Neural Tensor Networks)[149]加入了非線性函數,增強了擬合能力,但是其所需訓練的參數數量較大,因而訓練所需的開銷大幅增加了。Dong等[150]使用一個簡單的多層感知機的方法,實現了主體-關系類型-客體的三部分信息融合。NAM(Neural Association Models)[151]采用了深度神經網絡方法,提升了模型的擬合能力。
綜上,基于嵌入表示的知識推理方法對比如表12所示。

表12 基于嵌入表示的知識圖譜推理方法對比Tab.12 Comparison of knowledgegraph reasoningmethods based on embedding representation
基于神經網絡的知識圖譜推理,充分利用了神經網絡對非線性復雜關系的建模能力,能夠深入學習圖譜結構特征和語義特征,實現對圖譜缺失關系的有效預測。一般地,應用于知識圖譜推理的神經網絡方法主要包括CNN方法、RNN方法、圖神經網絡(Graph Neural Network,GNN)方法、DRL方法等,相關方法的基本流程如表13所示。

表13 基于神經網絡的知識圖譜推理方法基本流程Tab.13 Basic processesof knowledge graph reasoningmethodsbased on neural network
4.3.1 卷積神經網絡方法
基于CNN的知識圖譜推理方法,通過卷積操作提取知識局部特征,預測圖譜中的缺失關系。主要包括基于實體文本描述(Entity Text Description,ETD)的推理和基于實體關系交互的推理兩大類。
1)基于實體文本描述的推理。
ETD是對知識圖譜中實體語義信息的詳細描述。基于ETD的CNN推理,指利用CNN對ETD進行解析,從中提取出關鍵的文本片段并轉換為嵌入向量,進而利用文本特征輔助對實體語義的準確理解。
其中,典型方法包括DKRL、ConMask、TECRL等模型。具體而言,Xie等[152]提出DKRL(Description-embodied Knowledge Representation Learning)模型,針對知識圖譜中的實體描述信息,利用連續詞袋模型(Continuous Bag-of-Words,CBOW)和CNN,分別學習文本描述中的無序特征和詞序特征,并融合生成最終的知識嵌入表示進行推理,實現新實體的有效發現。進一步地,Shi等[153]提出ConMask(Content Masking)模型,利用CNN融合了文本描述特征與實體語義信息。鮑開放等[154]針對文本描述的編碼結果,結合翻譯模型對實體關系進行聯合學習,實現復雜關系語義的有效表達。Zhao等[155]提出TECRL(Text-Enhanced Convolutional Representation Learning)模型,對文本描述先后使用兩次卷積操作提取特征。
2)基于實體關系交互的推理。
實體關系交互指在同一個三元組中,實體語義和關系語義的相互關系,其反映了知識結構的語義。基于實體關系交互的CNN推理,指利用CNN對實體關系嵌入向量拼接而成的二維矩陣執行卷積操作,從中提取出實體、關系語義的交互信息,進而提升對知識三元組結構語義的理解。
其 中,典 型 方 法 包 括ConvE、InteractE、M-DCN、Convolution-based KG等模型。具體而言,Dettmers等[156]提出ConvE模型,針對實體關系嵌入向量構成的二維矩陣,利用二維卷積、嵌入投影、內積等簡單運算,實現實體關系間交互特征的有效捕捉。進一步地,Vashishth等[157]提出InteractE模型,利用特征置換、方形特征重塑、圓形卷積等技術,進一步增加實體關系間交互數量。Zhang等[158]提出M-DCN(Multiscale Dynamic Convolutional Network)模型,交替輸入實體關系嵌入,有效學習知識間交互的序列特征。李少杰等[159]提出ConvKE模型,利用維度變換策略提升卷積滑動窗口的滑動步數,增強了知識間交互信息的學習能力。Annervaz等[160]提出Convolution-based KG模型,結合注意力機制,實現對實體關系聚集結構的深入分析。
4.3.2 循環神經網絡方法
基于RNN的知識圖譜推理方法,指基于循環結構提取知識序列特征,預測圖譜中的缺失關系,主要包括基于知識路徑語義的推理和基于ETD的推理兩大類。
1)基于知識路徑語義的推理。
知識路徑指知識圖譜中由實體關系交替組成的有序路徑,其中蘊含了從起點實體到終點實體間的隱藏語義。基于知識路徑語義的RNN推理,指利用RNN結構特征,迭代學習路徑的語義特征,從中發現關聯路徑上的隱含語義信息,并基于此實現缺失知識的準確預測。
其中,典型方法包括RNN+PRA Classifier、Single-Model、DSKG等模型。具體而言,Neelakantan等[161]提出RNN+PRA Classifier模型,通過迭代使用RNN,有效學習知識路徑的組合表示,并在路徑嵌入空間上實現知識推理。進一步地,Das等[162]提出Single-Model模型,通過引入神經注意力(Neural Attention,NATT)機制,有效組合多條關系路徑的語義信息。Jagvaral等[163]則同時建模了路徑的雙向語義。Guo等[164]提出DSKG(Deep Sequential model for KG)模型,采用兩個獨立的RNN單元對實體關系分別進行建模。
2)基于實體文本描述的推理。
除CNN外,對于蘊含詳細語義信息的ETD而言,也可以利用RNN進行分析建模。一般地,基于ETD的RNN推理,利用RNN依次讀入ETD信息,完成不同三元組中實體語義信息的匹配,從而實現對缺失知識的準確預測。
其中,典型方法包括KGDL等模型。具體而言,Chen等[165]提 出KGDL(learning Knowledge Graph embedding with entity Descriptions based on LSTM networks)模型,采用LSTM逐詞編碼相關文本描述,再嵌入三元組編碼的實體描述,實現對缺失知識的預測。進一步地,Zhao等[166]結合完全注意力(Complete ATTention,CATT)機制編碼實體描述,學習到了實體在不同三元組中的具體語義。靳京[167]提出T-CRNN模型,先利用CNN提取實體描述中的單詞特征,再利用門控循環網絡(Gate Recurrent Unit,GRU)學習實體描述的上下文信息,實現實體描述語義信息的深入挖掘。An等[168]結合互注意力(Mutual ATTention,MATT)機制整合多種文本語料信息,從而捕捉到實體關系在不同三元組中的語義變化。
4.3.3 圖神經網絡方法
基于GNN的知識圖譜推理方法,指基于GNN提取出圖譜拓撲結構特征,預測圖譜中的缺失關系,主要包括基于GCN的推理與基于圖注意力網絡的推理兩大類。
1)基于GCN的推理。
GCN[169]引入傅里葉變換,將圖結構信息變換到由圖拉普拉斯矩陣特征向量構成的正交空間中,從而實現鄰域向中心的信息聚合。同理,基于GCN的推理,將圖譜視作無向圖,利用GCN分析拓撲結構,實現鄰域向中心實體的語義匯聚。
其中,典型方法包括SACN、R-GCN、RGHAT等模型。具體而言,Shang等[170]提出SACN(Structure-Aware Convolutional Network)模型,將一個加權GCN作為編碼器,卷積網絡Conv-TransE作為解碼器,自適應地學習節點鄰域結構的語義信息。進一步地,Schlichtkrull等[171]提出R-GCN(Relational Graph Convolutional Network)模型,在消息傳遞過程中引入了特定于關系類型的轉換矩陣,能夠學習多種類型的關系語義。聶斌玲[172]提 出SAGCN(Structure Aware Graph Convolutional Network)模型,綜合了實體相鄰節點與相鄰邊的語義信息,實現實體語義的完整表達。Zhang等[173]提出RGHAT(Relational Graph neural network with Hierarchical ATtention)模型,結合層次注意力(Hierarchical ATTention,HATT)機制,能夠更加有效地利用實體鄰域信息。
2)基于GAT的推理。
GAT(Graph Attention Networks)[174]是一種基于空間結構的圖神經網絡,在聚合鄰域特征信息時,通過ATT確定鄰居節點權重信息,從而實現鄰域對中心貢獻程度的自適應調節。同理,基于GAT的推理,將圖譜視作有向圖,利用GAT分析拓撲結構,實現鄰域結構對中心實體語義貢獻的準確量化。
其中,典型方法包括DPMPN、ExpressGNN-E、ReInceptionE等 模 型。具 體 而 言,Xu等[175]提 出DPMPN(Dynamically Pruned Message Passing Networks)模型,同時編碼通用的全圖表示和針對輸入信息的局部表示,實現推理過程中子圖的動態構建。進一步地,Zhang等[176]提出ExpressGNN-E模型,組合了MLN和GNN,能夠進行有效的概率邏輯推理。Xie等[177]提出ReInceptionE模型,結合ConvE和KBGAT[178],利用關系感知注意力(Relation-Aware ATTention,RAATT)機制實現對圖譜結構信息的深入理解。康世澤等[179]提出HE-GAN-NC(HE-GAN toward Node Classification)模型,通過堆疊圖注意力網絡,有效學習實體的高階鄰居特征,實現對知識圖譜語義的完整表達。
4.3.4 深度強化學習方法
基于DRL的知識圖譜推理方法,結合了深度學習對圖譜結構的感知能力與強化學習對補全關系的決策能力,將圖譜上的推理建模為序列決策模型。該類方法主要指基于關系路徑探索的推理。
基于關系路徑探索的推理將知識實體、鄰接關系分別構建為狀態空間和行動空間,采用實體游走進行狀態轉換,發現正確答案即生成獎勵。從而基于“關系-路徑-探索”建立推理方案,能夠顯著提升知識推理的有效性和多樣性。
其 中,典 型 方 法 包 括DeepPath、MINERVA、ADRL、DAPath、MARLPaR、RLH、GRL等模型。具體而言,Xiong等[180]建立DeepPath模型,將行為定義為選擇當前節點連接的某條邊,基于行為序列擴展實現路徑探索,并在預測出正確實體時給予獎勵。進一步地,Das等[181]提出MINERVA(Meandering In Networks of Entities to Reach Verisimilar Answers)模型,通過在查詢實體鄰域內進行高效搜索,能夠解決答案未知的復雜推理問 題。Wang等[182]提 出ADRL(Attention-based Deep Reinforcement Learning)模型,結合LSTM和ATT,使得生成軌跡具有更強的可解釋性。Tiwari等[183]提出DAPath(Distance-Aware Path)模型,結合圖自注意力(Graph Self-Attention,GSA)機制和GRU的記憶機制,能夠捕捉到路徑鄰域內更完整的實體 信 息。Li等[184]提 出 MARLPaR(Multi-Agent and Reinforcement Learning based method for Path Reasoning)模型,交替選擇實體和關系,實現聯合實體關系語義的知識推理。Wan等[185]提出RLH(Reasoning Like Human)模型,先后編碼歷史信息和行動空間,能夠有效處理多語義問題。Wang等[186]提出GRL(GAN-based Reinforcement Learning)模型,利用GAN和LSTM生成軌跡,能夠結合領域規則實現知識推理。
綜上,基于神經網絡的知識推理方法對比如表14所示。

表14 基于神經網絡的知識圖譜推理方法對比Tab.14 Comparison of knowledgegraph reasoningmethods based on neural network
盡管知識圖譜被廣泛采用,但基于三元組的表示方法往往過分簡化了存儲在知識圖譜中的數據的復雜性;特別是對于連接兩個及以上實體的超關系數據,其中的高階結構信息的丟失,會導致知識超圖表示及推理能力受限。相關工作證明,在知識圖譜Freebase中,超過33.3%[187]的實體和61%[188]的關系是無法以二元關系表示的。
知識超圖是一種特殊的異構圖。為了更清楚地了解知識超圖特點,本章首先研究異構超圖表示方法。根據其與知識超圖的關聯性,進一步研究知識超圖表示方法。最后提出了知識超圖的三層架構,能有效提升知識超圖推理能力及效率。
超圖及相關圖定義、特點以及其主要的任務如表15和圖8所示。其中,|TV|表示節點類型數,|TE|表示關系類型數。

表15 超圖及相關圖定義Tab.15 Definitions of hypergraphsand related graphs

圖8 超圖及相關圖Fig.8 Hypergraphsand related graphs
異構圖表示為節點和邊的集合,廣泛存在于真實世界的眾多場景中。例如表示人與人之間關系的社交網絡[189-191],作者和論文間的引用網絡[192]等。
超圖以圖論和集合論為基礎,在聚類、空間數據挖掘等方面取得了廣泛應用[193]。超圖表示為H=(V,E),V是節點集,E是邊集,每條邊包含兩個或者更多節點。通常用|v|×|e|維關聯矩陣H來描述超圖的結構。其中,|v|表示超圖中節點的數目,稱為超圖的階數,|e|表示超圖中超邊的數目。根據計算規則h(v,e),如果節點v∈e,則h(v,e)=1;否則,如果v?e,則h(v,e)=0。

圖9 超圖及其對應的鄰接矩陣示例Fig.9 Exampleof hypergraph and the corresponding adjacency matrix
對于每一個超邊e屬于E,度矩陣δ(v)是超邊上的頂點數目之和,可表示為δ(v)=∑v∈V h(v,e)。
異構超圖表示學習對于超圖構建、推理以及應用均有重要意義,因此本節主要研究異構超圖表示方法。異構超圖表示學習旨在將節點映射為向量的同時,保留圖的拓撲結構、節點與節點之間的關系以及子圖等信息[194]。
異構超圖表示包括基于無監督聚類、基于隨機游走、基于矩陣分解、基于神經網絡和基于元路徑等方法。異構超圖表示的主要模型如圖10所示。

圖10 異構超圖表示的主要模型Fig.10 Main models of heterogeneous hypergraph representation
1)基于無監督聚類的異構超圖表示學習。
基于無監督聚類的方法將相似的節點聚集在一起,使得同組的節點彼此接近,不同組的節點盡量區分開。在無可用類別標簽的場景下,基于無監督的聚類能實現節點的有效劃分,是學習異構圖嵌入的有效方式。
Zhou等[195]采用超圖表示對象之間的復雜信息,首次將處理無向圖的強大的譜聚類方法推廣到超圖上,并在超圖聚類算法基礎上提出超圖嵌入算法。雖然譜聚類是超圖聚類最有效的算法之一,但是傳統譜聚類算法性能較差,時間與空間成本大。為此,文獻[196-198]中提出了提升聚類性能的基于排名的聚類NetClus(Net Cluster)、以及解決聚類中計算成本大的GraphLSHC(Large Scale Hypergraph Clustering)[199]等。
2)基于元路徑的異構超圖表示學習。
基于元路徑的方法將節點之間的一系列關系表示為一條路徑,學習不同類型的節點語義信息。該方法通過度量節點之間的關聯性,學習異構超圖中豐富的語義信息。
PathSim(Meta Path-based Similarity Measure)[200]是最早提出的使用元路徑的異構圖表示學習模型,通過基于元路徑的相似度度量學習節點的表示;但是,該模型過于依賴人為定義的元路徑及其權重。為此,HIN2Vec(Heterogeneous Information Network to Vector)[201]利用了節點之間不同類型的關系,文獻[202-203]中提出主動權重學習等方法。
3)基于隨機游走的異構超圖表示學習。
基于隨機游走的圖表示學習以深度搜索的方式學習起始節點的序列信息,并使用該信息表示節點[194]?;陔S機游走的方法可以保留節點對之間的接近度,學習節點的局部結構信息。
Hyper2vec(Hyper-network to vector)[204]首次在超圖上運用有偏二階隨機游走框架,在超圖表示學習中取得了良好的性能,并減少了計算時間。但是,該方法以無監督的方式生成節點嵌入,不能將節點嵌入映射到超邊中,導致無法捕獲超邊的高階結構信息。為此,文獻[205-206]中采用隨機游走,聯合學習實體對關系和超關系,捕獲超圖高階結構信息。
4)基于矩陣分解的異構超圖表示學習。
基于矩陣分解的方法將異構超圖表示為矩陣,通過對矩陣進行分解學習節點的嵌入表示[207-208]?;诰仃嚪纸獾姆椒梢越鉀Q圖的稀疏性問題,獲得可擴展的圖嵌入表示?;诰仃嚪纸獾姆椒òǚ纸鈭D的拉普拉斯特征映射和分解節點鄰接矩陣。
Chung[209]首次提出超圖的拉普拉斯矩陣,在此基礎上,Rodriguez[210]研究了超圖中的拉普拉斯特征值以及超圖分解問題。但是,傳統的方法都著重于理論的研究,難以應用到大規模超圖中。為此,HpLapGCN(Hypergraphp-Laplacian Graph Convolutional Networks)[211]利用超圖的拉普拉斯矩陣,保留圖的局部幾何形狀,結合GCN學習多種數據特征。
Cao等[212]為了解決超圖表示中的數據稀疏問題,使用非線性矩陣分解方法實現超圖的表示;但由于超邊大小是可變的,傳統方法難以實現異構超圖表示。為此,Zhang等[213]提出了協調矩陣最小化算法,在超圖上的頂點鄰接域中,交替執行非負矩陣分解和最小二乘匹配,實現高性能的超圖表示。
5)基于神經網絡的異構超圖表示學習。
基于神經網絡的方法學習異構圖的結構以及節點信息等非線性關系;特別是基于GNN的模型,能夠在學習節點特征的同時,捕獲異構圖的拓撲結構信息。
HGNN(HyperGraph Neural Network)[214]為基于超邊卷積計算的GNN模型,學習現實數據的高階相關性。在此基礎之上,DHGNN(Dynamic HyperGraph Neural Network)[215]為動態GNN模型,通過GNN提取特征來挖掘新關系,讓圖網絡自我進化,實現動態超圖構建。為了進一步提升性能,Zhang等[216]使用了GAT模型學習可變超邊大小的同構圖和異構圖。HWNN(Hypergraph Wavelet Neural Network)[217]、HyperGCN(HyperGraph Convolutional Network)[218]等模型使用了GCN模型對復雜關系進行建模。
當前,異構超圖領域還有許多亟待解決的難題,相關方法思路及存在的問題如表16所示。

表16 異構超圖表示方法對比Tab.16 Comparison of heterogeneoushypergraph representation methods
知識超圖表示學習是將超邊以及實體表示為低維稠密向量空間中的向量。異構圖表示學習與知識圖譜表示學習兩個任務都是受到word2vec(word to vector)[219]啟發提出的;但是,知識圖譜中的表示學習更偏向關系建模,異構圖表示學習側重于學習圖的結構信息。
知識超圖表示學習包括基于軟規則、基于翻譯、基于張量分解以及基于神經網絡等方法。知識超圖表示的主要模型如圖11所示。

圖11 知識超圖表示的主要模型Fig.11 Main modelsof knowledgehypergraph representation
1)基于軟規則的知識超圖表示。
基于軟規則的方法將關系作為謂詞,節點作為變量,通過設置關系推理的邏輯和約束條件進行簡單推理。該方法可以很容易地處理可變的超關系(超邊大小可變),并且具有可解釋性。
MLN首次將一階邏輯和概率圖模型相結合,是一個帶權重的一階知識庫。但是,該模型將概率添加到邏輯公式中,假設性太強。ProbLog(Probabilistic Prolog)[220]通過將SLD分辨率與布爾模型結合在一起,RLR(Relational Logistic Regression)[221]通過將邏輯回歸擴展到關系模型中改進了MLN模型。
2)基于翻譯的知識超圖表示。
基于翻譯的方法旨在將關系建模為在超關系事實中,實體之間的某種轉換操作。該方法可以處理可變的超關系數據,并且操作較簡單。
M-TransH(Multi-fold TransH)[187]將TransH擴展到超關系數據中,是第一個基于翻譯的知識超圖表示模型。M-TransH將實體映射到相關的超平面,用映射結果的加權和定義評分函數。RAE(Relatedness Affiliated Embedding)[222]進一步改進了關聯性假設。
3)基于張量分解的知識超圖表示。
基于張量分解的方法將超關系事實表示為n階張量,通過張量的分解學習節點的嵌入。該方法大多使用規范多元分解(Canonical Polyadic Decomposition,CPD),取得了很好的性能;但是操作比較復雜,評分函數也只針對二元關系。
SimplE(Simple Enhancement of Canonical Polyadic)[223]和ComplEx都是運用二元關系的約束條件進行運算,難以用等價的運算方式將其擴展到超關系數據中。DistMult只針對對稱關系,難以建模反對稱、逆、組合關系,不能完全表達知識圖譜。為此,Fatemi等[188]使用特定位置的卷積濾波器表示實體,針對所有關系類型進行建模,實現了性能的極大提升。GETD(GEneralized Tensor Decomposition)[224]結合Tucker分解和Tensor Ring分解,將核心張量分解為k個三階張量(k大于超邊大小n),能完全表達所有關系類型,在滿足性能的同時減少模型的復雜性。
4)基于神經網絡的知識超圖表示。
基于神經網絡的模型能夠學習實體之間的交互信息、圖的拓撲結構信息等,在關系建模、結構建模等方面提升了表示學習的性能,包括基于CNN的模型以及基于GNN的模型等。
基于CNN的模型集中于學習一個超關系事實內實體之間的交互信息。NaLP(N-ary Link Prediction)[225-226]等都是采用卷積以及全連接網絡對超關系事實進行學習,但是表示性能 較 差 。 HINGE(Hyper-relational knowledge Graph Embedding)[227]則采用2D卷積學習超關系事實,該模型相較于NeuInfer實現了性能的極大提升。
基于GNN的模型結合關系建模與圖結構信息的學習,極大提升了知識超圖表示學習的性能。Zhang等[216]采用GAT學習超關系事實,但是忽略了關系的語義信息。Galkin等[228]采用GCN學習目標實體的多跳領域信息,在學習關系重要性的同時,學習圖的結構信息。
當前,知識超圖領域亟待解決的難題是超邊大小不定問題,即超關系事實中n不定。相關模型解決該問題的思路以及存在的問題如表17所示。

表17 知識超圖表示方法對比Tab.17 Comparison of knowledge hypergraph representation methods
現有知識超圖普遍采用扁平化的結構組織知識,缺乏時空性的表達,導致其時空關系模糊,知識更新與推理速度慢。因此,本文提出知識超圖三層架構,實現事理知識、概念知識、實例知識以及時空性的聯合表達,如圖12所示。其顯著優點包括:1)時空關系清晰明確;2)知識更新全面高效;3)知識推理快速可靠。

圖12 知識超圖的三層架構Fig.12 Three-layer architectureof knowledgehypergraph

事理層中節點是具有一定抽象程度的泛化事件,例如“沖突”可表示罷工、集會示威等多個具體的沖突事件。事理層節點之間的邊是邏輯推理關系,例如“政治因素”“軍事因素”“輿論因素”“社會因素”等共同作用會導致“沖突”的發生,因此“政治因素”等與“沖突”之間用“因果”邊相連。
概念層實體是實例實體的抽象表示,表示為抽象的詞,例如“地點”。概念層實體之間的邊是超邊,例如超邊“示威活動”連接(原因,參與人員類型,發生時刻,地點,示威內容,持續時間)多個實體,能清晰表示概念實體之間的相關性。

事理層與概念層之間的跨層關系表示事理節點與概念層超邊之間的關系,例如,事理層節點“沖突”對應于概念層的超邊“示威活動”。概念層與實例層之間的關系是概念實體與實例實體之間的映射關系,例如,概念實體“地點”與實例實體“內比都”之間是映射關系。
為了發現超圖中的隱式關聯,實現深度推理,創新性地提出了時刻與時間兩個屬性,表達知識超圖的時空特性。其中,“時刻”屬性實體表示實體或超關系在特定時間點產生或發生。例如概念層的“發生時刻”以及實例層的“2020年2月2日”?!皶r間”屬性實體表示實體或超邊在特定時間間隔內發生或是有效的。例如概念層的“持續時間”以及實例層的“兩個月”。根據時空特性,可以實現隱式關聯發現。例如只根據概念層“頒布政令”超邊與“示威活動”超邊信息,難以推理出其之間的相關性;但是根據實例層“2020年2月1日”與“2020年2月2日”在時間軸上的前后關聯關系,可以推理出“頒布政令”與“示威活動”之間可能具有因果關聯。
在三層架構中,通過層次之間的映射關系,例如概念實體“發生時刻”與實例實體“2020年2月2日”的映射,能實現知識的相互補充;并且根據這種映射關系,能夠在知識超圖中快速定位新知識,提高知識更新速度。通過概念層和實例層的時空性表達,例如“2020年2月1日”和“2020年2月2日”,可以發現“頒布政令”與“示威活動”之間的隱式關聯,實現深度推理?;诖穗[式關聯發現,進而可以推理“政治因素”與“沖突”之間的因果關系,實現事件推理。通過層次之間信息的補充以及時空性表達,能縮減推理的查詢空間,從而提高知識推理速度。
隨著人工智能推理需求不斷增強,知識圖譜及超圖在許多領域得到了廣泛應用。
知識圖譜及超圖的應用主要集中在語義搜索、知識問答、推薦與決策等方面。
6.1.1 語義搜索
語義搜索旨在從語義層次上理解用戶的檢索需求,尋找與之匹配的資源。比如在使用搜索引擎搜索“緬甸的首都”時,返回結果中排首位的是“內比都”。
語義搜索包括基于文檔的信息檢索和基于知識圖譜的語義搜索?;谖臋n的信息檢索屬于輕量級語義搜索,通常采用字面值一一對應或字符串相似度等資源召回方式。其缺點是無法處理同名、別名和復雜情形?;谥R圖譜的語義搜索屬于重量級語義搜索,能夠對語義進行顯式和形式化建模。傳統的語義搜索引擎,采用將問題拆分成關鍵詞、使用限定符號等方法?;谥R圖譜的語義搜索能處理更加復雜的問題,而無需采用以上方法,并且能夠更清晰地理解用戶的查詢意圖,返回相關度高、質量好的資源,使得語義搜索在工業界及學術界的優勢越發顯著。
6.1.2 知識問答
知識問答(Knowledge Base Question Answering,KBQA)是一種將問題帶入知識庫尋求答案的問答系統。知識問答能將用戶輸入的問題轉換為客觀世界的實體,而非抽象的字符串。即將自然語言問題通過不同的方法映射為結構化查詢,然后在知識圖譜中獲取答案。
知識問答包括基于語法規則的問答和基于知識圖譜的問答。傳統的問答系統基于大量的語法規則,由于缺乏泛化能力,在搭建新領域問答系統時,需要重新定義規則?;谥R圖譜的問答提供了實體之間詳細的關系,有助于進一步實現隱式推理,提高問答質量,提高問答速度,適應更通用的場景,使推理具有更強的解釋性。未來,基于知識圖譜的問答系統可以實現從單輪問答到多輪交互。
6.1.3 推薦與決策
推薦系統是解決信息過載的一個有效方法,可以向沒有明確目的的用戶推薦可能感興趣的項目列表?;谥R圖譜的方法能夠實現個性化推薦,并且使推薦具有可解釋性。
傳統的推薦系統主要考慮用戶序列偏好,卻忽略了用戶細致偏好,如用戶具體喜歡哪個物品的哪些屬性等;而知識圖譜提供了實體與實體之間更深層次、更長范圍的關聯,增強了推薦算法的挖掘能力,提高了準確性和多樣性,并可以有效彌補交互信息的稀疏或缺失(冷啟動問題)。
決策系統主要以決策主題為中心,通過構建決策主題相關知識庫、模型庫和研究方法庫,為決策主題提供全方位、多層次的決策支持和知識服務。知識圖譜可以幫助決策沉淀出規則,提高決策模型的準確性和關聯性。
知識圖譜及超圖能夠更加快速、高效地處理多源異構數據,并進行關聯分析,已在軍事、醫療、交通、金融等眾多領域得到廣泛應用。本節將介紹知識圖譜及超圖在特定領域的相關應用。
6.2.1 軍事領域
隨著戰場信息化水平不斷提高,傳統的信息搜索和查詢方式已經無法滿足大量戰場信息和軍事知識的獲取與分析需求。構建基于軍事信息庫的知識圖譜,可以為作戰指揮人員提供更加精確的情報,極大地提高部隊作戰效率。
基于軍事知識圖譜,建立軍事武器問答系統和聯合作戰信息服務系統,可以實現軍事輔助決策。未來,軍事知識圖譜能夠提供大規模自主知識約束空間解決方案及智慧指揮決策解決方案,在虛擬情報參謀、隱含知識發現、情報智能關聯等場景中發揮重要作用,提升部隊作戰能力。
6.2.2 醫療領域
智能醫療的關鍵是從海量、異構、動態的醫療系統中提取有效的醫學知識,通過整合臨床醫學數據,建立醫療知識圖譜,實現核心醫學概念的全方位覆蓋以及臨床醫學知識的高效分類整理和規范化表達。
知識圖譜具有更接近于人類的認知思維模式,能夠提高醫療信息系統的智能化水平,為醫療領域提供了從海量的醫學文本和圖像信息中抽取結構化知識的手段?;卺t療知識圖譜,可以實現醫療知識問答、智能輔助診療、醫療質量控制及疾病風險評估等,具有廣闊的發展前景。
6.2.3 交通領域
隨著城市規模迅速擴張,交通線路規模不斷龐大,空中交通流量大幅增多,公共交通所占比重不斷增加。交通知識圖譜可以實現交通流量分析建模、航空交通管理以及公共場景挖掘等。
交通知識圖譜可以實現同乘人員識別提取、公交站點群出行量和運力挖掘、最大公交客流提取識別、線路站點上下車客流提取等,為公共交通領域提供了有效的決策和參考。未來,隨著無人駕駛技術的普及,智能交通概念深入城市軌道與公路系統,交通知識圖譜將支撐交通部門決策,生成動態交通信息對事故進行實時預警、規避交通風險。
6.2.4 金融領域
由于投資的高風險性,金融行業需要更為準確和可靠的實時數據。知識圖譜作為數據驅動的人工智能,能夠存儲金融資訊、行情等海量數據中包含的實體、關系和屬性。
金融知識圖譜可以實現金融咨詢推薦,風險控制評估,依據生成資訊的多維智能標簽,精準掌握復雜信息中的隱藏風險。通過獲取開源信息,基于知識圖譜中大量金融資訊的關聯信息,識別命名實體并提取相關股票之間的業務往來關系,并結合相關股票的新聞,預測股票走勢。未來,基于知識圖譜的金融數據平臺,在信息隱含關聯挖掘方面有著不可替代的能力,促進金融升級轉型。
6.2.5 其他領域
除此以外,知識圖譜在教育、通信等領域也有廣泛應用,比如學科問答機器人、通信故障定位分析、網絡安全監測等。
目前,大規模知識圖譜在智能語義搜索、知識問答、演化分析、對話理解等方面的應用處于初級階段,潛在應用領域廣泛,推廣前景廣闊。從知識圖譜應用發展趨勢來看,當前正值通用知識圖譜應用轉向領域知識圖譜應用的階段。
在未來,無論是軍用還是民用領域,融合知識圖譜與深度學習技術已成為人工智能進一步發展的重要思路。
在知識表示方面,通過研究事理邏輯知識的表示,描述事件之間的模式和演化規律。在知識推理方面,使用類似于圖網絡的統一框架,提高推理效率;通過結合邏輯規則和概率圖等,實現更快、更準、更全且解釋性更強的推理。在應用方面,基于大規模的非結構化數據自動構建知識圖譜,使其具有較強的可拓展性。此外,研究包含時空屬性的動態知識圖譜,可以解決傳統知識表示與推理的局限性問題。
總體而言,知識圖譜將賦能認知智能,具有廣泛且多樣的應用需求,能夠產生巨大社會價值,對社會結構產生深遠影響。
知識圖譜突破了傳統的數據存儲及使用方式,以圖結構呈現各類領域知識,為人工智能技術發展和模型推理提供了堅實的知識支撐。本文對知識圖譜和知識超圖的研究工作和應用現狀進行了闡述、分析和總結,從知識圖譜基本概念出發,系統地介紹了知識表示與存儲方式、知識圖譜構建技術、知識推理方法和知識超圖表示方法。創新性提出三層架構的知識超圖,表示真實世界中各類復雜知識關系,實現邏輯結構清晰、時空關系明確的知識快速推理。此外,結合技術研究進展,介紹了知識圖譜和知識超圖的實際應用,并作出展望。希望綜述內容能夠為知識圖譜和知識超圖領域研究提供理論指導和創新思路。