呼和浩特民族學院 歐艷鵬
知識圖譜概念是Google在2012年提出的,目的是加強智能搜索,自此備受關注。知識圖譜是一種將不同種類的知識關聯在一起而得到的關系圖譜,其本質上是一種語義網,具有語義網的許多特性,區別在于知識圖譜的數據來源廣泛、更多關注的是知識表示、知識融合等技術。同時知識圖譜與知識庫在理論和方法上也存在很多相似,區別在于知識庫包含更多的是某機構領域內的知識,而知識圖譜包含的知識更加廣泛,是一種更大的包含所有機構知識庫的知識集合。知識圖譜具有邏輯推理、可解釋性、自然關聯、高效資源發現、透明共享及可視化等優勢,具有廣闊的應用前景。目前典型的知識圖譜主要有開放領域知識圖譜(Freebase、Dbpedia、Wikidata、YAGO、BabelNet、Web Data Commons)、垂直領域知識圖譜(Linked life data、Linked movie dataSet、ConceptNet、Microsoft Concept Graph)、中文知識圖譜(Zhishi.ine、OpenKG、CN-Dbpedia、Xlore、PKU-PIE、Belief Engine)。
按照研究內容來劃分,知識圖譜可以分為文本知識圖譜、視覺知識圖譜和多模態知識圖譜等。
文本知識圖譜主要以文本為研究內容,以文本樣本構建,對文本知識進行知識表示、知識推理等操作,主要應用于語義檢索、深入搜索、情報分析等方面。
視覺知識圖譜主要以圖像為研究內容,以圖像樣本構建,對圖像進行知識表示、知識加工、推理更新等操作,存在實體難以獲取、實體間關系復雜難以建模等難點,主要應用于語義圖像檢索、對文本關系的真假進行判斷等方面。
多模態知識圖譜在構建中需要進行知識表示、知識推理更新等操作,它的每一步構建過程都需要所有的多模態樣本,它在生活中有更加廣泛的應用,例如實現視覺和文本相結合的知識問答等方面。
知識圖譜的數據來源包括文本、圖像、傳感器、視頻等,總體上可分為從網頁上獲取數據和從數據庫等數據集合抽取得到。數據來源廣泛,如何從不同數據源的抽取構建知識圖譜所需的實體、屬性和關系等,成為知識圖譜構建的關鍵技術,抽取的知識越完整,所構建的知識圖譜越全面,利用價值也越高。目前,常見的實體抽取方法主要包括基于規則、基于統計機器學習和基于開放域的抽取方法。關系抽取方法主要包括基于規則和基于開放式關系的抽取方法。屬性抽取方法主要包括基于規則和基于啟發式算法的方法。然而互聯網網頁種類的繁多、形式不一、存在大量的廣告,導致其很難通過一種或幾種知識抽取方法對知識進行有效的、準確的抽取。
知識表示研究的是如何實現對現實世界中的事物以及事物相關關系的建模,賦予數據符合人類表達的邏輯信息,使人與計算機之間進行無障礙溝通。目前常用的知識表示方法主要包括基于語義網絡的表示方法、基于產生式規則的表示方法、基于框架的表示方法、基于邏輯的表示、基于語義本體的表示等,各種表示方法具有不同的知識表達能力。在這些表達方法中,目前研究較多的是基于描述邏輯的表示方法。知識表示與知識存儲技術密切相關,也需要進行研究。
在知識圖譜中,由于數據來源的不全面和抽取過程的不準確,需要利用已有的知識圖譜事實和推理技術進一步從語義網和其他相應的知識庫挖掘出缺失的和更深層次的實體與關系的聯系,實現知識圖譜補全和知識圖譜去噪等問題,進而使知識圖譜更加豐富和完善。目前知識推理的方法主要包括(1)基于傳統方法的推理。其又包括基于傳統規則推理的方法和基于本體推理的方法。(2)單步推理。又包括:①基于分布式表示的推理(基于轉移的表示推理、基于張量/矩陣分解的表示推理、基于空間分布的表示推理);②基于神經網絡的推理;③混合推理(混合規則與分布式表示的推理、混合神經網絡與分布式表示的推理)。(3)多步推理。又包括:①基于規則的推理(基于全局結構的規則推理、引入局部結構的規則推理);②基于分布式表示的推理;③基于神經網絡的推理(神經網絡建模多步路徑的推理、神經網絡模擬計算機或人腦的推理);④混合推理(混合PRA與分布式表示的推理、混合規則與分布式表示的推理、混合規則與神經網絡的推理)。
各種推理方法具有不同的推理能力,大體上,混合多步推理比混合單步推理,獲得更好的推理性能,但目前的混合推理依然局限于兩種方法的混合,未來多種混合推理將值得更深入的研究,進一步提高可解釋性和計算效率。為此,知識推理技術的未來研究方向主要是面向面向多元關系的知識推理、融合多源信息與多種方法的知識推理、基于小樣本學習的知識推理、動態知識推理等方向,進一步提高推理速度和保證推理的時效性,為用戶時刻提供最新的、準確的知識。
知識圖譜是人工智能、知識工程的重要分支,目的在于模仿人類的思維方式,對大數據時代高效的知識管理、知識獲取、知識共享具有深遠的意義。目前知識圖譜已在應用于眾多領域,并且展示出重要作用,例如智能輔助搜索、智能輔助問答、智能輔助決策、輔助AI、垂直領域等方面。雖然取得了很大的進步和發展,但仍然有大量的難題急需解決,尤其數據的爆炸式增長,知識圖譜的規模越來越大,呈現出結構復雜多樣性、數據動態變化性以及查詢實時響應性等多種特性和需求,更增加了知識圖譜的挑戰,更需要解決不同階段的各個難題,任重道遠,仍需不斷的努力。