黃恒琪,于 娟,廖 曉,席運江
1(福州大學 經濟與管理學院,福州 350108)
2(廣東金融學院 互聯網金融與信息工程學院,廣州 510521)
3(華南理工大學 工商管理學院,廣州 510641)
知識圖譜(knowledge graph)是以圖的形式表現客觀世界中的實體(概念、人、事物)及其之間關系的知識庫.2012年,谷歌提出了知識圖譜的概念.自此,知識圖譜得到了廣泛關注和應用研究,現已發展成為語義搜索、智能問答、決策支持等智能服務的基礎技術之一.但是,目前知識圖譜的概念界定還不清晰,常與本體(ontology)技術一起提及,二者之間的關系尚未得到明確.另一方面,本體的研究起始時間更早,已積累了較多的研究成果和應用經驗.如能確定知識圖譜與本體的相關關系,就可將已有的本體研究成果作為知識圖譜研究的基礎,促進知識圖譜更快發展.
為此,在廣泛查閱知識圖譜和本體的國內外相關研究成果的基礎之上,本文定義了知識圖譜與本體之間的關系,羅列已開發的知識圖譜/本體,分析其構建、存儲及檢索方法與技術.本文主要內容:第2 節給出知識圖譜的定義,辨析其與本體、知識地圖、科學知識圖譜等相關概念的區別,研究知識圖譜的構成,并羅列分析國內外的通用知識圖譜與行業知識圖譜.第3 節說明知識圖譜在語義搜索、智能問答和個性化推薦方面的應用;第4 節解釋知識圖譜的兩種構建方法:自頂向下法和自底向上法;第5 節分析知識圖譜的存儲與檢索方法:關系型數據庫、圖數據庫與混合方法;最后指出未來研究方向.
知識圖譜是以圖的形式表現客觀世界中的實體(概念)及其之間關系的知識庫.知識圖譜的研究起源于語義Web.在2000年的XML 大會上,Tim Berners Lee 提出了語義Web 的理念,目標是為Web 網頁添加語義,支持機器自動處理,以提供諸如信息代理、搜索代理、信息過濾等語義服務.此后,互聯網逐步從僅包含網頁與網頁之間超鏈接的文檔萬維網轉變為包含大量描述各種實體和實體之間豐富關系的數據萬維網.基于關鍵詞的傳統搜索引擎技術也逐漸開始添加語義搜索功能.2005年,美國Metaweb 公司成立,致力于開發用于Web 語義服務的開放共享的世界知識庫.Metaweb 基于諸如維基百科、美國證券交易委員會等的公開數據集,提取現實世界中的實體(人或事物)及其之間的關系,然后以圖結構存儲在計算機中.2010年谷歌收購了Metaweb,獲得其語義搜索技術,并于2012年提出知識圖譜的概念.
本體(ontology)是共享概念模型的顯式說明[1],描述概念與概念間的關系;是語義Web 的關鍵技術,用于為Web 網頁添加語義.語義Web 理念中的本體與知識圖譜,二者密切相關.本體描述概念及概念間的關系,是大多數知識圖譜的模式層,是知識圖譜的概念模型和邏輯基礎.知識圖譜與本體的相同之處在于:二者都通過定義元數據以支持語義服務.不同之處在于:知識圖譜更靈活,支持通過添加自定義的標簽劃分事物的類別.本體側重概念模型的說明,能對知識表示進行概括性、抽象性的描述,強調的是概念以及概念之間的關系.大部分本體不包含過多的實例,本體實例的填充通常是在本體構建完成以后進行的.知識圖譜更側重描述實體關系,在實體層面對本體進行大量的豐富與擴充.可以認為,本體是知識圖譜的抽象表達,描述知識圖譜的上層模式;知識圖譜是本體的實例化,是基于本體的知識庫.
知識圖譜采用三元組描述事實,所使用的描述語言大多是已研發的本體語言,如RDFS[2]、OWL[3]等.知識圖譜也可以通過RDFS 或OWL 定義規則用于知識推理.知識圖譜的關鍵技術也與本體很相似,涉及:(1)知識圖譜構建階段的實體抽取、關系抽取、語義解析等機器學習和自然語言處理方法和算法,(2)用于知識圖譜存儲的知識表示、圖數據庫和知識融合等方法和技術,(3)知識圖譜應用階段的數據集成、知識推理等.
除了本體之外,與知識圖譜相關的概念還有知識地圖和科學知識圖譜.知識地圖(knowledge map)將特定組織內的知識索引通過“地圖”的形式串聯在一起,揭示相關知識資源的類型、特征以及相互關系[4,5].知識地圖的主要功能在于實現知識的快速檢索、共享和再重用,充分有效地利用知識資源[6].知識地圖是關于知識的來源的知識[7].知識并非存儲在知識地圖中,而是存儲在知識地圖所指向的知識源中.知識地圖指向的知識源包含數據庫、文件以及擁有豐富隱性知識的專家或員工.有的企業應用知識地圖來揭示知識的結構,實現對知識及其相關知識的檢索.另外,知識地圖在文獻學中也有應用,即科學知識圖譜.
科學知識圖譜(mapping knowledge domain)是用來顯示知識演化進程和知識結構的圖形化與序列化的知識譜系[8].1955年,加菲爾德提出可以將引文索引應用于檢索文獻的思想[9].1965年,普賴斯等人[10]指出,引證網絡類似于當代科學發展的“地形圖”,并提出使用引文網絡來研究當代科學發展脈絡的方法.從此,分析引文網絡成為一種研究科學發展脈絡的常用方法.2005年,劉則淵等[11]引入了“科學知識圖譜”的概念.科學知識圖譜結合應用計量學引文分析和共現分析、圖形學、可視化技術、信息科學等學科的理論與方法[12],圖形化的展示各領域的學科結構、各學科的研究內容、學科間的關系、識別和分析學科的發展新趨勢以及預測前沿等.
表1比較分析了知識圖譜、本體、知識地圖以及科學知識圖譜的異同.

表1 知識圖譜相關概念表
知識圖譜由數據層(data layer)和模式層(schema layer)兩部分構成[13].
模式層是知識圖譜的概念模型和邏輯基礎,對數據層進行規范約束.多采用本體作為知識圖譜的模式層,借助本體定義的規則和公理約束知識圖譜的數據層.也可將知識圖譜視為實例化了的本體,知識圖譜的數據層是本體的實例.如果不需支持推理,則知識圖譜(大多是自底向上構建的)可以只有數據層而沒有模式層.在知識圖譜的模式層,節點表示本體概念,邊表示概念間的關系.
在數據層,事實以“實體-關系-實體”或“實體-屬性-屬性值”的三元組存儲,形成一個圖狀知識庫.其中,實體是知識圖譜的基本元素,指具體的人名、組織機構名、地名、日期、時間等.關系是兩個實體之間的語義關系,是模式層所定義關系的實例.屬性是對實體的說明,是實體與屬性值之間的映射關系.屬性可視為實體與屬性值之間的hasValue 關系,從而也轉化為以“實體-關系-實體”的三元組存儲.在知識圖譜的數據層,節點表示實體,邊表示實體間關系或實體的屬性.
從構建過程是否依賴自動抽取技術來看,知識圖譜大致可分為兩類.一類是早期的本體,如WordNet[14]、CYC[15]、HowNet[16]等.這類知識圖譜大多由專業人士手工構建,規模較小;但其知識質量高,能夠確保準確性與完整性.另一類是從開放的互聯網信息中自動抽取實體與關系構建的,如YAGO[17]、DBPedia[18]等.這類知識圖譜規模大;但因其數據源的復雜多樣及自動抽取算法的不完全準確,可能會有大量不完整信息、噪聲等.近年來,隨著知識圖譜成為學界及商界的熱點,國內也重視知識圖譜的研究發展,中文的知識圖譜紛紛涌現,如CN-DBpedia[19]、zhishi.me[20]等.
從覆蓋范圍來看,本體可分為通用本體(generic ontology)與領域本體(domain ontology);同樣的,知識圖譜也可分為通用知識圖譜與行業知識圖譜兩類[21].通用知識圖譜(generic knowledge graph)描述全面的常識性的知識,主要應用于語義搜索,對知識的準確度要求不高,如百科類的DBpedia、zhishi.me 和語言學類的WordNet、大詞林等.通用知識圖譜強調知識的廣度,大多采用自底向上的方式構建,側重實體層的擴充,因此也導致其大部分較難構建規范的本體層[21].行業知識圖譜(domain knowledge graph)面向特定領域,能夠進行知識推理,實現輔助分析及決策支持等功能,如GeoNames[22]、中醫醫案知識圖譜等.行業知識圖譜對專業性與準確度的要求高,這也要求其必須有嚴格的本體層模式,通常采用自底向上與自頂向下結合的方式進行構建.通用知識圖譜可作為行業知識圖譜的構建基礎,行業知識圖譜也可在構建完成后補充融合至通用知識圖譜中.一般來說,通用知識圖譜的使用率更高,是現有知識圖譜的基礎;而行業知識圖譜則推進了知識圖譜技術融入生活,服務于民.表2總結了部分典型中文通用知識圖譜與中文通用本體;表3總結了部分典型外文通用知識圖譜與通用本體;表4總結了部分典型中文行業知識圖譜與中文領域本體;表5總結了部分典型外文行業知識圖譜與外文領域本體.

表2 部分典型中文通用知識圖譜/中文通用本體一覽表

表3 部分典型外文通用知識圖譜/通用本體一覽表

Google KnowledgeVault 谷歌 2012 5 億 180 億 Wikipedia、Freebase 大規模 語義搜索多語詞義消歧、計算語義相關性[45]Microsft Concept BabelNet[44] 羅馬大學計算機科學語言計算實驗室 606+萬 19 億 Wikipedia、WordNet多語言詞典知識庫,覆蓋50 多種語言,1400 萬個同義詞集合和7.46 億個詞義Graph[46] 微軟 2016 1255 萬 8760 萬 Web 網頁 以概念層次體系為中心的知識圖譜

表4 部分典型中文行業知識圖譜/中文領域本體一覽表

表5 部分典型外文行業知識圖譜/外文領域本體一覽表
知識圖譜提供了一種更好的組織、管理和理解互聯網信息的能力,可用于語義搜索、智能問答、個性化推薦等,在社交和電子商務等領域中實現價值.基于知識圖譜的應用是信息領域當前的研究熱點,也是促進人工智能發展的基礎技術之一.
知識圖譜是語義搜索的大腦[55].傳統搜索引擎基于用戶輸入的關鍵詞檢索后臺數據庫中的Web 網頁,將包含搜索關鍵詞的網頁的鏈接反饋給用戶.語義搜索(也稱為語義檢索)則首先將用戶輸入的關鍵詞映射至知識圖譜中的一個或一組實體或概念,然后根據知識圖譜中的概念層次結構進行解析和推理,向用戶返回豐富的相關知識.谷歌提出語義搜索后,國內百度的“知心”與搜狗的“知立方”也致力于利用知識圖譜技術提升用戶的搜索體驗.
基于知識圖譜的語義搜索能夠實現[56]:(1)以知識卡片的形式提供結構化的搜索結果.例如,當用戶搜索清華大學時,知識卡片呈現出的內容,包括有學校的地址、郵編、簡介、創辦年份等相關信息.(2)理解用戶用自然語言描述的問題,并且給出相應的答案,即簡單的智能問答.例如,當用戶在搜索中以提問的方式輸入“世界上最大的湖泊是?”,反饋的頁面能夠精確地給出里海相關的信息.(3)通過已有知識圖譜中實體的關聯,擴展用戶搜索結果,發現更多內容,反饋豐富的關聯結果.例如,當用戶搜索達芬奇時,除了達芬奇的個人簡介之外,語義搜索還能返回他的相關畫作:《最后的晚餐》、《蒙娜麗莎》及其相關人物等信息.
智能問答指用戶以自然語言提問的形式提出信息查詢需求,系統依據對問題的分析,從各種數據資源中自動找出準確的答案.問答系統是一種信息檢索的高級模式,能提升效率、降低人工參與成本.問答系統將知識圖譜看做一個大型知識庫,首先對用戶使用自然語言提出的問題進行語義分析和語法分析,進而將其轉化成對知識圖譜的查詢,最后在知識圖譜中查詢答案.
百度知識圖譜將智能問答具體劃分為5 類[57]:(1)實體檢索:問題是圍繞著一個實體的屬性方面展開的,如“魔獸世界的上映時間?”(2)知識推理:問題需要通過一定的推理分析,如針對“zippo 可否帶上飛機?”這個問題,需要先推理得出zippo 是一種打火機,再針對打火機能否上飛機這個問題進行回答.(3)開放領域問答:問題沒有固定的標準答案,如“形容不會說話的成語”,“與美人魚相關的電影”等.(4)語義解析:首先需要理解問題的語義,即按照語法規則解析問題,最后轉化成數據庫對應的查詢,如針對“魔獸啥時候出?什么時候能看魔獸?”這樣的問題可通過語義解析將其轉化為“魔獸世界的上映時間?”這一簡單查詢.(5)End-toend 在線問答,通過某些已知條件來查詢實體,如“知識即美德是誰提出來的?鞠躬盡瘁死而后已說的是誰?”.
除百度外,目前還有許多問答平臺引入了知識圖譜技術,如華盛頓大學的Paralex 系統[58]、亞馬遜的自然語言助手Evi[59]、蘋果智能語音助手Siri[60]和出門問問[61]手機應用等.
個性化推薦是指基于用戶畫像,不同的用戶會看到不同的推薦結果,有著重要的商業價值.電子商務網站是運用個性化推薦最典型的應用,能通過行業知識圖譜的豐富知識幫助實現精準營銷與推薦.如:基于商品間的關聯信息以及從網頁抽取的相關信息,構建知識圖譜,當用戶輸入關鍵詞查看商品時,基于知識圖譜向用戶推薦可能需要的相關知識,包括商品結果、使用建議、搭配等,通過“你還可能感興趣的有”、“猜您喜歡”或者是“其他人還在搜”進行相關的個性化推薦.
知識圖譜的構建方法有三種:自底向上、自頂向下和二者混合的方法.
4.1.1 自底向上法
自底向上的構建方法,從開放鏈接的數據源中提取實體、屬性和關系,加入到知識圖譜的數據層;然后將這些知識要素進行歸納組織,逐步往上抽象為概念,最后形成模式層.自底向上法的流程如圖1所示.
圖1中的知識抽取,類似于本體學習,采用機器學習技術自動或半自動地從一些開放的多源數據中提取知識圖譜的實體、關系、屬性等要素.知識抽取包含實體抽取、關系抽取和屬性抽取.實體抽取自動發現具體的人名、組織機構名、地名、日期、時間等實體,也稱為命名實體學習或命名實體識別.實體抽取的準確率和召回率將直接影響到知識圖譜的質量.關系抽取是指利用語言學、統計學、信息科學等學科的方法技術,從文本中發現實體間的語義關系.屬性抽取是針對實體而言的,實體屬性的抽取問題可轉化為關系抽取問題.
知識融合,類似于本體集成.由于知識圖譜在進行知識抽取工作時所使用的數據源是多樣化的,因此可能產生知識重復、知識間關系不明確等問題.知識融合可消除實體、關系、屬性等指稱項與事實對象之間的歧義,使不同來源的知識能夠得到規范化整合.知識融合分為:(1)實體對齊:可用于判斷相同或不同數據集中的多個實體是否指向客觀世界同一實體,解決一個實體對應多個名稱的問題.(2)屬性值填充:針對同一屬性出現不同值的情況,根據數據源的數量和可靠度進行決策,給出較為準確的屬性值.

圖1 自底向上的知識圖譜構建流程
知識加工:是對已構建好的數據層進行概念抽象,即構建知識圖譜的模式層.知識加工包括本體構建和質量評估.基于本體形成的知識庫不僅層次結構較強,并且冗余程度較小.由于技術的限制,得到的知識元素可能存在錯誤,因此在將知識加入知識庫以前,需要有一個評估過程.通過對已有知識的可信度進行量化,保留置信度高的知識來確保知識庫的準確性.
4.1.2 自底向上法
自頂向下的知識圖譜構建方法如圖2所示.方法的具體步驟為:
(1)本體構建,構建知識圖譜的模式層.從最頂層的概念開始構建頂層本體,然后細化概念和關系,形成結構良好的概念層次樹.需要利用一些數據源提取本體,即本體學習[62].

圖2 自頂向下的知識圖譜構建流程
(2)實體學習,將知識抽取得到的實體匹配填充到所構建的模式層本體中.
此外,還可結合自頂向下和自底向上兩種方法來構建知識圖譜.首先,在知識抽取的基礎上歸納構建模式層,之后可對新到的知識和數據進行歸納總結,從而迭代更新模式層,并基于更新后的模式層進行新一輪的實體填充.如百度知識圖譜,就是利用內外部以及用戶數據采用混合方法構建所得[58].
上述三種知識圖譜構建方法,自頂向下法較好體現概念間層次,但人工依賴性強、模式層更新受限,僅適用于數據量小的知識圖譜構建;自底向上法更新快、支持大數據量的知識圖譜構建,但知識噪音大、準確性不高;混合方法靈活性強,但模式層構建難度大.
構建知識圖譜的數據源主要有:百科類半結構化的網頁、結構化程度較低的普通網頁、語料庫、已構建好的知識庫等.所用的數據源影響知識圖譜的質量,也影響構建過程.
4.2.1 百科網站
百科網站有固定的頁面模版,每一頁面都針對某一概念或實體進行詳細的介紹.這樣的半結構化形式,更易于實施知識抽取.并且,大多數百科網站知識質量高,權威性強,出錯率較低,抽取所得知識的質量更高.廣義來講,符合這些特征的網站都可視為百科網站,如購物網站、電影、音樂網站等,也可以通過相似的方法構建相關領域的知識圖譜.
基于百科網站的知識圖譜構建又可分為兩類[63]:(1)單百科網站的深度知識抽取,典型代表有Dbpedia、Yago 和CN-DBpedia.Dbpedia 和Yago 以維基百科作為數據源;CN-Dbpedia 以百度百科作為數據源.(2)多百科網站的知識融合,典型代表有zhishi.me 和XLore.Zhishi.me 融合了百度百科、互動百科以及中文維基百科.XLore 融合了百度百科、互動百科以及英文維基百科.這兩類構建過程中的側重點也不同,前者更側重于抽取,后者不僅需要知識抽取還注重融合.
4.2.2 普通網頁
盡管百科網站包含了大量的常見知識,但其所覆蓋的知識范圍有限,不能滿足通用知識圖譜和專業知識圖譜的構建需求.因此,結構化程度較低的普通網頁是知識圖譜的另一大數據來源.普通網頁數據的格式豐富多樣,沒有較為一致的規范,且包含的知識可能存在大量的冗余和錯誤,準確率較低.因此,基于普通網頁的知識抽取工作的復雜度較高,知識融合的難度更大.此類知識圖譜的構建工作重點在于知識抽取與知識融合.卡內基梅隆大學的——“永不停止的語言學習”項目(Never-Ending Language Learning,NELL),就是從上億個網頁中進行知識的抽取.
隨著人們對客觀世界的認知加深,信息與知識量不斷增加,知識圖譜的內容也需要與時俱進,迭代更新,增加新的知識,刪除過時的知識.
根據知識圖譜的邏輯結構,知識圖譜的更新可分為模式層更新和數據層更新.模式層更新是指本體中元素的更新,包括概念的增加、修改、刪除,概念屬性的更新以及概念之間關系的更新等.其中,概念屬性的更新操作會直接影響到所有與其直接或間接相關的子概念和實體.因此,模式層更新多數情況下是在人工干預的情況下完成的,需要人工定義規則,人工處理沖突等,實施起來有一定的復雜度.數據層更新指的是實體元素的更新,包括實體以及實體間關系和屬性值的增加、修改、刪除.由于數據層的更新對知識圖譜的整體架構影響較小,通過在可靠數據源(如百科類網站)自動抽取的方式即可完成.
根據更新的方式,知識圖譜的更新可分為增量更新和完全更新.增量更新是以知識圖譜數據源(維基百科等)發布出的更新內容為基礎對知識圖譜進行部分更新.也可以基于用戶在語義搜索平臺上的行為,如反饋信息過時或搜索了一個知識圖譜中沒有的新詞而進行相應的更新.完全更新是指間隔一定的周期,重新將知識圖譜數據源的全部數據進行一次抽取解析.完全更新的優點在于:能較大程度保證知識圖譜更新過程中的邏輯一致性,適用于模式層的更新.但該方法代價昂貴,且耗時長,不能保證時效性.
Web 本體語言OWL 是當前存儲本體的主要形式.OWL 也適用于知識圖譜的存儲,但OWL 文檔不適用于大數據量的情況,影響查詢、修改和推理速度.作為知識庫的知識圖譜,其基本元素是海量的各種關系聯系在一起的實體,需要創新性的存儲方式.知識圖譜可采用關系型數據庫或圖數據庫存儲,也可采用混合的方式存儲.
將知識圖譜存入關系型數據庫,是一個將知識圖譜轉換為RDF 三元組進行存儲的問題,即,將知識圖譜的關系分解為一個個<Subject,Predicate,Object>的三元組形式,并映射至關系表,存儲于關系型數據庫中[64].根據映射方法不同,基于關系型數據庫的知識圖譜存儲可以采用四種方法[65]:
(1)三元組表:構建一張只有三列的表(Subject,Predicate,Object),以元組為單位進行存儲,將知識圖譜所有的RDF 三元組都存放在這個表中.這一方法簡單直觀,有很好的通用性,且語義表達較為明確.但在涉及關系的查詢過程中可能會面臨大量的自連接操作,導致查詢性能低下.
(2)水平存儲[66]:將知識圖譜中的每個實體表示為數據庫表中的一行,表中的列包括有RDF 數據集合中所有的屬性.水平存儲的優勢在于設計簡單,能夠高效查詢面向某單個實體的屬性值.而其缺點在于:① 數據稀疏性,一個實體并不可能在所有的屬性上都有屬性值,從而導致表中的大量空值,增加存儲負載也影響查詢效率.② 水平存儲中表的列數量是固定的,這樣的固定模式使得實體在一個屬性上只能存儲一個值.但在實際應用中,屬性往往都會存在多個值而與水平存儲的模式不符.③ 固定的模式也會令數據的變化帶來較大的更新成本.數據屬性的更新可能涉及到整個表結構的變化,這也使水平存儲無法很好應對這類問題.
(3)屬性表:屬性表針對水平存儲模式中表的數據稀疏問題作出優化.根據實體的屬性對實體進行分類,將屬性重合度高的實體分作一類,每一類仍采用水平存儲方式,避免了表中列數過多等問題.屬性表對于某些查詢能夠提高查詢性能,但將導致大部分的查詢都會涉及多個表的連接或合并操作.另外,實體與屬性之間關聯性不強的知識圖譜不適合采用此種存儲方法,易導致空值問題.
(4)垂直分割:垂直分割指的是以關系進行劃分,將三元組表重寫為N張包含兩列的表,N指的是關系的個數.每一張表都以關系(屬性)為表名,其第一列是所有在這個屬性上有屬性值的實體,第二列是該實體在這個屬性上的值.垂直分割適應于多值數據,當一個實體在一個屬性上有多個屬性值時,只要將其存儲為多行即可.結構化較差的知識圖譜也同樣適用此存儲方法,如果一個實體未定義某個屬性,那么這個記錄就不會在這種存儲方式中出現,避免了空值的產生.但垂直分割的缺點在于:① 增加了表連接的運算數.② 表的增多也增加了數據更新的難度,對一個實體的更新需要涉及多個表.
目前,基于圖數據庫的知識圖譜存儲方法是學界研究的主流.圖數據庫增強了關系表達,能提供完善的圖查詢語言,支持各種圖挖掘算法.采用圖數據庫存儲知識圖譜,能有效利用圖數據庫中以關聯數據為中心的數據表達、存儲和查詢.適用于存儲知識圖譜的圖數據庫如表6所示.

表6 已用于知識圖譜存儲的圖數據庫
將知識圖譜存入圖數據庫,是將知識圖譜的實體或屬性值存為圖數據庫中的節點,而實體間的關系或屬性對應存為連接各個節點的邊.圖數據庫的存儲方式更適用于涉及多重關系的查詢,還可通過經典的圖算法而實現更為復雜的圖匹配查詢與推理等.
除了圖數據庫,一些非關系型數據庫也可用于知識圖譜的存儲.例如,MongoDB[71]作為一個基于分布式文件存儲的數據庫,支持無模式的數據建模方式,即,可以按需進行模式的添加或修改.這樣的特性也適合于自底向上地構建知識圖譜.
知識圖譜的存儲方式應考慮到其后續的使用效率.實際應用中,往往采用多種方法結合的方式來存儲復雜的知識圖譜.例如,采用關系數據庫存儲相對固定的數據,如概念和實體的基本信息、介紹等;采用圖數據庫存儲屬性關系類的數據;采用內存數據庫存儲查詢頻繁的數據,如概念的名稱等.
知識圖譜提供了一種新的方法來實現知識的表示、存儲和管理,逐漸受到關注并獲得一定的研究進展.本文在介紹了知識圖譜的構建、存儲和應用等方面的基礎上,闡述了知識圖譜與本體間的關系.通過分析了國內外已有的知識圖譜,可見知識圖譜的研究已有一定的成果,未來的研究方向在于:
(1)知識圖譜的分布式存儲.由于知識圖譜的結構特殊性,隨著數據量的增大,如何將其進行分布式存儲是一個具有現實意義的問題.該問題包括有如何將知識圖譜進行合理分割存儲而不影響其功能,知識圖譜的負載均衡,知識圖譜的存儲模型等.
(2)知識圖譜的推理.知識圖譜的構建推理能支持知識圖譜的構建,通過檢測原有的知識是否存在邏輯矛盾以及從已知知識中發現未知的關系,保證知識圖譜的一致性與完整性,又能豐富和擴展知識圖譜.另一方面,知識圖譜的應用推理也值得關注.通過添加領域內的知識規則,知識圖譜的應用推理可以實現領域知識的推論,輔助自動決策、智能問答和預測等.
(3)目前已有的知識圖譜大部分使用率和重用率不高,甚至在構建工作完成以后就被擱置;而另一方面,有實際需求的企業卻缺少構建知識圖譜的渠道.針對這種情況,未來可以考慮:① 加強知識圖譜以及本體構建工程的知識理論體系建設,以及相關人才的培養.②加大通用知識圖譜的構建力度,而行業知識圖譜則只在有實際需求時再根據情況構建.③ 繼續加強知識圖譜以及本體自動構建方法的研發,提高構建過程的自動化程度.