王昊奮,丁 軍,胡芳槐,王 鑫
(1.同濟大學 設計創意學院,上海 200092; 2.海乂知信息科技(南京)有限公司,南京 210008;3.天津大學 智能與計算學部,天津 300354)
知識是機器實現認知智能不可或缺的基礎,而知識圖譜則是用于表示、處理與運用知識的關鍵技術,能夠使機器理解知識并在此基礎上進行相應的推理計算。知識圖譜以其強大的語義表達、存儲和推理能力,為互聯網時代的數據知識化組織和智能應用提供了有效的解決方案。知識圖譜的構建及其應用一方面引起了學術界的密切關注,大量研究者對知識圖譜相關技術進行了深入的研究,包括知識獲取、知識融合、知識計算、語義搜索和知識問答等;另一方面,大規模知識圖譜在解決實際問題時效果顯著,也得到了工業界的青睞,以微軟、谷歌、臉譜、eBay和IBM為代表的國際巨頭與BAT、華為和小米等國內大型互聯網企業在其產品和產業應用中均使用了知識圖譜及其相關的關鍵技術[1]。
現有的綜述文獻多數偏向于闡述知識圖譜相關技術的研究,包括知識圖譜的總體研究綜述[2-3]以及面向特定子領域的研究,如知識表示學習[4-5]、知識融合[6-7]、知識存儲[8-10]、知識推理[11-13]、知識補全[14]等,文獻[3,15-16]也系統地介紹了在特定領域場景中使用相關技術進行知識圖譜構建的研究。但上述工作沒有涉及工程化流程與知識圖譜平臺的建設。本文對知識圖譜的相關技術進行綜述,著重研究知識圖譜在企業級應用場景中的工程實踐,包括典型的工業級知識圖譜應用場景、知識圖譜工程落地的生命周期、企業級知識圖譜平臺的構建以及中臺化演進等。
知識圖譜最早于2012年由谷歌公司正式提出[17],其初衷是為了改善搜索性能,提升用戶搜索體驗。目前對知識圖譜沒有統一的定義,普遍被接受的一種定義為:知識圖譜本質上是一種語義網絡,網絡中的節點代表實體或者概念,邊代表實體/概念之間的各種語義關系。一種更為寬泛的定義為:知識圖譜使用圖作為媒介來組織與利用大規模不同類型的數據,并表達明確的通用或領域知識。
從覆蓋的領域來看,知識圖譜可以分為通用知識圖譜和行業知識圖譜。前者面向開放領域,而后者則面向特定的行業。通用知識圖譜強調的是廣度,即更多的實體,通常難以形成完整的全局性的本體規范。行業知識圖譜主要用于輔助各種復雜的分析應用及決策支持場景,它需要考慮領域中的典型業務場景及參與人員的背景和交互方式,因而需要完備性和嚴格且豐富的模式定義,并保證對應的實例知識具有豐富的維度,即一定的深度。行業知識圖譜當前已經在金融證券、生物醫療、圖書情報、電商、農業、政務、運營商和傳媒等行業中得到了較多成功的應用。企業級的知識圖譜應用通常是基于行業知識圖譜提供智能服務,可以是面向一個行業,也可以是多個行業的結合。因此,對于企業級知識圖譜平臺,將圍繞行業知識圖譜的管理進行建設。
隨著知識圖譜在各行業應用范圍不斷擴大,知識圖譜技術的相關研究得到了大量研究者的關注。文獻[2]從知識表示學習、知識獲取與知識補全、時態知識圖譜和知識圖譜應用等方面進行了全面的綜述。在此基礎上,本文分別從知識表示學習、知識獲取與補全、知識融合、知識存儲與圖計算、知識推理、基于知識圖譜的問答6個方面介紹知識圖譜研究進展,并闡述事件圖譜與事理圖譜等圖譜發展熱點。
1.2.1 知識表示學習
知識表示學習是面向知識圖譜中實體(或概念)和關系的表示學習。通過將實體或關系投影到低維稠密向量(嵌入表示),實現對實體和關系的語義信息的表示,能夠高效地計算實體、關系及其之間的復雜語義關聯。
知識學習方法可以分為基于翻譯距離模型的方法和基于語義匹配模型的方法。前者代表模型有高斯嵌入[18]、TransE及其擴展[19-21],后者代表模型有RESCAL[22]及其擴展模型DistMult[23]、ComplEx[24]和神經網絡匹配模型[25]。另一個相關的研究領域是網絡嵌入[26-28],其側重于考慮如何充分利用節點在網絡中的復雜結構信息,包括保留網絡結構與屬性的方法如SDNE算法[29]、保留邊信息的LANE方法[30]和融合節點文本屬性的方法[31]。隨著深度學習的發展,基于神經網絡的語義匹配模型和圖神經網絡成為知識圖譜表示的研究熱點[32]。
1.2.2 知識獲取與補全
知識獲取與補全是知識圖譜構建過程中最重要的基礎環節。前者從數據中獲取新知識,主要包括實體識別和關系發現,而后者是對現有知識圖譜進行擴充。
早期的知識獲取方法主要為基于語言學模式的方法,而最近的研究主要聚焦于基于深度學習的方法[33-34],其中使用Transformer模型的大規模預訓練模型(如BERT)在實體識別等任務上取得了更佳的性能[35]。同時,遠程監督學習[36-38]也被廣泛應用于語料難以獲取的場景。
知識圖譜補全[14,39]通過相應的推理和補全算法擴展現有的知識圖譜,包括基于嵌入的排序補全算法、關系路徑推理算法、基于深度強化學習的算法和基于規則的推理算法等。
1.2.3 知識融合
知識融合是指在多種來源的碎片化數據中獲取結構各異、語義多樣和動態演化的知識,通過沖突檢測和一致性檢查,對知識進行正確性判斷。知識融合按融合階段分類包括知識評估和知識擴充[6];而從人機協作角度來看,知識融合分為基于知識庫的知識融合[40-42]、基于人工的知識融合以及基于知識庫與人工協作相結合的知識融合[43]。
1.2.4 知識存儲與圖分析計算
大規模知識圖譜的存儲以三元組存儲為核心,同時還包括其他類型知識的存儲。三元組知識的存儲主要有資源描述框架(Resource Description Framework,RDF)存儲和圖數據庫兩種類型,前者以RDF圖模型為基礎,后者多數采用屬性圖數據模型。由于圖數據庫已成為當前使用的主流,因此本文重點關注圖數據庫相關的工作以及在存儲上的圖分析計算。
知識存儲與圖分析計算相關研究主要側重于RDF圖譜數據管理[8-9]、圖數據查詢[44]、圖譜計算框架[45-46]等方面。文獻[10]從知識圖譜數據模型、知識圖譜查詢語言、知識圖譜存儲管理和知識圖譜查詢4個方面對知識圖譜數據管理相關研究進行了綜述。文獻[45]則從圖計算框架方面出發進行了綜述。
1.2.5 知識推理
推理是指基于已知的事實或知識推斷得出未知的隱藏事實或知識的過程。面向知識圖譜的知識推理[11]通常可以分為基于規則的推理[47-48]、基于知識表示學習的推理[5]、基于神經網絡的推理[49-50]和混合推理[51]。基于規則的推理方法具有較高的準確率,但難以擴展和平移;基于神經網絡的推理方法具備更好的推理、學習和泛化能力,但神經網絡結果不可預測和解析。因此,研究者提出混合推理以結合不同推理方法之間的優勢[51]。例如,基于神經-符號整合的推理[13]能夠將符號系統的透明性和推理能力與人工神經網絡的健壯性和學習能力相結合。
1.2.6 基于知識圖譜的問答
基于知識圖譜的知識問答(Knowledge graph Based Question Answer,KBQA)給定自然語言問題,通過對問題進行語義理解和解析,進而利用知識庫進行查詢,推理得出答案。
KBQA主要方法有基于語義解析的方法[52]、基于信息抽取的方法[53]和基于向量建模的方法[54]。隨著深度學習的發展,知識表示學習和語義解析得益于神經網絡的非線性表達能力對語義進行更好的建模,基于知識表示學習的KBQA和語義解析結合深度學習成為KBQA的主流方向。然而,多樣化理解用戶意圖和語義的歧義性仍然是KBQA的主要挑戰[53]。
1.2.7 事件知識圖譜
事件知識圖譜對于事件的建模具有明顯的語義表達優勢,有利于事件鏈知識推理。事件知識圖譜相關的研究主要聚焦在事件抽取[55]、事件推理和事理圖譜。事件抽取的任務包括觸發詞檢測、觸發詞事件分類、事件元素識別和事件元素角色識別。事件推理的相關工作主要包括事件因果關系推理、腳本事件推理、常識級別事件產生的意圖和反映推理以及周期性事件時間推理等,是一個事理邏輯知識庫,描述事件之間的演化規律和模式,結構上是一個有向有環圖,其中,節點代表事件,邊代表事件之間的關系(順承、因果等)。
知識圖譜的應用需要綜合利用多方面的技術,即知識圖譜的構建涉及知識建模、實體識別、關系抽取、關系推理、實體融合等技術,而知識圖譜的應用則涉及到語義搜索、智能問答、語言理解、決策分析等多個領域。總體而言,構建并應用知識圖譜需要系統性地利用包括知識表示、數據庫、自然語言處理、機器學習等多方面技術。
規模化的知識圖譜工程落地需要有完整的工程化流程作為指導。在通常場景下其流程為:首先確定知識表示模型,進行知識建模;然后進行數據收集,根據數據來源選擇不同的知識獲取方法,并對不同來源、不同方法獲取的知識進行融合;其次需要綜合利用知識推理、知識挖掘等技術對所構建的知識圖譜進行質量評估與補全;最后根據場景需求設計不同的知識應用場景,如語義搜索、問答交互、圖譜可視化分析等。在經過大量知識圖譜研究與產業化落地實踐后,逐步形成行業知識圖譜應用落地的全流程,稱為行業知識圖譜的全生命周期,包括知識建模、知識獲取、知識融合、知識存儲、知識計算與知識應用階段。
知識建模的主要目標是為知識圖譜定義本體,其主要挑戰有包括多類型數據的知識表示和自動或者半自動地生成模式層知識。知識建模通常采用兩種方式,一是自頂向下(Top-Down)的、專家定義的方法,二是自底向上(Bottom-Up)的、數據驅動的規約方法,從數據中通過自動映射、歸納等方法生成模式知識。
知識獲取是指從不同來源、不同類型的數據中進行知識提取并存入知識圖譜的過程,其主要挑戰包括從多源異構的數據中抽取知識、自動或半自動地從非結構化的數據中抽取所獲取知識的準確率以及解決樣本數據稀疏問題。
知識融合的目標是對從多源異構的數據中獲取到的知識進行融合從而形成統一、一致的知識放入知識圖譜,通常分為模式層的知識融合和實例層的知識融合。
知識存儲的目標是實現各類知識的存儲,包括基本實體知識、屬性知識、關系知識、事件知識、時序知識和業務規則知識等,其主要挑戰包括實現對多種類型知識的存儲以及實現大規模知識圖譜數據查詢、推理、計算等過程的高速存取。
知識計算主要包括圖挖掘計算和知識推理。圖挖掘計算是指基于圖論的相關算法實現對知識圖譜數據的探索、挖掘與嵌入,其主要挑戰在于大規模圖算法的效率。知識推理的關鍵挑戰包括大數據量下的快速推理以及對于增量知識和規則的快速加載。
隨著知識圖譜的發展,其應用場景不斷增多,最典型的應用為語義搜索、智能問答和可視化決策支持。對于語義搜索和智能問答,主要難點在于對用戶的輸入進行準確的意圖理解;而對于可視化決策支持而言,一方面需要提供良好的用戶交互方式實現與數據及算法的接口,另一方面還需要下層服務的有效性以及快速響應。
總體而言,行業知識圖譜落地是一個系統性的工程問題,需要有上述生命周期的完整理論支撐,同時還需要有相應的技術、算法和工具落地。因而在工業級的應用場景中,通常會圍繞生命周期構建相應的行業知識圖譜平臺,然后在平臺的基礎上進行應用的構建。
本節首先描述知識圖譜相關的工業級應用,然后介紹知識圖譜相關的系統平臺,以及生命周期各環節應用的工具。本文所討論的平臺或工具以開源的產品為主,同時也包含一些在領域中具有較大影響力的商業產品。
以搜索為主要應用場景的案例有谷歌知識圖譜、微軟必應知識圖譜、百度知識圖譜和搜狗知識圖譜等。谷歌知識圖譜是于2012年提出的用于改善搜索的知識圖譜,用戶進行實體有關的查詢時會發現結果中還包括了知識圖譜提供的事實。目前它涵蓋了廣泛的主題,包括超過10億個實體和700億條事實。微軟必應知識圖譜包含物理世界的知識,如人物、地點、事物、組織、位置等類型的實體,以及用戶可能采取的行為。覆蓋范圍、正確性和時效性是該圖譜質量和實用性的關鍵因素。臉書擁有全球最大的社交圖譜,該圖譜以用戶為中心,同時包括用戶關心的其他信息如興趣愛好、從事行業等信息。臉書的圖譜主要用于提升用戶對臉書產品的體驗,包括內容搜索和興趣推薦等。阿里和易趣擁有大規模的商品知識圖譜服務于其電商平臺,實現了基于大規模知識圖譜的快速搜索與推薦,從而提升了用戶體驗并提高了商品銷售量。
在工業級知識圖譜應用快速增長的帶動下,一些工業級的知識圖譜平臺也相應被推出。
2.2.1 Palantir平臺
Palantir是用于知識圖譜創建、管理、搜索、發現、挖掘和積累的可擴展的大數據分析平臺。通過結合動態本體論思想和自身數據整合能力,形成以知識圖譜為基礎的知識管理體系,通過圖挖掘、本體推理等算法引擎賦能知識圖譜,為搜索和知識發現提供數據支撐,同時支持協同工作分析,而且整個分析過程以可視化、交互式的方式進行。Palantir目前擁有兩大產品線:Palantir Gotham和Palantir Metropolis,分別應用于國防安全與金融領域,形成了包括反欺詐、網絡安全、國防安全、危機應對、保險分析、疾病控制、智能化決策等解決方案。Palantir通過整理、分析、利用不同來源的結構化和非結構化數據,構成了一種人腦決策和計算機智能共生的大數據分析環境及工具系統,通過可視化技術形成“人機共生”的可視化大數據交互探索分析能力,從而促進人腦和大數據分析互補,提升客戶的決策洞察力。
2.2.2 IBM Watson Discovery知識圖譜框架
IBM開發了Watson Discovery服務及其相關產品所使用的知識圖譜框架,在外部許多行業中也進行了部署應用。IBM Watson知識圖譜框架有兩種典型的應用場景:一是直接使用結構化以及非結構化的數據來發現新的知識為下游產品提供服務;二是該框架允許用戶以預先構建的知識圖譜為基礎來構建自己的知識圖譜。該知識圖譜框架的特性包括:1)使用了多態存儲,支持多種索引、數據庫結構、內存數據庫和圖存儲,將數據分布到多個存儲庫中,每個存儲庫滿足特定的應用需求和工作負載;2)保留原始“證據”, 這些元數據和其他相關信息通常在后續的知識應用非常重要;3)可推遲實體消歧,因為在創建過程中消歧通常會損失實體的原有信息,這和知識發現的目標相沖突。
2.2.3 Oracle知識圖譜平臺
Oracle知識圖譜平臺基于其自身多年的存儲經驗,在具有明顯優勢的存儲層上進行構建,上層通過W3C標準的RDF和OWL組織和表示圖譜,使用SPARQL對數據統一查詢服務。平臺支持兩種圖的表示方式:屬性圖(Property Graph)和RDF三元組。前者適合各種圖計算如最短路徑、權重排序和中心性(Betweenness)等,而后者適合進行知識的推理。Oracle知識圖譜平臺的主要特性是對數據存儲與訪問的支持性比較好,可以實現基于內存的并行圖計算,提供許多工具完成從各種大數據平臺、關系數據庫到知識圖譜的映射與轉換。
2.2.4 Metaphactory平臺
Metaphactory提供了一套從知識存儲、知識管理到知識查詢與應用開發的端到端的知識圖譜平臺解決方案。其中:知識圖譜存儲可以兼容使用常見的三元組存儲,如Blazegraph、Stardog、Amazon Neptune、GraphDB和Virtuoso等;數據交互使用標準的SPARQL作為交互協議,從而規避了存儲使用不同數據庫帶來的影響,實現不同數據源、不同格式的知識場景進行混合查詢;同時提供了搜索、可視化和知識編輯管理的UI接口,并為Tabular等BI工具提供了數據接口。但Metaphactory主要還是針對結構化數據進行查詢和管理,并沒有提供對非結構化數據進行處理的能力。
2.2.5 Stardog平臺
Stardog是一個企業級知識圖譜平臺,通過將數據轉換成知識,使用知識圖譜進行組織,對外提供查詢、檢索和分析等服務。Stardog能夠把關系數據庫映射成虛擬圖,并且支持OWL2的推理和Gremlin,但其僅對結構化數據(RDBMS、Excel等)的處理,沒有針對非結構化數據的知識抽取,也不具有知識融合功能。
2.2.6 其他知識圖譜平臺
上述平臺都是商業的平臺,通常提供試用的版本供非商業用途學習和研究,而開源知識圖譜項目的典型代表為LOD2。LOD2的主要目標是構建結構化鏈接數據的企業級管理工具和方法,提供一個搜索、瀏覽和生成鏈接數據的平臺,其側重于鏈接數據的生命周期管理,而對于其他類型的數據需要首先轉換成鏈接數據。
目前,以百度(百度AI開放平臺)、騰訊(騰訊知識圖譜(Tencent Knowledge Graph,TKG))、阿里巴巴(藏經閣)、華為(華為知識圖譜云)等為代表的國內互聯網公司也在積極構建知識圖譜,并且針對垂直領域構建知識圖譜平臺,促進知識圖譜的發展和工業落地。
除了上述知識圖譜平臺,還有許多與知識圖譜生命周期中特定環節相關的工具,這些工具通常不像完整的平臺一樣完成一站式的服務,但是它們也為知識圖譜的應用構建提供了便利,可以在構建完整的企業級知識圖譜平臺時進行集成使用。本節將介紹生命周期各環節的相關工具,并將知識計算分為知識推理和圖挖掘分析兩部分進行介紹。
2.3.1 知識建模工具
Protégé是一個本體編輯器,其基于RDF(S)、OWL等語義網規范提供PC圖形化界面和在線Web版本——WebProtégé,通常適用于原型場景構建。NeOn Toolkit是一個適用于本體工程生命周期的工具,其以Eclipse插件的方式為用戶提供服務。
這些本體編輯工具存在的不足包括:基本只提供單人編輯,而協同編輯時需要通過文件共享來實現;對大數據量支持不佳;不支持復雜事件及時態的建模;基本依賴手工編輯,難以實現與知識圖譜(半)自動化構建過程的交互。
2.3.2 知識獲取工具
知識獲取指從結構化數據、半結構化數據和非結構化數據中獲取知識。
從結構化數據中獲取知識的目標通常是把關系數據庫中的數據轉換成RDF形式的知識,W3C為此制定了從關系數據庫映射到RDF數據集的標準語言R2RML。典型的開源工具有D2R MAP和D2RQ[56]。D2RQ是一個將關系數據庫轉換為虛擬的RDF數據庫的平臺,主要包含D2R Server[57]、D2RQ Engine和D2RQ Mapping Language 3個組件。這些工具把數據直接轉換成RDF,難以與知識建模結果結合與映射,也難以同其他類型的知識進行融合,并且對于大規模海量數據映射以及新數據的增量映射支持困難。
從半結構化數據中獲取知識通常是指使用包裝器的方法從網頁數據中獲取知識,如Lixtio[58]提供了一種用戶可視化配置的方式進行半自動化生成網頁包裝器的工具,WIE是一個通過網頁自動分析從而輔助生成包裝器的工具,適用于抽取目標數據中的表格信息。這些工具基本是針對早期的靜態HTML頁面開發的,已經難以適用于當前的前端動態頁面技術,因此,需要在它們的基礎上進行動態頁面支持擴展。
DeepDive與Snorkel提供了一套面向特定關系的、基于遠程監督學習的抽取框架,使用現有知識庫和規則定義來自動生成語料,框架自動完成模型的訓練過程,并使用機器學習算法來減少各種形式的噪音和不確定性,用戶可以使用簡單的規則來影響(反饋)學習過程以提升結果的質量。DeepKE是浙江大學開發的基于深度學習方法的開源中文關系抽取工具,使用了包括卷積神經網絡、循環神經網絡、注意力機制網絡、圖卷積神經網絡、膠囊神經網絡以及語言預訓練模型等在內的多種深度學習算法,但該工具同樣僅用于關系的抽取。上述工具主要針對關系的抽取,未提供針對概念、實體、事件等知識的抽取功能。
2.3.3 知識融合工具
知識融合的目標是對來源、抽取方法和結構不同的知識進行合并,形成統一的知識。DBpedia Mapping Tool是一個用于把從Wikipedia中抽取的信息通過映射融入到DBpedia中的工具,其以可視化的方式讓用戶進行DBpedia中本體(類、實體、數據類型等)和信息模塊的映射。Knowledge Vault[59]是谷歌推出的一個互聯網規模的知識庫,它融合了海量的從互聯網中基于先驗知識庫抽取的信息,并通過監督學習的方法對這些知識進行融合。這些融合工具通常是針對特定場景設計的,通用性和可配置程度比較低,難以實現復雜多變場景下的知識整合。
2.3.4 知識圖譜存儲工具
知識圖譜中最主要的數據結構為基于圖的結構,圖結構數據的存儲主要有RDF存儲和圖數據庫兩種方式。在工業級的場景下,一般從支持的數據規模、是否支持數據分布存儲、知識建模管理能力、查詢語言表達豐富性、是否支持ACID以及是否有開源產品等維度對知識圖儲存儲的性能進行衡量。常用圖數據庫對比如表1所示。

表1 常用圖數據庫對比
Neo4J是第一代圖數據庫的代表,它使用了原生圖存儲結構,但不使用schema(即schema free),是一種自由的圖數據管理方式,同時它還支持ACID事務的處理,并提供Cypher查詢語言。Neo4J在企業級數據管理中存在的主要問題,是不使用schema會難以從整體組織理解圖譜數據以及并未實現真正意義上的數據分布式存儲,因此,其在大規模的數據場景下應用時會遇到性能瓶頸。
JanusGraph是在Titan的基礎上發展起來的第二代圖數據庫的代表,設計原理是在現有的成熟存儲(如NoSQL)上實現對圖的存儲邏輯,底層存儲的分布式能力使其天然具備分布式能力。但此類數據庫最大的問題是會遇到圖連接查詢的性能瓶頸,尤其是在大規模圖數據的多步查詢的場景下;另一方面,這種架構也不能有效地支持離線分析,需要使用外部的分析引擎,但這種結合難以做到數據快速加載與更新。
在數據量大規模增長與實時查詢分析要求不斷提高的背景下,基于原生、并行圖設計的圖數據庫逐漸成為新興發展方向,也被稱為第三代圖數據庫。其中的代表產品為商業數據庫TigerGraph與PlantGraph,它們能夠有效地支持OLTP 和 OLAP 等多種應用場景,解決大規模圖數據場景下的多步連接問題。目前,第三代圖數據庫還只在一些擁有大數據量與高性能要求的商業場景下得到使用,尚未有開源的產品出現。
2.3.5 知識推理工具
知識推理分為基于邏輯的推理與基于統計的推理,邏輯推理又包括本體推理和規則推理。
RDFox[60]是一個本體知識推理工具,其支持共享內存并行OWL 2 RL推理。RDFox支持Java、Python多語言APIs訪問,還支持一種簡單的腳本語言與系統的命令行交互,但RDFox完全基于內存,對硬件的要求較高,在超大規模的數據場景下難以使用。 Drools是一個使用Java語言開發的基于RETE算法(一種前向推理算法)的業務規則推理引擎,其使用“If--Then”形態的句式和事實的定義,使引擎的使用非常直觀,同時還支持將 Java 代碼直接嵌入到規則文件中。Link Prediction Tool是一個在大規模網絡中自動發現缺失的鏈接的工具,主要用于社交網絡中的鏈接預測。SNAP (Stanford Network Analysis Platform)是斯坦福大學研發的一個通用高性能大規模網絡分析與操作平臺,能夠高效地實現大規模網絡中的鏈接預測。
2.3.6 圖挖掘分析工具
上文提到的多數圖數據相關工具只支持OLTP模式的圖查詢功能以及一些簡單的圖算法,對于大規模的圖挖掘分析支持較少。基于圖數據庫實現圖挖掘分析的模式需要集成第三方的圖挖掘分析工具,如Spark GraphX、GraphLab和Giraph等。最常用的為Spark GraphX,它是在實時計算引擎Spark上為圖計算設計與實現的一套計算框架,方便用戶通過統一的模式進行圖算法編程,但由于其基于通用的計算框架來實現圖計算,因此性能較圖分析的專用系統要低。Plato是騰訊開源的一個支持十億級別節點的超大規模圖計算框架,其基于自適應圖計算引擎,能夠根據不同類型的圖算法,提供自適應計算模式、共享內存計算模式和流水線計算模式等多種計算模式。但它是一個重量級的圖計算框架,集成成本相對較高,并且開發者需要基于其獨特的底層API編程,定制化開發成本也較高。Euler是阿里開源的大規模分布式圖表示學習框架,內置DeepWalk、Node2Vec等業界常見的圖嵌入算法。
2.3.7 語義搜索與智能問答工具
知識鏈接是支持語義搜索的重要方法,知識實體鏈接工具有Wikipedia Miner和DBPedia Spotlight等。這些早期的工具通常是以開放的知識圖譜(Wikipedia、DBpedia等)為知識鏈接的目標知識庫使用字符串匹配、向量相似度等算法進行計算;當前,基于深度學習、知識圖譜表示學習的方法已經成為知識鏈接的最新發展方向。
智能問答方向知名的開源工具有ActiveQA和gAnswer等。ActiveQA是谷歌開源的一款使用強化學習來訓練AI智能體進行問答的研究項目,在強化學習框架的推動下,智能體逐步學會提出更具針對性的具體問題并理解、問答問題,從而得到所尋求的結果。gAnswer是一個基于知識圖譜的自然語言問答系統,能夠將自然語言問題轉化成包含語義信息的查詢圖,并將查詢圖轉化成標準的SPARQL查詢,將這些查詢在圖數據庫中執行,最終得到用戶的答案。
上述問答工具只適用于特定的場景(如gAnswer用于KBQA),而在復雜企業級的場景中通常需要支持所有類型的問答任務。
本節介紹企業級知識圖譜平臺的構建需求與挑戰,并以金融行業知識圖譜的構建與應用為例描述該類知識圖譜平臺完整的構建過程。
從確定待采集的原始數據到最終的應用開發,企業級的知識圖譜應用落地需要對數據背后的知識進行建模、抽取、融合、校驗、補全、分析計算等一系列加工處理,這些過程的每一步都需要專業的圖譜知識和技能才能完成。如果沒有平臺或者工具進行支撐,圖譜的應用構建將是一項要求極高甚至無法完成的工作。因此,企業級圖譜的應用普及亟需一個功能強大的知識圖譜平臺。該平臺需要覆蓋行業知識圖譜生命周期的所有環節,同時須滿足企業級應用的各種功能性與非功能性需求:
1)知識建模:除基本的本體編輯功能外,還必須具備表示多類型知識的能力,尤其是對動態事件知識、多媒體數據和業務過程數據等的知識表示;同時,企業知識圖譜的建模通常需要支持多人在線協同工作以及知識的多版本管理:此外,還需要集成如下文所述的各種知識抽取能力,其旨在從數據中自動發現知識,避免純手工構建大規模圖譜帶來的工作量大、效率低下并易出錯等問題。
2)知識獲取:需要提供分別從結構化數據、半結構化數據和非結構化數據中獲取知識的工具,以本體數據模式為基礎支持大規模、增量數據的D2R映射,實現動態網頁的包裝器配置與歸納學習,提供從文本中抽取實體、關系、屬性和事件等多維度知識的方法;同時,需要降低從非結構化數據中獲取知識的成本(數據標注規模和標注代價),提供弱監督或自監督學習的能力;此外,還需要保障所獲取知識的質量,尤其是從非結構化數據抽取知識的難度最大。
3)知識融合:提供用戶基于業務配置融合規則與自動算法相結合的知識融合功能;提供本體映射、實體對齊和屬性融合等能力;自動進行沖突檢測并能夠依據(預先設定的)策略進行解決。
4)知識存儲:首先需要實現多類型知識的存儲;其次需要支持大規模圖譜存儲及其之上的高效查詢,在企業級的應用場景中,圖譜通常包含百億甚至千億級別的知識(以三元組形式表示);具備復雜知識模式管理的功能,用于支持知識建模工具的高效交互;提供SPARQL、Cypher、Gremlin和GQL等多種常見圖查詢語言。
5)知識計算:需要具有大規模知識圖譜推理與圖挖掘的能力,即能夠高效地加載大規模圖譜數據并進行推理計算;支持多種圖挖掘算法并能實現并行挖掘分析;考慮圖譜的演化或新知識的持續加入并實現高效的增量計算與推理。
6)知識應用:提供多種知識可視化視圖及交互方式并與后臺的存儲、計算能力相結合,為用戶提供快速的知識應用服務;基于知識圖譜提供語義搜索能力;提供能夠支持諸如問答對檢索、交互式分析和閱讀理解等多種場景的綜合問答能力。
構建企業級知識圖譜平臺面臨的問題主要有:
1)多類型知識的表示、獲取與存儲:首先面臨的問題是如何實現企業級應用場景中多類型數據的統一知識表示,數據類型的復雜性和多樣性使得傳統的三元組表示方法難以勝任;其次如何從這些數據中高效獲取知識是另一個難點,需要采用不同的方法甚至是多方法的集成來實現大規模知識的獲取;最后如何統一存儲這些知識從而能夠同時支持上層各種任務與服務也非常困難。
2)大規模知識圖譜的性能:企業級知識圖譜的規模通常在百億、千億甚至更高的級別,如何實現大規模知識的可擴展存儲并支持其上的高效查詢以及并行計算與推理服務是一個巨大的挑戰。
3)圖譜數據的統一消費利用,如何無縫集成可視化、語義搜索和問答分析等多種交互方式,在不增加用戶額外學習成本和使用門檻的情況下提供統一的知識圖譜消費體驗,是一項綜合人工智能和人機交互等多學科知識的技術難題。
此外,知識的演化與時效性也是一個難以回避的難題。隨著外部世界的變化和企業業務的變遷與升級,業務數據及相應的知識也不斷擴展與變更,支持知識圖譜中知識的時態表示,及時檢測知識的時效性,并根據圖譜的演化支持自適應知識推理與計算同樣是挑戰。
構建知識圖譜平臺有以下3種可能的方式:1)在現在的開源知識圖譜平臺上進行擴展;2)把行業知識圖譜生命周期中每個環節對應的工具集成為完整的平臺;3)從零開始構建。整體而言,第1種方法通常難以執行,因為這些開源的知識圖譜平臺從設計、可擴展性等方面均難以進行深度二次開發,而第3種方法則成本過高,因此,最佳實踐方法應對行業知識圖譜生命周期對應的工具進行綜合利用,在此基礎上進行滿足上述需求的全流程全局設計,并且對缺乏工具的環節進行針對性開發,對需要改進的工具進行完善,從而整合形成完整實用的企業級知識圖譜平臺。
3.3.1 知識建模
企業級的知識建模工具首先需要有多類型知識表示的能力,實現概念、實體、屬性、關系、事件、業務規則以及多媒體數據對應的語義內容的統一表示。最佳的實現方法是把W3C推薦的標準知識表示模型(RDF和OWL)與其他的知識表示框架相結合,這些框架包括產生式規則和文件對象等。RDF和OWL能夠良好地以三元組的形式表示概念、實體、屬性和關系等知識;事件可以視作一個特殊的概念,例如可以把“投資事件”定義成一個概念,并給它定義屬性(金額、時間等)和關系(投資方、融資方);業務規則的一種有效表示方法為產生式規則,例如“IF企業.估值>1億美元THEN企業是準獨角獸”;使用文件對象來表示多媒體形態的數據(如視頻、圖片或文檔等),然后使用鏈接標引的技術手段使其與領域圖譜中的相關知識進行關聯,形成多模態知識圖譜。
為實現協同知識編輯,企業級建模工具以在線Web的形式實現多用戶登錄與權限管理、并發控制、編輯過程主動提示與自動補全等功能,并依托平臺存儲能力使得面向大規模知識圖譜的可擴展建模成為可能。
平臺通過以下方法實現半自動化建模能力:1)基于E-R圖模式解析的方法實現從結構化數據中自動發現模式;2)基于“統計+規則”的方法從現有知識中自動規約概念與屬性的算法,在發現過程中通常需要進行人工干預、確認,通過人機交互的方式得到最終的圖譜模式層知識。
3.3.2 知識獲取
平臺需要包括對不同類型數據進行知識獲取的工具。具體而言,涵蓋面向結構化數據的D2R工具,面向半結構化數據的包裝器配置與生成工具,以及面向非結構化數據的自動抽取工具,同時需要額外支持對事件等復雜類型知識的抽取。
D2R映射工具的一種可行實現方法是以R2RML映射語言為基礎,開發在線Web形式的所見即所得的交互式配置交互頁面,并把源數據與知識圖譜的模式(定義的概念與屬性)進行映射,同時還需要提供設置融合合并的規則配置以及增量數據的判斷依據(例如更新時間)等。
包裝器的配置同樣需要提供所見即所得的配置方式或配置文件的配置方式,提供基于源碼字符串、正則表達式、XPath等進行知識元素位置確定的方式。基本的步驟如下:1)獲取源碼,通過集成selenium等引擎實現動態頁面加載成HTML;2)預處理,去除相關的噪聲如CSS、JS代碼等;3)字段配置,基于定義的模式層知識配置每個字段解析數據,包括前置規則、后置規則、正則表達式等;4)后處理,進行結果的過濾與轉換。同時,平臺依據第一節中描述的模板學習方法實現相應的包裝器自動學習算法,用戶可基于學習的模板進行配置,從而減少人工工作量。
對于非結構化數據的抽取,最佳實踐方法為:首先集成現有開源的工具,如上文所述的Snorkel、DeepKE等;其次提供基于規則的抽取方法,其實現的過程與包裝器配置基本相同,基于規則的方法可以快速獲得準確率較高的知識,一方面作為抽取結果,另一方面可作為機器學習模型訓練的語料;然后對于需要定制訓練抽取模型的數據,提供第三方模型集成的能力以及在線訓練模型的平臺,集成第三方模型通過微服務的注冊來實現;在線訓練平臺的后端通常通過集成現有的深度學習框架如TensorFlow、PyTorch等實現,用戶在線標注或上傳指定格式的語料后,后端啟動模型的訓練。
對于企業級的復雜數據,為在保證抽取知識的質量同時降低對人工標注語料的依賴,可以使用如下的多策略最佳實踐方法:利用不同數據源之間的信息冗余,使用較易抽取的知識(結構化數據庫中的)來輔助抽取困難的信息(文本信息抽取)。多策略信息抽取方法的整體架構如圖1所示,其中圍繞企業信息的抽取,首先優先從工商企業庫中通過D2R配置的方式抽取得到準確率高的企業基本知識,然后從專利網站中通過包裝器配置實現專利數據解析形成企業的專利信息,最后基于這些已經抽取的知識以及通過規則的方法從文本中得到的知識,自動生成文本信息抽取模型訓練所需的語料,實現遠程監督學習。

圖1 多策略信息抽取方法
3.3.3 知識融合
對于模式層的知識融合,通常采用人工融合的方法,因此,平臺需要提供交互配置界面進行融合編輯。對于實例層的融合,首先同樣提供人工融合編輯的功能,用于對(半)自動融合算法結果進行修正;其次需要提供給用戶配置界面實現基于業務規則的融合,規則通常包括基于名稱、屬性、置信度等相似程度的方法;最后提供自動的融合算法,算法的依據通常為待融合知識的相似度,基本計算方法包括基于字符串匹配、基于向量空間模型、語義距離計算和圖嵌入向量相似度等。
平臺還需要提供沖突檢測與自動解決功能。沖突檢測可基于知識推理工具來實現,而沖突自動解決通常依據置信度來實現(通常選取置信度高的)。
3.3.4 知識存儲
企業級知識圖譜中的多類型數據和應用的多樣性決定了知識圖譜的存儲必然是一種混合存儲的模型。一種最佳實踐的方法是以存儲三元組數據的圖數據庫為核心,使用關系數據庫、NoSQL、文件存儲等方式存放記錄型、文檔型、文件等數據,從而實現對多場景應用交互的需求。
在存儲性能方面,傳統的圖數據庫(如Neo4J和JanusGraph等)通常難以實現對大規模(百億到萬億級別)知識的高效存取和查詢,一個公開的性能評測報告如表2所示[61],表中數據為時間,第1列表示從選定節點出發進行廣度遍歷的步數,數據集為公開的14.68億關系的Twitter數據集,N/A代表測試超時。表2數據表明,在十億級別的三元組中,Neo4J與JanusGraph已無法滿足深度查詢的要求。原生并行圖是當前實現大規模知識圖譜數據實時存取的最佳解決方案,其基本思想是使用原生的圖存儲結構,數據存放在文件系統或計算機主存中,同時通過圖分割實現數據的分布式存儲并提供圖分割場景下的相關圖算法實現。這種工業級的圖數據庫實現復雜度通常非常高,因此,企業級的應用場景中也可以考慮部署商用的圖數據庫(如TigerGraph、PlantGraph等)。若自行研發實現,則需要從底層的原生圖存儲開始設計,然后實現數據的分割存儲以及分布式并行計算,這通常需要投入大量的研發成本。

表2 常用圖數據庫性能評測數據
3.3.5 知識計算
企業級知識圖譜平臺中需要包括圖挖掘計算、知識推理等功能。
在圖挖掘計算方面:首先實現常用的圖算法,包括圖遍歷、路徑發現、關聯分析、社區發現、連通子圖等,通常是基于一些開源的工具實現,如python-graph、JGraphT等;其次實現圖挖掘分析引擎,代價較低的方法是集成現有的開源分布式圖分析框架(如上文2.3.6節提到的Spark GraphX、Giraph等),這種方法適用于對實時性要求不是特別高的場景,而在實時性要求較高的場景中,則需要基于原生并行圖存儲單獨開發相應的圖分析引擎,需要考慮分布式協同計算、圖分割等復雜技術實現。
知識推理的主要實現方法為集成現有的成熟工具RDFox實現本體知識推理,以及集成Drools并進行一定的擴展實現業務規則推理。當數據規模超過這些工具能夠承載的能力時,可以提供相應的篩選方法從而只對關心的知識進行推理,另一種方法則是基于這些工具進行擴展從而實現分布式推理的能力。
3.3.6 知識應用
企業級知識圖譜平臺中需要提供知識可視化、語義檢索、智能問答等算法和基礎工具的支持。知識可視化通常采用基于現有的開源工具(如D3.js、ECharts等)進行擴展開發,提供多種可視化視圖如星形圖、樹狀圖、點陣圖等,以及鉆取、放大縮小等交互方式。
語義檢索主要解決傳統的關鍵詞檢索中遇到的兩個難題,即自然語言表達的多樣性和自然語言的歧義性。這兩個問題可以通過使用基于知識圖譜的實體鏈接和意圖理解有效地進行解決。同時,語義檢索還為用戶展現類似于實體搜索所提供的豐富的知識切面,使用戶能夠更便捷地獲取和理解結果。
企業級的智能問答需要支持基于信息檢索的問答(Information Retrieval Question Answering,IRQA)、KBQA和基于機器閱讀理解問答(Machine Reading Compre-hension Question Answering,MRCQA)等多種問答模式。不同的問答技術擅長回答的問題場景不同,單一地采用一種范式具有一定的局限性,需要將3種問答技術進行融合,構建多策略問答引擎,最大限度覆蓋用戶問題,更好地滿足企業應用的需求。多策略問答實現的基本過程如下:首先根據問題與資源的不同,多策略問答引擎會根據語義理解的結果在IRQA、KBQA、MRCQA中選擇一種或多種并行執行,對于單一問答技術,也會使用多種實現策略并行執行來完成候選答案的生成,同時為每一組候選答案收集相應的證據并進行置信度打分;把收集到的證據與置信度作為特征送入到下一階段,在此階段中會根據上一階段的結果對候選答案集進行重新排序,選擇得分最高的答案生成最終回答。
工業級的知識圖譜在金融證券、軍工情報、圖情分析、生物醫療、電商、農業等行業均得到有效利用。以金融證券領域為例,知識圖譜在金融情報分析檢索、反欺詐分析、金融智能化等場景已經有諸多成功應用落地。
以前述的金融創投場景為例,基于知識圖譜平臺的知識圖譜應用過程如下:1)進行應用場景分析,依據分析結果進行知識圖譜的建模,有公司、人物等概念,以及人物的屬性、投資關系等;2)選擇數據源,包括企業的基本信息、工商數據、專利數據、網絡上的公開新聞數據等,對數據進行接入并預處理,利用平臺的知識獲取工具進行知識的抽取;3)依據平臺的自動融合功能以及基于業務規則的融合配置,實現各種知識的融合并存儲到平臺中,例如人物可通過配置身份證號相同進行合并;4)應用開發,依據應用的場景進行算法選擇或定制開發、模型訓練和業務系統定制化二次開發。
基于知識圖譜平臺的應用落地范式雖然流程清晰,但是仍然會碰到以下問題:1)從知識圖譜的建設到應用周期過長;2)圖譜構建過程難度較高,需要專業技能;3)跨項目、跨領域遷移成本高;4)數據、知識、模型、算法等可復用程度低;5)應用構建復雜,需要技術人員深度開發。對于上述問題,當前熱門的中臺相關技術可以有效地解決。中臺是指在一些系統被共用的中間件的集合,通過使用中臺可以抽象出可復用的各種能力(數據、知識、模型、算法、功能模塊等),以達到縮短應用構建周期、快速響應業務需求的目的,同時降低跨領域的遷移成本。
企業級知識圖譜中臺是在知識圖譜平臺的基礎上引入中臺相關的理念和技術,對平臺進行重構升級的結果,形成的知識圖譜中臺整體架構如圖2所示,其中包括數據接入層、知識圖譜平臺層 (KGBox)、中臺層(自下而上依次為組件微服務化、預構建與應用編排)和應用層。總體而言是在原有知識圖譜平臺(簡化成KGBox)的基礎上進行上述3個過程的升級重構,從而更加靈活地支撐上層的應用場景。

圖2 知識圖譜中臺整體架構
組件微服務化的過程是指對知識圖譜平臺的各個功能進行抽象與細粒度的拆分,一方面降低單個組件的開發難度,更重要的是能夠在不同的應用場景中快速地對這些細粒度進行重新組織從而達到利用的目標。進行抽象的服務包括知識圖譜全生命周期的全部服務,涵蓋構建相關的組件及應用相關的組件,如知識圖譜構建組件包括知識建模組件、知識獲取組件、知識融合組件與知識存儲組件,覆蓋行業知識圖譜全生命周期中的知識圖譜構建階段;知識應用組件則包括統一檢索、智能問答、智能推薦、圖挖掘分析、事件分析、交互式BI、知識服務等組件,涵蓋了知識圖譜最典型的應用場景。
通過使用統一的微服務架構實現服務的統一治理、獨立運行,實現中臺的高可用、可擴展,通過使用容器化相關技術實現服務的快速發布與擴展。
預構建的理念來自于遷移學習,遷移學習和領域適應指在一種環境中學到的知識被用在另一個領域中來提高其泛化性能,即反預訓練的模型重新用在另一個任務中。典型的應用案例包括圖像識別領域和自然語言處理領域,前者代表有VGG模型、Inception模型和ResNet模型;在自然語言處理領域的應用從早期的詞向量模型(word2vec)開始,發展到近兩年熱門的BERT、XLNet等。
在知識圖譜中臺中,預構建的使用分為以下層面:直接把預訓練的語言模型應用于知識圖譜構建過程的知識抽取環節,在數據量非常多的行業中也可以訓練專用的領域語言模型;同時,預構建的思想還可以用于知識建模的本體、知識庫、模型和算法等;在特定的領域應用場景或項目中所定義的本體、獲取的知識庫以及算法與模型(面向知識獲取、融合及應用),在后續的相似場景中都可以復用而不需要從零開始構建。因此,在新的應用場景中進行遷移時能夠在此基礎上快速地進行知識圖譜的構建與應用,降低應用落地的難度與成本。
業務編排是指通過組合基礎服務來實現具體業務。實現業務編排的前提是組件微服務化,既包括后臺組件的微服務化,又包括將前端組件轉化為微服務。前端組件的微服務化需要使用微前端相關的技術實現前端組件的加載、組件注冊、頁面路由和數據共享。在組件微服務化的基礎上,可設計與開發適用于知識圖譜可視化、推理、問答、統計等應用場景的所見即所得的拖拽式布局編排引擎。
組件微服務化必須建立在數據模型抽象的基礎上,這在靈活多變的業務場景中難以實現。因此,業務編排的難點在于業務數據模型的抽象。而知識圖譜可動態定義本體的能力使得數據模型能夠動態地進行定義與擴展,建立在此基礎上的微服務組件極大程度地增強了系統的可編排能力。
在知識圖譜中臺上的應用將演變成“大中臺+輕前臺”的新范式,即重心在于中臺的構建,當中臺構建成型后,即可快速實現業務應用場景的構建。同樣以金融創投業務應用為例,面向金融領域的知識圖譜中臺會經過不斷積累得到領域相關的本體、數據和知識、面向金融領域的知識抽取模型等,以及一些經典的企業競爭力分析、企業風險評估算法和模型。在此基礎上構建應用時,用戶只需要補充特有的內部業務數據(如創業企業的經營數據),這些數據通常是結構化的,通過簡單配置即可整合到知識圖譜中。同時,可直接利用上述算法(企業競爭力分析算法和風險評估模型等),或是在它們基礎上進行微調(如加入特殊數據,改變權重參數等)得到更新的算法和模型,然后利用編排引擎即可實現業務場景的應用。
相較于基于知識圖譜平臺的應用構建范式,基于中臺的應用構建具有以下優勢:1)在預構建的數據模式、知識庫、算法模型等基礎上構建,從而避免數據稀疏和冷啟動;2)遷移快,能夠有效地復用之前積累的能力;3)業務導向,不需要過多地理解構建知識圖譜全過程中涉及的復雜技術;4)基于業務編排快速試探應用的構建,縮減開發周期,節約開發成本。
隨著行業知識圖譜的應用深化,其應用場景呈現出如下特征:數據向多模態化、動態化方向發展和數據類型不斷擴展,尤其是深度知識使用需求逐步增加。此外,應用所基于的多類型的數據的質量也參差不齊,這使得知識圖譜的應用變得越來越復雜,也難有一種方法(包括知識的表示、存儲和應用)能夠滿足所有的應用需求。
在一些專業的領域如智能運維、醫療輔助診斷等領域,不僅需要概念、實體和關系這些基礎的知識作為支撐,對于動態的事件以及深度的業務經驗知識和決策過程知識等的需求更加明顯(其中的典型代表是密集的業務專家知識),這對復雜的知識表示與獲取提出了更高要求。
業務經驗和決策過程等知識是專家經過長期積累形成的,通常隱含在大段的文本中,有些甚至僅存在于專家腦中,對于這些知識的獲取,知識眾包是一種可行的解決方案。同時,圖神經網絡和知識圖譜表示學習的發展也為深度知識的表示與獲取提供了解決問題的方法。
深度學習的發展給知識獲取帶來了機遇,但它往往需要大規模高質量標注數據,而在企業應用場景中,高質量語料獲取通常需要由領域專家手工標注,這使得其構建成本通常非常高。
針對這種數據稀疏場景下的知識獲取,弱監督學習、小樣本學習等最新的研究成果提供了解決思路。首先,“無監督的預訓練語言模型加上特定任務少量語料微調”的文本處理新范式在信息抽取、語義理解等場景得到了廣泛的應用。在公開發布的語言模型的基礎上,使用少量的行業語料即可完成高可用模型的訓練。更進一步,基于知識增強的語言表示模型將知識圖譜的信息加入到模型的訓練中,使模型可以從大規模的文本語料和先驗知識豐富的知識圖譜中學習到字、詞、句和知識表示等內容,從而有助于其解決更復雜和抽象的自然語言處理問題。
企業級知識圖譜應用通常對知識的質量要求非常高。然而,從不同來源的數據通過不同方法獲取的知識,很難保證它們的質量,尤其是那些通過一些機器學習方法從非結構化數據中提取的知識;另一方面,對于知識尤其是高動態知識的時效性保證也面臨著巨大的挑戰。
知識評估體系相關研究的新進展為知識質量提升提供了評測依據,同時知識眾包形式的知識編輯與校驗也是保障知識質量與時效性的有效手段。
隨著知識圖譜在企業中的深度應用,積累的數據日趨龐大,從數據中獲取的知識規模從初始的萬級別迅速增長到十億級別,有些大型的企業的數據規模甚至達到了千億和萬億級別。這種超大規模的數據對知識存儲和計算都帶來了巨大挑戰,傳統的圖數據庫都難以適應這種超大規模的知識。
計算機硬件的快速發展為超大規模知識圖譜提供了存儲、算力等方面的支撐。同時,大數據時代積累的分布式計算、并行處理等技術,也為超大規模知識圖譜知識計算提供了豐富的經驗。
知識圖譜是大數據時代知識工程的代表技術,是符號主義與連接主義相結合的產物,也是實現認知智能的基石。近年來,知識圖譜在互聯網以及金融、醫療、教育等行業得到廣泛應用。本文從工程應用角度系統地描述了大規模企業級知識圖譜的實踐細節,介紹已有的知識圖譜平臺,闡述建設知識圖譜所需的主要過程和關鍵難點,并針對每個環節分析所需的技術和相應的最佳實踐。在此基礎上,指出知識圖譜平臺中臺化升級的挑戰、相應的技術路線和未來發展方向。隨著知識圖譜在企業級場景中應用的不斷深入,多類型知識的統一表示與自動獲取、海量知識的高效推理與計算、知識的質量與時效性等將成為工程與研究中需要進一步解決的問題。