◆韓戈白 楊紹雄 王 博 陳 迪
(中國電子科技集團公司第二十八研究所 江蘇 210000)
裝備大數據是指關于裝備日常管理及任務產生的各種數據的集合,它具有大數據的典型特征,并且還體現出了裝備類型多、業務種類繁雜和裝備用戶多的特點。隨著信息化程度的逐漸加深,裝備大數據日漸龐大和復雜,而現階段使用的傳統文件存儲和關鍵字查詢的方式已不能滿足日常辦公復雜性、及時性的需要,急需提高裝備數據的管理和使用效率。
知識圖譜是一種研究數據之間關聯關系的新興技術,能有效地展現錯綜復雜數據之間的各種關聯關系,清晰地表達數據的知識結構,讓使用者對數據本身能有全面而深入的認識。針對裝備大數據展現出來的特點,本文構建了知識圖譜在裝備大數據上的典型應用。
裝備業務大數據除了具有傳統大數據的五個“V”的特點[1]之外,還具備裝備類型多、業務種類繁雜和裝備用戶多的特點。
裝備管理以裝備為核心,涉及裝備、人員、機構、器材、設備和工具等諸多管理要素,裝備管理實體具有類型多、數量大和關系復雜的特點。根據裝備管理條例,裝備管理的目標是實現裝備全壽命、全系統管理,涵蓋裝備從研發直至報廢的全系統、全壽命、全要素的裝備管理活動,業務種類繁多。而裝備管理用戶包括與裝備全要素相關聯的各級部門機構用戶和生產單位用戶,涉及部門類型多,用戶數量較大。
近年來,為了應對與日俱增的網絡數據,各大搜索引擎公司相繼以包含各種實體和實體關系的數據萬維網為基礎來構建知識圖譜,旨在改進引擎搜索質量,進而拉開語義搜索的序幕[6,9]。知識圖譜旨在通過圖結構描述真實世界中的實體和概念,以一個全局唯一的標識符來表示每個實體,以多組屬性-值對來描述實體的內在特征,以關聯關系來連接兩個實體。因此,知識圖譜從宏觀上形成了巨大的圖結構,圖中的節點表示實體,邊表示關系或者實體屬性[9]。
除了在輔助搜索引擎時有重大作用之外,知識圖譜在金融領域應用廣泛,包括反欺詐、風險控制及評估和企業社交等方面。隨著知識圖譜技術的成熟和普及,知識圖譜在越來越多的領域展現了其聯系萬物的優勢[2-5]。
裝備大數據知識圖譜具有數據構成復雜以及知識體系特殊的特點。區別于傳統真實世界知識圖譜的自然文本輸入,裝備大數據知識圖譜的輸入數據一部分來自已經結構化的業務系統數據等,一部分來自半結構化、非結構化的具有高度規則的文檔數據和一些圖片、音視頻數據。同時,裝備大數據知識圖譜包含高度領域化的實體及實體關系,屬于典型的特殊領域知識圖譜。因此,傳統的面向自然文本的知識圖譜構建技術并不完全適用,需要研究適應于裝備大數據結構和特點的知識圖譜構建技術。
通過構建基于裝備大數據的知識圖譜,可以提高數據管理統籌能力,解決數據利用率低的問題。基于裝備大數據的知識圖譜可以將多領域、多形態的數據層層分解并關聯起來,將以往長期的、離散的、分段的、不同層面的數據整合起來,共同反映裝備工作的整體面貌。
其次,面對多變的業務需求,知識圖譜可以提高決策支持的適用范圍。在實際使用中,裝備決策問題根據不同的環境條件而改變,不同的時期又有不同的決策重點。同時,裝備管理的精細化程度逐漸提高,針對細粒度的裝備決策難度上升。通過知識圖譜,可以從最基本的單個裝備出發,從不同的關系延伸組合出不同切面的關系網絡,以支撐多變的決策要求[4]。

圖1 知識圖譜構建流程
基于裝備大數據的知識圖譜構建流程如上圖1所示,針對裝備大數據中的結構化數據和半結構化、非結構化數據將采用不同的策略進行實體關系提取。
對于結構化數據,基礎數據倉庫中的各種對象數據表都是較好的實體表達,可直接用作實體的載體。而實體之間的關系并沒有清晰的信息載體,需要通過一定的技術手段進行提取和構建。
對于半結構化、非結構化數據,尤其是針對特定領域并且高度規整的數據,可以直接使用準確率相當優秀的現有提取模型進行信息提取。
將兩部分數據中提取的知識進行知識融合之后,經過知識質量評估,并組織成為一定的知識表示形式即可形成知識庫[3]。
鑒于裝備大數據的數據本身體現出來的特點,構建基于裝備大數據的知識圖譜的難點主要集中在針對結構化數據的實體關系提取和從不同數據結構、數據源提取得到的知識之間的知識融合兩個方面。
在實體提取階段,面對大量的結構化的數據庫,如何去除冗余信息,提取所需要的實體信息是關鍵;在關系提取階段,傳統的自然文本可以從關鍵詞及其語義信息等上下文信息確定實體關系,但是從結構化的數據中,尤其是數據庫表中產生實體關系就缺少了理論依據和標準方法。經過對裝備大數據中數據組織與知識展現方式的觀察,裝備大數據知識圖譜中的實體關系可來源于以下幾個方面:
(1)數據庫外鍵?;A數據倉庫的外鍵很有可能就是實體之間的關聯關系的體現,但并不是所有的外鍵都適合作為關系,需要人工經驗的識別、篩選。
(2)業務系統數據。業務系統中的某些數據與知識圖譜中的關系含義高度相符,可以從業務系統中的數據表及其外鍵產生實體關系。
(3)關系表。部分業務系統中為了表達特定數據的多對多關系,構建了專門的關系表,可以從該關系表中快速提取實體關系信息。
(4)人工經驗指導生產。由專業人士指導生成領域內公認的一些關系。
結構化數據與半結構化、非結構化數據的知識融合
從結構化數據和半結構化、非結構化數據兩部分數據中提取出來的知識是獨立的兩部分知識,兩者的實體有可能指代的是同一個實體,但是實體的指稱不一樣,兩者的實體也有可能互相有實體關系。不僅是兩部分數據之間,在結構化數據和半結構化、非結構化數據各自產生的知識中也有可能發生重復實體等現象,如何將兩個獨立的知識融合成統一的知識庫也是一個難點[7]。
實體對齊可以在一定程度上解決這個問題。實體對齊旨在將那些不同數據源中提取出來的具有不同標識符卻實際上表達同一對象的實體歸并為唯一實體對象[8],并添加到知識圖譜中。根據不同的數據特點可采用不同的實體對齊策略,本文根據提取得到的實體及其關系的特點,采用聚類方法來進行實體對齊。
實體搜索作為知識圖譜最基礎和最通用的應用,可以為用戶提供快速獲取知識的渠道[4]。除此之外,開發者用戶還可以在底層知識庫的基礎上按具體需求進行應用二次開發。
實體搜索旨在將用戶輸入的關鍵詞與知識庫中實體名稱進行匹配,找到符合該關鍵詞的實體及其類別,并將與目標實體具有關系的其他實體全部展示出來,向用戶展現目標實體完整的知識面。
當用戶輸入某公司名稱作為關鍵字進行實體搜索時,將會以匹配到的實體為中心,展示其兩層之內的關系網絡,圖2展示的是實體搜索的部分結果(因數據私有,實體名稱已經過偏移處理),圖中每一個節點代表一個實體,節點之間的連線表示關系。

圖2 知識圖譜實體搜索展示
從圖2可以清楚地發現,該公司與某些部門機構簽訂了一些合同,這些合同又分別涉及某些裝備,屬于某些項目,因此用戶可以快速地了解與該公司相關的“供應商、部門機構、合同、項目、裝備”知識面。
種種因素導致傳統的工作模式要求用戶具有較高的專業知識才能勝任裝備日常管理工作。裝備大數據知識圖譜整合了不同數據源的數據,為用戶提供了快速、簡潔而統一的數據搜索方式,可以有效地提高裝備日常管理工作效率,降低用戶專業技能需求門檻。
知識圖譜提供了豐富的底層接口,用戶可以根據自身的應用需求,通過這些接口和查詢語言進行二次應用開發。
本文根據裝備大數據本體庫的特點和用戶需求,定制了合同風險審計分析模型,旨在通過知識圖譜挖掘具有潛在風險的合同關系,識別供應商具有潛在欺詐的合同行為,效果如圖3所示(圖中數據均為模擬數據):

圖3 合同風險審計分析展示
該模型結合了知識圖譜接口和查詢語言,通過分別對裝備大數據知識圖譜中的供應商表、合同表、人員表等多個表讀取對應數據來進行數據篩選、整合和分析,最終得到具有潛在風險的多級合同列表。
本文提出了基于裝備大數據知識圖譜的構建方法,有針對性地解決了裝備大數據特性給知識圖譜構建帶來的困難。對于大數據集中的結構化數據,本文采用數據庫外鍵、業務系統數據和關系表等信息來指導實體關系的提取,對于半結構化、非結構化數據,根據數據文件的類型采用不同的已經成熟的方法來提取實體關系,最終經過基于聚類的知識融合以及人工審核之后產生知識庫。此后,本文將知識庫中的三元組進行可視化展示,并通過知識圖譜的不同應用場景和擴展開發展示了知識圖譜在關系管理方面的優越性。本文提出的基于裝備大數據的知識圖譜可以有效提高數據統籌管理能力,方便裝備業務的開展,有利于裝備業務的決策確定。