朱振華 于曉昀 李超
摘要:針對大量數據表到知識圖譜轉化時,僅展示有直接關系的數據,無法挖掘關聯有間接關系的數據的問題進行研究,基于公安業務場景,闡述了知識圖譜搭建的流程,并以知識圖譜關系預測的原理為基礎,構建了符合公安行業的知識圖譜關系信息資源模型,以規則預測+算法預測相結合的方式,提出了關系預測的技術路線,在海量數據中,實現實體的顯性關系和隱性關系的深度挖掘和關系拓展。
關鍵詞:知識圖譜;公安業務;海量數據;關系預測
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2018)28-0176-03
Research on Prediction Method of Personnel Relationship Based on Knowledge Map
ZHU Zhen-hua, YU Xiao-yun,LI Chao
(The First Research Institute of the Ministry of Public Security of P.R.C, Beijing 100048, China)
Abstract: In view of the problem that a large number of data tables can not be transformed into knowledge map only by displaying directly related data and mining indirectly related data, this paper expounds the process of building knowledge map based on the public security business scenario, and constructs a knowledge map relationship prediction system based on the principle of knowledge map relationship prediction. The relational information resource model of knowledge map is presented. The technical route of relational prediction is put forward by combining rule prediction with algorithm prediction. In large amount of data, the deep mining and relational extension of explicit and implicit relations of entities are realized.
Key words: knowledge map; public security business; massive data; relationship prediction
1 背景
近年隨著“人工智能”概念的再度活躍,除了“深度學習”這個炙手可熱的名詞以外,“知識圖譜”無疑也是研究者、工業界心目中的又一顆“銀彈”。簡單地說,“知識圖譜”就是以圖形(Graph)的方式來展現“實體”、實體“屬性”,以及實體之間的“關系”。知識圖譜的主要目標是用來描述真實世界中存在的各種實體和概念,以及它們之間的關聯關系。
實體或概念是世界中客觀存在的事物,他們之間相互作用、制約,由此形成一定關系。實體或概念可以是名人、城市、球隊、電影、地標性建筑、藝術品等;而關系可以是人與人、人與地點、人與物品以及地點與物品之間可能存在關聯。例如:實體“《靜夜思》”和“李白”之間存在“創作者”關系。利用實體或概念,以及他們之間的關聯關系,可以提高搜索精度和優化搜索結果。知識圖譜本質上是一種語義網絡的演化版本,其結點代表實體(Entity)或者概念(Concept),邊代表實體或概念之間的各種語義關系。
目前成為學術界與工業界關注熱點的知識圖譜的理論基礎來自RDF(Resource Description Framework)知識表示模型,但其主要面向大規模實體或概念,及其關聯關系的表示和應用問題。2012年5月,Google公司重金收購Metaweb公司,并向外界正式發布其知識圖譜(Knowledge Graph)。自此,知識圖譜正式走入公眾視野。當前的知識圖譜表示一般采用圖模型,其最基本的表示單元是(主體、謂詞、客體)三元組。例如:(達·芬奇、作者、《蒙娜麗莎》)三元組表示達·芬奇是《蒙娜麗莎》的作者。三元組中的主體和客體對應知識圖譜中的實體或概念(圖中結點),謂詞對應關系(圖中的邊)。除Google之外,微軟、百度、搜狗等公司都推出了各自的知識圖譜。
2 該文研究內容
該文主要是通過對海量數據的感知、認知,搭建完整的知識體系,在此基礎上,闡述知識圖譜進行關系預測的基本原理和基本方法,開展基于關系的知識推理和預測分析。以模擬真實世界的人活動關鍵要素為依據的,構建信息資源模型,將參與的自然人、人通過各種方式社交構成的社交關系及相關聯的事件等關鍵要素,結合相應的算法模型,進行顯性關系和隱藏關系的挖掘和預測,并對人員實體關系分析預測進行可視化展示。
3 知識圖譜的關系預測方法研究
3.1 知識圖譜搭建流程
搭建知識圖譜需從多種信息源獲取實體或概念,以及他們之間的關聯關系。知識圖譜構建是否完備關鍵在于知識抽取引擎的構建,知識抽取細分為實體、屬性、關系、事實、事件、分類等識別與抽取。以知識抽取引擎為基礎構建知識圖譜的流程圖如下:
知識圖譜的數據源是多源異構的數據體系,包括公安內部數據、其他部委數據、互聯網數據等。知識抽取引擎首先需要融合匯聚來自多個來源的異構數據,其中包括數據準備層,實現非結構化數據的結構化標注和數據格式轉換,完成多源異構數據的語義融合,匯聚管理異構數據,優化上層訪問效率。
在數據平臺層,知識抽取引擎主要進行數據采集和數據整合工作。數據采集工作主要內容包括以下幾個方面:
1)結構化數據智能抽取:智能化數據抽取是數據深度應用的前提,基于機器學習技術通過大規模自動化智能化對多源數據進行的采集、清洗、歸類,并關聯所有數據,形成統一數據視圖給后續的智能化應用服務。針對RDB、Streaming、Crawler、CSV/Excel/TXT等數據源,支持傳統數據轉換和機器學習數據轉換。
2)非結構化特征提取,使用機器學習等手段提取非結構化數據的特征作為標注;
3)數據格式轉換,將不符合預定格式的數據轉化為預定格式下的數據。
數據整合工作主要內容包括以下幾個方面:
1)模式對應:實現在關系數據庫模式層次和非結構化數據在概念層次的匹配對應;
2)實體鏈接:利用相似性計算、聚類劃分等技術,實現在異構數據在實例層次對應;
3)沖突檢測:在完成實例對應后,檢測是否存在相同實體的相同屬性值沖突;
4)沖突消除:利用機器學習、異常點判定、人工干預等手段消除檢測到的沖突;
5)數據融匯:匯聚異構數據,優化上層訪問效率。
經知識抽取引擎進行數據采集和數據整合工作后,形成數據資源庫,包括基礎資源庫、專題數據庫、關聯庫和全文檢索庫。為關系預測綜合研判提供所需的數據支撐。
在關系抽取層,針對圖譜增強的知識化實體理解技術,開展開源輔助信息關聯,支撐面向圖譜的高效匹配和關聯檢索應用。實體關系抽取主要關注:實體對之間的關系的預測,實體對特定關系的挖掘,開放式實體關系的抽取。
在知識圖譜構建層,包括知識構建、知識更新、知識融合。知識構建主要是基于以上流程將知識收集;知識更新主要解決知識的動態感知和更新問題,用以體現知識的變化對知識圖譜中所存儲知識的影響;知識融合主要是進行實體識別,即給定不同數據源中的實體,判斷其是否指向同一個真實世界實體。知識融合過程中,要準確識別待合并知識與知識庫中已有知識相重復或相矛盾的部分,并對冗余知識和矛盾知識采取適當的措施進行處理,以保證知識庫中的知識是一致性,無冗余、無矛盾。
3.2 知識圖譜關系預測的原理
知識圖譜關系預測根據是否和業務相關,主要分為基于規則的預測和基于算法的預測。
1)基于規則的預測: 主要是通過業務本體框架中的相關約束來做相關的推理預測,比如類別預測、屬性預測等,通過關系的定義域和值域來推理預測。關系的定義域和值域是固定的,實例具有這種關系,則實例就是定義域或值域規定的類別。
2)基于算法的預測:基于算法的預測可以分為很多種,基于路徑的建模、分布式表示學習、基于神經網絡、混合推理等,但推理算法獲得的結果具有不確定性,不一定等獲得完全正確的關系,只是一種預測可能性。比如:通過觀察到知識圖譜中包含這樣的一條路徑“梅琳達·蓋茨-配偶-比爾·蓋茨-主席-微軟-總部-西雅圖”,推測出梅林達可能居住在西雅圖。
知識圖譜相關的推理預測算法目前主要分為單步推理(直接關系,沒有考慮路徑特征)和多步推理(間接關系,考慮路徑特征),在單步推理和多步推理中主要包括4個研究方向:基于傳統的規則推理、基于分布式表示推理、基于神經網絡的推理、基于上述方法的混合推理。
3.3 知識圖譜關系信息資源模型設計
基于知識圖譜的關系預測的核心是建立符合業務的信息資源模型和算法。信息資源模型的設計是以模擬真實世界的人活動關鍵要素為依據的。參與的自然人(核心和邊緣份子)通過各種社交構成的社交關系,人員個體在相關關鍵事件(如違法案件、應急突發事件)過程中,在長時空范圍的系列活動、重點區域(如案件多發區、重點場所)等都是活動關系構成的幾個關鍵要素,需要在構建模型時重點關注和研究,在業務模型的構建后采用一些圖算法來開展關系分析和研判,從而能發現潛在的關系。
首先,在進行研判的過程中,通過對各類數據按照不同業務類別進行數據分析研判,形成不同主題域組織形式的數據模型庫。隨著研判的不斷深入,公安知識庫所產生的主題模型也將不斷的擴展,在系統建設過程中,實現搭建自然人中心主題模型、社交為中心的主題模型、關鍵事件為中心的主題模型以及重點區域為中心的主題模型。
第二,基于綜合圖譜模式的匹配技術:在重要行為記錄的事件、組織記錄的模式檢索中,借助基于關聯子結構、子模式的匹配技術,可以構建頻繁結構索引,剪枝-確認迭代操作等進行高效的綜合匹配檢索,以實現突破傳統關鍵字技術的檢索模式,支持基于復雜時間,行為軌跡,興趣聚簇的檢索任務,支撐多種上層分析研判應用的開展。
利用綜合的多特征場景化實體實現聚簇表示。在多來源和跨時空的公安行業數據獲取、感知、融合、去重等處理后,利用知識圖譜等輔助信息,優化對數據的表示,提高數據概況、索引設計、數據分發等重要操作的效率,提升知識圖譜的語義知識表示能力。
第三,基于分布表示的多源高維數據的快速關聯技術:為實現多源異構公安行業數據的動態管理,提升實時響應能力,知識圖譜數據層將采用基于分布表示的多源異構數據關聯技術。
3.4 關系推理預測的技術路線
基于數據流融合關聯和知識圖譜關系預測的基本原理,以圖結構數據的演化模型為基礎,關注以隱含狀態轉移生成式模型和概率生成圖結構推斷等為基礎的統計建模等技術,分析建模目標的行為規律,甄別周期性和突發異常行為模式。技術路線如圖所示:
首先,研究圖結構行為演化預測模型:針對公安行業中的行為模式和新場景不斷涌現等問題,通過對檢查站、旅館住宿、網吧上網、乘車乘機、出入境等信息的相似性分析、類統計分析、條件過濾分析等,定位工作對象以及疑似工作對象行為軌跡特征,獲取與其行為相似的相關人、相關物品等。結合監控數據和多樣輔助來源,基于快速哈希映射的序列相似技術,實現對持續追蹤任務中的人員行為模式的有效覆蓋,進而追蹤和識別可疑目標的臨近和相似個體。
第二,多目標異常行為預測技術:在初始對象網絡圖譜結構中,首先基于特定群體影響力最大化模型尋找熱點目標源;其次研究已有樣本數據對象被感染的情況,假定網絡結構不變的情況下,利用連續時間傳播模型預測哪些數據對象會在什么時間被感染;最后研究隨著時間變化,網絡結構發生變化的情況下,有效對網絡結構變化進行建模和量化,以實現信息溯源和傳播估計的同時,準確描述網絡的動態特性和變化趨勢,達到抗過擬合特性,解決公安工作中目標稀疏和長期潛伏的挑戰。
第三,異常突發行為預測支持技術:構建知識圖譜的大數據平臺關注實時聚集度是通過對大規模人群、車輛等軌跡趨勢的分析實時獲取,并對相關事件進行預警。大數據平臺留存所有人員的全息電子檔案,根據電子檔案的多個維度信息挖掘發現其可能涉及公共安全的可能事件及相關的關系人,對可能出現的情況發出預警。大數據平臺監控敏感地點活動、關注地點聚集、敏感人群事件等關注事件,依據相關模型對于該事件產生的影響發出預測報警,實時發布預警信息和行動指令。
基于以上技術路線,最終展現給用戶的是以圖譜可視化的方式進行展示,關系分析預測系統的效果圖如下:
圖譜可視化展示不僅能夠分析人員人之間的關系網絡,對人與事件、其他實體之間的分析也可以用戶網狀結構展示出來,事件和其他實體包括了人員、地址、物品、軌跡、車輛、通訊等各類信息,最終形成一個網狀圖。針對某一類信息,可以基于特定場景下,通過相應的業務規則和模型,進一步關聯分析和關系拓展,通過層層挖掘,最終形成一個包含顯性關系和隱藏關系的關系網絡圖。
4 結束語
該文針對大量數據表到知識圖譜轉化時,僅展示有直接關系的數據,無法挖掘關聯有間接關系的數據的問題進行研究,基于公安業務場景,闡述了知識圖譜搭建的流程,并以知識圖譜關系預測的原理為基礎,構建了符合公安行業的知識圖譜關系信息資源模型,以規則預測+算法預測相結合的方式,提出了關系推理預測的技術路線,在海量數據中,實現實體的顯性關系和隱性關系的深度挖掘和關系拓展,以可視化的方式展示給用戶,便于用戶研判分析。下一步,將繼續與公安業務相結合,優化關系推理算法模型,引入知識交互,為業務人員提供便捷的應用支持,結合用戶的業務經驗,提高關系分析預測可視化數據特征分析和交互能力。
參考文獻:
[1] 江瀏祎. 基于圖的關系推理算法研究與實現[D]. 成都: 電子科技大學, 2017.
[2] 劉嶠,韓明皓,楊曉慧, 等. 基于表示學習和語義要素感知的關系推理算法[J]. 計算機研究與發展, 2017, 54(8): 1682-1692.
[3] 郭坤銘. 基于異構網絡的關系推理及預測方法研究[D]. 太原: 太原理工大學, 2017.
[4] 漆桂林, 高桓, 吳天星. 知識圖譜研究進展[J]. 情報工程, 2017, 3(1): 4-25.
[5] 邵鎣俠, 馮是聰. 社交網絡分析在公共安全領域的應用[J]. 大數據, 2017, 3(2): 38-44.
[6] 郭琳, 翟社平, 高山. 知識圖譜中的語義推理算法[J]. 計算機與現代化, 2017(12): 71-76.
【通聯編輯:謝媛媛】