◆武鴻浩
公安領域中知識圖譜的構建與應用研究
◆武鴻浩
(北京警察學院 北京 102202)
公安機關圍繞保衛政權穩定、維護社會治安、打擊違法犯罪三大任務而產生的各種信息系統積累了大量的數據資源,對公安內網資源和互聯網信息的數據整合和信息檢索成為了公安科技十三五規劃的重要組成方面。語義搜索被認為是下一代搜索引擎的趨勢,而其中的核心技術是構建相關領域的知識圖譜,在此背景下構建面向公安領域的知識圖譜顯得尤為必要和迫切。知識圖譜作為一種新興的技術理念既面臨著大規模無監督構建、實現快速復雜推理這些共性技術難點。同時,在面向公安領域建設時又面臨著特有的信息來源和推理規則這些難點,為解決這些技術難點,本文綜合運用詞向量、模糊推理這些新技術解決構建公安領域知識圖譜的技術難點,并設計了一套公安領域知識圖譜。
知識圖譜;語義搜索;自動問答
知識圖譜的概念最早由Google在2012年提出,知識圖譜通過構建統一的知識庫打破了因數據結構不同而導致的信息孤島問題,并能夠對知識進行有效的推理。知識圖譜是語義搜索中的核心技術,因此被廣泛應于與搜索引擎與自動問答系統中。目前國內外已經對知識圖譜進行了深入的研究,并被應用于包括醫療領域和金融領域。
隨著信息技術的發展,公安工作越來越依賴于大規模信息檢索與分析技術,目前公安機關已經積累了大量的數據資源,這些資源大多數屬于結構化的數據信息,為整合網頁中的半結構化和非結構化信息。需要構建公安領域的知識圖譜,以滿足大數據環境下的數據分析需求。
目前從結構化和半結構化中抽取知識并構建知識圖譜的技術已經相對成熟,但超過80%的信息儲存于非結構化的文本中[1],這就需要設計一套可靠的信息抽取技術,而信息抽取也是當前自然語言處理技術的一個難點。同時公安領域的知識圖譜面臨大量的推理任務,這就需要在知識圖譜中選擇合適的知識表示形式便于日后的推理工作。
為解決當前公安領域的知識圖譜構建面臨的問題,本研究用粒計算的思想構建多粒度的知識圖譜實現快速推理,構造適用于知識圖譜信息抽取詞向量模型,構建面向事件的知識圖譜構建,并開發了一套合適公安工作的知識圖譜構建模型。
相同罪犯或犯罪團伙在作案過程中會使用相同的作案工具、作案手法,并尋找相似的作案對象。辦案人員利用此原理根據已有的受案信息進行串并案分析,分析犯罪人員的特征、確定犯罪軌跡、對潛在作案對象預警,這要求偵查人員具有深厚的辦案經驗,并需要處理大量已有的線索,如果運用知識圖譜對已有的受案信息進行分析整理,理清各個線索之間的關系,將極大地提高辦案效率。
我們將互聯網中的有害信息定義為包括以顛覆政權制造社會混亂為目的的非法言論,包含色情、恐怖、暴力內容的信息,以實施網絡詐騙、網絡賭博、網上非法交易為目的的信息。對這類信息的及時發現、消除是網安部門和各大網站的重要職責。但由于網絡信息量大、有害信息隱蔽性強等原因,此項工作需要消耗大量的人力物力,并難以取得良好的效果,如果利用知識圖譜作到文本內容的消歧,并聯系背景知識理解隱喻的話,將極大提高有害信息的識別準確度,凈化網絡環境。
社會群體性事件容易被不法分子利用演化為街頭政治。互聯網能夠方便地將具有相同利益訴求的人群聯系在一起,人們通過社交網絡、新聞評論、即時通訊工具發泄情緒,組織群體活動。對此類信息及時掌握,做出預警,防止事態擴大是情報部門的重要職責。但是這需要了解事件的背景信息,把控網民態度傾向性,并能夠將跨平臺的輿論信息聯系在一起,這需要對信息有一個統一的知識框架,知識圖譜符合此類需求。
知識圖譜作為一門新興技術在構建過程中有許多技術難點,其原因歸結起來主要由以下幾點:
(1)構建知識圖譜所用的信息源包含大量的非結構的文本信息。對文本語義的理解是一個復雜問題。這個問題的復雜性體現在一是文本結構屬于未知結構[2],二是信息的不確定性。在文本結構方面雖然文本的語法是有限的,但由于現實語境中大量存在省略、倒序,甚至更復雜的語法錯誤,因此不能用有限的語法表達文本結構。
(2)知識圖譜的無監督學習構建問題。如果無法實現知識圖譜的無監督學習,就無法構建大規模的知識圖譜,同時難以對知識圖譜及時更新和維護。知識圖譜的無監督學習不僅要實現概念的聚類而且要能夠體現概念之間的關系,這在基于詞向量的word2vec中有所體現,但相關討論和實例還比較少。另外知識圖譜的無監督學習同樣面臨小樣本學習問題[3]。在大數據環境下有限的標記語料難以應對高速出現的文本流,主要表現在大量新詞的出現,以及主題漂移和新主題的出現。同時文本信息不具有統計上的均勻分布,由于領域、語種、平臺的不同,語言環境往往有很大的區別,難以將基于有限標記語料產生的語言模型在跨平臺跨領域以及文本流中推廣。
(3)利用知識圖譜進行復雜快速推理的問題。知識圖譜主要采用(Subject,Predicate,Object)三元組的形式來表示知識[4],這種方法可以較好地表示很多事實性知識。然而公安領域的知識圖譜涉及大量的社會計算和復雜推理,很多知識并非常識性知識,而是基于某個社會場景下的知識。
(1)用粒計算的思想構建多粒度的知識圖譜實現快速推理
目前采用SPO模型的知識圖譜,由于大量的實體之間沒有關系,或者只有少數幾種關系,造成一個稀疏的三維數組,如果為了表達更復雜的關系還要加入時間、空間、情感等維度,勢必造成知識圖譜的結構過于復雜,而產生非線性增長的時間復雜度和空間復雜度。為解決這個問題除了提高計算能力之外,更需要從改進知識圖譜的模型結構做工作。希望將粒計算的思想引入到知識圖譜的模型構造中,構建多粒度的知識庫,可以在不需要精確推理的情況下減少計算量。例如我們要了解網民對某事件的態度是支持還是反對,而不是具體的觀點的時候,我們僅需要查詢網民傾向定的大類進行推理。用粒計算的思想構建多粒度的知識庫重點在于粒度的劃分,以及多粒度的聯合計算。
(2)構造適用于知識圖譜信息抽取詞向量模型
文本作為一種無結構化數據,為了實現大規模的知識圖譜建設,同時能夠做到對知識圖譜的及時更新與維護,需要采用無監督學習的方式完成知識圖譜的知識抽取。詞向量作為深度學習的輸入相對于傳統的統計學習模型已經能夠表達詞語之間的相似關系,同時兼具統計模型的魯棒性。Google的word2vec據稱可以反映詞的上下位關系(相關論據還比較少),但要適用于知識圖譜的構造和推理還需要反映更多的語義關系,如果能夠將詞向量和知識圖譜模型中描述實體的特征向量對應起來的話,將有助于無監督學習方法在知識圖譜構建工作中的推廣,也有助于知識的融合。
(3)構建面向事件的知識圖譜構建
知識圖譜的構建具有很強的領域性。公安工作中需要對社會熱門事件的發展及時跟蹤和了解,需要構建面向事件的知識圖譜。構建此類知識圖譜和傳統的知識圖譜構建具有很大的區別,首先是社會熱門事件是動態出現的,單一事件也會隨著時間的推移不斷變化發展,這需要知識圖譜實時更新。同時時間軸將是串聯各個實體之間的一個重要屬性,因此在構建面向時間的知識圖譜中必須考慮時間屬性。最后評價某一事件往往包含大量的主觀信息,對于情感類文本的傾向性測量也是構建此類知識圖譜的一個工作。因此本研究在面向社會熱點事件的知識圖譜構建,基于時間屬性的知識圖譜推理,以及面向態度傾向性的知識圖譜推理方面做出研究。
圖1 基本研究框架
圖1中知識圖譜的輸入信息包括結構化數據,包括結構化數據庫中的數據;半結構化或弱結構化信息,包括詢問筆錄、勘查記錄等信息;無結構數據,如純文本信息等。
這里個人代理輸出包括問答式的語義搜索,結果可以是單一的,如某人在某段時間住在哪里?乘坐過什么交通工具?也可以是列表形式的,如某段時間和某人同住過一個旅店的人有哪些?模式匹配,如和某一案件作案手段相似的案件有哪些?某一輿論事件發展為群體性事件的可能性有多大?某一信息是否屬于有害信息?圖形化展示,如以圖的形式展現某一案件涉案人員的關系,或者展現某人的軌跡信息。
要完成此類語義搜索遇到的困難有:隱喻問題、跨平臺的信息聯合問題、突發事件的及時檢測和對話題的跟蹤問題、判斷網民態度傾向性的問題,要解決以上問題需要解決兩個要素:一是推理,二是補全背景知識。這就需要像知識圖譜這樣能夠模擬人腦存儲知識的技術。
在本研究中將探討適用于面向公安領域知識圖譜構建的詞向量模型,用以解決知識圖譜的大規模無監督學習。將探討粒計算的方法用以解決知識圖譜的快速推理問題。
(1)在公安內網方面,以金盾工程建設為契機建設了八大資源庫,涵蓋了全國人、地、事物、組織信息,同時各地公安部門結合自身需求建設了涵蓋人員軌跡、車輛軌跡、出入境信息、旅店住宿信息等資源庫,部分省份完成了辦案文件電子化工作,建成了案件信息庫。同時整合外網信息,包括民航、民政、交通等全部或部分資源庫。之前的工作主要集中在使用包括SOA等技術實現各個資源庫之間的數據整合,但對于數據的語義分析、知識的推理、結果的展現仍然有許多技術難點沒有突破。
(2)互聯網信息,對互聯網信息的獲取和分析運用面對可以公開獲取的信息通過各種輿情分析和信息檢索工具進行分析,對于不公開數據一般交由信息平臺所屬公司處理。一方面輿情分析技術和信息檢索技術有待提高,絕大多數系統的技術核心仍然是基于關鍵字的檢索,同時缺乏面向公安工作需求開發的專用技術。
面向公安領域的知識圖譜信息輸入按照數據的結構性分可分為:
(1)結構化數據,包括結構化數據庫中的數據。
(2)半結構化或弱結構化信息,包括詢問筆錄、勘查記錄等信息。
(3)無結構數據,如純文本信息等。
面向公安領域的知識圖譜的輸出按照應用場合可分為:
(1)問答式的語義搜索,結果可以是單一的,如某人在某段時間住在哪里?乘坐過什么交通工具?也可以是列表形式的,如某段時間和某人同住過一個旅店的人有哪些?
(2)模式匹配,如和某一案件作案手段相似的案件有哪些?某一輿論事件發展為群體性事件的可能性有多大?某一信息是否屬于有害信息?
(3)圖形化展示,如以圖的形式展現某一案件涉案人員的關系,或者展現某人的軌跡信息。
面向公安領域的知識圖譜,需要具有強大的推理能力,能夠處理復雜的概念之間關系,為做到這一點需要采取以下方法:
(1)在選擇面向公安領域的知識圖譜描述語言時,傾向于使用OWL,因為OWL增加了關于描述或提供網絡內容的資源信息,這有助于實現跨平臺的知識整合,并具有較強的表達能力,適合用來構建面向公安領域的知識圖譜。
(2)構造面向公安工作的模式層。采用無監督的方式構建知識圖譜,雖然可以節約人力成本,但由于本體概念之間關系的復雜性,將會使知識圖譜本體之間的關系繁雜,因此需要根據公安工作的特點構建知識圖譜的模式層,模式是對知識的提煉,便于表達復雜的約束關系。
(3)借助粒計算的思想減小推理的復雜性。面向公安領域的知識圖譜中的概念更為復雜,既可以是一個客觀實體也可以是一個事件甚至是一種觀點,為了能夠清晰地描述概念計劃引入知識粒這個概念。具體的粒化方式如下:將相似的詞粒化為一個知識粒,將文本表達的知識演化成一種有限的可被計算的模型。對文本信息的粒化最高層為主觀和客觀,這基本上是文字表達信息的兩種范疇,客觀事物具有多重屬性,本身和屬性又包括多種特征,這將是文本知識結構,主觀方面主要是對事物的態度,態度可以分為多種,每種又具有不同的程度。
本文分析了公安領域知識圖譜的應用場景,對構建公安領域的知識圖譜的難點進行了分析,并提出了解決方法,在此基礎上提出了一套構建公安領域知識圖譜的方案。知識圖譜作為語義搜索的核心技術在未來具有廣闊的發展前景,構建面向公安領域的知識圖譜是整合數據資源實現智慧公安的一項重要技術,隨著知識圖譜構建和應用技術的成熟,公安領域知識圖譜將會的到更好的發展。
[1] Nickel M, Murphy K, Tresp V, et al. A Review of Relational Machine Learning for Knowledge Graphs[J]. Proceedings of the IEEE,2015.
[2]漆桂林,高桓,吳天星.知識圖譜研究進展[J].情報工程,2017.
[3]劉知遠,孫茂松,林衍凱等.知識表示學習研究進展[J].計算機研究與發展,2016.
[4]Bordes A, Usunier N, Garcia-Duran A, et al. Translating Embeddings for Modeling Multi-relational Data[C] International Conference on Neural Information Processing Systems,2013.
[5]Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J],2013.
北京警察學院院級課題:面向公安領域的知識庫問答技術研究(2017KZY11)。