王掀 李鑫


摘要:本文基于知識(shí)圖譜通過節(jié)點(diǎn)定義、邊關(guān)系處理以及規(guī)則集搭建來實(shí)現(xiàn)人員關(guān)系可視化,實(shí)現(xiàn)人員間顯性和隱形關(guān)系的挖掘,為公共安全領(lǐng)域決策提供技術(shù)支撐。
[關(guān)鍵詞]知識(shí)圖譜 實(shí)體 共詞
近年來隨著人工智能技術(shù)的蓬勃發(fā)展,知識(shí)表示技術(shù)作為人工智能的一個(gè)重要組成部分也得到了廣泛發(fā)展和應(yīng)用,其中知識(shí)圖譜尤為突出,它用可視化技術(shù)描述實(shí)體間的潛在關(guān)聯(lián)關(guān)系。知識(shí)圖譜是描述客觀世界中的實(shí)體、概念、事件、屬性以及這些因素之間的聯(lián)系。其中實(shí)體和概念用于指代客觀世界中的具體事物,包括地點(diǎn)、人物、國(guó)家和產(chǎn)品等。實(shí)體與實(shí)體間以某種形式被聯(lián)系在一起,其聯(lián)系在知識(shí)圖譜中以謂詞形式體現(xiàn)出來。
目前已有大量的科研機(jī)構(gòu)和學(xué)者致力于知識(shí)圖譜的相關(guān)研究,國(guó)內(nèi)知識(shí)圖譜項(xiàng)目有中文圖譜資源庫OpenKG、百度知心和知立方等。這些知識(shí)圖譜就是要為數(shù)據(jù)之間潛在關(guān)系的預(yù)測(cè)提供關(guān)鍵技術(shù)支撐,從而挖掘有用信息。
1 知識(shí)圖譜的人員關(guān)系構(gòu)建
本文人員關(guān)系構(gòu)建作為一種基于圖的數(shù)據(jù)結(jié)構(gòu),它由節(jié)點(diǎn)(實(shí)體)和邊(關(guān)系)組成,每個(gè)節(jié)點(diǎn)代表一個(gè)實(shí)體,每條邊為實(shí)體與實(shí)體之間的關(guān)系,把與社會(huì)網(wǎng)絡(luò)有關(guān)的所有數(shù)據(jù)都打通,構(gòu)建包含多數(shù)據(jù)源的人員關(guān)系圖譜。在構(gòu)建過程中,需要通過節(jié)點(diǎn)定義、邊關(guān)系處理以及規(guī)則集搭建來實(shí)現(xiàn)人員關(guān)系的可視化。
1.1 定義實(shí)體節(jié)點(diǎn)
節(jié)點(diǎn)即為實(shí)體數(shù)據(jù),如客戶的ID,手機(jī)號(hào),微信,郵箱,QQ等,一般用戶ID我們認(rèn)為是業(yè)務(wù)的核心頂點(diǎn)。可利用任意節(jié)點(diǎn)拓展用戶所有信息。同時(shí)可以建立雙節(jié)點(diǎn)關(guān)聯(lián),實(shí)現(xiàn)節(jié)點(diǎn)間的關(guān)系查詢。
1.2 邊關(guān)系處理
邊關(guān)系用來描述兩節(jié)點(diǎn)間邊的屬性內(nèi)容。如在使用設(shè)備信息時(shí),用戶可能有登錄、注冊(cè)、轉(zhuǎn)賬等不同行為屬性,手機(jī)也有呼入呼出等不同的行為屬性,在處理邊關(guān)系時(shí),我們加入屬性描述能更有效地識(shí)別用戶行為軌跡和關(guān)聯(lián)關(guān)系。
1.3 規(guī)則集搭建
有了節(jié)點(diǎn)和關(guān)系,我們就構(gòu)建了基礎(chǔ)的關(guān)系網(wǎng)絡(luò),但這樣的網(wǎng)絡(luò)并不能直接將我們所關(guān)注的核心業(yè)務(wù)信息展示使用,這時(shí)規(guī)則集的搭建就顯的格外重要。如使用手機(jī)號(hào)關(guān)聯(lián),IP關(guān)聯(lián),郵箱關(guān)聯(lián),通訊錄重合度關(guān)聯(lián)等,將節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系聚集,形成聚集關(guān)聯(lián),直接用于查詢,快速搜索公共安全相關(guān)信息。
其中,涉及到實(shí)體層次關(guān)系及關(guān)聯(lián)關(guān)系的計(jì)算和共詞的關(guān)系計(jì)算。對(duì)于實(shí)體中詞之間的關(guān)系,主要是計(jì)算詞之間的層次關(guān)系和關(guān)聯(lián)關(guān)系,層次關(guān)系揭示詞之間的上下位關(guān)系,關(guān)聯(lián)關(guān)系揭示詞之間的語義相關(guān)性,甚至關(guān)聯(lián)的屬性。詞之間的共現(xiàn)關(guān)系中的共現(xiàn)詞頻本身就可以體現(xiàn)共詞關(guān)聯(lián)度,目前已有多種計(jì)算共詞關(guān)系強(qiáng)度的算法,其一般原理為:將兩個(gè)本來關(guān)系就密切的關(guān)鍵詞顯得更密切,使關(guān)系疏遠(yuǎn)的關(guān)鍵詞顯現(xiàn)得更疏遠(yuǎn),由此可以在某一主題內(nèi),明顯區(qū)分核心和非核心概念。
常見的共詞關(guān)系相似度的計(jì)算方法有內(nèi)積、Dice系數(shù)、Jaccard系數(shù)和余弦函數(shù),本文為充分挖掘熱點(diǎn)實(shí)體間潛在的關(guān)系,我們選擇Jaccard系數(shù)作為共詞關(guān)系計(jì)算系數(shù),關(guān)鍵詞D、D;的Jaccard系數(shù)定義為:
2 實(shí)現(xiàn)結(jié)果
本文針對(duì)人員關(guān)系構(gòu)建模型包括數(shù)據(jù)采集、知識(shí)抽取、模型服務(wù)和圖譜構(gòu)建(圖1),利用收集的網(wǎng)絡(luò)公開數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)來進(jìn)行實(shí)驗(yàn),對(duì)原始數(shù)據(jù)進(jìn)行知識(shí)抽取,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)分類等,從而形成有效信息,在模型構(gòu)建中我們利用用戶行為驅(qū)動(dòng)的社交網(wǎng)絡(luò)演化分析模型和隱空間視角下的動(dòng)態(tài)網(wǎng)絡(luò)宏觀微觀結(jié)構(gòu)演化分析模型,進(jìn)行節(jié)點(diǎn)的重要性演化,構(gòu)建動(dòng)態(tài)復(fù)雜網(wǎng)絡(luò)演化生成模型,并開展模擬實(shí)驗(yàn),通過分析其實(shí)體間的行為構(gòu)建人員關(guān)系圖譜。
本實(shí)驗(yàn)以人員身份證號(hào)(模擬數(shù)據(jù))為實(shí)體,通過輸入身份證號(hào)指定特定人員進(jìn)行搜索分析,得到與其在飛機(jī)、火車或網(wǎng)吧通行的人員關(guān)聯(lián)數(shù)據(jù),并進(jìn)行可視化展示(圖2)。
3 結(jié)論
通過基于知識(shí)圖譜的人員關(guān)系構(gòu)建,可對(duì)人員實(shí)體信息(包括人員基本信息、乘車記錄等)和虛擬信息(包括微信、郵件、,上網(wǎng)記錄等)進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)多個(gè)實(shí)體人員關(guān)系圖譜構(gòu)建,可支撐公共安全領(lǐng)域的搜索、預(yù)測(cè)等業(yè)務(wù)的開展。
參考文獻(xiàn)
[1]田星等,基于詞向量的Jaccard相似度算法[J].計(jì)算機(jī)科學(xué).2018,7(07):186-189
[2]張君,用戶行為驅(qū)動(dòng)的社交網(wǎng)絡(luò)演化分析[D].清華大學(xué),2015
[3]馬江濤.基于社交網(wǎng)絡(luò)的知識(shí)圖譜構(gòu)建技術(shù)研究[D].戰(zhàn)略支援部隊(duì)信息工程大學(xué),2018
[4]曹倩,知識(shí)圖譜的技術(shù)實(shí)現(xiàn)流程及相關(guān)應(yīng)用[J],情報(bào)理論與實(shí)踐.2015,38(12):127-131