999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異構(gòu)信息網(wǎng)絡(luò)的假幣犯罪信息分析系統(tǒng)①

2016-02-20 06:52:28陳貞虹許舒人
計算機系統(tǒng)應(yīng)用 2016年12期

陳貞虹, 李 慧, 許舒人, 葉 丹

1(中國科學(xué)院大學(xué), 北京 100049)2(中國科學(xué)院軟件研究所 軟件工程技術(shù)研究開發(fā)中心, 北京 100190)

基于異構(gòu)信息網(wǎng)絡(luò)的假幣犯罪信息分析系統(tǒng)①

陳貞虹1,2, 李 慧2, 許舒人2, 葉 丹2

1(中國科學(xué)院大學(xué), 北京 100049)2(中國科學(xué)院軟件研究所 軟件工程技術(shù)研究開發(fā)中心, 北京 100190)

傳統(tǒng)的犯罪查詢的查詢條件是文本信息, 查詢結(jié)果是有序的文檔列表, 這種方式無法展示結(jié)果之間的關(guān)系. 基于異構(gòu)信息網(wǎng)絡(luò)以信息網(wǎng)絡(luò)的形式重構(gòu)假幣犯罪信息數(shù)據(jù), 構(gòu)建了假幣犯罪信息網(wǎng)絡(luò), 使用人名消歧的技術(shù)建立假幣犯罪信息網(wǎng)絡(luò)中嫌疑人之間的關(guān)系, 并使用排序?qū)W習(xí)方法研究假幣犯罪信息網(wǎng)絡(luò)中的節(jié)點相關(guān)性問題, 設(shè)計并實現(xiàn)了假幣犯罪信息分析系統(tǒng), 通過以實體對象為查詢項和網(wǎng)絡(luò)圖為查詢結(jié)果的方式解決假幣犯罪數(shù)據(jù)的查詢問題.

異構(gòu)信息網(wǎng)絡(luò); 元路徑; 犯罪數(shù)據(jù)挖掘; 人名消歧; 排序?qū)W習(xí)

1 引言

隨著犯罪行為的智能化和高科技化, 犯罪人員的組織化和職業(yè)化趨勢也越來越明顯, 假幣犯罪發(fā)案數(shù)呈現(xiàn)增長態(tài)勢, 犯罪規(guī)模不斷升級, 假幣犯罪有產(chǎn)業(yè)化和團伙化的特點. 傳統(tǒng)的犯罪查詢的查詢條件是一段文本, 查詢結(jié)果是有序的文檔列表. 對于假幣犯罪信息分析來說, 這種查詢方式無法展示查詢結(jié)果之間的關(guān)系, 對于具有團伙作案特性的假幣犯罪來說, 這種查詢方式并不適合. 本文采用以實體對象為查詢項,網(wǎng)絡(luò)圖為查詢結(jié)果的方式解決假幣犯罪分析中數(shù)據(jù)查詢問題, 幫助警員分析假幣犯罪信息, 尋找破案線索.

為了提供更加高效的假幣犯罪信息查詢, 本文對原始假幣犯罪數(shù)據(jù)進行重構(gòu), 建立假幣犯罪信息網(wǎng)絡(luò),基于假幣犯罪信息網(wǎng)絡(luò)研究假幣犯罪信息的查詢分析與可視化. 隨著信息網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)系復(fù)雜化的發(fā)展,一個信息網(wǎng)絡(luò)內(nèi)部的會有多種類型的節(jié)點, 節(jié)點之間的關(guān)系也會呈現(xiàn)出多樣化的趨勢, 為了區(qū)別單一同構(gòu)的信息網(wǎng)絡(luò), 韓家煒等學(xué)者提出將此種信息網(wǎng)絡(luò)稱為異構(gòu)信息網(wǎng)絡(luò)[1]. 與同構(gòu)信息網(wǎng)絡(luò)相比, 存在多種節(jié)點和關(guān)系類型的異構(gòu)信息網(wǎng)絡(luò)模型更加適合含有三種關(guān)鍵數(shù)據(jù)類型, 即案件、嫌疑人和假幣的假幣犯罪數(shù)據(jù). 因此本文基于異構(gòu)信息網(wǎng)絡(luò)建立假幣犯罪信息網(wǎng)絡(luò)模型, 研究了嫌疑人姓名消歧和假幣犯罪信息相關(guān)性分析兩項關(guān)鍵技術(shù), 并在此基礎(chǔ)上設(shè)計和實現(xiàn)了假幣犯罪信息分析系統(tǒng).

2 相關(guān)工作

本文基于異構(gòu)信息網(wǎng)絡(luò)以信息網(wǎng)絡(luò)的形式重構(gòu)假幣犯罪數(shù)據(jù), 構(gòu)建了假幣犯罪信息網(wǎng)絡(luò), 使用人名消歧的技術(shù)建立假幣犯罪信息網(wǎng)絡(luò)中嫌疑人之間的關(guān)系,并使用排序?qū)W習(xí)方法研究假幣犯罪信息網(wǎng)絡(luò)中的節(jié)點相關(guān)性問題. 因此, 本節(jié)從異構(gòu)信息網(wǎng)絡(luò)、人名消歧以及排序?qū)W習(xí)三個方面介紹本文的相關(guān)工作.

2.1 異構(gòu)信息網(wǎng)絡(luò)

網(wǎng)絡(luò)分析的研究已經(jīng)從單一的網(wǎng)絡(luò)結(jié)構(gòu)逐漸向異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)發(fā)展, 并成為新的研究熱點, 早期的異構(gòu)信息的研究包括RankClus[1]和NetClus[2]. 但是RankClus針對的是只有兩種節(jié)點類型的異構(gòu)信息網(wǎng)絡(luò),而NetClus是基于星形異構(gòu)信息網(wǎng)絡(luò)的研究, 在應(yīng)用上都有一定的局限性. 隨后Yizhou Sun提出用元路徑[3]表示異構(gòu)信息網(wǎng)絡(luò)豐富的語義信息, 同時還定義了一種新的基于元路徑的相似性測量方法PathSim[3], 研究異構(gòu)信息網(wǎng)絡(luò)中同種對象之間的相似性. 此后有很多異構(gòu)信息網(wǎng)絡(luò)的研究都基于元路徑展開. 文獻[4]在學(xué)術(shù)研究網(wǎng)絡(luò)中基于異構(gòu)信息網(wǎng)絡(luò)的元路徑提取網(wǎng)絡(luò)拓撲特征預(yù)測學(xué)者之后的合作關(guān)系. 綜上, 異構(gòu)信息網(wǎng)絡(luò)的元路徑分析方法是應(yīng)用最廣泛的分析方法, 因此本文選用基于元路徑的分析方法研究基于異構(gòu)信息網(wǎng)絡(luò)構(gòu)建的假幣犯罪信息網(wǎng)絡(luò).

2.2 人名消歧

人名消歧的研究中應(yīng)用較為廣泛的是基于聚類的人名消歧. 基于聚類的人名消歧主要使用人物的屬性信息進行聚類, 有效的人物屬性可以提高聚類的結(jié)果的準(zhǔn)確性. 基于聚類的人名消歧中的重要問題是如何確定類的個數(shù), 文獻[5,6]采用交叉驗證、排列檢測、重采樣以及懲罰似然等方法來確定類的個數(shù). 此外, 文獻[7,8]采用了自底向上的凝聚式層次聚類方法, 能夠不事先確定簇的個數(shù). 本文采用自底向上的凝聚式層次聚類方法解決嫌疑人姓名消歧問題.

2.3 排序?qū)W習(xí)

排序?qū)W習(xí)方法是在信息檢索問題中, 利用機器學(xué)習(xí)的方法, 基于特征集合, 自動學(xué)習(xí)得到用于檢索的最終的排序函數(shù). 已有的排序?qū)W習(xí)算法可以根據(jù)訓(xùn)練樣例的不同分為三類: Pointwise、Pairwise 和Listwise方法. Pointwise 方法, 如Pranking with ranking 算法[9],采用一個查詢對應(yīng)的單一文檔作為訓(xùn)練樣例; Pairwise方法, 如Ranking SVM算法[10,11], 采用查詢對應(yīng)的文檔對作為訓(xùn)練樣例; 而Listwise 方法, 如ListNet 算法[12], 采用查詢對應(yīng)的文檔序列作為訓(xùn)練樣例. 已有研究表明, 一般來說Pairwise 和Listwise 方法優(yōu)于Pointwise 方法[13,14]. 由于Listwise 方法的算法復(fù)雜度太高, 本文選用應(yīng)用更為成熟的Pairwise方法中的Ranking SVM算法.

3 假幣犯罪信息網(wǎng)絡(luò)模型

為了給假幣犯罪數(shù)據(jù)提供網(wǎng)絡(luò)化的查詢方式, 本文基于異構(gòu)信息網(wǎng)絡(luò)建立假幣犯罪信息網(wǎng)絡(luò)模型.

3.1 相關(guān)定義

定義1. 信息網(wǎng)絡(luò)[3](Information network): 信息網(wǎng)絡(luò)被定義為有向圖G = 〈 V, E 〉的形式, 有一個對象類型映射函數(shù)φ∶V→A和一個鏈接類型映射函數(shù)φ∶E→R, 即每個對象v∈V屬于一個特定的對象類型φ(v)∈A, 每一個關(guān)系e∈E屬于特定的關(guān)系類型φ(e)∈R. 當(dāng)對象類型|A|〉1或關(guān)系類型|R|〉1時, 該信息網(wǎng)絡(luò)稱為異構(gòu)信息網(wǎng)絡(luò), 否則為同構(gòu)信息網(wǎng)絡(luò).

為了明確異構(gòu)信息網(wǎng)絡(luò)中的對象類型和關(guān)系類型,使用網(wǎng)絡(luò)模式來描述異構(gòu)信息網(wǎng)絡(luò)的元結(jié)構(gòu).

定義2. 網(wǎng)絡(luò)模式[3](Network schema): 在異構(gòu)信息網(wǎng)絡(luò)G = (V, E)中, 有對象類型映射φ:V→A和鏈接類型映射φ:E→R, 網(wǎng)絡(luò)模式是在對象類型 A上定義的有向圖, 邊為來自R的關(guān)系, 表示為TG=(A,R).

定義 3. 元路徑[3](Meta-path): 元路徑P是一條定義在網(wǎng)絡(luò)模式圖TG=(A,R) 上的路徑, 表示為它定義了對象類型Al和Al+1之間的復(fù)合關(guān)系其中o表示關(guān)系的復(fù)合操作.

元路徑描述了網(wǎng)絡(luò)模式中兩類對象之間的連接路徑, 表示兩類節(jié)點在元層次上存在的關(guān)系, 不同的元路徑代表了對象類型之間可以通過不同的節(jié)點類型和關(guān)系建立不同的關(guān)系.

3.2 假幣犯罪信息網(wǎng)絡(luò)

定義4. 假幣犯罪信息網(wǎng)絡(luò): 假幣犯罪信息網(wǎng)絡(luò)是異構(gòu)信息網(wǎng)絡(luò)的實例, 被定義為有向圖G = 〈 V, E 〉的形式, 有一個對象類型映射函數(shù)φ:V→A和一個關(guān)系類型映射函數(shù)φ:E→R, 其中節(jié)點類型A={Case, Person, Money}, 即案件(Case, C), 嫌疑人(Person, P)和假幣(Money, M)三種對象, 關(guān)系類型R={ involve, involved in, related by, identical, similar},六種關(guān)系類型描述如下:

① Involve: 指的是該案件所抓獲的犯罪嫌疑人;

② Involved in: 指的是該犯罪嫌疑人所涉及的案件;

③ Relate: 指的是在一個案件中所繳獲的假幣;

④ Related by: 指的是該假幣是在哪一個案件當(dāng)中被繳獲的;

⑤ Identical: 兩條同名嫌疑人記錄指向同一嫌疑人;

⑥ Similar: 通過已有假幣相似度分析程序計算相似度, 并建立關(guān)聯(lián)關(guān)系.

圖1 假幣犯罪信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式

根據(jù)定義4, 假幣犯罪信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式如圖1所示. 基于假幣犯罪信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式, 假幣犯罪信息網(wǎng)絡(luò)的兩條元路徑實例如圖2所示, 其中元路徑嫌疑人—案件—嫌疑人(PCP)表示人和人之間通過參與了相同的案件建立了一條路徑, 路徑中包括人和案件之間的“involved in”關(guān)系以及案件和人之間“involve”關(guān)系. 另一條元路徑案件—假幣—假幣—案件(CMMC)表示兩個案件之間通過關(guān)聯(lián)了非常相似的的假幣建立了一條路徑, 路徑中包括案件和假幣之間的“relate”關(guān)系, 假幣和假幣之間的“similar”關(guān)系以及假幣和案件之間“related by”關(guān)系. 因此, 不同的元路徑具有不同的語義來描述節(jié)點之間的相關(guān)度.

圖2 假幣犯罪信息網(wǎng)絡(luò)的元路徑實例

4 關(guān)鍵技術(shù)研究

本節(jié)介紹假幣犯罪信息分析系統(tǒng)中使用的兩個關(guān)鍵技術(shù), 嫌疑人姓名消歧和假幣犯罪相關(guān)性分析. 嫌疑人姓名消歧用于構(gòu)建假幣犯罪信息網(wǎng)絡(luò)的嫌疑之間的關(guān)系, 應(yīng)用于假幣犯罪分析系統(tǒng)的構(gòu)建假幣犯罪信息網(wǎng)絡(luò)模塊. 假幣犯罪信息相關(guān)性分析是基于假幣犯罪信息網(wǎng)絡(luò)提取節(jié)點網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征, 同時使用排序?qū)W習(xí)的方法融合節(jié)點的屬性信息和拓撲特征分析假幣犯罪信息相關(guān)性, 應(yīng)用于假幣犯罪分析系統(tǒng)的數(shù)據(jù)分析模塊.

4.1 嫌疑人姓名消歧

為了解決假幣犯罪中嫌疑人記錄重復(fù)錄入導(dǎo)致的同一嫌疑人所犯的案件無法建立關(guān)聯(lián)關(guān)系的問題, 本文使用人名消歧技術(shù)判斷同名嫌疑人是否指向同一人.對于被認定為同一嫌疑人的記錄不進行合并, 而是建立關(guān)聯(lián)關(guān)系, 即假幣犯罪信息網(wǎng)絡(luò)中的嫌疑人之間的“identical”關(guān)系記為同一嫌疑人關(guān)系.

4.1.1 嫌疑人屬性

經(jīng)過業(yè)務(wù)分析, 選擇了28個屬性作為嫌疑人消歧中使用的屬性, 并將這28個屬性分為四類:

1) 同一性判定屬性: 此類屬性具有較強的同一性判定功能, 如手機號、QQ號、銀行賬戶號等.

2) 重要屬性: 若該類屬性相同, 則兩條同名嫌疑人記錄有較大可能性指向同一嫌疑人, 如現(xiàn)住地址、戶籍地址、綽號等.

3) 一般屬性: 一般的常規(guī)屬性, 如性別、民族和血型等.

4) 模糊屬性: 警員在錄入過程存在主觀性誤差的屬性, 如體型、臉型、身高和口音等屬性.

4.1.2 兩階段聚類模型

本文采用自底向上的凝聚式層次聚類方法, 并分為兩個階段:

① 階段一: 該階段僅使用同一性判定屬性. 初始狀態(tài)下每一個同名的嫌疑人各為一個簇, 發(fā)現(xiàn)具有任一相同的同一性判定屬性則合并成一個簇, 并輸出若干個簇作為該階段的聚類結(jié)果.

② 階段二: 該階段使用重要屬性、一般屬性和模糊屬性三類屬性計算兩個嫌疑人之間的相似度, 對于不同類別的屬性賦予不同的權(quán)重. 使用公式(1)計算嫌疑人px和嫌疑人py的屬性k的相似度.

分別使用公式(2)(3)(4)計算嫌疑人px和嫌疑人py之間的重要屬性, 一般屬性以及模糊屬性的相似性.

其中Aimp,Anor,Afuz分別表示重要屬性集合, 一般屬性集合以及模糊屬性集合. 使用公式(5)計算嫌疑人px和嫌疑人py之間的相似度.

其中ɑimp,ɑnor,ɑfuz分別表示重要屬性, 一般屬性和模糊屬性的權(quán)重. 將階段一的輸出的若干個簇作為該階段的輸入, 并使用公式(6)計算簇Ci和簇Cj之間的相似度.

迭代過程中具有最大相似度的兩個簇合并成一個簇, 當(dāng)任意兩個簇之間最大相似度小于一個給定的閾值t時停止聚類.

4.2 假幣犯罪信息相關(guān)性分析

假幣犯罪信息在本文中以假幣犯罪信息網(wǎng)絡(luò)的形式組織, 因此假幣犯罪信息的相關(guān)性分析即為假幣犯罪信息網(wǎng)絡(luò)中節(jié)點的相關(guān)性分析.

4.2.1 節(jié)點相關(guān)度排序關(guān)鍵信息

傳統(tǒng)的排序模型常常只關(guān)注節(jié)點的屬性特征, 或者只關(guān)注節(jié)點的拓撲特征, 但是只關(guān)注其中一種特征,往往會造成結(jié)果的置信度不夠, 本文將融合以上兩類特征來決定排序結(jié)果.

1) 節(jié)點之間的拓撲特征

節(jié)點的拓撲特征使用異構(gòu)信息網(wǎng)絡(luò)的元路徑分析方法提取, 使用文獻[4]的四個基于元路徑的網(wǎng)絡(luò)度量方法, 分別是路徑數(shù)(path count)、歸一化路徑數(shù)(normalized path count)、隨機游走(random walk)以及對稱隨機游走(symmetric random walk)作為拓撲特征的度量方法. 根據(jù)文獻[3], 較短的元路徑能夠較好的度量相關(guān)度, 一條長的元路徑甚至?xí)斐筛蓴_. 因此本文將選用長度不大于4的元路徑, 使用傳統(tǒng)的廣度優(yōu)先搜索算法, 在網(wǎng)絡(luò)模式圖上搜索出所有符合條件的元路徑. 對于每一個類型的節(jié)點拓撲特征數(shù)為元路徑的個數(shù)乘以度量方法個數(shù).

2) 節(jié)點的屬性特征

節(jié)點的屬性特征直接從節(jié)點的屬性中通過業(yè)務(wù)分析選取, 部分屬性特征列舉如下:

① 案件: 案發(fā)時間, 案發(fā)地點, 簡要案情等.

② 嫌疑: 居住地, 戶籍地址, 是否慣犯等.

③ 假幣: 冠字號, 年版, 幣種, 厚度等.

4.2.2 節(jié)點相關(guān)性排序框架

圖3是節(jié)點相關(guān)性排序的框架圖, 訓(xùn)練數(shù)據(jù)為已經(jīng)標(biāo)注好的節(jié)點相關(guān)性數(shù)據(jù), 選用Ranking SVM算法訓(xùn)練排序模型, 使用訓(xùn)練集的數(shù)據(jù)訓(xùn)練排序模型. 測試數(shù)據(jù)的結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)相同, 對測試集中的每一條記錄, 使用排序模型計算待分析節(jié)點的得分獲得相關(guān)性結(jié)果, 其得分是一個在0到1之間的小數(shù), 得分越高說明兩個節(jié)點越相關(guān).

圖3 節(jié)點相關(guān)度排序框架示意圖

5 假幣犯罪信息分析系統(tǒng)的設(shè)計與實現(xiàn)

為了解決假幣犯罪信息的查詢問題, 基于第三節(jié)介紹的假幣犯罪信息網(wǎng)絡(luò)模型構(gòu)建了假幣犯罪信息分析系統(tǒng). 假幣犯罪信息分析系統(tǒng)提供假幣犯罪數(shù)據(jù)的查詢分析與可視化服務(wù), 幫助警員分析假幣犯罪數(shù)據(jù).假幣犯罪信息分析系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖如圖4所示. 構(gòu)建假幣犯罪信息網(wǎng)絡(luò)模塊從原始的假幣犯罪數(shù)據(jù)存儲的關(guān)系型數(shù)據(jù)庫以及一些文本文件中抽取假幣、案件和嫌疑人的屬性信息和關(guān)系信息, 同時使用4.1節(jié)介紹的嫌疑人姓名消歧算法解決原始嫌疑人建立嫌疑人關(guān)系, 構(gòu)建假幣犯罪信息網(wǎng)絡(luò); 數(shù)據(jù)存儲模塊持久化假幣犯罪信息網(wǎng)絡(luò); 數(shù)據(jù)分析模塊是假幣犯罪分析系統(tǒng)中的核心模塊, 負責(zé)處理用戶查詢, 從數(shù)據(jù)存儲模塊存儲的假幣犯罪信息網(wǎng)絡(luò)中查詢出和查詢節(jié)點相關(guān)聯(lián)并且符合用戶定義的查詢反胃的所有節(jié)點和關(guān)系,組成查詢結(jié)果網(wǎng)絡(luò), 使用4.2節(jié)介紹的假幣犯罪信息相關(guān)性分析技術(shù)分析查詢項與查詢結(jié)果之間的相關(guān)性,返回結(jié)合相關(guān)性分析結(jié)果的查詢結(jié)果網(wǎng)絡(luò); 數(shù)據(jù)展示模塊是假幣犯罪分析系統(tǒng)與用戶直接交互的模塊, 收集用戶查詢條件和查詢結(jié)果網(wǎng)絡(luò)的可視化展示.

圖4 假幣犯罪信息分析系統(tǒng)結(jié)構(gòu)圖

5.1 構(gòu)建假幣犯罪信息網(wǎng)絡(luò)模塊

構(gòu)建假幣犯罪信息網(wǎng)絡(luò)模塊負責(zé)從數(shù)據(jù)源, 即關(guān)系型數(shù)據(jù)庫中抽取關(guān)系和屬性, 構(gòu)建假幣犯罪信息網(wǎng)絡(luò)并將結(jié)果傳入數(shù)據(jù)存儲模塊. 根據(jù)假幣犯罪信息網(wǎng)絡(luò)關(guān)系的生成方式的不同分為以下三類:

① 原關(guān)系型數(shù)據(jù)庫的關(guān)系和屬性: 嫌疑人和案件以及案件和假幣之間的四種關(guān)系類型可以從原關(guān)系型數(shù)據(jù)庫中直接抽取, 同時對象的屬性信息也從原數(shù)據(jù)庫中一同抽取, 用于數(shù)據(jù)分析.

② 假幣和假幣的identical關(guān)系: 通過已有假幣相似度分析程序計算相似度建立關(guān)聯(lián)關(guān)系.

③ 嫌疑人和嫌疑人的similar關(guān)系: 根據(jù)嫌疑人姓名消歧算法建立聯(lián)系.

5.2 數(shù)據(jù)存儲模塊

假幣犯罪分析系統(tǒng)需要持久化的數(shù)據(jù)是假幣犯罪信息網(wǎng)絡(luò), Neo4J是圖數(shù)據(jù)庫, 適合存儲網(wǎng)絡(luò)形式的數(shù)據(jù), 在社交網(wǎng)絡(luò)領(lǐng)域已經(jīng)有了成熟的應(yīng)用, 同時Neo4J能處理具有高達數(shù)十億規(guī)模頂點和邊的圖數(shù)據(jù),同時兼容完全ACID 事務(wù)屬性[15]. 本文選用NoSQL數(shù)據(jù)庫中的圖數(shù)據(jù)庫Neo4J作為假幣犯罪分析系統(tǒng)的數(shù)據(jù)庫. 假幣犯罪信息網(wǎng)絡(luò)的數(shù)據(jù)庫模式圖如圖5所示,和假幣犯罪信息網(wǎng)絡(luò)的結(jié)構(gòu)完全一致, 同時還存儲了節(jié)點的屬性信息, 因此使用Neo4J圖數(shù)據(jù)庫存儲假幣犯罪信息網(wǎng)絡(luò), 降低模型轉(zhuǎn)換的代價, 提高查詢效率.

圖5 假幣犯罪信息網(wǎng)絡(luò)的數(shù)據(jù)庫模式圖

5.3 數(shù)據(jù)分析模塊

數(shù)據(jù)分析模塊的主要功能是處理用戶的查詢請求,返回查詢結(jié)果網(wǎng)絡(luò), 分為用戶查詢處理, 相關(guān)性分析,屬性特征計算和拓撲特征計算四個小模塊.

圖6是數(shù)據(jù)分析的流程圖, 展示了數(shù)據(jù)分析模塊中的四個小模塊是如何協(xié)作完成數(shù)據(jù)分析的工作. 首先用戶查詢處理模塊接收用戶的查詢條件, 根據(jù)用戶指定的查詢節(jié)點以及限定的查詢犯罪從數(shù)據(jù)存儲模塊存儲的獲取所有符合查詢條件的節(jié)點, 并生成查詢結(jié)果網(wǎng)絡(luò), 然后將生成的查詢結(jié)果網(wǎng)絡(luò)傳送給相關(guān)性分析模塊. 相關(guān)性分析模塊將查詢結(jié)果網(wǎng)絡(luò)分解為查詢和待分析的相關(guān)性節(jié)點的二元組<Q, R>, 同時調(diào)用拓撲特征計算模塊計算該二元組的拓撲特征和屬性特征計算模塊計算屬性特征, 這兩個模塊將計算結(jié)果返回給相關(guān)性分析模塊, 由相關(guān)性分析模塊匯總二元組的拓撲特征和屬性特征, 調(diào)用4.2節(jié)介紹的節(jié)點相關(guān)性排序模型計算相關(guān)性, 然后將結(jié)果返回給用戶查詢處理模塊, 最后由用戶查詢處理模塊將相關(guān)性信息加入查詢結(jié)果網(wǎng)絡(luò), 最后返回查詢結(jié)果網(wǎng)絡(luò).

圖6 數(shù)據(jù)分析流程圖

5.4 數(shù)據(jù)展示模塊

數(shù)據(jù)展示模塊負責(zé)用戶交互, 包括收集用戶查詢條件以及查詢結(jié)果網(wǎng)絡(luò)的可視化. 用戶查詢條件包括指定查詢實體, 以及搜索的路徑長度.

圖7 查詢結(jié)果網(wǎng)絡(luò)示例

圖7 是查詢結(jié)果網(wǎng)絡(luò)的示例, 使用不同的圖片表示不同類型的節(jié)點, 用邊的顏色和形狀來區(qū)分不同的關(guān)系, 同時使用懸浮窗口顯示節(jié)點的屬性信息, 并根據(jù)結(jié)果節(jié)點和查詢節(jié)點之間的相關(guān)性分析結(jié)果決定該節(jié)點顯示的尺寸.

6 結(jié)語

本文將大量的犯罪數(shù)據(jù)以網(wǎng)絡(luò)的形式組織起來,建立了假幣犯罪信息網(wǎng)絡(luò), 使用排序?qū)W習(xí)的方法融合屬性信息和拓撲信息解決假幣犯罪信息網(wǎng)絡(luò)中的節(jié)點相關(guān)度排序問題, 并在此基礎(chǔ)上設(shè)計了假幣犯罪信息分析系統(tǒng), 提供查詢分析與可視化服務(wù)幫助警員進行假幣犯罪分析和并案分析. 在下一步工作中, 我們將會基于假幣犯罪信息網(wǎng)絡(luò)上挖掘假幣犯罪團伙信息.

1 Sun Y, Han J, Zhao P, et al. Rankclus: Integrating clustering with ranking for heterogeneous information network analysis. Proc. of the 12th International Conference on Extending Database Technology: Advances in Database Technology. ACM. 2009. 565–576.

2 Sun Y, Yu Y, Han J. Ranking-based clustering of heterogeneous information networks with star network schema. Proc. of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM. 2009. 797–806.

3 Sun Y, Han J, Yan X, et al. Pathsim: Meta path-based top-k similarity search in heterogeneous information networks. VLDB’11. 2011.

4 Sun Y, Barber R, Gupta M, et al. Co-author relationship prediction in heterogeneous bibliographic networks. 2011 International Conference on Advances in Social Networks Analysis and Mining (ASONAM). IEEE. 2011. 121–128.

5 Chen Y, Martin J. Cu-comsem: Exploring rich features for unsupervised web personal name disambiguation. Proc. of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics. 2007. 125–128.

6 Elmacioglu E, Tan YF, Yan S, et al. Psnus: Web people name disambiguation by simple clustering with rich features. Proc. of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics. 2007.268–271.

7 Chen Y, Lee SYM, Huang CR. Polyuhk: A robust information extraction system for web personal names. 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference. 2009.

8 Gong J, Oard D. Determine the entity number in hierarchical clustering for web personal name disambiguation. 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference. 2009.

9 Crammer K, Singer Y. Pranking with Ranking. Advances in Neural Information Processing Systems, 2002, 14: 641–647.

10 Herbrich R, Graepel T, Obermayer K. Large margin rank boundaries for ordinal regression. Advances in Neural Information Processing Systems, 1999: 115–132.

11 Joachims T. Optimizing search engines using clickthrough data. Proc. of the eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM. 2002. 133–142.

12 Cao Z, Qin T, Liu TY, et al. Learning to rank: from pairwise approach to listwise approach. Proc. of the 24th International Conference on Machine Learning. ACM. 2007. 129–136.

13 Zhang M, Kuang D, Hua G, et al. Is learning to rank effective for Web search? SIGIR 2009 Workshop: Learning to Rank for Information Retrieval. 2009. 641–647.

14 Liu TY. Learning to rank for information retrieval. Foundations and Trends in Information Retrieval, 2009, 3(3): 225–331.

15 Eifrem E. Neo4J-the benefits of graph databases. 2009. http://www.oscon.com/oscon2009/public/schedule/detail/8364.

Counterfeit Money Crimes Information Analysis System Based on Heterogeneous Information Networks

CHEN Zhen-Hong1,2, LI Hui2, XU Shu-Ren2, YE Dan212
(University of Chinese Academy of Sciences, Beijing 100049, China) (Technology Center of Software Engineering, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)

The query condition of traditional criminal query is a text, and query results are ordered documents lists. However, the way is not conducive to present the relationship of the results and help the police find clues of cases. Therefore, this paper reconstructs counterfeit crime data in the form of information network based on heterogeneous information network information, and constructs a counterfeit money crimes information network. We apply name disambiguation to build relationships of the suspects in counterfeit crime information network, and study relevancy problem of counterfeit money crimes information network using learning to rank methods. In this paper we design and implement the counterfeit money crimes information analysis system. To resolve the query problem of the criminal data, we use the entity as a query term and the network graph as the query results.

heterogeneous information network; meta-path; crime data mining; name disambiguation; learning to rank

國家自然科學(xué)基金(61379044);國家科技支撐課題(2015BAH18F02)

2016-03-19;收到修改稿時間:2016-04-18

10.15888/j.cnki.csa.005457

主站蜘蛛池模板: 亚洲bt欧美bt精品| 久久无码免费束人妻| 美女裸体18禁网站| 日韩高清中文字幕| 亚洲中文字幕日产无码2021| 手机精品视频在线观看免费| 免费看a级毛片| 免费一级大毛片a一观看不卡| 日韩国产综合精选| 天天色天天操综合网| 在线一级毛片| 国产精品久久久久鬼色| 天天综合网色中文字幕| 国产精品亚洲精品爽爽| 国产精品美女在线| 国产人妖视频一区在线观看| 欧美成人一区午夜福利在线| 999精品色在线观看| 亚洲大学生视频在线播放| 亚洲 欧美 中文 AⅤ在线视频| 麻豆国产原创视频在线播放| 手机精品福利在线观看| 在线观看免费人成视频色快速| 精品久久香蕉国产线看观看gif| 日韩人妻精品一区| 国产日本欧美在线观看| 欧美精品在线观看视频| 国模在线视频一区二区三区| 精品国产成人三级在线观看| 国产精品极品美女自在线| 国产微拍精品| 久久精品亚洲热综合一区二区| 韩日免费小视频| 在线免费亚洲无码视频| 97精品伊人久久大香线蕉| 国产国语一级毛片| 午夜精品区| 中文字幕1区2区| 狼友av永久网站免费观看| 茄子视频毛片免费观看| 亚洲五月激情网| 日韩精品一区二区三区大桥未久| 精品乱码久久久久久久| 日韩视频免费| 在线日韩日本国产亚洲| 国产91色在线| 国产精品亚洲va在线观看| 毛片免费在线视频| 亚洲熟女偷拍| 国产成人在线无码免费视频| 99精品在线视频观看| 高清视频一区| 毛片卡一卡二| 亚洲欧美在线综合图区| 色婷婷丁香| 美女免费精品高清毛片在线视| 一级毛片免费高清视频| 亚洲国产午夜精华无码福利| 国产黑丝一区| 亚洲国产精品久久久久秋霞影院 | 日韩AV无码一区| 亚洲第一色网站| m男亚洲一区中文字幕| 在线观看亚洲人成网站| 亚洲精品免费网站| 国产真实乱子伦视频播放| 国产成人你懂的在线观看| 精品无码专区亚洲| 欧美一级片在线| 人人爽人人爽人人片| 亚洲人成网7777777国产| 欧洲一区二区三区无码| 亚洲天堂免费观看| 91无码人妻精品一区| 亚洲香蕉久久| 亚洲娇小与黑人巨大交| 亚洲日韩国产精品综合在线观看| 激情六月丁香婷婷| 久久天天躁狠狠躁夜夜2020一| 久久久受www免费人成| 99re视频在线| 69免费在线视频|