張俊豪



摘 要:如何準(zhǔn)確評(píng)估嫌疑人的影響力是偵破團(tuán)伙犯罪的關(guān)鍵,為此,在PageRank算法的基礎(chǔ)上,結(jié)合團(tuán)伙犯罪的網(wǎng)絡(luò)結(jié)構(gòu)特性,提出團(tuán)伙犯罪中嫌疑人犯罪影響力評(píng)估模型.該模型首先結(jié)合已掌握的作案信息將團(tuán)伙犯罪網(wǎng)絡(luò)轉(zhuǎn)化為有向加權(quán)網(wǎng)絡(luò),再根據(jù)中間中心度、接近中心度兩大網(wǎng)絡(luò)特性確定罪犯影響力轉(zhuǎn)移矩陣,最后該模型以實(shí)際的案例為實(shí)驗(yàn)數(shù)據(jù)得出具體的嫌疑人犯罪影響力,并以兩種成熟的模型為對(duì)比模型,實(shí)現(xiàn)結(jié)果顯示該模型的評(píng)估結(jié)果與實(shí)際案件結(jié)果擬合度較高,且準(zhǔn)確率也高于對(duì)比模型,驗(yàn)證了該模型具有較高的準(zhǔn)確性和可行性.
關(guān)鍵詞:PageRank;網(wǎng)絡(luò)結(jié)構(gòu)特性;團(tuán)伙犯罪;嫌疑人影響力
中圖分類號(hào):TP393.08文獻(xiàn)標(biāo)志碼:A文章編號(hào):1000-2367(2024)02-0081-08
近年來(lái),隨著通信技術(shù)的發(fā)展,團(tuán)伙犯罪的作案手段也隨之發(fā)生了巨大改變,呈現(xiàn)出結(jié)構(gòu)性、隱秘性、動(dòng)態(tài)性等特點(diǎn),這給公安機(jī)關(guān)的偵破工作帶來(lái)了一定的挑戰(zhàn),特別是近些年頻發(fā)的涉黑團(tuán)伙犯罪、經(jīng)濟(jì)團(tuán)伙犯罪以及網(wǎng)絡(luò)團(tuán)伙犯罪.研究表明,目前的犯罪團(tuán)伙呈現(xiàn)出一定的社會(huì)網(wǎng)絡(luò)特性,所以很多學(xué)者將社會(huì)網(wǎng)絡(luò)分析方法應(yīng)用于團(tuán)伙犯罪案件的分析中,主要涉及兩大領(lǐng)域.第一,團(tuán)伙犯罪網(wǎng)絡(luò)組織結(jié)構(gòu)的研究,比如趙迪等[1]通過(guò)研究犯罪嫌疑人的地域特征構(gòu)建共同犯罪網(wǎng)絡(luò)模型,并對(duì)共同犯罪現(xiàn)象及其原因進(jìn)行探究;ZHANG等[2]充分研究了人口拐賣案件中犯罪成員的人際關(guān)系網(wǎng)絡(luò);同時(shí),MCILLWAIN[3]的研究也表明犯罪人之間的人際關(guān)系是團(tuán)伙犯罪的一個(gè)決定性因素;也有研究成果表明目前的地域性犯罪是團(tuán)伙犯罪的一個(gè)重要性傾向,并以此分析地域性犯罪的性質(zhì)和特征[4-6];還有一些通過(guò)分析網(wǎng)絡(luò)結(jié)構(gòu)特征,比如網(wǎng)絡(luò)密度、聚集系數(shù)、中心性分析團(tuán)伙犯罪網(wǎng)絡(luò)[7-10].第二,團(tuán)伙犯罪網(wǎng)絡(luò)中的人員以及人員關(guān)系研究,比如孫萌[11]通過(guò)PageRank算法對(duì)犯罪人的影響力以及用戶關(guān)系強(qiáng)度進(jìn)行研究;FREEMAN[12]對(duì)犯罪網(wǎng)絡(luò)中的每一個(gè)成員進(jìn)行了研究,得到每一成員對(duì)整個(gè)網(wǎng)絡(luò)的影響程度;李瑞東[13]通過(guò)數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)了犯罪成員的組織關(guān)系模型.
在團(tuán)伙犯罪偵查中,能夠有效識(shí)別關(guān)鍵人物,進(jìn)而掌握犯罪組織網(wǎng)絡(luò)結(jié)構(gòu)是其中最為重要的一環(huán).目前,關(guān)于團(tuán)伙犯罪網(wǎng)絡(luò)結(jié)構(gòu)的研究雖然層出不窮,但是真正能夠落地實(shí)施的卻不多,究其原因主要有二:一是實(shí)驗(yàn)數(shù)據(jù)有限,算法的有效性難以保證;二是研究方法過(guò)于局限,算法的可移植性較差.因此,本文在大數(shù)據(jù)背景下,提出團(tuán)伙犯罪中基于PageRank算法以及網(wǎng)絡(luò)結(jié)構(gòu)特性的嫌疑人犯罪影響力評(píng)估模型(CIS-PNSC,a model for assessing the criminal influence of suspects in gang crimes based on PageRank algorithm and network structure characteristics).該模型主要用于識(shí)別團(tuán)伙犯罪中的關(guān)鍵人物,并對(duì)鎖定的犯罪嫌疑人進(jìn)行重要性排序.該嫌疑人犯罪影響力評(píng)估模型首先將團(tuán)伙犯罪網(wǎng)絡(luò)轉(zhuǎn)化為有向加權(quán)網(wǎng)絡(luò),其次根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)特性確定犯罪影響力轉(zhuǎn)移矩陣,最后根據(jù)PageRank算法計(jì)算出團(tuán)伙犯罪中嫌疑人的犯罪影響力.
1 研究方法
1.1 PageRank算法
PageRank算法將萬(wàn)維網(wǎng)看成一幅看似雜亂而有章可循的有向圖,網(wǎng)頁(yè)對(duì)應(yīng)節(jié)點(diǎn),超鏈接對(duì)應(yīng)邊,然后利用隨機(jī)過(guò)程的相關(guān)知識(shí)計(jì)算得出網(wǎng)頁(yè)的權(quán)值[14].如圖1是由5個(gè)網(wǎng)頁(yè)構(gòu)成的一幅網(wǎng)絡(luò)有向圖.
PageRank算法的核心思想可總結(jié)為如下三點(diǎn).
(1)鏈接即肯定:在萬(wàn)維網(wǎng)中,當(dāng)一個(gè)網(wǎng)頁(yè)A含有很多連入鏈接時(shí),表明網(wǎng)頁(yè)A是被其他網(wǎng)頁(yè)肯定的,在計(jì)算網(wǎng)頁(yè)權(quán)值時(shí),其他網(wǎng)頁(yè)會(huì)將自己的權(quán)威值分配給自己所指向的網(wǎng)頁(yè)A.
(2)鏈接即貢獻(xiàn):在萬(wàn)維網(wǎng)中,任何一個(gè)網(wǎng)頁(yè)會(huì)平均將權(quán)威值分配給自己所指向的網(wǎng)頁(yè),同理,任何一個(gè)網(wǎng)頁(yè)的權(quán)威值由所有指向自身網(wǎng)頁(yè)的權(quán)威值決定.
(3)權(quán)威確定權(quán)威:若萬(wàn)維網(wǎng)中某一權(quán)威網(wǎng)頁(yè)A指向另一網(wǎng)頁(yè)B時(shí),網(wǎng)頁(yè)B也將變成權(quán)威網(wǎng)頁(yè),因?yàn)樵谟?jì)算網(wǎng)頁(yè)B的權(quán)威值時(shí),權(quán)威網(wǎng)頁(yè)A對(duì)網(wǎng)頁(yè)B的貢獻(xiàn)值會(huì)遠(yuǎn)遠(yuǎn)大于其他指向網(wǎng)頁(yè)B的非權(quán)威網(wǎng)頁(yè)的貢獻(xiàn)值.
PageRank算法的核心公式如式(1)所示:
P=(1-d)eeT/n+dUTP, ???(1)
式(1)中,e為單位矩陣,P代表網(wǎng)頁(yè)的權(quán)威向量值,d代表阻尼系數(shù),U是根據(jù)網(wǎng)頁(yè)的鏈接關(guān)系得到的轉(zhuǎn)移矩陣.
在本文中將以PageRank算法為基礎(chǔ),衡量團(tuán)伙犯罪網(wǎng)絡(luò)中的嫌疑人犯罪影響力.將犯罪組織網(wǎng)絡(luò)中的某個(gè)犯罪嫌疑人i的影響力設(shè)為Pi,那么所有犯罪嫌疑人的用戶影響力則為{Pi,Pj,…,Pn},對(duì)應(yīng)的犯罪影響力可建模成為一個(gè)向量P=[Pi,Pj,…,Pn]T,故PageRank算法的核心公式可表示為:
在式(2)中,對(duì)于每一個(gè)k∈[i,n],都必須滿足:
在本模型中,ukk的值都設(shè)定為0.
1.2 點(diǎn)度中心度
現(xiàn)實(shí)世界中,為了最大程度地保護(hù)自己,很多犯罪嫌疑人都是實(shí)行單向聯(lián)系,所以團(tuán)伙犯罪組織網(wǎng)絡(luò)往往都是一個(gè)有向網(wǎng)絡(luò).在一個(gè)犯罪網(wǎng)絡(luò)中,如果一個(gè)犯罪嫌疑人與其他犯罪嫌疑人聯(lián)系較為緊密,或者說(shuō)該犯罪嫌疑人能夠同時(shí)指向多個(gè)其他組織成員,那么該犯罪嫌疑人就會(huì)處于權(quán)力的中心,在此可用點(diǎn)度中心度進(jìn)行衡量,如下式所示:
Ci=di, ???(4)
在式(4)中Ci表示的是犯罪嫌疑人i的點(diǎn)度中心度,di表示所有指向犯罪嫌疑人i的鏈接.在構(gòu)造實(shí)際的犯罪組織網(wǎng)絡(luò)時(shí),要以信息的逆流向?yàn)闇?zhǔn)判別犯罪嫌疑人的關(guān)系指向,比如犯罪嫌疑人B是通過(guò)犯罪嫌疑人A獲取作案信息的,那么在關(guān)系網(wǎng)絡(luò)中,B應(yīng)是指向A的,即A應(yīng)將自己的犯罪影響力貢獻(xiàn)于B.
1.3 中間中心度
中間中心度衡量的是犯罪嫌疑人的橋梁作用.在有向的犯罪組織網(wǎng)絡(luò)中,如果某犯罪嫌疑人處于其他兩個(gè)人的最短聯(lián)系路徑上,那么該犯罪嫌疑人對(duì)其他兩人來(lái)說(shuō)就比較重要.如果該犯罪嫌疑人處于其他任意兩個(gè)犯罪嫌疑人的最短路徑上的頻率越高,那么該犯罪嫌疑人的“橋梁作用”就越強(qiáng),相對(duì)來(lái)說(shuō),對(duì)組織的影響力就越大.在此,以式(5)表示某犯罪嫌疑人的中間中心度.
式(5)中,Bk表示犯罪嫌疑人k的中間中心度,S(i→k→j)表示犯罪嫌疑人i經(jīng)過(guò)k與其他任意犯罪嫌疑人的最短路徑數(shù)目.
1.4 接近中心度
接近中心度衡量的是犯罪嫌疑人影響力的波及程度,在有向犯罪組織網(wǎng)絡(luò)中,如果某犯罪嫌疑人能夠以較短的距離和其他許多人進(jìn)行聯(lián)系,那么該犯罪嫌疑人也是比較重要的,接近中心度的計(jì)算如式(6)所示:
式(6)中,F(xiàn)k表示犯罪嫌疑人k到該網(wǎng)絡(luò)中所有犯罪嫌疑人的最短路徑長(zhǎng)度之和,D(k→j)是指犯罪嫌疑人k到犯罪嫌疑人j的最短路徑長(zhǎng)度.
本模型使用狄克斯特拉算法(Dijkstra)求取最短路徑,該算法是由荷蘭計(jì)算機(jī)科學(xué)家狄克斯特拉提出[15].采用的是貪心算法的策略,在有向加權(quán)圖中,能夠求取起始點(diǎn)到其他任意節(jié)點(diǎn)的最短距離.
2 基于PageRank算法以及網(wǎng)絡(luò)結(jié)構(gòu)特性的犯罪嫌疑人影響力評(píng)估模型
在本文中,CIS-PNSC模型主要是對(duì)PageRank算法中轉(zhuǎn)移矩陣U的改進(jìn),因?yàn)樵撧D(zhuǎn)移矩陣U是決定犯罪嫌疑人影響力的根本要素.本模型主要通過(guò)衡量團(tuán)伙犯罪網(wǎng)絡(luò)中的三大網(wǎng)絡(luò)特性進(jìn)行犯罪影響力的分配,即根據(jù)三大網(wǎng)絡(luò)特性確定轉(zhuǎn)移矩陣U.另外PageRank算法容易發(fā)生主題漂移現(xiàn)象,所以在本模型中,加入了犯罪嫌疑人的主題相關(guān)性,以此避免此現(xiàn)象.
2.1 有向加權(quán)網(wǎng)絡(luò)的確定
在實(shí)際的犯罪組織網(wǎng)絡(luò)中,不同嫌疑人之間的關(guān)系不可能是完全相同的,因此可以根據(jù)一些重要因素(比如個(gè)人背景、通信內(nèi)容、聯(lián)系方式等)計(jì)算犯罪嫌疑人之間的相似度,然后根據(jù)相似度對(duì)有向的犯罪組織網(wǎng)絡(luò)進(jìn)行邊加權(quán),將其變?yōu)橐粋€(gè)有向加權(quán)網(wǎng)絡(luò).不同的犯罪類型有著不同的測(cè)量維度,比如地域性犯罪,籍貫是一個(gè)重要屬性;黑社會(huì)組織犯罪,從業(yè)種類是一個(gè)重要屬性;電信詐騙犯罪,聯(lián)系頻率可能是一個(gè)重要屬性等等.在本模型中,用式(7)進(jìn)行衡量犯罪嫌疑人相似度的計(jì)算.
式(7)中,采用余弦相似度S(i,j)評(píng)估犯罪嫌疑人之間的相似度.Ai表示的是犯罪嫌疑人i的個(gè)人信息向量(不同的案件對(duì)應(yīng)著不同的測(cè)量屬性).因?yàn)樵谟邢蚣訖?quán)網(wǎng)絡(luò)中,用戶之間的距離越近表示關(guān)系越親密,所以需要對(duì)用戶的相似度進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化為用戶的關(guān)系強(qiáng)度.在實(shí)際的加權(quán)過(guò)程中,采用式(8)對(duì)用戶關(guān)系的權(quán)值進(jìn)行轉(zhuǎn)化計(jì)算.
S′=e-S(i,j), ???(8)
式(8)中,S′表示犯罪嫌疑人之間的關(guān)系強(qiáng)度,同時(shí)S′是有向的,比如在黑社會(huì)犯罪網(wǎng)絡(luò)中,犯罪嫌疑人B獲取重要信息的主要渠道是通過(guò)犯罪嫌疑人A,那么A對(duì)B的關(guān)系就越近,相似度就越高,那么S′的值就要越小,反之B對(duì)A則不然.有向加權(quán)網(wǎng)絡(luò)的確定也有效地避免了PageRank算法的主題漂移現(xiàn)象.
2.2 轉(zhuǎn)移矩陣的確定
點(diǎn)度中心度、中間中心度以及接近中心度是本模型確定轉(zhuǎn)移矩陣的主要因素,設(shè)圖2為某個(gè)團(tuán)伙犯罪組織網(wǎng)絡(luò)中的一部分,根據(jù)圖2可說(shuō)明犯罪嫌疑人之間的影響力分配原則.
原始的PageRank算法在考慮用戶影響力分配時(shí),主要的參考依據(jù)是點(diǎn)度中心度.在本模型中,主要根據(jù)中間中心度、接近中心度兩大特性,再結(jié)合點(diǎn)度中心度改變ukt的原始值,挖掘出團(tuán)伙犯罪組織網(wǎng)絡(luò)中真正的幕后大佬.
在圖2中,犯罪嫌疑人D會(huì)將自己的犯罪影響力分給C、B和F,那么犯罪嫌疑人D的分配原則應(yīng)是根據(jù)C、B和F在犯罪網(wǎng)絡(luò)中的重要性進(jìn)行分配.所以在本模型中定義相對(duì)網(wǎng)絡(luò)中心度Tki表示犯罪嫌疑人k相對(duì)i的網(wǎng)絡(luò)重要程度.在此,利用加權(quán)融合的方法確定犯罪嫌疑人k對(duì)i的相對(duì)網(wǎng)絡(luò)中心度,Tki的計(jì)算方法如式(9)所示:
Tki=αB′ki+βF′ki, ???(9)
其中,B′ki表示的是犯罪嫌疑人k對(duì)犯罪嫌疑人i的相對(duì)中間中心度,計(jì)算方法如式(10)所示:
在式(9)中,F(xiàn)′ki表示的是犯罪嫌疑人k對(duì)犯罪嫌疑人i的相對(duì)接近中心度,計(jì)算方法如式(11)所示:
在式(10)、(11)中M(i)是指犯罪嫌疑人i所指向的嫌疑人集合.在圖2中,假設(shè)犯罪嫌疑人D指向了犯罪嫌疑人B、C和F,即M(D)是{B,C,F(xiàn)}.
Tki中,α和β的確定可根據(jù)層次分析法確定[16].此時(shí),假設(shè)犯罪嫌疑人B在本團(tuán)伙犯罪組織網(wǎng)絡(luò)中的中間中心度為6,接近中心度為15;犯罪嫌疑人C在本團(tuán)伙犯罪組織網(wǎng)絡(luò)中的中間中心度為8,接近中心度為12;犯罪嫌疑人F在本團(tuán)伙犯罪組織網(wǎng)絡(luò)中的中間中心度為3,接近中心度為18.那么犯罪嫌疑人B相對(duì)犯罪嫌疑人D的相對(duì)中間中心度為B′BD=6/(6+8+3),犯罪嫌疑人B相對(duì)犯罪嫌疑人D的相對(duì)接近中心度為F′BD=15/(15+12+18),則犯罪嫌疑人B相對(duì)犯罪嫌疑人D的相對(duì)網(wǎng)絡(luò)中心度為TBD=αB′BD+βF′BD.
此時(shí)uij的計(jì)算如式(12)所示:
2.3 犯罪影響力的計(jì)算
在圖2中,假設(shè)B相對(duì)犯罪嫌疑人D的相對(duì)網(wǎng)絡(luò)中心度為TBD=0.4,犯罪嫌疑人C相對(duì)犯罪嫌疑人D的相對(duì)網(wǎng)絡(luò)中心度為TCD=0.25,犯罪嫌疑人F相對(duì)犯罪嫌疑人D的相對(duì)網(wǎng)絡(luò)中心度為TFD=0.55,那么犯罪嫌疑人D則將自己的影響力的0.40/(0.40+0.25+0.55)貢獻(xiàn)給犯罪嫌疑人B,同理,影響力的21%貢獻(xiàn)給犯罪嫌疑人C,影響力的46%貢獻(xiàn)給犯罪嫌疑人F.此時(shí)uDB=0.33,uDC=0.21,uDF=0.46,它們的和為1.
2.4 CIS-PNSC模型構(gòu)建的主要步驟
根據(jù)以上描述,CIS-PNSC模型構(gòu)建的主要步驟如下:
(1)首先根據(jù)已獲得的犯罪組織信息,結(jié)合犯罪團(tuán)伙特點(diǎn),形成團(tuán)伙犯罪組織的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);
(2)根據(jù)已掌握的所有犯罪嫌疑人的作案信息,通過(guò)犯罪嫌疑人之間關(guān)系強(qiáng)度S′的計(jì)算方法確定該團(tuán)伙犯罪組織網(wǎng)絡(luò)的用戶關(guān)系權(quán)值;
(3)根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)特性,即點(diǎn)度中心度、中間中心度以及接近中心度確定轉(zhuǎn)移矩陣;
(4)根據(jù)PageRank算法計(jì)算得到犯罪團(tuán)伙中嫌疑人的犯罪影響力.
3 實(shí)驗(yàn)結(jié)果及分析
3.1 數(shù)據(jù)來(lái)源
本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于2019年某市的一起特大涉黑案件,該犯罪團(tuán)伙共有253名涉案人員,其中有43名主要涉案人員,共計(jì)涉案39件.根據(jù)用戶關(guān)系權(quán)值可以得出該團(tuán)伙犯罪組織網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),具體包含253個(gè)節(jié)點(diǎn),30 456條有向邊.在取參數(shù)時(shí),考慮到主要涉案人員在犯罪團(tuán)伙中的重要程度和影響力作用,認(rèn)為參數(shù)α大于β,即該嫌疑人在犯罪網(wǎng)絡(luò)中的相對(duì)中間中心度的權(quán)重大于相對(duì)接近中心度的權(quán)重.根據(jù)作案信息以及層次分析法,得出本模型的主要參數(shù),如表1所示.
理論上,d的取值在0至1之間,若d的取值趨近于1,那么迭代的次數(shù)會(huì)成倍增長(zhǎng),效率極其低下,而人為控制的比重也將會(huì)下降.本文經(jīng)過(guò)計(jì)算,d的取值為0.850時(shí),既增加了人為的控制比重,也將迭代次數(shù)控制在140次左右,符合PageRank算法的建議.
3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
3.2.1 Precision@N
在信息檢索或者評(píng)估分類中,倘若不考慮結(jié)果的排名順序,召回率和準(zhǔn)確率是最常用的評(píng)價(jià)指標(biāo),而在有序的排名結(jié)果中,用戶關(guān)注的往往是那些靠前的排名結(jié)果,比如在團(tuán)伙犯罪中,公安機(jī)關(guān)關(guān)注更多的往往是那些幕后黑手——實(shí)際的操盤者,此時(shí)依靠召回率與準(zhǔn)確率評(píng)價(jià)其排名結(jié)果無(wú)法滿足實(shí)際需要.這時(shí) Precision@N(P@N)就是一個(gè)很好的補(bǔ)充評(píng)價(jià)指標(biāo),其關(guān)注的是排名結(jié)果較為靠前的準(zhǔn)確率.P@N的計(jì)算如式(13)所示:
式(13)中,AN∩BN表示模型A(B)對(duì)犯罪嫌疑人影響力進(jìn)行大小排名得到的前N名用戶的交集數(shù)量,由于本文涉及的嫌疑人較多,N的取值分別為10,20,30,40,50,60,70,80.
3.2.2 斯皮爾曼等級(jí)系數(shù)
斯皮爾曼等級(jí)系數(shù)是衡量不同算法相關(guān)性的一個(gè)重要參數(shù),斯皮爾曼等級(jí)系數(shù)常用作解決分析兩個(gè)變量之間相關(guān)性的問(wèn)題,這是由英國(guó)統(tǒng)計(jì)學(xué)家斯皮爾曼根據(jù)通過(guò)積差相關(guān)的基礎(chǔ)知識(shí)計(jì)算得出的[17].在本文中,斯皮爾曼等級(jí)系數(shù)主要用來(lái)衡量不同模型得出的嫌疑人犯罪影響力結(jié)果的相關(guān)性.斯皮爾曼等級(jí)系數(shù)的計(jì)算方法如式(14)所示:
在式(14)中,ρ代表最終得到的變量關(guān)系值,即斯皮爾曼等級(jí)系數(shù),在本文中,當(dāng)ρ>0時(shí),表示兩個(gè)模型所得的排名結(jié)果正相關(guān),當(dāng)ρ<0時(shí),表示兩個(gè)模型所得的排名結(jié)果負(fù)相關(guān),當(dāng)|ρ|=1時(shí),表示兩個(gè)模型所得的排名結(jié)果完全正相關(guān),或者完全負(fù)相關(guān).ρ值越大,表示兩個(gè)模型所得的排名結(jié)果相關(guān)性越強(qiáng).xi和yi分別代表不同模型求取得N個(gè)犯罪嫌疑人的影響力值.
通過(guò)斯皮爾曼等級(jí)系數(shù)可以評(píng)估本文模型與對(duì)比模型評(píng)估結(jié)果的相關(guān)性.斯皮爾曼等級(jí)系數(shù)與P@N評(píng)價(jià)指標(biāo)的主要區(qū)別在于,前者從全局的角度出發(fā)評(píng)估實(shí)驗(yàn)結(jié)果,分析模型之間的相關(guān)性;而后者是從局部的角度出發(fā)分析模型的準(zhǔn)確率.
3.3 結(jié)果分析
本文基于Hadoop對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析處理,Hadoop是由Apache基金會(huì)開發(fā)的開源、可靠穩(wěn)定、可擴(kuò)展、低成本的分布式系統(tǒng)基本架構(gòu),以文獻(xiàn)[18-19]中提到的模型為對(duì)比模型進(jìn)行實(shí)驗(yàn)的對(duì)比分析.3種模型計(jì)算所得的嫌疑人犯罪影響力的實(shí)驗(yàn)結(jié)果如表2所示.
根據(jù)實(shí)驗(yàn)結(jié)果,3種模型的相關(guān)性如表3所示.
從表3中可以看出,3個(gè)模型的相關(guān)性都呈現(xiàn)正相關(guān)特性,而且ρ均大于0.4,說(shuō)明本模型與已有的較為成熟的模型具有一定的吻合度,所以也具有一定的可行性.其中CIS-PNSC與文獻(xiàn)[18]的相關(guān)性最高,這是因?yàn)镃IS-PNSC模型與文獻(xiàn)[18]都是在PageRank的基礎(chǔ)上進(jìn)行改進(jìn)的.
根據(jù)實(shí)際的辦案結(jié)果,可得到真實(shí)的嫌疑人犯罪影響力排名,本文以實(shí)際辦案得到排名為基線模型,以本文模型以及文獻(xiàn)[18-19]為對(duì)比模型.對(duì)比模型所得結(jié)果在P@N指標(biāo)下的表現(xiàn)如表4所示.
根據(jù)表4可知,本模型在前80名犯罪影響力的排名準(zhǔn)確率能夠維持在70%以上,說(shuō)明了本模型的準(zhǔn)確性是達(dá)標(biāo)的,對(duì)比文獻(xiàn)[18-19],本模型的準(zhǔn)確率是較高的,是優(yōu)于對(duì)比模型的.隨著N值的增大,準(zhǔn)確率在下降,但仍能維持在70%以上.根據(jù)計(jì)算結(jié)果可知,當(dāng)N為120時(shí),本模型的P@N值最小,為65%,能夠達(dá)到基本要求;當(dāng)N的值大于120時(shí),P@N值開始逐漸恢復(fù)增加.特別需要說(shuō)明的是,本模型預(yù)測(cè)得到的前三名犯罪嫌疑人和實(shí)際辦案結(jié)果是相吻合的,分別為16號(hào)犯罪嫌疑人(實(shí)際為該市城中村村主任)、84號(hào)犯罪嫌疑人(實(shí)際為該區(qū)刑偵大隊(duì)大隊(duì)長(zhǎng))和187號(hào)犯罪嫌疑人(實(shí)際為該市某房地產(chǎn)公司副董事長(zhǎng)),對(duì)比文獻(xiàn)[18-19]的預(yù)測(cè)結(jié)果,前3名與實(shí)際結(jié)果均不相符.
為顯示本模型對(duì)犯罪影響力評(píng)估的準(zhǔn)確性,本文根據(jù)實(shí)際作案信息以及犯罪嫌疑人的實(shí)際重要性排名,對(duì)實(shí)際犯罪影響力進(jìn)行和本模型同等數(shù)量級(jí)的轉(zhuǎn)換,以此對(duì)比本文模型和文獻(xiàn)[18-19]中的模型.由于犯罪嫌疑人較多,則在253名犯罪嫌疑人中采用分段隨機(jī)抽樣方法選取25名犯罪嫌疑人的影響力進(jìn)行可視化,如圖3所示.
根據(jù)圖3可知,本文提出的模型能夠較好擬合實(shí)際犯罪影響力排名結(jié)果,文獻(xiàn)[18-19]擬合度較差.
根據(jù)P@N和斯皮爾曼等級(jí)系數(shù)兩個(gè)指標(biāo)的評(píng)價(jià)結(jié)果驗(yàn)證了CIS-PNSC模型的可行性和準(zhǔn)確率.CIS-PNSC模型在面對(duì)大樣本數(shù)據(jù)集時(shí),計(jì)算結(jié)果的準(zhǔn)確率可觀,且模型運(yùn)行需要的時(shí)間并不長(zhǎng);相較于文獻(xiàn)[18-19]提出的兩種成熟模型,CIS-PNSC模型得到的犯罪嫌疑人影響力和實(shí)際結(jié)果擬合度較高,具有較好的魯棒性,可以基本滿足實(shí)際公安工作的需要.
4 結(jié) 論
本文在PageRank算法的基礎(chǔ)上,結(jié)合團(tuán)伙犯罪組織的網(wǎng)絡(luò)結(jié)構(gòu)特性,提出了團(tuán)伙犯罪的嫌疑人犯罪影響力評(píng)估模型.在該模型中,首先通過(guò)犯罪分子之間的關(guān)系確定了犯罪分子之間的關(guān)系強(qiáng)度,符合現(xiàn)實(shí)邏輯,同時(shí)避免了PageRank的主題漂移現(xiàn)象;其次本模型能夠結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)特性,計(jì)算得到犯罪嫌疑人的影響力分配因子;最后本模型以某一黑社會(huì)犯罪團(tuán)伙為實(shí)驗(yàn)對(duì)象,同時(shí)結(jié)合實(shí)際的結(jié)案情況以及兩種對(duì)比模型,驗(yàn)證了本模型具有較高的準(zhǔn)確率和可行性.在后續(xù)的研究過(guò)程中,仍需對(duì)部分參數(shù)進(jìn)行優(yōu)化,盡可能地挖掘犯罪網(wǎng)絡(luò)的其他特性,減少對(duì)作案信息的依賴,以期能夠做到提前研判.
參 考 文 獻(xiàn)
[1]趙迪,陳鵬,江歡,等.基于犯罪人地域特征的共同犯罪網(wǎng)絡(luò)及影響因素研究[J].地理與地理信息科學(xué),2022,38(5):57-64.
ZHAO D,CHEN P,JIANG H,et al.Co-offending network and influencing factors based on offenders' regional characteristics[J].Geography and Geo-Information Science,2022,38(5):57-64.
[2]ZHANG S X,CHIN K L,MILLER J.Women's participation in Chinese transnational human smuggling:a gendered market perspective[J].Criminology,2007,45(3):699-733.
[3]MCILLWAIN J S.Organized crime:a social network approach[J].Crime,Law and Social Change,1999,32(4):301-323.
[4]MATTHEWS J L,MATLOCK T.Understanding the link between spatial distance and social distance[J].Social Psychology,2011,42(3):185-192.
[5]李國(guó)正,韓文碩,艾小青,等.社會(huì)關(guān)系網(wǎng)絡(luò)重構(gòu)與流動(dòng)人口創(chuàng)業(yè)活動(dòng):作用機(jī)理與政策含義[J].人口與經(jīng)濟(jì),2021(3):1-17.
LI G Z,HAN W S,AI X Q,et al.Social networks restructuring and entrepreneurial activities of floating population:mechanism and policy implications[J].Population & Economics,2021(3):1-17.
[6]黃忠良,翁文國(guó).典型拐賣婦女犯罪團(tuán)伙網(wǎng)絡(luò)特征分析[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,60(4):328-333.
HUANG Z L,WENG W G.Social network analysis of typical women trafficking networks[J].Journal of Tsinghua University(Science and Technology),2020,60(4):328-333.
[7]SCHAEFER D R.Youth co-offending networks:an investigation of social and spatial effects[J].Social Networks,2012,34(1):141-149.
[8]王子杰.黑社會(huì)性質(zhì)組織復(fù)雜犯罪網(wǎng)絡(luò)分析[J].鐵道警察學(xué)院學(xué)報(bào),2021,31(3):50-55.
WANG Z J.Analysis of complex criminal networks of underworld organizations[J].Journal of Railway Police College,2021,31(3):50-55.
[9]MALM A.Networks of collaborating criminals:assessing the structural vulnerability of drug markets[J].Journal of Research in Crime and Delinquency,2011,48(2):271-297.
[10]馬方.犯罪網(wǎng)絡(luò)分析:社會(huì)網(wǎng)絡(luò)分析在有組織犯罪研究中的應(yīng)用[J].西南政法大學(xué)學(xué)報(bào),2012,14(2):34-43.
MA F.Criminal network analysis:social network analysis in the study of organized crime[J].Journal of Southwest University of Political Science and Law,2012,14(2):34-43.
[11]孫萌.面向社交網(wǎng)站的數(shù)據(jù)挖掘應(yīng)用研究:用戶關(guān)系分析[D].南京:南京郵電大學(xué),2014.
[12]FREEMAN L C.Centrality in social networks conceptual clarification[J].Social Networks,1978,1(3):215-239.
[13]李瑞東.基于數(shù)據(jù)挖掘技術(shù)的犯罪預(yù)警模型設(shè)計(jì)與實(shí)現(xiàn)[D].沈陽(yáng):沈陽(yáng)建筑大學(xué),2014.
[14]鐘寒,張鴻洲,尹德春,等.基于PageRank算法的團(tuán)伙犯罪中嫌疑人排名[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,37(3):79-86.
ZHONG H,ZHANG H Z,YIN D C,et al.Ranking of suspects in Gang crime based on PageRank[J].Journal of Guangxi Normal University(Natural Science Edition),2019,37(3):79-86.
[15]祝國(guó)明.基于Dijkstra的多源點(diǎn)最短路徑求解算法的設(shè)計(jì)與分析[J].電腦知識(shí)與技術(shù),2021,17(16):177-178.
ZHU G M.Design and analysis of the shortest path algorithm for multi-source points based on Dijkstra[J].Computer Knowledge and Technology,2021,17(16):177-178.
[16]杜棟,龐慶華,吳炎.現(xiàn)代綜合評(píng)價(jià)方法與案例精選[M].2版.北京:清華大學(xué)出版社,2008.
[17]張文耀.用斯皮爾曼系數(shù)衡量網(wǎng)絡(luò)的度相關(guān)[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2016.
[18]董偉,陶金虎.融合PageRank與評(píng)論情感傾向的在線健康社區(qū)用戶影響力研究[J].圖書情報(bào)工作,2021,65(11):14-23.
DONG W,TAO J H.Research on the user's influence in online health community based on page rank and emotional tendency[J].Library and Information Service,2021,65(11):14-23.
[19]JU C H,GU Q Y,F(xiàn)ANG Y,et al.Research on user influence model integrating personality traits under strong connection[J].Sustainability,2020,12(6):2217.
Analysis of the influence of suspects in gang crimes based on PageRank
Zhang Junhao
(Department of Image and Network Investigation, Zhengzhou Police College, Zhengzhou 450003, China)
Abstract: How to accurately evaluate the influence of suspects is the key to detecting gang crime. Therefore, based on the PageRank algorithm and the network structure characteristics of gang crime, a model for evaluating the influence of suspects in gang crime is proposed. The model first converts the gang criminal network into a directed-weighted network based on the known crime information, and then determines the criminal influence transfer matrix according to the two network characteristics of middle centrality and proximity centrality. Finally, the model uses actual cases as experimental data to obtain specific suspects'criminal influence, and uses two mature models as comparison models, The implementation results show that the evaluation results of the model have a high degree of fitting with the actual case results, and the accuracy is also higher than the comparison models, verifying the high accuracy and feasibility of the model.
Keywords: PageRank; network structure characteristics; gang crime; the influence of suspects
[責(zé)任編校 陳留院 趙曉華]