淺談多指標(biāo)關(guān)聯(lián)識別電信網(wǎng)絡(luò)詐騙團(tuán)伙的方法

2021-07-01 17:08:44高淵董宇翔張麾軍韓冰建北松滋

中國新通信 2021年6期

高淵董宇翔張麾軍韓冰建北松滋

【摘要】? ? 隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，互聯(lián)網(wǎng)詐騙呈現(xiàn)持續(xù)高發(fā)態(tài)勢，詐騙分子呈現(xiàn)出專業(yè)化、團(tuán)伙化的特點。為了更好識別詐騙團(tuán)伙，通過接入詐騙事件，提取涉詐資源之間的關(guān)聯(lián)關(guān)系，涉詐資源的行為特征，進(jìn)行關(guān)聯(lián)分析和相似度分析，得到涉詐資源關(guān)聯(lián)圖，再基于LPA算法進(jìn)行詐騙組織切分得到準(zhǔn)確結(jié)果。

【關(guān)鍵詞】? ? 互聯(lián)網(wǎng)? ? 網(wǎng)絡(luò)詐騙? ? 安全分析模型

一、背景

近年來，我國電信網(wǎng)絡(luò)詐騙總體形勢嚴(yán)峻，詐騙分子呈現(xiàn)出專業(yè)化、團(tuán)伙化的特點，警方抓獲的電信詐騙團(tuán)伙，都多達(dá)數(shù)百人，詐騙設(shè)備、詐騙卡號、詐騙賬號都是數(shù)以萬計[1]。隨著移動互聯(lián)網(wǎng)的普及，國家和公安機關(guān)對反詐的宣傳，單純依靠語音、短信或網(wǎng)絡(luò)詐騙的場景越來越少，詐騙分子往往是三者結(jié)合才能詐騙成功[2]。這些詐騙分子可能實施了多次詐騙才被抓獲，而且還有部分詐騙分子隱藏在其他地市或國外，詐騙設(shè)備也經(jīng)過了多次更新，僅憑一次詐騙案件難以評估詐騙團(tuán)伙整體規(guī)模。現(xiàn)有技術(shù)方案中基于單一場景的詐騙團(tuán)伙分析已經(jīng)越來越難以準(zhǔn)確地挖掘出全部詐騙團(tuán)伙了[3]。本方法提出一種基于語音話單、短信話單和上網(wǎng)日志進(jìn)行關(guān)聯(lián)分析發(fā)現(xiàn)詐騙團(tuán)伙的方案。通過接入詐騙事件，提取涉詐資源之間的關(guān)聯(lián)關(guān)系，涉詐資源的行為特征，進(jìn)行關(guān)聯(lián)分析和相似度分析，得到涉詐資源關(guān)聯(lián)圖，再基于LPA算法進(jìn)行詐騙組織切分得到準(zhǔn)確的詐騙組織。

二、方法

為了更好的識別詐騙團(tuán)伙，設(shè)計基于語音話單、短信話單和上網(wǎng)日志進(jìn)行關(guān)聯(lián)分析的方案。通過接入詐騙事件，提取涉詐資源之間的關(guān)聯(lián)關(guān)系，涉詐資源的行為特征，進(jìn)行關(guān)聯(lián)分析和相似度分析，得到涉詐資源關(guān)聯(lián)圖，再基于LPA算法進(jìn)行詐騙組織切分得到準(zhǔn)確的詐騙組織。

本方案的基本設(shè)計概念和處理流程如下圖所示：

2.1詐騙事件接入

分析系統(tǒng)需要接入多種詐騙事件：

基于GOIP、多卡寶等多種遠(yuǎn)程部署的語音詐騙事件;

基于短信網(wǎng)關(guān)群發(fā)詐騙短信的短信詐騙事件;

基于社交網(wǎng)絡(luò)的殺豬盤詐騙、刷單詐騙等網(wǎng)絡(luò)詐騙事件。

對語音詐騙事件需要獲取以下主要字段：卡號、對方卡號、IMEI、時間、地理位置。

對短信詐騙事件需要獲取以下主要字段：卡號、對方卡號、IMEI、時間、地理位置。

對網(wǎng)絡(luò)詐騙事件需要獲取以下主要字段：卡號、IMEI、社交賬號、時間、地理位置、流量大小。

2.2詐騙資源關(guān)聯(lián)分析

詐騙團(tuán)伙分析包括兩種方式：直接關(guān)聯(lián)分析和相似度分析。

2.2.1直接關(guān)聯(lián)分析

直接關(guān)聯(lián)分析，通過涉詐資源之間的直接聯(lián)系建立關(guān)聯(lián)圖，如下：

通過卡號共享進(jìn)行關(guān)聯(lián)：多個詐騙卡號都給一個受害者卡號撥打電話;詐騙卡號之間的通信。

通過設(shè)備進(jìn)行關(guān)聯(lián)：多個卡號共用了一個設(shè)備，即一IMEI多卡;一個卡號用在了多個設(shè)備上，及一卡多IMEI。

通過社交賬號進(jìn)行關(guān)聯(lián)：多個卡號共用了一個賬號，即一賬號多卡;多個賬號共用了一個卡號，即一卡多賬號;多個卡號共用了一個設(shè)備，即一設(shè)備多卡;多個設(shè)備共用了一個卡號，即一卡多設(shè)備。

通過上述關(guān)聯(lián)分析發(fā)現(xiàn)的涉詐資源節(jié)點和節(jié)點之間的連線用圖數(shù)據(jù)庫存儲。后面不斷接入新的詐騙事件，對詐騙事件進(jìn)行接入，獲取涉詐資源階段，按照上述流程添加到圖數(shù)據(jù)庫，可發(fā)現(xiàn)更多的攻擊組織。

2.2.2相似度分析

一個詐騙團(tuán)伙作案都有相似性，包括空間上、時間上、行為上。取以下行為作為判定涉詐資源之間的相似性：

地理位置：換算為經(jīng)度和維度。

活躍時間分布屬性：按時間段劃分24h為24個數(shù)值，若有話單則為1，否則為0，得到一個24元素的數(shù)組。分別計算語音活躍時間，上網(wǎng)活躍時間。

連續(xù)工作時長：計算一整天的工作時長。

上網(wǎng)流量：分為上行流量大小和下行流量大小。

上網(wǎng)類型分布：按照上網(wǎng)日志的域名類型劃分為9類域名：咨詢門戶類網(wǎng)站、企業(yè)品牌類網(wǎng)站、交易類網(wǎng)站、社區(qū)網(wǎng)站、辦公及政府機構(gòu)網(wǎng)站、互動游戲網(wǎng)站、有償資訊類網(wǎng)站、功能性網(wǎng)站、綜合類網(wǎng)站。若有則為1，否則為0，得到一個9個元素的數(shù)組。用余弦相似度計算涉詐資源之間的相似度，假設(shè)X1，X2為2個涉詐資源，X1X2相似度如下：

2.3 LPA詐騙組織切分

2.3.1團(tuán)伙標(biāo)簽初始化

LPA算法全稱label propagation algorithm，即標(biāo)簽傳遞算法，是一種圖聚類算法，如圖3，節(jié)點代表團(tuán)伙標(biāo)簽，邊上的黑色數(shù)字代表邊的權(quán)重。

各節(jié)點和邊初始化方式如下：節(jié)點初始化為1，團(tuán)伙標(biāo)簽初始化為自己，邊的初始化分為兩種計算方式：

直接關(guān)聯(lián)分析的邊關(guān)聯(lián)程度用反正切函數(shù)計算，假設(shè)發(fā)現(xiàn)涉詐資源A和B之間有x次直接關(guān)聯(lián)，則關(guān)聯(lián)度為arctan（x）。相似度分析的邊關(guān)聯(lián)程度計算直接用余弦相似度。

2.3.2團(tuán)伙標(biāo)簽傳遞

每個涉詐資源節(jié)點向鄰居節(jié)點發(fā)送消息，消息權(quán)重為涉詐資源節(jié)點權(quán)重*邊權(quán)重*分割系數(shù)（涉詐資源節(jié)點出度的倒數(shù)），每個涉詐資源節(jié)點對收到的權(quán)重累加，更新涉詐資源節(jié)點標(biāo)簽為累加權(quán)重最大的團(tuán)伙標(biāo)簽，若多個涉詐資源節(jié)點的團(tuán)伙標(biāo)簽的權(quán)重相等就隨機選一個。反復(fù)執(zhí)行發(fā)送消息和接收消息，直到標(biāo)簽穩(wěn)定算法終止，最后相同標(biāo)簽的節(jié)點即為一個團(tuán)伙。如下圖4分析得出團(tuán)伙1和團(tuán)伙2。

三、結(jié)束語

技術(shù)創(chuàng)新是一把雙刃劍，人工智能技術(shù)在不斷促進(jìn)防范治理技術(shù)發(fā)展和進(jìn)步的同時，也開始被詐騙分子所利用，帶來了一定程度的風(fēng)險隱患。特別是隨著基于人工智能的“深度偽造”、群聊群控等詐騙手法的傳播和應(yīng)用，這些風(fēng)險被進(jìn)一步集聚、放大，引起了社會各界的關(guān)注[4]。通過實踐，本方法可有效甄別詐騙團(tuán)伙，準(zhǔn)確率高，覆蓋范圍廣，幫助相關(guān)部門快速掌握詐騙團(tuán)伙動態(tài)，有效挽回群眾損失。下一步，我們將進(jìn)一步完善改進(jìn)方法，創(chuàng)新技術(shù)。

參? 考? 文? 獻(xiàn)

[1] 蒲黎明. 電信詐騙語義分類系統(tǒng)的設(shè)計與實現(xiàn)[D]. 北京：北京郵電大學(xué)，2019.

[2] 李易.反電信網(wǎng)絡(luò)詐騙全民指南[M]. 上海：上海社會科學(xué)院出版社，2016.

[3] 李航.統(tǒng)計學(xué)習(xí)方法[M]. 北京：清華大學(xué)出版社，2012.

[4] 電信網(wǎng)絡(luò)詐騙治理與人工智能應(yīng)用白皮書[M].北京：中國信息通信研究院安全研究所，2019.