高淵 董宇翔 張麾軍 韓冰建 北松滋



【摘要】? ? 隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)詐騙呈現(xiàn)持續(xù)高發(fā)態(tài)勢,詐騙分子呈現(xiàn)出專業(yè)化、團(tuán)伙化的特點。為了更好識別詐騙團(tuán)伙,通過接入詐騙事件,提取涉詐資源之間的關(guān)聯(lián)關(guān)系,涉詐資源的行為特征,進(jìn)行關(guān)聯(lián)分析和相似度分析,得到涉詐資源關(guān)聯(lián)圖,再基于LPA算法進(jìn)行詐騙組織切分得到準(zhǔn)確結(jié)果。
【關(guān)鍵詞】? ? 互聯(lián)網(wǎng)? ? 網(wǎng)絡(luò)詐騙? ? 安全分析模型
一、背景
近年來,我國電信網(wǎng)絡(luò)詐騙總體形勢嚴(yán)峻,詐騙分子呈現(xiàn)出專業(yè)化、團(tuán)伙化的特點,警方抓獲的電信詐騙團(tuán)伙,都多達(dá)數(shù)百人,詐騙設(shè)備、詐騙卡號、詐騙賬號都是數(shù)以萬計[1]。隨著移動互聯(lián)網(wǎng)的普及,國家和公安機關(guān)對反詐的宣傳,單純依靠語音、短信或網(wǎng)絡(luò)詐騙的場景越來越少,詐騙分子往往是三者結(jié)合才能詐騙成功[2]。這些詐騙分子可能實施了多次詐騙才被抓獲,而且還有部分詐騙分子隱藏在其他地市或國外,詐騙設(shè)備也經(jīng)過了多次更新,僅憑一次詐騙案件難以評估詐騙團(tuán)伙整體規(guī)模。現(xiàn)有技術(shù)方案中基于單一場景的詐騙團(tuán)伙分析已經(jīng)越來越難以準(zhǔn)確地挖掘出全部詐騙團(tuán)伙了[3]。本方法提出一種基于語音話單、短信話單和上網(wǎng)日志進(jìn)行關(guān)聯(lián)分析發(fā)現(xiàn)詐騙團(tuán)伙的方案。通過接入詐騙事件,提取涉詐資源之間的關(guān)聯(lián)關(guān)系,涉詐資源的行為特征,進(jìn)行關(guān)聯(lián)分析和相似度分析,得到涉詐資源關(guān)聯(lián)圖,再基于LPA算法進(jìn)行詐騙組織切分得到準(zhǔn)確的詐騙組織。
二、方法
為了更好的識別詐騙團(tuán)伙,設(shè)計基于語音話單、短信話單和上網(wǎng)日志進(jìn)行關(guān)聯(lián)分析的方案。通過接入詐騙事件,提取涉詐資源之間的關(guān)聯(lián)關(guān)系,涉詐資源的行為特征,進(jìn)行關(guān)聯(lián)分析和相似度分析,得到涉詐資源關(guān)聯(lián)圖,再基于LPA算法進(jìn)行詐騙組織切分得到準(zhǔn)確的詐騙組織。
本方案的基本設(shè)計概念和處理流程如下圖所示:
2.1詐騙事件接入
分析系統(tǒng)需要接入多種詐騙事件:
基于GOIP、多卡寶等多種遠(yuǎn)程部署的語音詐騙事件;
基于短信網(wǎng)關(guān)群發(fā)詐騙短信的短信詐騙事件;
基于社交網(wǎng)絡(luò)的殺豬盤詐騙、刷單詐騙等網(wǎng)絡(luò)詐騙事件。
對語音詐騙事件需要獲取以下主要字段:卡號、對方卡號、IMEI、時間、地理位置。
對短信詐騙事件需要獲取以下主要字段:卡號、對方卡號、IMEI、時間、地理位置。
對網(wǎng)絡(luò)詐騙事件需要獲取以下主要字段:卡號、IMEI、社交賬號、時間、地理位置、流量大小。
2.2詐騙資源關(guān)聯(lián)分析
詐騙團(tuán)伙分析包括兩種方式:直接關(guān)聯(lián)分析和相似度分析。
2.2.1直接關(guān)聯(lián)分析
直接關(guān)聯(lián)分析,通過涉詐資源之間的直接聯(lián)系建立關(guān)聯(lián)圖,如下:
通過卡號共享進(jìn)行關(guān)聯(lián):多個詐騙卡號都給一個受害者卡號撥打電話;詐騙卡號之間的通信。
通過設(shè)備進(jìn)行關(guān)聯(lián):多個卡號共用了一個設(shè)備,即一IMEI多卡;一個卡號用在了多個設(shè)備上,及一卡多IMEI。
通過社交賬號進(jìn)行關(guān)聯(lián):多個卡號共用了一個賬號,即一賬號多卡;多個賬號共用了一個卡號,即一卡多賬號;多個卡號共用了一個設(shè)備,即一設(shè)備多卡;多個設(shè)備共用了一個卡號,即一卡多設(shè)備。
通過上述關(guān)聯(lián)分析發(fā)現(xiàn)的涉詐資源節(jié)點和節(jié)點之間的連線用圖數(shù)據(jù)庫存儲。后面不斷接入新的詐騙事件,對詐騙事件進(jìn)行接入,獲取涉詐資源階段,按照上述流程添加到圖數(shù)據(jù)庫,可發(fā)現(xiàn)更多的攻擊組織。
2.2.2相似度分析
一個詐騙團(tuán)伙作案都有相似性,包括空間上、時間上、行為上。取以下行為作為判定涉詐資源之間的相似性:
地理位置:換算為經(jīng)度和維度。
活躍時間分布屬性:按時間段劃分24h為24個數(shù)值,若有話單則為1,否則為0,得到一個24元素的數(shù)組。分別計算語音活躍時間,上網(wǎng)活躍時間。
連續(xù)工作時長:計算一整天的工作時長。
上網(wǎng)流量:分為上行流量大小和下行流量大小。
上網(wǎng)類型分布:按照上網(wǎng)日志的域名類型劃分為9類域名:咨詢門戶類網(wǎng)站、企業(yè)品牌類網(wǎng)站、交易類網(wǎng)站、社區(qū)網(wǎng)站、辦公及政府機構(gòu)網(wǎng)站、互動游戲網(wǎng)站、有償資訊類網(wǎng)站、功能性網(wǎng)站、綜合類網(wǎng)站。若有則為1,否則為0,得到一個9個元素的數(shù)組。用余弦相似度計算涉詐資源之間的相似度,假設(shè)X1,X2為2個涉詐資源,X1X2相似度如下:
2.3 LPA詐騙組織切分
2.3.1團(tuán)伙標(biāo)簽初始化
LPA算法全稱label propagation algorithm,即標(biāo)簽傳遞算法,是一種圖聚類算法,如圖3,節(jié)點代表團(tuán)伙標(biāo)簽,邊上的黑色數(shù)字代表邊的權(quán)重。
各節(jié)點和邊初始化方式如下:節(jié)點初始化為1,團(tuán)伙標(biāo)簽初始化為自己,邊的初始化分為兩種計算方式:
直接關(guān)聯(lián)分析的邊關(guān)聯(lián)程度用反正切函數(shù)計算,假設(shè)發(fā)現(xiàn)涉詐資源A和B之間有x次直接關(guān)聯(lián),則關(guān)聯(lián)度為arctan(x)。相似度分析的邊關(guān)聯(lián)程度計算直接用余弦相似度。
2.3.2團(tuán)伙標(biāo)簽傳遞
每個涉詐資源節(jié)點向鄰居節(jié)點發(fā)送消息,消息權(quán)重為涉詐資源節(jié)點權(quán)重*邊權(quán)重*分割系數(shù)(涉詐資源節(jié)點出度的倒數(shù)),每個涉詐資源節(jié)點對收到的權(quán)重累加,更新涉詐資源節(jié)點標(biāo)簽為累加權(quán)重最大的團(tuán)伙標(biāo)簽,若多個涉詐資源節(jié)點的團(tuán)伙標(biāo)簽的權(quán)重相等就隨機選一個。反復(fù)執(zhí)行發(fā)送消息和接收消息,直到標(biāo)簽穩(wěn)定算法終止,最后相同標(biāo)簽的節(jié)點即為一個團(tuán)伙。如下圖4分析得出團(tuán)伙1和團(tuán)伙2。
三、結(jié)束語
技術(shù)創(chuàng)新是一把雙刃劍,人工智能技術(shù)在不斷促進(jìn)防范治理技術(shù)發(fā)展和進(jìn)步的同時,也開始被詐騙分子所利用,帶來了一定程度的風(fēng)險隱患。特別是隨著基于人工智能的“深度偽造”、群聊群控等詐騙手法的傳播和應(yīng)用,這些風(fēng)險被進(jìn)一步集聚、放大,引起了社會各界的關(guān)注[4]。通過實踐,本方法可有效甄別詐騙團(tuán)伙,準(zhǔn)確率高,覆蓋范圍廣,幫助相關(guān)部門快速掌握詐騙團(tuán)伙動態(tài),有效挽回群眾損失。下一步,我們將進(jìn)一步完善改進(jìn)方法,創(chuàng)新技術(shù)。
參? 考? 文? 獻(xiàn)
[1] 蒲黎明. 電信詐騙語義分類系統(tǒng)的設(shè)計與實現(xiàn)[D]. 北京:北京郵電大學(xué),2019.
[2] 李易.反電信網(wǎng)絡(luò)詐騙全民指南[M]. 上海:上海社會科學(xué)院出版社,2016.
[3] 李航.統(tǒng)計學(xué)習(xí)方法[M]. 北京:清華大學(xué)出版社,2012.
[4] 電信網(wǎng)絡(luò)詐騙治理與人工智能應(yīng)用白皮書[M].北京:中國信息通信研究院安全研究所,2019.