通信詐騙預警模型設計研究

2023-11-22 10:28:32馬云海

江蘇通信 2023年5期

馬云海

中國電信股份有限公司連云港分公司

0 引言

近年來通信詐騙日益泛濫，社會危害性越來越大。隨著通信技術的發展，數據源種類越來越多，因此而產生的數據量呈現指數級增加，這也進一步加大了反詐工作中詐騙數據分析的難度。根據目前的通信詐騙現狀，國內外學者進行了廣泛的探索，傳統的治理方式主要是結合已知詐騙號碼情況對電話號碼的結構分析，從而對疑似號碼進行攔截。也有部分學者開始基于大數據挖掘技術分析詐騙違法行為號碼，嘗試提前預測詐騙行為，并取得了一定的進展。對于我國的運營商而言，傳統的防詐技術很難滿足他們要在很短時間內分析海量數據、識別詐騙號碼，同時還要盡可能地減少對用戶正常通信干擾的需求。本文提出的是一種基于大數據挖掘技術的通信反詐分析模型。該技術能夠實現對通話情況提取疑似號碼的話務特征，利用大數據分析挖掘模型快速研判和處置并進行有效分析，從而在較短時間內實現詐騙號碼的確認并進行攔截，最終有效防止通信詐騙的發生。從某種意義上來講，該模型填補了現有電信攔截技術的短板，為以后有效防范通信詐騙提供了新的思路。

1 相關理論與技術

1.1 傳統分類模型

從判斷通信詐騙的方法上，決策樹模型和樸素貝葉斯模型這兩類傳統的分類模型有著較為廣泛的使用，但是傳統模型的使用前提是要有獨立屬性的假定樣本，這和實際情況嚴重脫節，所以通過這些模型得出的結論較難復制到實際生產中。新出現的支持向量機(SVM：Support Vector Machine)是一種常見的監督核學習（kernel learning）方法，SVM 可以在使用較少的抽樣數據的情況下，通過非線性分類方法將經驗風險降到最低，并且能歸納出較好的統計規律。能夠避開高維度空間是SVM 方法的一個最大的優點，借助空間內核函數可以將線性不可分的情況進一步轉化成線性可分問題，然后再通過對線性可分問題的解決方案，解決相應的高維空間難題。使用SVM 對潛在的通訊詐騙號碼進行檢測，如果選取的號碼話務特征僅包含呼叫次數和呼叫時長，那么就很難全面的提煉出疑似詐騙號碼的特征。如果相關的測試驗證不結合實際數據，就算能夠取得很高的命中率也只是針對于測試數據，很難進行實際應用。

1.2 熵值法

（1）算法簡介

熵值法是一種客觀賦權法。其根據各項指標觀測值所提供的信息大小來確定指標權重。在信息論中，熵和不確定性是一個正比關系，與信息量成反比。熵值可以用來判斷某個指標的離散程度，離散程度越大，那么它對結果的影響也越大。因此，信息熵可以在建模中用來為多指標計算權重，選擇出那些對判定影響大的變量。

（2）熵值法的優缺點

熵值法是一種客觀的賦權法，是根據各種指標的指標值變化程度來確定相關指標的權數，它可以避免人為因素帶來的主觀偏差，但是這種方式忽略了指標本身的重要程度，而且熵值法也不能減少評價指標的維度數。

2 通信詐騙預警建模需求分析

2.1 本地網防詐現狀

本地網詐騙攔截工作起始于2017 年，當時公安部下發的重點監控區域有9 個地市，要求重點監控漫游到以上地區的用戶呼叫情況。但是通信詐騙的勢頭并沒有被遏制住，反而愈演愈烈。因此國家十三部委聯合下文整治詐騙號碼，并在全國開展“斷卡行動”。根據連云港市反詐中心每月通報，連云港市涉詐號碼數量在全國排名較高，曾排名全國前20，被發黃牌。中國電信連云港分公司成立專班開展通信詐騙的防范工作。

2.2 預警詐騙號碼難點分析

目前通信詐騙傳統的治理方法，主要是結合投訴數據對用戶號碼的結構進行簡單分析，通過這種方法來確定是否是詐騙號碼，納入灰名單數據庫，從而實現對疑似號碼進行呼叫攔截。但是隨著詐騙分子不斷升級更新相關詐騙手段，通過對現有的案例進行統計分析發現，目前的反詐工作存在以下幾個難點：（1）涉詐號碼均符合實名制管控的相關規范要求，日常稽核較難發現；（2）號卡涉及買賣和非法收購；（3）通信詐騙具有跨區域性、隱蔽性、判定滯后性的特點；（4）詐騙號碼的使用行為不斷升級更新。

為了及時打擊涉詐犯罪分子，減少群眾財產損失，同時降低連云港手機號碼被舉報率，公司專班提出主動追蹤挖掘詐騙號碼的需求和設想：精準定位疑似號碼，及時封停高危號碼，便捷復機申訴通道，消除潛在高危號卡。

3 通信詐騙預警系統總體架構

3.1 整體系統技術架構

通信詐騙預警系統主要包含詐騙號碼識別、號碼封停、申述復機，沉默卡號處理和白名單等幾個模塊。系統根據話單數據中主叫異常特征及呼叫頻率來預判詐騙號碼，通過話務相似特征來辨別是否實施了通信詐騙，使用大數據挖掘技術對號碼的歷史通話記錄，辦理的套餐和裝機時間等資料進行分析研判。目前反詐預警模型使用的主要是話務數據中的幾個變量，根據這幾個變量運用大數據篩選，將異常號碼標識為涉詐號碼。在話單數據、EDA 數據中提取疑似詐騙號碼的所有話務特征，根據熵值法和SVM 判斷是否為詐騙號碼。若判斷為詐騙號碼，則通過緊急停機流程進行風險單停，限制號碼的呼叫功能，從而終止該號碼的詐騙行為。同時對該號碼同一身份證下的所有號碼進行關聯停機，并上報專班進行多維度分析，對同批辦理的號碼進行篩查，發現疑似號碼進行相應處置。

3.2 詐騙號碼的判定模型設計

3.2.1 現有詐騙卡號特征的大數據挖掘

在通信詐騙預警模型建立之前，首先從公安機關提供的涉案號碼、用戶投訴的詐騙號碼以及反詐專班通報的數據中抽取樣本，分析他們的通話行為、裝機時間、受理渠道、套餐類型、年齡等特征，確定詐騙號碼特征判定規則。根據分析發現：大部分詐騙電話的入網時間都較短；詐騙電話基本都是漫游到異地；受理渠道一般是網上渠道；每次通話的時間較短、撥打的時間比較集中，被叫話單少、主叫話單多。根據以上的特征進行建模，集中挖掘特定場景下的詐騙行為。

3.2.2 詐騙電話特征探索

采用熵值法，首先對選取的涉案用戶數據的卡號信息、受理信息、當月通話情況、歷史通話情況進行采集挖掘。采集數據如表1 所示。

表1 數據采集

建模變量需要選用區分能力強的變量，連續離散化可以顯著提升變量的區分能力。將詐騙號碼入網的時間、被叫區號離散度、主叫話單占比、被叫號碼離散度等變量根據熵值法進行離散化的處理。然后對變量進行劃分，選取其中總熵值最小的分裂點變量。

抽取12321 公安偵辦下發的詐騙號碼對主叫話單被叫號碼離散度進行分析，如圖1 所示，基本分布在80%到100%區間。

圖1 被叫號碼離散度

根據話務數據篩選，發現92%的詐騙用戶是在入網一個月內就開始實施詐騙，并且此類用戶很少接聽電話，主叫話單占總話單數的90%以上，這些主叫話單的被叫號碼均為長途號碼，且重復情況極低，主叫話單中被叫號碼的離散度大于85%。根據以往經驗，將用戶的主叫話單占比和被叫號碼離散度這兩個變量收入建模變量。根據對詐騙號碼目標判定影響大小排序，最后選出被叫區號離散度字段對目標變量的判定有著較大影響，數據分析結論如表2 所示。

表2 數據分析結論

通過Python 篩選，主叫話單占比、長途話單數量、被叫號碼離散度、被叫區號離散度、主叫撥打頻次這幾個變量對判定詐騙號碼區分能力較為顯著，可作為建模的變量來使用。

3.2.3 建立挖掘模型

在完成模型變量篩選后，開始選擇建模的方法。通過比對樸素貝葉斯模型、決策樹模型、隨機森林算法和線性回歸算法等方法，根據評估的效果，預警模型選擇了支持向量機(SVM)這一算法。

根據以上對數據變量篩選以及話務特征的分析，根據SVM 建立了詐騙號碼的匹配模型。如表3 所示，詐騙號碼匹配模型為：異地的長途話單撥打頻次每小時主叫大于等于9張，被叫號碼離散度大于等于0.8，且不同被叫區號個數大于3 個，標記為高度疑似詐騙號碼；漫游用戶在3 個小時內主叫話單張數大于等于20 張，被叫號碼離散度大于等于0.8，且被叫區號個數大于3 個，標記為高度疑似詐騙號碼。剔除199 以上主卡、政企行客VPN、名稱包含電信、后三位相同的吉祥號和攜入用戶等白名單用戶。

表3 詐騙號碼匹配規則

4 通信詐騙預警系統功能實現

（1）普通話務小時模型

在ORACLE 數據庫中建立定時任務：LYG.MYH_ZP_XYH_2021_JOB 每30 分鐘運行一次，掃描本地網的移動詳單表，篩選出掃描時間點前一個小時的主叫話單張數大于等于9張的用戶SERVID，同時給這些號碼標識出被叫號碼的離散度（不同被叫號碼個數/主叫話單張數），標記為：小時話務量異常A 模型。

（2）基站話務模型

在ORACLE 數據庫中建立定時任務：LYG.MYH_ZPJK_2021JZ_JOB 每天9 點運行一次，掃描本地網的移動詳單表，篩選已被小時話務量異常A 模型標記出來的疑似詐騙號碼與話務較為集中的基站ID 是否存在交集，如果存在交集那么可以判斷為有GORP 設備用于詐騙活動，該設備危害性更大，需要及時反饋給省公司和公安反詐中心。

5 反詐模塊運行情況分析

通信詐騙和騷擾數據分析及大數據攔截模型投入運行以后，優化預警范圍和準確度，實時攔截疑似的詐騙號碼，大大提升了處理的及時性和準確性。如圖2 所示，反詐模型投入使用后詐騙號碼迅速從2021 年4 月份的24 個降低到2021 年6 月份1 個，反詐效果明顯。經過不斷地優化，2022 年上半年更是保持0 個記錄。同時通過運用該模型的大數據分析協助公安部門破獲了多起通信詐騙案件，有效控制了連云港詐騙案發率，讓連云港公司擺脫了被動局面，并使該項工作在全省名列前茅。

圖2 公安偵辦派單

6 結束語

通信詐騙預警系統設計研發時間緊任務重，可以借鑒的經驗較少，在運行期間詐騙分子的詐騙手段還在不斷地升級更新，所以還需要在應用中對公安部門下發的漏網詐騙號碼進行進一步的分析，對模型逐步改進完善。