抗標(biāo)簽噪聲的魯棒電信詐騙檢測方法

2025-07-20 00:00:00張欣張四海

數(shù)字通信世界 2025年6期

doi：10.3969/J.ISSN.1672-7274.2025.06.018

中圖分類號：TN911.23;TP274;TP3 文獻(xiàn)標(biāo)志碼：B 文章編碼：1672-7274（2025）06-0053-04

Robust Telecommunication Fraud Detection Method Resistant to Label Noise ZHANGXin，ZHANGSihai

（China Mobile Communications Group Hubei Co.，Ltd.，Wuhan 43oo23，China）

Abstract： The frequent occurrence of telecommunications fraud has brought huge economic losss to society， and traditionalfraud detection methods often perform poorly when faced with label noise.To this end，this paper proposes a new telecommunications fraud detection method （DNW-GCN） that combines graph convolution network （GCN）and dynamic noise sample weighting technology.This method performs feature aggregation through GCNand dynamicallyreduces the weightofnoise samples tosuppressits interferenceon model training.Experiments showthat DNW-GCN cansignificantly improve the detection accuracyand recallrate of malicious samples under diferent noise levels，and still maintains an accuracy rate of more than 96% and a recall rate of 84.7% in a 35% noise environment， demonstrating good performance.Noise immunity and robustness.

Keywords：telecommunications fraud; graph neural network;label noise

1 研究背景

通信產(chǎn)業(yè)的迅速崛起在為人們帶來便利的同時(shí)，也給電信詐騙犯罪提供了可乘之機(jī)。截至2023年12月底，國家反詐中心累計(jì)緊急攔截涉案資金3288億元，公安機(jī)關(guān)累計(jì)見面勸阻1389萬人次，會同相關(guān)部門攔截詐騙電話27.5億次，短信22.8億條。電信詐騙頻發(fā)造成了巨大的經(jīng)濟(jì)損失。近年來，人工智能技術(shù)飛速發(fā)展，這為電信詐騙識別提供了有效的技術(shù)手段，各種基于機(jī)器學(xué)習(xí)的詐騙檢測方法不斷被提出。目前，最前沿的電信詐騙檢測方法通常以圖神經(jīng)網(wǎng)絡(luò)（GNN）為核心，依賴大量數(shù)據(jù)進(jìn)行訓(xùn)練。然而，由于電信詐騙具有隱蔽性強(qiáng)和識別難度大等特點(diǎn)[1]，對電信網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行人工標(biāo)注不可避免地引入標(biāo)注錯(cuò)誤，因此相關(guān)數(shù)據(jù)集包含標(biāo)簽噪聲。而現(xiàn)有基于GNN的檢測方法研究將重點(diǎn)放在如何有效聚合特征等問題，忽視了標(biāo)簽噪聲問題。當(dāng)面對含噪數(shù)據(jù)時(shí)，這些方法特征聚合的結(jié)果可能不理想，進(jìn)而引發(fā)檢測失敗。針對這一問題，本文提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）和動態(tài)噪聲樣本加權(quán)技術(shù)的電信詐騙行為識別算法（Dynamic noise sample weighting-GCN，DNW-GCN）。該算法首先使用GCN進(jìn)行特征聚合，再對聚合得到的特征進(jìn)行判斷，在每一輪訓(xùn)練中根據(jù)損失值判斷噪聲樣本并對其降低訓(xùn)練權(quán)重，最后通過分類器得到檢測結(jié)果。這種方法結(jié)合了GCN和抗噪學(xué)習(xí)的優(yōu)點(diǎn)，不僅能發(fā)揮圖結(jié)構(gòu)數(shù)據(jù)的優(yōu)勢，還能自適應(yīng)地賦予噪聲樣本更低的權(quán)重，削弱噪聲對模型訓(xùn)練和使用的不良影響。在真實(shí)數(shù)據(jù)集上的測試表明，與其他基于GNN的檢測方法相比，在不同含噪率下，本文提出的算法在檢測準(zhǔn)確率和惡意樣本召回率兩方面都具有明顯優(yōu)勢，在低噪（ 10% ）到高噪（ 35% 環(huán)境下可以達(dá)到 99%～96% 以上的準(zhǔn)確率和 98%～84.7% 的召回率，成功實(shí)現(xiàn)了對詐騙行為的準(zhǔn)確識別，并對數(shù)據(jù)噪聲具有較強(qiáng)的魯棒性。

2 相關(guān)理論

當(dāng)前基于圖神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的電信詐騙相關(guān)較多，以下介紹5種代表性理論：

（1）GCN：通過譜圖卷積學(xué)習(xí)節(jié)點(diǎn)隱藏表示，編碼局部圖結(jié)構(gòu)與節(jié)點(diǎn)特征。但因過度平滑問題，增加深度反而降低效果，且采用full-batch訓(xùn)練，難以擴(kuò)展至大規(guī)模網(wǎng)絡(luò)，收斂較慢。

（2）GAT：引入自注意力機(jī)制為節(jié)點(diǎn)間的邊賦權(quán)，但參數(shù)量較大，full-batch訓(xùn)練導(dǎo)致資源開銷高。此外，僅利用一跳鄰居信息，未挖掘高階鄰居。

（3）GraphSAGE：通過采樣和聚合節(jié)點(diǎn)鄰域特征，生成嵌入函數(shù)，適合動態(tài)圖與跨圖泛化場景。但因采樣節(jié)點(diǎn)數(shù)隨層數(shù)指數(shù)增長，每批次訓(xùn)練時(shí)間較長，性能弱于GCN。

（4）BANADA：結(jié)合GAT與AdaBoost，利用層間簡化注意力機(jī)制聚合特征，可識別深層欺詐者[2]。然而，對特征和注意力權(quán)重敏感，需手動調(diào)優(yōu)。

（5）GEM：基于設(shè)備與活動聚合的行為模式，通過注意力機(jī)制建模節(jié)點(diǎn)聚合。但依賴設(shè)備-賬戶關(guān)系的異構(gòu)圖，對數(shù)據(jù)完整性要求高。

上述理論在詐騙檢測方面具有較好的性能，但均未考慮數(shù)據(jù)含有標(biāo)簽噪聲這一現(xiàn)實(shí)問題，在實(shí)際應(yīng)用時(shí)往往難以達(dá)到最佳性能。

3 算法設(shè)計(jì)

如圖1所示，本文針對呼叫記錄數(shù)據(jù)存在標(biāo)簽噪聲的問題，采取如下應(yīng)對思路：首先使用GCN對數(shù)據(jù)進(jìn)行處理，并在最后一層（即激活層）提取處理過后的數(shù)據(jù)特征；隨后，通過抗噪動態(tài)損失權(quán)重分配，從損失層面上降低噪聲數(shù)據(jù)的影響力，進(jìn)而訓(xùn)練得到具有抗噪能力的檢測模型。

式中，是添加自連接的鄰接矩陣，保證信息在圖結(jié)構(gòu)中自傳播，避免節(jié)點(diǎn)自身特征丟失，減輕因圖結(jié)構(gòu)稀疏或不規(guī)則導(dǎo)致的信息斷層問題。計(jì)算節(jié)點(diǎn)度矩陣，為歸一化操作提供支持，平衡節(jié)點(diǎn)間信息傳播的影響，避免因度差異引發(fā)的梯度問題。權(quán)重矩陣 W^（l）在訓(xùn)練中通過反向傳播和梯度下降優(yōu)化，根據(jù)數(shù)據(jù)分布和任務(wù)需求動態(tài)調(diào)整，將多維特征映射到高語義空間。 H^（l）為第1層激活矩陣，初始化H^（0）=X ，傳播規(guī)則基于譜圖卷積一階近似優(yōu)化。激活函數(shù)o選用ReLU，增強(qiáng)非線性擬合能力，提高特征選擇性和魯棒性，同時(shí)抑制噪聲干擾，使模型更精準(zhǔn)地捕捉關(guān)鍵特征，優(yōu)化表征能力和決策邊界。

提取最后一層神經(jīng)元激活值作為新的數(shù)據(jù)特征。GCN通過多層卷積篩選與特征融合，精準(zhǔn)捕捉高價(jià)值信息，減少無關(guān)數(shù)據(jù)干擾，提升特征質(zhì)量，同時(shí)降低預(yù)測階段的計(jì)算開銷。

3.2基于損失值的動態(tài)噪聲樣本加權(quán)

常規(guī)檢測模型對所有樣本賦予相同的權(quán)重，這會使得噪聲樣本對模型損失函數(shù)影響過大，進(jìn)而影響模型訓(xùn)練性能[4]。為解決這一問題，本文提出了一種基于損失值的動態(tài)噪聲樣本加權(quán)算法（Dynamicnoisesampleweighting）。它在每一輪訓(xùn)練中精準(zhǔn)甄別損失值偏高的樣本，并將其判定為有噪聲嫌疑的樣本（文中稱為潛在噪聲樣本）。隨后，在下一輪訓(xùn)練中巧妙降低這些潛在噪聲樣本的權(quán)重[5，以此抑制其對模型參

數(shù)優(yōu)化進(jìn)程的干擾，進(jìn)而提升模型在復(fù)雜噪聲環(huán)境下的穩(wěn)健性與精準(zhǔn)度。

在訓(xùn)練迭代中，本文選擇交叉熵作為損失函數(shù)。模型根據(jù)損失函數(shù)對各個(gè)樣本逐一計(jì)算損失值。

3.1基于GCN的特征聚合

電信詐騙數(shù)據(jù)以用戶為節(jié)點(diǎn)、通話記錄為邊，節(jié)點(diǎn)包含多維特征。本文采用圖卷積網(wǎng)絡(luò)（GCN）方法，聚合每個(gè)節(jié)點(diǎn)的鄰居信息，提升特征表達(dá)能力[3]。GCN能學(xué)習(xí)局部圖結(jié)構(gòu)和節(jié)點(diǎn)特征的隱藏表示，從而生成適合分類任務(wù)的高質(zhì)量圖嵌入。

圖卷積層定義：依照圖卷積網(wǎng)絡(luò)的方法，將模型中負(fù)責(zé)聚合鄰居信息的卷積層定義為

為甄別潛在噪聲樣本，本文設(shè)定如下動態(tài)閾值策略。以當(dāng)前訓(xùn)練輪次所有樣本損失值的均值與標(biāo)準(zhǔn)差為基準(zhǔn)，構(gòu)建閾值 +k （k為依經(jīng)驗(yàn)或?qū)嶒?yàn)動態(tài)調(diào)優(yōu)的超參數(shù)）。當(dāng)樣本損失值超越此閾值，即判定為潛在噪聲樣本，納入噪聲樣本集待后續(xù)處理。在每一輪訓(xùn)練迭代之后，根據(jù)噪聲樣本集規(guī)模與模型整體損失狀況精細(xì)調(diào)整樣本權(quán)重。對中的噪聲樣本，樣本權(quán)重按照更新，其中為0＼～1間的衰減系數(shù)。

輸入：經(jīng)GCN處理后的16維度數(shù)據(jù)X，標(biāo)簽Y迭代次數(shù)N，超參數(shù) Δk ， a

初始化：隨機(jī)初始化模型參數(shù)0

foriter Ω=1，2，…ΩN， do：ω_n←1 使用初始模型得到預(yù)測結(jié)果： model（X）計(jì)算損失：計(jì)算損失均值與標(biāo)準(zhǔn)差：μ←←-2更新閾值： T←μ+kσ 判斷樣本是否為噪聲樣本IFL（X_i）gt;T ：更新梯度和參數(shù) θ

end

輸出：模型M

實(shí)驗(yàn)結(jié)果及分析

4.1數(shù)據(jù)集介紹

呼叫詳細(xì)記錄（CDR，CallDetailRecords）是電信行業(yè)中用于記錄電話通信的各種關(guān)鍵信息的標(biāo)準(zhǔn)數(shù)據(jù)格式，它廣泛用于電信運(yùn)營商進(jìn)行計(jì)費(fèi)、網(wǎng)絡(luò)管理、質(zhì)量監(jiān)控等方面的數(shù)據(jù)分析，同時(shí)也是電信詐騙檢測常用的數(shù)據(jù)源。本實(shí)驗(yàn)使用了基于真實(shí)呼叫詳細(xì)記錄構(gòu)建的數(shù)據(jù)集，包含47264條正常通話記錄和36130條涉詐通話記錄。每條通話記錄都包含各類通信數(shù)據(jù)特征，如通話雙方的ID（加密）、通話時(shí)長、費(fèi)用、狀態(tài)、設(shè)備信息、通話方向以及地理位置等。這些特征不僅能幫助揭示正常通信行為的規(guī)律，還有助于識別潛在的異常模式和詐騙活動。

4.2數(shù)據(jù)預(yù)處理

模型的輸入數(shù)據(jù)是以用戶為中心的特征數(shù)據(jù)和用戶之間的鏈接關(guān)系，因此，需要對CDR數(shù)據(jù)進(jìn)行預(yù)處理，提取出每個(gè)用戶的特征數(shù)據(jù)和鄰接矩陣。本文使用numpy和pandas從原始CDR數(shù)據(jù)中提取出“呼出次數(shù)”“使用的設(shè)備數(shù)量”“呼叫對象所在城市數(shù)量”等共計(jì)24維特征信息。同時(shí)，計(jì)算不同樣本之間的歐式距離，距離低于設(shè)定閾值的兩個(gè)樣本視為連接，否則視為不連接，再以這一方式構(gòu)建節(jié)點(diǎn)的鄰接矩陣。

4.3實(shí)驗(yàn)設(shè)計(jì)

本文選取現(xiàn)存的圖神經(jīng)網(wǎng)絡(luò)算法作為對比，以評估本文所提出方法在噪聲環(huán)境下的檢測性能。實(shí)驗(yàn)使用的計(jì)算機(jī)配置為英特爾Corei5-10400 @ 2.6GHz處理器、16.0GB內(nèi)存、Windows10（64位）操作系統(tǒng)。為了模擬真實(shí)世界存在的噪聲，本文從數(shù)據(jù)集中選取一定比例的樣本對其標(biāo)簽進(jìn)行翻轉(zhuǎn)。通過設(shè)置不同噪聲率，模擬真實(shí)環(huán)境中不同的噪聲水平。本文設(shè)計(jì)如下兩個(gè)實(shí)驗(yàn)，分別用于評估詐騙檢測方法的準(zhǔn)確性和魯棒性（即抗噪聲能力）。

（1）實(shí)驗(yàn)一：選取5種現(xiàn)有方法作為基準(zhǔn)，將它們與本文方法在相同數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，以精確度為性能指標(biāo)，驗(yàn)證本文方法在檢測能力方面是否優(yōu)于基準(zhǔn)方法。

（2）實(shí)驗(yàn)二：將現(xiàn)有的5種方法作為基準(zhǔn)，并設(shè)置7種不同噪聲率，以惡意樣本召回率作為性能指標(biāo)，對比基準(zhǔn)方法和本文方法，以驗(yàn)證本文方法在抗噪能力方面是否優(yōu)于基準(zhǔn)方法。

4.4結(jié)果分析

實(shí)驗(yàn)結(jié)果如表1所示，表中六個(gè)子表分別表示在噪聲率設(shè)置 10% ， 15% ， 20% 、 25% 、30的情況下，本文方法和現(xiàn)存五種方法的模型分類能力，橫軸和縱軸分別表示方法名稱和分類能力指標(biāo)（精度和召回率）。從表1可以得出如下結(jié)論：

（1）與其他現(xiàn)存分類方法相比，DNW-GCN表現(xiàn)出各種環(huán)境設(shè)置下均顯示出更好的性能，具體來說，在最高的 30% 噪聲率情況下，依然保持 96.3% 的精度和84.7% 的召回率，比其他方法平均取得了 3.44% 的精度提升和 13.76% 的召回率提升。

（2）隨著噪聲率的增加，各類方法的精度均有一定程度的下降，但是本文方法表現(xiàn)出很高的抗噪性。在30% 的噪聲率下，只有 3.1% 的精度下降和 14.7% 的召回率下降，與其他方法 20%～30% 的下降幅度形成鮮明對比。

5 結(jié)束語

當(dāng)前，電信詐騙檢測模型的訓(xùn)練數(shù)據(jù)往往存在標(biāo)簽噪聲，導(dǎo)致檢測模型的訓(xùn)練效果不佳，并降低檢測性能。為解決這一問題，本文基于圖卷積神經(jīng)網(wǎng)絡(luò)和動態(tài)樣本加權(quán)技術(shù)，設(shè)計(jì)了一種新穎的電信詐騙行為識別算法。在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)表明，理想環(huán)境下該算法能夠精確識別 99% 以上的電信詐騙行為，在 30%"噪聲環(huán)境下也能對詐騙行為取得 84% 以上的準(zhǔn)確率，有望在實(shí)際應(yīng)用中取得良好的檢測效果。

參考文獻(xiàn)

[1]劉麗，劉仙蕊.基于大數(shù)據(jù)分析的電信網(wǎng)絡(luò)詐騙預(yù)警系統(tǒng)研究[J].數(shù)字通信世界，2024（11）：101-103.

[2]胡鑫鑫.基于圖機(jī)器學(xué)習(xí)的電信網(wǎng)絡(luò)詐騙檢測關(guān)鍵技術(shù)研究[D].鄭州：戰(zhàn)略支援部隊(duì)信息工程大學(xué)，2023

[3]張杰俊，唐穎淳，季述鄖，等.一種基于圖神經(jīng)網(wǎng)絡(luò)的電信詐騙識別方法[J].電子技術(shù)應(yīng)用，2021，47（6）：25-29.

[4]鄧力琿.標(biāo)簽噪聲情況下的深度學(xué)習(xí)方法研究[D].成都：電子科技大學(xué)，2024.

[5]鄒博士，楊銘，宗辰辰，等.基于負(fù)學(xué)習(xí)的樣本重加權(quán)魯棒學(xué)習(xí)方法[J].計(jì)算機(jī)應(yīng)用，2024，44（5）：1479-1484.

[6]李爽.基于卷積神經(jīng)網(wǎng)絡(luò)的電信詐騙識別分類器的設(shè)計(jì)與實(shí)現(xiàn)[D].北京：北京郵電大學(xué)，2019