doi:10.3969/J.ISSN.1672-7274.2025.06.018
中圖分類號:TN911.23;TP274;TP3 文獻(xiàn)標(biāo)志碼:B 文章編碼:1672-7274(2025)06-0053-04
Robust Telecommunication Fraud Detection Method Resistant to Label Noise ZHANGXin,ZHANGSihai
(China Mobile Communications Group Hubei Co.,Ltd.,Wuhan 43oo23,China)
Abstract: The frequent occurrence of telecommunications fraud has brought huge economic losss to society, and traditionalfraud detection methods often perform poorly when faced with label noise.To this end,this paper proposes a new telecommunications fraud detection method (DNW-GCN) that combines graph convolution network (GCN)and dynamic noise sample weighting technology.This method performs feature aggregation through GCNand dynamicallyreduces the weightofnoise samples tosuppressits interferenceon model training.Experiments showthat DNW-GCN cansignificantly improve the detection accuracyand recallrate of malicious samples under diferent noise levels,and still maintains an accuracy rate of more than 96% and a recall rate of 84.7% in a 35% noise environment, demonstrating good performance.Noise immunity and robustness.
Keywords:telecommunications fraud; graph neural network;label noise
1 研究背景
通信產(chǎn)業(yè)的迅速崛起在為人們帶來便利的同時(shí),也給電信詐騙犯罪提供了可乘之機(jī)。截至2023年12月底,國家反詐中心累計(jì)緊急攔截涉案資金3288億元,公安機(jī)關(guān)累計(jì)見面勸阻1389萬人次,會同相關(guān)部門攔截詐騙電話27.5億次,短信22.8億條。電信詐騙頻發(fā)造成了巨大的經(jīng)濟(jì)損失。近年來,人工智能技術(shù)飛速發(fā)展,這為電信詐騙識別提供了有效的技術(shù)手段,各種基于機(jī)器學(xué)習(xí)的詐騙檢測方法不斷被提出。目前,最前沿的電信詐騙檢測方法通常以圖神經(jīng)網(wǎng)絡(luò)(GNN)為核心,依賴大量數(shù)據(jù)進(jìn)行訓(xùn)練。然而,由于電信詐騙具有隱蔽性強(qiáng)和識別難度大等特點(diǎn)[1],對電信網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行人工標(biāo)注不可避免地引入標(biāo)注錯(cuò)誤,因此相關(guān)數(shù)據(jù)集包含標(biāo)簽噪聲。而現(xiàn)有基于GNN的檢測方法研究將重點(diǎn)放在如何有效聚合特征等問題,忽視了標(biāo)簽噪聲問題。當(dāng)面對含噪數(shù)據(jù)時(shí),這些方法特征聚合的結(jié)果可能不理想,進(jìn)而引發(fā)檢測失敗。針對這一問題,本文提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)和動態(tài)噪聲樣本加權(quán)技術(shù)的電信詐騙行為識別算法(Dynamic noise sample weighting-GCN,DNW-GCN)。該算法首先使用GCN進(jìn)行特征聚合,再對聚合得到的特征進(jìn)行判斷,在每一輪訓(xùn)練中根據(jù)損失值判斷噪聲樣本并對其降低訓(xùn)練權(quán)重,最后通過分類器得到檢測結(jié)果。這種方法結(jié)合了GCN和抗噪學(xué)習(xí)的優(yōu)點(diǎn),不僅能發(fā)揮圖結(jié)構(gòu)數(shù)據(jù)的優(yōu)勢,還能自適應(yīng)地賦予噪聲樣本更低的權(quán)重,削弱噪聲對模型訓(xùn)練和使用的不良影響。在真實(shí)數(shù)據(jù)集上的測試表明,與其他基于GNN的檢測方法相比,在不同含噪率下,本文提出的算法在檢測準(zhǔn)確率和惡意樣本召回率兩方面都具有明顯優(yōu)勢,在低噪( 10% )到高噪( 35% 環(huán)境下可以達(dá)到 99%~96% 以上的準(zhǔn)確率和 98%~84.7% 的召回率,成功實(shí)現(xiàn)了對詐騙行為的準(zhǔn)確識別,并對數(shù)據(jù)噪聲具有較強(qiáng)的魯棒性。
2 相關(guān)理論
當(dāng)前基于圖神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的電信詐騙相關(guān)較多,以下介紹5種代表性理論:
(1)GCN:通過譜圖卷積學(xué)習(xí)節(jié)點(diǎn)隱藏表示,編碼局部圖結(jié)構(gòu)與節(jié)點(diǎn)特征。但因過度平滑問題,增加深度反而降低效果,且采用full-batch訓(xùn)練,難以擴(kuò)展至大規(guī)模網(wǎng)絡(luò),收斂較慢。
(2)GAT:引入自注意力機(jī)制為節(jié)點(diǎn)間的邊賦權(quán),但參數(shù)量較大,full-batch訓(xùn)練導(dǎo)致資源開銷高。此外,僅利用一跳鄰居信息,未挖掘高階鄰居。
(3)GraphSAGE:通過采樣和聚合節(jié)點(diǎn)鄰域特征,生成嵌入函數(shù),適合動態(tài)圖與跨圖泛化場景。但因采樣節(jié)點(diǎn)數(shù)隨層數(shù)指數(shù)增長,每批次訓(xùn)練時(shí)間較長,性能弱于GCN。
(4)BANADA:結(jié)合GAT與AdaBoost,利用層間簡化注意力機(jī)制聚合特征,可識別深層欺詐者[2]。然而,對特征和注意力權(quán)重敏感,需手動調(diào)優(yōu)。
(5)GEM:基于設(shè)備與活動聚合的行為模式,通過注意力機(jī)制建模節(jié)點(diǎn)聚合。但依賴設(shè)備-賬戶關(guān)系的異構(gòu)圖,對數(shù)據(jù)完整性要求高。
上述理論在詐騙檢測方面具有較好的性能,但均未考慮數(shù)據(jù)含有標(biāo)簽噪聲這一現(xiàn)實(shí)問題,在實(shí)際應(yīng)用時(shí)往往難以達(dá)到最佳性能。
3 算法設(shè)計(jì)
如圖1所示,本文針對呼叫記錄數(shù)據(jù)存在標(biāo)簽噪聲的問題,采取如下應(yīng)對思路:首先使用GCN對數(shù)據(jù)進(jìn)行處理,并在最后一層(即激活層)提取處理過后的數(shù)據(jù)特征;隨后,通過抗噪動態(tài)損失權(quán)重分配,從損失層面上降低噪聲數(shù)據(jù)的影響力,進(jìn)而訓(xùn)練得到具有抗噪能力的檢測模型。

式中,
是添加自連接的鄰接矩陣,保證信息在圖結(jié)構(gòu)中自傳播,避免節(jié)點(diǎn)自身特征丟失,減輕因圖結(jié)構(gòu)稀疏或不規(guī)則導(dǎo)致的信息斷層問題。
計(jì)算節(jié)點(diǎn)度矩陣,為歸一化操作提供支持,平衡節(jié)點(diǎn)間信息傳播的影響,避免因度差異引發(fā)的梯度問題。權(quán)重矩陣 W(l) 在訓(xùn)練中通過反向傳播和梯度下降優(yōu)化,根據(jù)數(shù)據(jù)分布和任務(wù)需求動態(tài)調(diào)整,將多維特征映射到高語義空間。 H(l) 為第1層激活矩陣,初始化H(0)=X ,傳播規(guī)則基于譜圖卷積一階近似優(yōu)化。激活函數(shù)o選用ReLU,增強(qiáng)非線性擬合能力,提高特征選擇性和魯棒性,同時(shí)抑制噪聲干擾,使模型更精準(zhǔn)地捕捉關(guān)鍵特征,優(yōu)化表征能力和決策邊界。
提取最后一層神經(jīng)元激活值作為新的數(shù)據(jù)特征。GCN通過多層卷積篩選與特征融合,精準(zhǔn)捕捉高價(jià)值信息,減少無關(guān)數(shù)據(jù)干擾,提升特征質(zhì)量,同時(shí)降低預(yù)測階段的計(jì)算開銷。
3.2基于損失值的動態(tài)噪聲樣本加權(quán)
常規(guī)檢測模型對所有樣本賦予相同的權(quán)重,這會使得噪聲樣本對模型損失函數(shù)影響過大,進(jìn)而影響模型訓(xùn)練性能[4]。為解決這一問題,本文提出了一種基于損失值的動態(tài)噪聲樣本加權(quán)算法(Dynamicnoisesampleweighting)。它在每一輪訓(xùn)練中精準(zhǔn)甄別損失值偏高的樣本,并將其判定為有噪聲嫌疑的樣本(文中稱為潛在噪聲樣本)。隨后,在下一輪訓(xùn)練中巧妙降低這些潛在噪聲樣本的權(quán)重[5,以此抑制其對模型參
數(shù)優(yōu)化進(jìn)程的干擾, 進(jìn)而提升模型在復(fù)雜 噪聲環(huán)境下的穩(wěn)健性 與精準(zhǔn)度。

在訓(xùn)練迭代中,本文選擇交叉熵作為損失函數(shù)。模型根據(jù)損失函數(shù)對各個(gè)樣本逐一計(jì)算損失值。
3.1基于GCN的特征聚合
電信詐騙數(shù)據(jù)以用戶為節(jié)點(diǎn)、通話記錄為邊,節(jié)點(diǎn)包含多維特征。本文采用圖卷積網(wǎng)絡(luò)(GCN)方法,聚合每個(gè)節(jié)點(diǎn)的鄰居信息,提升特征表達(dá)能力[3]。GCN能學(xué)習(xí)局部圖結(jié)構(gòu)和節(jié)點(diǎn)特征的隱藏表示,從而生成適合分類任務(wù)的高質(zhì)量圖嵌入。
圖卷積層定義:依照圖卷積網(wǎng)絡(luò)的方法,將模型中負(fù)責(zé)聚合鄰居信息的卷積層定義為
為甄別潛在噪聲樣本,本文設(shè)定如下動態(tài)閾值策略。以當(dāng)前訓(xùn)練輪次所有樣本損失值的均值與標(biāo)準(zhǔn)差為基準(zhǔn),構(gòu)建閾值 +k (k為依經(jīng)驗(yàn)或?qū)嶒?yàn)動態(tài)調(diào)優(yōu)的超參數(shù))。當(dāng)樣本損失值超越此閾值,即判定為潛在噪聲樣本,納入噪聲樣本集待后續(xù)處理。在每一輪訓(xùn)練迭代之后,根據(jù)噪聲樣本集規(guī)模與模型整體損失狀況精細(xì)調(diào)整樣本權(quán)重。對中的噪聲樣本,樣本權(quán)重按照更新,其中為0\~1間的衰減系數(shù)。
輸入:經(jīng)GCN處理后的16維度數(shù)據(jù)X,標(biāo)簽Y迭代次數(shù)N,超參數(shù) Δk , a
初始化:隨機(jī)初始化模型參數(shù)0
foriter Ω=1,2,…ΩN, do:ωn←1 使用初始模型得到預(yù)測結(jié)果:
model(X)計(jì)算損失:
計(jì)算損失均值與標(biāo)準(zhǔn)差:μ←←-2更新閾值: T←μ+kσ 判斷樣本是否為噪聲樣本IFL(Xi)gt;T :
更新梯度和參數(shù) θ
end
輸出:模型M
實(shí)驗(yàn)結(jié)果及分析
4.1數(shù)據(jù)集介紹
呼叫詳細(xì)記錄(CDR,CallDetailRecords)是電信行業(yè)中用于記錄電話通信的各種關(guān)鍵信息的標(biāo)準(zhǔn)數(shù)據(jù)格式,它廣泛用于電信運(yùn)營商進(jìn)行計(jì)費(fèi)、網(wǎng)絡(luò)管理、質(zhì)量監(jiān)控等方面的數(shù)據(jù)分析,同時(shí)也是電信詐騙檢測常用的數(shù)據(jù)源。本實(shí)驗(yàn)使用了基于真實(shí)呼叫詳細(xì)記錄構(gòu)建的數(shù)據(jù)集,包含47264條正常通話記錄和36130條涉詐通話記錄。每條通話記錄都包含各類通信數(shù)據(jù)特征,如通話雙方的ID(加密)、通話時(shí)長、費(fèi)用、狀態(tài)、設(shè)備信息、通話方向以及地理位置等。這些特征不僅能幫助揭示正常通信行為的規(guī)律,還有助于識別潛在的異常模式和詐騙活動。
4.2數(shù)據(jù)預(yù)處理
模型的輸入數(shù)據(jù)是以用戶為中心的特征數(shù)據(jù)和用戶之間的鏈接關(guān)系,因此,需要對CDR數(shù)據(jù)進(jìn)行預(yù)處理,提取出每個(gè)用戶的特征數(shù)據(jù)和鄰接矩陣。本文使用numpy和pandas從原始CDR數(shù)據(jù)中提取出“呼出次數(shù)”“使用的設(shè)備數(shù)量”“呼叫對象所在城市數(shù)量”等共計(jì)24維特征信息。同時(shí),計(jì)算不同樣本之間的歐式距離,距離低于設(shè)定閾值的兩個(gè)樣本視為連接,否則視為不連接,再以這一方式構(gòu)建節(jié)點(diǎn)的鄰接矩陣。
4.3實(shí)驗(yàn)設(shè)計(jì)
本文選取現(xiàn)存的圖神經(jīng)網(wǎng)絡(luò)算法作為對比,以評估本文所提出方法在噪聲環(huán)境下的檢測性能。實(shí)驗(yàn)使用的計(jì)算機(jī)配置為英特爾Corei5-10400 @ 2.6GHz處理器、16.0GB內(nèi)存、Windows10(64位)操作系統(tǒng)。為了模擬真實(shí)世界存在的噪聲,本文從數(shù)據(jù)集中選取一定比例的樣本對其標(biāo)簽進(jìn)行翻轉(zhuǎn)。通過設(shè)置不同噪聲率,模擬真實(shí)環(huán)境中不同的噪聲水平。本文設(shè)計(jì)如下兩個(gè)實(shí)驗(yàn),分別用于評估詐騙檢測方法的準(zhǔn)確性和魯棒性(即抗噪聲能力)。
(1)實(shí)驗(yàn)一:選取5種現(xiàn)有方法作為基準(zhǔn),將它們與本文方法在相同數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),以精確度為性能指標(biāo),驗(yàn)證本文方法在檢測能力方面是否優(yōu)于基準(zhǔn)方法。
(2)實(shí)驗(yàn)二:將現(xiàn)有的5種方法作為基準(zhǔn),并設(shè)置7種不同噪聲率,以惡意樣本召回率作為性能指標(biāo),對比基準(zhǔn)方法和本文方法,以驗(yàn)證本文方法在抗噪能力方面是否優(yōu)于基準(zhǔn)方法。
4.4結(jié)果分析

實(shí)驗(yàn)結(jié)果如表1所示,表中六個(gè)子表分別表示在噪聲率設(shè)置 10% , 15% , 20% 、 25% 、30的情況下,本文方法和現(xiàn)存五種方法的模型分類能力,橫軸和縱軸分別表示方法名稱和分類能力指標(biāo)(精度和召回率)。從表1可以得出如下結(jié)論:
(1)與其他現(xiàn)存分類方法相比,DNW-GCN表現(xiàn)出各種環(huán)境設(shè)置下均顯示出更好的性能,具體來說,在最高的 30% 噪聲率情況下,依然保持 96.3% 的精度和84.7% 的召回率,比其他方法平均取得了 3.44% 的精度提升和 13.76% 的召回率提升。
(2)隨著噪聲率的增加,各類方法的精度均有一定程度的下降,但是本文方法表現(xiàn)出很高的抗噪性。在30% 的噪聲率下,只有 3.1% 的精度下降和 14.7% 的召回率下降,與其他方法 20%~30% 的下降幅度形成鮮明對比。
5 結(jié)束語
當(dāng)前,電信詐騙檢測模型的訓(xùn)練數(shù)據(jù)往往存在標(biāo)簽噪聲,導(dǎo)致檢測模型的訓(xùn)練效果不佳,并降低檢測性能。為解決這一問題,本文基于圖卷積神經(jīng)網(wǎng)絡(luò)和動態(tài)樣本加權(quán)技術(shù),設(shè)計(jì)了一種新穎的電信詐騙行為識別算法。在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)表明,理想環(huán)境下該算法能夠精確識別 99% 以上的電信詐騙行為,在 30%"噪聲環(huán)境下也能對詐騙行為取得 84% 以上的準(zhǔn)確率,有望在實(shí)際應(yīng)用中取得良好的檢測效果。
參考文獻(xiàn)
[1]劉麗,劉仙蕊.基于大數(shù)據(jù)分析的電信網(wǎng)絡(luò)詐騙預(yù)警系統(tǒng)研究[J].數(shù)字通信世界,2024(11):101-103.
[2]胡鑫鑫.基于圖機(jī)器學(xué)習(xí)的電信網(wǎng)絡(luò)詐騙檢測關(guān)鍵技術(shù)研究[D].鄭州:戰(zhàn)略支援部隊(duì)信息工程大學(xué),2023
[3]張杰俊,唐穎淳,季述鄖,等.一種基于圖神經(jīng)網(wǎng)絡(luò)的電信詐騙識別方法[J].電子技術(shù)應(yīng)用,2021,47(6):25-29.
[4]鄧力琿.標(biāo)簽噪聲情況下的深度學(xué)習(xí)方法研究[D].成都:電子科技大學(xué),2024.
[5]鄒博士,楊銘,宗辰辰,等.基于負(fù)學(xué)習(xí)的樣本重加權(quán)魯棒學(xué)習(xí)方法[J].計(jì)算機(jī)應(yīng)用,2024,44(5):1479-1484.
[6]李爽.基于卷積神經(jīng)網(wǎng)絡(luò)的電信詐騙識別分類器的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2019