








關鍵詞:電信詐騙;圖神經網絡;殘差連接;自注意力機制;用戶檢測
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2025)03-0001-05 開放科學(資源服務) 標識碼(OSID) :
0引言
隨著互聯網絡的快速發展,網絡犯罪呈現增長趨勢且形式多樣化,其中電信網絡詐騙已成為近年來嚴重的社會問題。詐騙分子的手段不斷升級,涉及范圍廣泛,嚴重侵害了公眾的財產安全和社會穩定[1]。盡管詐騙活動隱匿于網絡之中,但在與受害者交涉的過程中,不可避免地會在通信網絡中留下痕跡。這些痕跡包含了移動設備終端基本的通信網絡記錄,即CDR數據。利用這些數據識別潛在的詐騙分子,從而打擊電信詐騙犯罪,是一個行之有效的途徑。
傳統的機器學習和深度學習算法能夠從大量的電信數據中學習復雜的模式和規律,從電信流層面識別潛在的欺詐行為。其中,圖神經網絡(Graph Neural Networks,GNN) 因其能夠同時融合節點實體屬性以及節點之間的拓撲結構,而在圖欺詐檢測領域得到了廣泛應用[2-5]。然而,現有研究仍面臨一些挑戰,例如數據稀疏性導致的網絡結構不完整、節點關系不明確以及模型過度平滑等問題[6-7],這些問題影響了最終的檢測效果。為此,本文提出了一種融合殘差連接和自注意力機制的圖卷積神經網絡模型,用于電信詐騙用戶的檢測。
本文的主要貢獻如下:
1)提出了一種結合殘差連接和自注意力機制的圖卷積神經網絡模型,增強了模型的穩定性和特征表示能力,適用于電信詐騙用戶檢測任務。
2)設計了特征提取和鏈路預測方法,對原始稀疏數據進行圖重建,充分利用了圖神經網絡的優勢。
3)在真實的運營商CDR數據集上進行了實驗,結果表明所提模型在各項指標上均優于現有基線模型,驗證了方法的有效性和優越性。
1 基于殘差連接和自注意力機制的詐騙用戶檢測模型
如圖1所示,提出的詐騙用戶檢測模型主要包含4個模塊:輸入層、特征提取層、鏈路預測層以及DNN 網絡層。總體來說,需要對收集到的CDR元數據首先進行特征提取,然后通過特征轉換和縮放得到每個用戶,即圖神經網絡中每個節點的特征矩陣。在鏈路預測層中,選擇多個特征計算不同節點的整體相似度,設置相似度閾值進行鏈路預測,預測結果輸出為圖神經網絡節點之間的邊。最后,將節點特征和節點之間的拓撲結構輸入到DNN模塊中,完成對用戶節點的分類。接下來對主要模塊進行詳細說明。
1.1 特征提取模塊
在CDR元數據中,包含電信用戶通訊行為的原始字段數據。這些數據離散程度較高,無法直接用于分析和建模,因此需要進行特征工程提取。然而,特征提取過程中存在兩個主要問題:
1)不同維度的數據量級可能不一致,可能導致數據的偏態分布問題,從而影響分類檢測的魯棒性。
2)同一維度的數據可能不服從正態分布,數據之間差異較大。
為了解決上述問題,本文首先對數據進行特征變換,采用Yeo-Johnson變換以提高數據的正態性、對稱性和方差一致性。隨后,對數據進行歸一化處理,將每一維度的數據縮放到相同的尺度,避免極端值的影響,從而提高模型性能并降低計算成本。
本文將元數據的特征提取過程分為兩大類:
1)用戶行為特征:直接從數據集中提取用戶的消費行為、App使用流量、呼叫行為、通話偏好等,共計24維特征。具體字段名稱見2.1實驗部分。
2)統計特征:對每個維度的行為特征進行統計分析,計算中位數、平均數、總和、方差、偏度、標準差和分位數等,生成額外的特征維度。對于包含M個維度的元數據集D,可以統計每一個節點在第K 維度上的統計特征,生成特征向量,其表示公式為:
2 實驗及分析
2.1 實驗數據
本文實驗采用了2020年四川省大數據中心組織的首屆四川省人工智能創新大賽發布的關于電信詐騙用戶檢測的公開數據集,由運營商進行脫敏處理后發布。數據集包含了四川23個城市的 6106個電信用戶在 2019年8月至2020年3月期間的真實CDR數據,其中包括4144個正常用戶和1962 個涉詐用戶。
數據集包含 4個子集:應用使用記錄(App) 、短信記錄(SMS) 、語音記錄(VOC)和消費記錄(USER) 。各類數據字段不同,以語音記錄(VOC)為例,包含用戶的語音通信對象、呼叫類型、通話時長、對方市縣以及設備的國際移動設備識別碼。
數據集中包含的數據字段如表1所示。
上述內容均為用戶的行為特征,對這些元素字段進行統計后生成用戶的統計特征。本文對每一個節點最終使用了55維的特征表示。
2.2實驗設置
實驗環境:操作系統為 Ubuntu 20.04,編程語言為 Python 3.8,深度學習框架為 PyTorch 1.11.0。硬件配置包括 RTX 3090顯卡和14核 Intel Xeon Platinum8362 CPU @ 2.80GHz的服務器。
模型參數設置:在模型訓練過程中,設置了兩個Res-Attention GCN模塊,每個模塊包含 2層GCN,節點嵌入維度設為 16。學習率設定為0.01,dropout率為0.01,優化器采用 Adam 算法。對特征選擇進行了優化,從 55維特征中選取了與詐騙檢測最相關的8類主要特征,用于圖的重建。相似度閾值設置為0.2,該值通過多次實驗驗證,能夠在保持圖連通性的同時避免過多噪聲邊的引入。最終構建的圖包含6106個節點,平均節點度為136.33。
2.3基線對比方法
對比的基線方法主要是目前使用較為廣泛的圖神經網絡方法,包括 Play2vec、Care-GNN、GCN、GAT和BTG。
基線模型一:Care-GNN[10]:與強化學習相結合的圖神經網絡模型。
基線模型二:Play2vec[11]:基于元路徑的異質圖神經網絡。
基線模型三:BTG:一種端到端的稀疏圖分類模型。
基線模型四:GCN:基礎的圖卷積神經網絡,采用三層網絡架構。
基線模型五:GAT[12]:基于圖注意力的圖神經網絡。
2.4實驗結果
評價指標:本文采用了5個評價指標用于實驗效果評價,分別是AUC、精度、召回率、準確率以及F1值。主要公式表示如下:
式中:FP為負樣本中被分類器錯誤預測為正樣本的個數;TN為正樣本中被分類器正確預測為負樣本的個數;FN為負樣本中被分類器正確預測為負樣本的個數;TP為正樣本中被分類器正確預測為正樣本的個數。為了更加全面地評估本文所采用的模型框架,實驗采用了訓練集比例分別為 10%、20%、40%、60%時的模型測試結果,最終的實驗結果見表2。
從表2可以看出,本文提出的模型在不同訓練集比例下的各項指標均優于對比模型。在訓練集比例為60%時,本文方法的AUC達到0.9442,F1值達到0.8842,表明模型具有較高的檢測準確率和較好的穩定性。
與其他基線模型相比,本方法的優勢主要體現在以下方面:
1)殘差連接的引入:增強了模型的深度學習能力,緩解了過度平滑問題。
2)自注意力機制的應用:提高了特征聚合的精確性,能夠自適應地分配鄰居節點的權重。
同時也注意到,所有模型的召回率相對較低,這可能是由于數據集中類別不平衡所致。未來可以考慮采用數據平衡技術或代價敏感的學習方法來進一步提高召回率。
2.5消融實驗
為了評估殘差模塊和自注意力模塊對模型性能的影響,分別將這兩個模塊從原始模型中移除,進行了兩組消融實驗,并與原始模型進行了比較。實驗均采用訓練集60%比例進行訓練,實驗結果如圖3所示。
實驗結果顯示,移除這兩個模塊后,模型的整體性能下降較為明顯。去除殘差模塊后,準確率、召回率、精確率和F1值分別下降了2.06%、2.54%、1.71%、2.04%。這說明保留節點原始的特征信息流的確是必要的,沒有殘差連接,網絡的特征傳播會受到一定限制,且在圖卷積層數增加后表現不夠穩定。同時,去除注意力模塊后,指標分別下降了1.76%、3.37%、1.58%、2.33%。這表明圖注意力機制能夠考慮不同鄰居節點特征對中心節點檢測的重要性差異,從而提高特征聚合的精度。
3 結束語
本文提出了一種基于殘差連接和自注意力機制相結合的圖卷積神經網絡模型,用于電信網絡詐騙用戶的檢測。通過特征提取和鏈路預測,構建了稠密的圖結構,成功解決了原始數據稀疏的問題。引入殘差連接增強了模型的穩定性,結合自注意力機制提升了特征聚合的精度。實驗結果表明,所提方法在F1值等指標上均優于多個基線模型,驗證了模型的有效性和優越性。
該模型在電信詐騙檢測任務中的表現,尤其在高維稀疏數據場景下,展示了出色的識別潛在詐騙用戶的能力,具有較強的實際應用價值。同時,模型設計合理,具備進一步推廣應用的潛力。
未來的研究中,可以針對數據的稀疏性和類別不平衡性,進一步優化模型,例如:
1)數據增強:通過生成合成樣本或使用數據重采樣技術,增加正負樣本的數量,提升模型的泛化能力和魯棒性。
2)模型結構優化:探索更復雜的圖神經網絡架構,如引入圖自編碼器或變分圖自動編碼器,提升模型的表達能力。
3)實時應用:研究模型在實際公安系統中的應用,結合用戶行為的實時數據進行動態更新和預警,提高對新型網絡詐騙的檢測能力。