林郅睿 泮佳偉 王俊凱 唐青 夏張欽 蔡磊
摘要:隨著信息技術在我國廣泛的普及以及發展,出現了許多以電話,短信,互聯網等聯絡方式作為主要手段的詐騙犯罪現象的發生。這對信息技術在我國的健康發展產生了許多阻礙。因此,電信欺詐識別作為欺詐識別中一個重要的研究領域,它的研究對于當代社徽預防和遏制電信欺詐等違法犯罪活動,保護人們的人身財產利益具有十分重要的意義。通過對基于神經網絡的詐騙識別分類器研發的研究,能夠更好的推動信息技術在中國的發展。
關鍵詞:電信詐騙;神經網絡;分類器
1.引言
神經網絡是一種模仿動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型。這種網絡依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。,它的主要任務是根據生物神經網絡的原理和實際應用的需要建造實用的人工神經網絡模型,設計相應的學習算法,模擬人腦的某種智能活動,然后在技術上實現出來用以解決實際問題。
TensorFlow 是一款優秀的、應用廣泛的深度學習框架,表示機器學習算法的接口以及執行此類算法的實現。TensorFlow跨平臺性好,可以在三大主流的系統 Linux、Mac和 Windows 下運行。TensorFlow的核心語法包括:數據流圖、可視化的TensorBoard、會話(Session)等。其具有由谷歌開發、維護,可以保障支持開發的持續性,可以在不同的計算機上自由運行代碼,而不必停止或重新啟動程序,TensorFlow還支持強化學習和其他算法的工具。
卷積神經網絡是一種可以接受任意大小圖像并輸出與輸入等大的圖像的全卷積神經網絡),是一種多層神經網絡,擅長處理圖像特別是大圖像的相關機器學習問題。卷積網絡通過一系列方法,成功將數據量龐大的圖像識別問題不斷降維,最終使其能夠被訓練。CNN最早由Yann LeCun提出并應用在手寫字體識別上(MINST)。 LeCun提出的網絡稱為LeNet,其網絡結構如下: 這是一個最典型的卷積網絡,由卷積層、池化層、全連接層組成。 其中卷積層與池化層配合,組成多個卷積組,逐層提取特征,最終通過若干個全連接層完成分類。 卷積層完成的操作,可以認為是受局部感受野概念的啟發,而池化層,主要是為了降低數據維度。 綜合起來說,CNN通過卷積來模擬特征區分,并且通過卷積的權值共享及池化,來降低網絡參數的數量級,最后通過傳統神經網絡完成分類等任務。
2.基于神經網絡的電信詐騙識別分類器的設計
(1)模型訓練流程及用戶行為識別設計流程
通過原始的話單數據和用戶的IT信息,將輸入的數據清洗模塊,經過用戶特征圖構建處理,從而的得到的一部分特征圖作為其訓練的數據,再將該部分特征圖輸入模型構造模塊,經分類器評估模塊和模型調優模塊后得到訓練好的調優模型;另一部分特征圖作為測試數據,與調優好的模型一起輸入行為識別模塊進行行為識別,從而得到對測試數據的識別結果。在模型訓練期間的模型構造,分類器評估情況,模型調優過程都可以通過模型可視化在瀏覽器進行可視化展示。
(2)電信詐騙識別分類器的模塊設計
話單數據清洗功能模塊:用戶話單的數據清洗功能模塊主要根據用戶的原始話單數據和用戶的IT信息數據,提供處理后的數據。話單數據清洗模塊提供的主要功能包括:用戶原始話單數據清洗和用戶IT信息數據清洗
用戶特征圖構建模塊:為了便于系統使用者簡單便捷的使用上一功能模塊得到的處理好的用戶話單數據來構建用戶特征圖,從而輸入分類器進行訓練。系統設計了用戶特征功能圖構建模塊。用戶特征圖構建模塊主要將過濾好的話單數據和用戶信息數據進行聚合、合并和處理操作,從而形成可以輸入系統的特征圖。主要功能包括:時間粒度分片處理功能和構建特征圖片功能。其中構建特征圖片功能還包括六個子功能:分別為特征設計,補全缺失值,處理異常值,特征合并,特征復制處理,數據歸一化處理。用戶特征圖構建模塊的結構圖,清洗后的話單數據在以時間粒度分片處理之后,分別經過特征設計、補全缺失值、處理異常值等步驟得到的不完全的特征圖與清洗后的IT信息特征進行特征合并,再經過特征復制處理,數據歸一化處理得到最終的用戶特征圖。
分類器訓練與評價模塊:分類器訓練與評價模塊是論文分類器與評價操作功能的具體實現,通過設計卷積神經網絡的結構并進行訓練從而實現一個分類器模型,達到預測并識別用戶詐騙行為的目的。
3.電信詐騙識別分類器的交互流程設計
(1)話單數據清洗交互設計:輸入用戶特征圖的話單數據和用戶IT數據是由原始數據經過話單數據清洗得到,話單清洗的流程包括:用戶話單數據檢查,用戶屬性數據清洗。
(2)用戶特征圖構建交互設計:入分類器進行訓練的用戶特征圖是由清洗后的干凈的話單數據和用戶IT信息經過用戶特征圖構建所得到,用戶特征圖構建的流程包括:用戶話單數據聚合,構建特征圖片
(3)分類器訓練與評價交互設計:最終得到的完整模型系統是用于訓練的用戶特征圖輸入進模型構造模塊的訓練后,模型經過模型調優模塊、模型評估模塊、可視化模塊的處理得到最終訓練及優化好的模型。用于測試的用戶特征圖和訓練好的模型輸入進行為識別模塊得到對該用戶的分類預測結果。
4.數據結構設計
(1)話單數據結構設計用戶話單數據清洗中清洗的原始話單數據和原始用戶IT數據都需要進行初步持久化保存操作,以便后續對數據進行提取數據等處理時不用再次進行重復操作。而后續對話單進行合并和聚合需要有完整而良好的數據結構。實驗所需數據量決定數據初步存儲在硬盤和內存中,不需要使用關系型數據庫。測試服務器基于Linux操作系統,Python3的系統上運行基于卷積神經網絡的電信詐騙識別系統,包括數據清洗、特征幀構建、模型訓練、行為預測等一系列核心邏輯統一部署運行在上面。可視化模塊進行展示,需要使用Termianal終端命令行開啟可視化模塊,同時提供Chrome、Firefox等瀏覽器展示來進行測試。數據表中時間段都有對應的話單數據信息,對于大量的一行中有部分數據缺失的情況,單純用0補全,顯然會大大影響最終分類效果的客觀性和準確性,因此我們考慮使用線性插值補全技術。常用的線性插值補全技術主要有均值/中位數/眾數法、固定值處理法、回歸方法、插值法、滑動平均法等等。
(2)模型分類過程使用到的技術
本課題為了能在電信詐騙識別的訓練模型上有良好的識別分類效果,不僅僅希望只通過單個特征來進行分類,還希望能夠發現話單各種特征間的相關關系。基于SVM的分類方式,基于決策樹的分類方式等傳統機器學習手段,是通過某一特征直接分類,無法達到發現特征間相關關系的效果。而卷積神經網絡的局部感知野善于發現圖片的局部特征,可以通過訓練學習發現人們從肉眼觀察難以識別到的特征間相關關系,從而提升分類效果,因此本課題使用卷積神經網絡來作為深度學習的主要網絡結構。絡結構作為啟發結構并進行優化同時進行系統構建。
5.結束語
綜上所述,基于神經網絡的詐騙器的研發與研究在實際的生產生活中能夠發揮巨大的效益,能夠對于當下電信找詐騙泛濫的問題得到很好的解決,對于未來相關的技術提出了一個很好的發展方向,能夠在今后的對于這些如今存在的電信詐騙的行為做出很好的約束力,從而為最終解除這一犯罪現象打下充滿建設性的一步。
參考文獻:
[1]郭磊 等.基于行為特征識別的網絡詐騙嫌疑人追蹤系統.信息網絡安全,2014,(1)
[2]周林妹 .基于數字媒體技術的電信網絡詐騙系統防范研究. 現代信息科技,2019,3(6)
[3]柯家龍 等.基于高價值域名的詐騙網站識別深度學習系統.江蘇通信,2021, 37(2)
林郅睿:衢州學院2020級物聯網工程技術專業本科學生。資助項目:國家級大學生科技創新項目(項目編號:023220025、023220026);國家級大學生科技創新項目(基于神經網絡的詐騙識別分類器研發);衢州學院大學生科技創新項目(項目編號:Q20X034)。