999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶通話行為的金融類電信網絡詐騙建模分析方法

2021-09-09 07:08:58時鎮軍
江蘇通信 2021年4期
關鍵詞:特征用戶

時鎮軍

中國移動通信集團江蘇有限公司

0 引言

近年來,電信網絡詐騙案件高發多發。電信網絡詐騙是指通過電話、網絡和短信等方式,編造虛假信息,設置騙局,對受害人實施遠程、非接觸式詐騙,誘使受害人轉賬的犯罪行為,通常以冒充他人及仿冒、偽造各種合法外衣和形式的方式達到欺騙的目的。其中,貸款、代辦信用卡等金融類電信網絡詐騙案件在全部電信網絡詐騙案件中占比較高,且呈現高發態勢。本文提出一種對金融類詐騙案件涉案號碼的用戶通話行為特征提取分析和建模的方法。該方法利用大數據挖掘技術、AI機器學習/訓練、大數據關聯分析等技術,深度抽象行為特征和算法,構建基于大數據分析的模型,并最終通過模型實現對用戶通話話單的自動化比對分析,及時將涉嫌進行金融類電信網絡詐騙號碼檢出和迅速處置,對降低用戶受到電信網絡詐騙的侵害、減少案發率有顯著效果。該模型結合專家經驗和對數據的深度分析,對通話特征進行多維度采集,模型檢出效果更準確,同時降低誤判率。通過使用機器學習算法提升異常樣本的適應性,模型生命周期更長,以應對詐騙分子手段多變的特性。

1 建模數據來源

所有電話通信詐騙都會產生相應的通話話單,因此從通話話單著手,對涉案號碼進行通話特征的提取分析是一種準確有效的建模分析方法。本文數據源主要包括信令話單(O域話單)、計費話單(B域話單)、B域用戶基本信息、其他數據(12321舉報平臺不良號碼信息、公安涉案不良號碼信息等)。

本文通過提取用戶話單中的關鍵字段信息,結合金融類電信網絡詐騙涉案號碼話單的通話行為特征進行建模分析,并通過模型實現對疑似涉詐號碼的自動化檢出。同時結合12321平臺和公安方面接收到的新舉報金融類涉案號碼,不斷對模型進行迭代訓練和調整,使得模型檢出效果不斷提升。

2 建模分析方法

2.1 模型構建方法

2.1.1 模型構建流程

電信網絡詐騙檢測模型從詐騙對抗的角度出發,圍繞涉案詐騙分子的通話行為建立詐騙事件分析模型。建模采用機器學習和大數據分析方法,基于知識庫數據如黑白號碼、可疑號碼、可信號碼等特征數據,對通話行為如號碼行為特征、號碼活躍特征、通話行為事件流特征、通話地域特征等進行分析,從而在海量通話話單中找出其中的疑似電信網絡詐騙號碼。

模型構建流程如下:

(1)根據金融類電信網絡詐騙涉案舉報數據,提取舉報當天及歷史多天內的涉案號碼話單數據,并對話單進行數據清洗;

(2)從主對端占比、平均通話時長、撥打區域離散度、集中時間點、重復通話占比等維度統計涉案詐騙號碼的通話行為特征,排除詐騙樣本中表現行為與絕大部分樣本不一致的異常號碼;

(3)對比分析正常用戶及涉案詐騙號碼的通話行為特征,并建立初篩條件;

(4)基于已知的正常用戶及涉案詐騙樣本進行建模,并對模型在訓練集和測試集的效果進行評估,測試模型在實際運行中對全量通過初篩的疑似號碼的檢測效果;

(5)結合反饋結果,對模型誤判情況復盤分析,并結合新的涉案詐騙樣本進行模型調整和優化。

2.1.2 模型分析算法選擇

電信網絡詐騙事件分析算法主要采用適用性優良、精確度高、理論基礎佳、學術成果前沿的機器學習算法對通信行為模式挖掘和準確識別,常見的算法如邏輯回歸、隨機森林、支持向量機、樸素貝葉斯、梯度提升決策樹等。結合金融類電信網絡詐騙場景,本文選擇基于LightGBM(Light Gradient Boosting Machine)框架的梯度提升決策樹算法,用于金融類涉詐號碼的特征分析。LightGBM是一個實現GBDT算法的框架,該框架是一個梯度Boosting框架,使用基于學習算法的決策樹,具備更快的訓練效率、低內存使用、更高的準確率、支持并行化學習、可處理大規模數據等優勢。

基于LightGBM框架的梯度提升決策樹算法的實現流程:

說明:d,通話號碼;f,通話特征;v,通話號碼和對應通話特征的值;b,進行歸一化后的值;λ,梯度值;k,離散后的特征區間;h:累計值。

(1)對所有特征進行分桶歸一化并計算初始梯度值,如圖1和圖2所示。

圖1 對所有特征進行分桶歸一化

圖2 計算初始梯度值

(2)在訓練決策樹計算切分點的增益時,LightGBM通過計算將樣本離散化為直方圖切割位置的增益即可,時間復雜度較低,因此在運算時間效率上有很大提升。如圖3所示。

圖3 計算直方圖

從直方圖獲得分裂增益,選取最佳分裂特征并計算分裂閾值。

(3)建立根節點,根據最佳分裂特征、分裂閾值將樣本切分。如圖4所示。

圖4 分裂閾值樣本切分

(4)直方圖做差進一步提高效率,計算某一節點的葉節點的直方圖,可以通過將該節點的直方圖與另一子節點的直方圖做差得到,所以每次分裂只需計算分裂后樣本數較少的子節點的直方圖通過做差的方式獲得另一個子節點的直方圖,進一步提高效率。然后選取最佳分裂葉子、分裂特征、分裂閾值、切分樣本,直到達到葉子數目限制或者所有葉子不能分割,并最終更新當前每個樣本的輸出值。

通過上述算法對正負樣本的特征進行學習訓練,從而在面對海量特征時,有效將正常號碼和異常號碼特征進行區分,篩選出針對金融類詐騙的重要特征進行建模及模型優化。經過特征篩選最終可用于模型創建的較為重要的特征有61個,其中顯著特征有如下6個:某號碼在8天內的對端號碼歸屬地的平均對端號碼數、當天通話總時長和歷史7天日均時長的差異倍數、當天主叫通話總時長、當天主叫小時的時均主叫時長、8天中有通話行為的最早那天的通話總時長、當天主叫號碼數在8天對端號碼數中的占比。

2.2 金融類電信網絡詐騙模型顯著特征

本次建模正樣本取自2021年1-3月集團下發的金融詐騙類公安舉報號碼,共計133個正樣本,負樣本來源為江蘇移動正常用戶號碼。通過提取正負樣本關聯號碼話單,對其通信特征進行歸納分析。金融類電信網絡詐騙號碼具備如下顯著通信行為特征,可以作為模型訓練和金融類涉詐號碼檢出的重要依據。

(1)某號碼在8天內的對端號碼歸屬地的平均對端號碼數(normal:正常號碼,fraud:詐騙號碼)

圖5展示了涉案號碼和正常用戶號碼在8天中的對端歸屬地的平均對端號碼數這一特征上的分布。涉案號碼在8天中的對端歸屬地的平均對端號碼數大部分是小于正常用戶號碼的,部分正常用戶8天里對端歸屬地的平均對端號碼數高達100,而涉案號碼8天里對端歸屬地的平均對端號碼數在5個左右。

圖5 某號碼在8天內的對端號碼歸屬地的平均對端號碼數

(2)當天通話總時長和歷史7天日均時長的差異倍數

圖6展示了涉案號碼和正常用戶號碼在當天通話總時長和歷史7天日均通話時長的差異倍數這一特征上的分布。涉案號碼的當天呼叫總時長和歷史7天日均通話時長的差異倍數呈兩級分化狀態,且涉案號碼的差異倍數是大于絕大部分正常用戶號碼的。

圖6 當天通話總時長和歷史7天日均時長的差異倍數

(3)當天主叫通話的總時長

圖7展示了涉案號碼和正常用戶號碼在當天作為主叫進行通話的總時長這一特征上的分布。涉案號碼的當天主叫通話總時長高于絕大部分正常用戶號碼,而正常用戶號碼的通話時長較短,并沒有那么活躍。

圖7 當天主叫通話的總時長

(4)當天主叫小時的時均主叫時長

圖8展示了涉案號碼和正常用戶號碼在當天主叫小時的時均主叫時長這一特征上的分布。涉案號碼的主叫的時段相對更集中,每小時的總時長均值高于正常用戶號碼。

圖8 當天主叫小時的時均主叫時長

(5)8天中有通話行為的最早那天通話總時長

圖9展示了涉案號碼和正常用戶號碼在8天中有通話行為的最早那天的通話總時長這一特征上的分布。涉案號碼8天中有通話行為的最早那天的通話總時長高于正常用戶號碼。

圖9 8天中有通話行為的最早那天的通話總時長

(6)當天主叫號碼數在8天對端號碼數中的占比

圖10展示了涉案號碼和正常用戶號碼在當天主叫號碼數在8天對端號碼數中的占比這一特征上的分布。在該特征上,涉案號碼和正常用戶號碼剛好相反,涉案號碼當天主叫過的號碼占歷史8天內對端號碼的比例較高,而正常用戶號碼的分布相對比較平均。

圖10 當天主叫號碼數在8天對端號碼數中的占比

3 用戶數據篩選規則

3.1 用戶數據清洗

為了確保分析數據的準確性,需要對原始話單數據進行加工處理,包括數據清洗、數據轉換、數據關聯,不規則數據需要進行數據補齊,滿足數據的完整性和一致性。數據清洗過程需要用到數據采集組件、數據預處理組件和大數據處理組件等。

(1)數據采集組件采用分布式部署方式,能夠采集來自不同數據源的數據,并傳輸至后續模塊或直接寫入分布式存儲。

(2)數據預處理組件可實現按照一定的規則,對已采集的數據進行清洗,對無用的“臟數據”進行過濾;將不合理或者不滿足數據結構要求的數據,進行字段取值、字段類型等轉換,以滿足實際數據結構要求。

(3)大數據處理組件主要是對接大數據全域數據匯聚中心,完成數據清洗、轉換、過濾、壓縮、篩選、加密等處理與數據存儲等功能。

3.2 基于基本通話行為特征數據篩選

通過對金融類電信網絡詐騙涉案號碼歷史及當日通話話單進行提取分析,總結發現金融類電信網絡詐騙涉案號碼通話行為所具備的基本特征如下:(1)涉案號碼均有主動發起通話的行為;(2)涉案號碼前30天內有通話記錄天數的比例小于45%;(3)涉案號碼開戶天數小于425天;(4)涉案號碼歷史7天內每天通話總時長的均值小于等于1885秒;(5)涉案號碼當天通話漫游記錄在全天通話行為中的占比大于80%。

由于全省每天都會產生億級通話話單,面對如此海量通話話單,必須要對采集的當日全部用戶話單通過大數據處理組件進行過濾篩選,將不符合上述基本特征的通話話單做過濾處理,從而縮小檢測范圍,提高檢出效率。

3.3 基于異常通話特征數據篩選

通過將金融類電信網絡詐騙涉案號碼通話行為特征和正常用戶通話行為特征進行比對分析,篩選出涉案號碼的異常通話行為特征。本文對異常通話特征提取采用四分位分析法。

通過使用四分位分析法,研究發現金融類電信網絡詐騙涉案號碼的通話行為具有如下異常特征:

(1)涉案號碼歷史8天通話中的對端號碼數異常

通過對比涉案號碼和正常用戶號碼在8天內通話中的對端號碼個數特征的四分位數值和極值,可以得出涉案號碼和正常用戶號碼在該特征上具有一定差異,即涉案號碼在8天內通話中的對端號碼個數略高于正常用戶。

(2)涉案號碼當日發起主叫的對端號碼個數異常

通過對比涉案號碼和正常用戶號碼在當天發起主叫的對端號碼個數特征的四分位數值和極值,可以得出涉案號碼和正常用戶號碼在該特征上具有一定差異,即涉案號碼在當天發起主叫的對端號碼個數高于正常用戶。

3.4 檢出號碼篩查過濾

為了使模型在實際應用中真正發揮作用,在完成金融類電信網絡詐騙模型建立后,需要在生產環境中進行部署。針對經模型檢出的涉案號碼數據,需要進行再次篩查過濾,以降低模型誤判的風險。檢出號碼篩查過濾將遵循以下原則:(1)用戶所選套餐價格小于等于99元/月;(2)當天主叫歸屬于本端歸屬地和歸屬于本端所在地的占比均值小于0.1;(3)當天作為主叫發起通話的次數大于2;(4)多天內均有所聯系的號碼數量的占比小于0.1;(5)若當天作為主叫發起通話的次數小于8,則當天作為主叫發起通話的連續時間占比要大于0.5;(6)若僅當天有話單,則當天通話涉及到的號碼數量(不區分主對端)大于等于8個。僅保留同時滿足上述條件的號碼作為疑似詐騙號碼作為最終檢出號碼。

4 結束語

本文利用大數據挖掘技術、AI機器學習技術、大數據關聯分析等技術,深度抽象電信網絡詐騙涉案號碼通話行為特征和算法,建立基于大數據的分析機制,實現基于O域信令、B域話單和用戶信息等多數據源數據的清洗、整合、預處理,構建基于用戶話單的金融類電信網絡詐騙疑似詐騙號碼篩選模型,并對模型持續校驗和迭代,從用戶行為、身份、卡號屬性等多個維度進行疑似詐騙的篩選,實現對金融類電信涉詐號碼及時預警和處置。模型經部署實踐后,日均檢出疑似詐騙號碼約1500個,再經人工核查處置,江蘇移動涉案號碼舉報率持續降低,由模型部署前的日均10個降至現今的日均3.6個,降幅明顯,效果良好,有效保障了用戶的經濟財產免受電信網絡詐騙分子的侵害。后期將對模型持續迭代優化,通過比較少的硬規則條件排除絕大多數正常用戶,通過單變量異常值進一步排除正常用戶,提高模型的泛化性與適應性。

猜你喜歡
特征用戶
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 亚洲网综合| 九九这里只有精品视频| 亚洲中文在线看视频一区| 国产精品午夜福利麻豆| 永久毛片在线播| 中文字幕一区二区人妻电影| vvvv98国产成人综合青青| 国产97公开成人免费视频| 亚洲第一色视频| 无码aⅴ精品一区二区三区| 精品国产中文一级毛片在线看| 91在线精品免费免费播放| 久久婷婷国产综合尤物精品| 国产成人做受免费视频| 国产综合网站| 最新国语自产精品视频在| 亚洲视频二| 一级不卡毛片| 色婷婷电影网| 亚洲黄色高清| 久久精品亚洲热综合一区二区| 高清不卡毛片| 在线观看国产精品第一区免费 | 国产成人午夜福利免费无码r| 99热这里都是国产精品| 国产亚洲精久久久久久久91| jizz国产视频| 国产丰满成熟女性性满足视频| 成年人免费国产视频| 亚洲天堂免费在线视频| 国产视频久久久久| 国产成人精品视频一区二区电影| 色婷婷综合激情视频免费看| 免费激情网址| 美女啪啪无遮挡| 手机看片1024久久精品你懂的| 国产亚洲高清在线精品99| 国产丝袜精品| 亚洲欧美日本国产综合在线| 午夜老司机永久免费看片| 91麻豆精品国产91久久久久| 亚洲手机在线| 2022国产91精品久久久久久| 幺女国产一级毛片| 国产精品免费入口视频| 任我操在线视频| 日本亚洲成高清一区二区三区| 欧美一级99在线观看国产| 欧美日韩一区二区三| 亚洲女同欧美在线| 欧美日韩一区二区在线播放| 免费精品一区二区h| 亚洲码一区二区三区| 91久久精品国产| 天天色天天综合| 久久精品一卡日本电影| 国产特级毛片aaaaaa| 最新无码专区超级碰碰碰| 看国产一级毛片| 免费一级大毛片a一观看不卡| 欧美成人在线免费| 免费国产不卡午夜福在线观看| 亚洲欧洲AV一区二区三区| 免费国产无遮挡又黄又爽| 中文字幕无码制服中字| 国产成人高清精品免费软件| 欧美a√在线| 国产日韩精品欧美一区灰| 男女性午夜福利网站| 尤物精品视频一区二区三区| 欧美成人亚洲综合精品欧美激情| 亚洲精品自拍区在线观看| 日本欧美在线观看| 国产精品亚洲专区一区| 在线欧美一区| 熟女日韩精品2区| 青青国产视频| 日韩AV无码一区| 无码人中文字幕| 在线日本国产成人免费的| 午夜a视频| 狂欢视频在线观看不卡|