999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

時空圖表征與規則特征多層融合的電信網反詐防騷擾機制

2024-12-28 00:00:00葉蘊芳林恪林華輝
中國新通信 2024年22期

摘要:目前,在防范打擊電信網絡騷擾詐騙領域,對騷擾和詐騙的在線判定,要么是基于業務經驗并結合統計分析的規則識別方法,要么是利用對特征信息庫進行標簽學習訓練得到的分類器模型。單一領域的傳統模型分析效果已無法滿足新形勢下的模型精度要求。在此背景下,本文提出時空圖表征與規則特征多層融合模型及基于該模型構建的電信網反詐防騷擾分析機制。該集成模型跳出單域分析框架,挖掘多源異構大數據深度特征,具有穩定性強、識別精準率高、可兼容小樣本學習場景、能進行自適應優化等特征。

關鍵詞:電信詐騙;時空圖模型;多層融合

近年來,隨著國家加大對電信詐騙的打擊力度,反詐工作取得了一定成效。然而,利用通信網進行電話詐騙的不法團伙不斷變換新手法、利用新工具規避打擊,其詐騙行為呈現出跨境、跨網、跨行業的體系化、立體化的特點?,F有的電詐治理方案已無法應對新型詐騙手段。在此背景下,本文將提出一種基于時空圖表征與規則特征多層融合的電信網反詐防騷擾機制。

一、整體架構

圖1描述了反詐防騷擾分析與管理處置平臺的主要架構,其主要由反詐知識庫、反詐分析機制和自適應管理3個模塊組成,以及時識別和推送詐騙、騷擾號碼為目標。

這些模塊實現了從多源異構數據源引入、詐騙和騷擾號碼樣本輸入、預測結果推送到推送內容反饋的反詐、防騷擾的全生命周期管理流程。同時,系統平臺通過引入多類、多維度數據源,智能梳理過濾呼叫行為、短信行為、上網日志、位置特征等多種信令數據,定時定點分析挖掘通信信息詐騙的內容特性和手段特征,實現詐騙事件檢測、關聯、用戶群分析,及時阻止通信信息詐騙事件的發生。在此基礎上,基于綜合分析,系統平臺具備詐騙態勢感知與預警能力,能夠分析詐騙電話的時空分布、熱點趨勢,可提供疑似被騙用戶的區位分布、受騷擾等級等相關信息。

(一)反詐知識庫的構建

反詐知識庫包括詐騙騷擾黑號碼庫、白名單號碼庫、多類維度表、驗證反饋結果和模型推送結果五個模塊。其中,構建詐騙騷擾黑號碼庫和白名單號碼庫的主要目的是對號碼庫進行分類管理和分類研究等。構建多類維度表的目的是積累在原始數據基礎上進行衍生的指標特征,形成可復用的指標體系,提升數據使用效率。構建模型推送結果和驗證反饋結果的目的是對反詐分析結果進行跟蹤記錄,便于溯源反查和對反詐防騷擾機制進行優化升級,是串聯反詐分析機制和自適應管理模塊之間的橋梁。

(二)反詐分析機制

反詐分析機制包括數據預處理及特征工程、建立反詐分析模型、定時推送結果3個流程。數據預處理及特征工程是為了獲取高質量、適合分析的數據,在數據清洗的基礎上,提取多通道數據源、多時間維度特征與表征,實現對不同數據源的關聯,生成全量數據特征寬表。通過離線模型訓練,生成多種識別模型,如通過集成學習,完成對詐騙、騷擾號碼的識別;通過在線識別,完成對多標簽的詐騙、騷擾號碼和自然人的定時推送。

(三)自適應管理模塊

根據反詐分析機制的推送內容,實現反詐防騷擾處置平臺的自適應管理工作,即對反詐知識庫的定時、定期更新,同時優化反詐分析機制,具體包括基于反饋結果的模型在線自優化、知識庫定時定期更新、新場景增量學習和舉報amp;復機號碼反查。

二、多源異構大數據一體化及機器學習路徑

傳統電信詐騙識別往往局限于單域分析,如一個策略/模型只基于短信域或通話域進行預測。隨著詐騙手段的升級和新型詐騙模式的不斷產生,單域分析已不能滿足目前的詐騙防范需求。特別是隨著5G的發展,詐騙案件的發生場所也逐漸由電信網轉變為電信網+互聯網。本文在傳統單域分析的基礎上,綜合考慮詐騙情景和事件流模式,創新地構建了由短信單域觸發再關聯至通話域和上網域的融合分析流程,包含短信內涉詐網站與上網日志的關聯、短信內涉詐號碼與通話信令的關聯、詐騙受害人號碼與轉賬記錄的關聯,從而實現對多源異構大數據的一體化分析。

(一)多源異構大數據關聯

在分析多源異構大數據前,需要進行數據關聯。通常選用IMSI、號碼進行關聯。除此以外,在以自然人為分析目標的情況下,也會使用相應的用戶ID或終端編碼IMEI進行關聯。

(二)數據預處理

1.數據清洗

由于多源異構數據來源眾多且數據結構不一致,在使用這些數據時,還需要進行針對性的數據清洗工作。

2.缺失值處理

首先,將影響數據有效性的關鍵字段的數據缺失記錄直接刪除。例如,對IMEI和MSISDN等字段缺失的記錄予以刪除。其次,根據字段缺失值比例,以從低到高的順序,按照含缺失值的字段是否缺失對數據集進行分類,使用隨機森林來填補缺失值[1]。

3.數據一致化

由于多源異構數據來源眾多,數據接入時間存在差異,導致數據之間存在矛盾。對符合實際邏輯且可推斷的數據予以一致化處理。

(三)樣本選擇

從分析目的出發,將號碼區分為黑樣本(也叫目標樣本)與白樣本,其中,選擇有詐騙標記、騷擾標記的號碼作為黑樣本。將數據集按照7:3的比例分為訓練集與測試集,訓練集用來估計模型,測試集檢驗模型的性能。

(四)特征工程

根據信令指標進行指標值計算,包括基礎指標與衍生指標。主要是基于主叫號碼、被叫號碼、呼叫頻次、呼叫時間間隔、振鈴時長、通話時長等統計指標,計算其平均值、極值、標準差等,并結合24小時、12小時、忙時和閑時等時間粒度,最終獲得衍生指標。結合號碼標簽與所有的特征值,形成初步數據寬表。

(五)特征選擇

結合相關性、重要性等指標進行篩選,保留顯著性高的指標,形成最終的數據量表,然后進行下一步的算法建模。離線學習過程中所需的信令指標較多,一般會用全量可用指標計算。篩選指標后進入算法建模,當模型結果欠佳時,依然會重返這一步驟,重新進行指標篩選。

(六)模型訓練與優化

利用隨機森林、LightGBM等多種樹類算法進行算法建模,通過調整算法超參數優化模型提升效果。在驗證結果的基礎上,通過重復迭代指標篩選與算法建模的過程,尋找模型超參數最優解。當模型達到最優后,輸出模型,實現在線識別。

三、結合用戶自然人特征的實時動態時空圖檢測模型

由于靜態圖卷積識別出的呼叫行為時間規律過于單一,本文提出了時空圖模型。首先,將原始通信網絡按照通話時間區間劃分成若干張子圖,并將這些子圖按照主叫節點對齊,構成時空圖結構。其次,使用圖卷積的方法提取空間維度的信息,再使用遞歸神經網絡提取時間維度的信息,從而動態捕獲號碼呼叫行為的變化,精準識別詐騙號碼。此方法的原理是,沿著時間軸將單個指標拆分成多個指標,再使用這些指標的非線性組合作為深層特征去識別有害的呼叫行為。同時,通話特征的提取和二階鄰居節點的搜索是在各張子圖內部獨立進行的,因此也可以較為方便地實現并行化。以時空圖模型為基礎,結合用戶自然人特征進行實時動態檢測:從用戶號碼出發,通過簽約屬性確定真實自然人,并以自然人為目標用戶,綜合利用目標用戶在不同時間段內自身的特征信息(時間信息)、網絡中與其發生通話關系的鄰居用戶的特征信息(空間信息),以及已有的人工標注,訓練一種基于動態圖的實時檢測模型[2],實現對有害呼叫的精準識別。然而,在實際研究過程中,考慮到圖的規模極為龐大,使用鄰接矩陣的方法進行圖卷積是不現實的,所以,本文將圖卷積的過程提前到特征提取階段進行。

針對正負樣本嚴重不平衡的情況,本文嘗試通過采樣方法[3]提升每個負樣本的平均訓練次數,并采用Focal Loss損失函數[4]作為解決方案。針對模型存在輕度擬合的情況,采用Drop Out機制緩解。時空圖模型所提取的特征是節點的特征,而同一個節點可以在不同子圖中重復出現。為了在無標簽數據集上表現出更穩健的效果,在劃分訓練集和測試集的過程中,本文沒有使用簡單的隨機劃分,而是先對節點做隨機劃分,將屬于該節點的所有樣本都分到同一個數據集中。這種做法雖然增大了模型分類的難度,但可以保證模型的穩定性。

四、多層融合技術集成機器分類規則與深度表征特征

經過多重集成方案的對比驗證,最終確定在Stacking方法[5]的基礎上提出多層特征融合結構,從而在精度和性能兩個方面達到預期效果。基于時空圖模型得到的表征特征和機器學習模型的規則化特征,利用投票法、加權投票法、特征融合后使用隨機森林或者神經網絡進行分類,以及在Stacking方法基礎上構建的多層融合模型等五種方法,來確定最終的分類結果。圖2展示了集成方法的效果對比。其中,效果比較理想的是多層融合的方法。在該方法中,第一層包含三個子模型,子模型的輸入分別由時空圖模型的隱狀態向量、文本模型的詞向量以及規則匹配向量兩兩拼接而成。分類器以簡單分類器為主。從實際結果來看,隨機森林的效果最佳,但是要將層數限制在8~10層左右,葉子節點樣本低于1%,從而避免過擬合;Logistic回歸的效果最差,SVM的時間消耗非常大,因此,這兩種分類器沒有被采用。子模型的訓練過程采用K-fold交叉驗證法,在K=3時總共得到9個預測結果。這些預測結果將作為第二層主模型的輸入值。主模型采用的是包含單個隱藏層的普通神經網絡,同樣采用K-fold交叉驗證確保效果。這一層的特征數量相對較少,且參數過多容易導致過擬合,所以沒有使用更為復雜的深度神經網絡。

五、基于反查機制的模型自優化學習框架

反查是指重新查詢舉報號碼、驗證號碼的簽約屬性、識別號碼的呼叫行為特征等,目的是還原多渠道號碼的電信行為特征,并相互進行關聯,為模型優化提供樣本。本方案重點針對識別錯誤的模型推送號碼,重新訓練模型,矯正模型偏移;同時,針對舉報號碼中未命中的號碼,制定快速響應增量學習方案。其中,針對輕量級的機器學習模型,采用在線模型重新訓練的方式,實現自優化。而針對深度學習或體量較大的模型,則采用在生產模型的基礎上更新模型的增量學習方法。

六、結束語

本文提出的多源異構大數據一體化分析方案,更加立體地刻畫了詐騙案件的整體流程和情景,一方面增加了詐騙案件識別的準確率,另一方面為研究詐騙模式、詐騙趨勢提供了全面材料。本方案結合號碼反查的模型優化機制,實現系統識別閉環。針對模型老化及新型詐騙、騷擾號碼等問題,構建了一種對舉報樣本號碼及推送反饋號碼的反查機制,實現系統在線優化模型并對未識別號碼進行增量學習的系統閉環。這種方法可以快速適應行為變化,調整模型的識別偏差,同時,盡可能地降低了模型的訓練成本,最大化提升了模型的更新周期,能夠快速發現新型詐騙、騷擾行為,并拓展模型識別范圍。

作者單位:葉蘊芳 林恪 中國移動通信集團福建有限公司

林華輝 中國移動通信集團福建有限公司泉州分公司

參考文獻

[1] 張曉琴,程譽瑩.基于隨機森林模型的成分數據缺失值填補法[J].應用概率統計,2017,33(01):102-110.

[2] 朱威,繩榮金,湯如,等.基于動態圖卷積和空間金字塔池化的點云深度學習網絡[J].計算機科學,2020,47(07):192-198.

[3] 李艷霞,柴毅,胡友強,等.不平衡數據分類方法綜述[J].控制與決策,2019,34(04):673-688.

[4] 陳永明,戴穎超.基于Focal Loss的GBDT改進分類算法研究[J].機電技術,2020(03):32-67.

[5] 徐繼偉,楊云.集成學習方法:研究綜述[J].云南大學學報(自然科學版),2018,40(06):1082-1092.

主站蜘蛛池模板: 亚洲精品成人福利在线电影| 全部免费毛片免费播放 | 亚洲国产中文精品va在线播放 | 欧美日韩亚洲综合在线观看| 一级全黄毛片| 国产麻豆福利av在线播放| 久久99精品国产麻豆宅宅| 97狠狠操| 国产福利微拍精品一区二区| 99久久无色码中文字幕| 在线不卡免费视频| 欧美精品不卡| 大陆精大陆国产国语精品1024| 蜜桃视频一区二区| 亚洲国产成人精品一二区| 国产成人免费| 国产精品天干天干在线观看| 国产在线麻豆波多野结衣| 国产精品第一区在线观看| 超清无码熟妇人妻AV在线绿巨人| 露脸国产精品自产在线播| 999福利激情视频| 久久永久视频| 色综合日本| 一区二区三区国产| 国产精品制服| 免费国产一级 片内射老| 国产成人精品综合| AV老司机AV天堂| 欧美日韩久久综合| 真实国产乱子伦高清| 国产精品大尺度尺度视频| 亚洲国产精品无码久久一线| 日本a∨在线观看| 亚洲国产无码有码| www亚洲天堂| 成人自拍视频在线观看| 第一页亚洲| 免费全部高H视频无码无遮掩| 国产乱人激情H在线观看| 热久久国产| 成人亚洲天堂| 亚洲性网站| 91在线一9|永久视频在线| 乱人伦视频中文字幕在线| 在线观看精品国产入口| 久久成人18免费| 国产精品开放后亚洲| 制服丝袜一区二区三区在线| 99人妻碰碰碰久久久久禁片| 最新国产你懂的在线网址| 国产 日韩 欧美 第二页| 极品国产一区二区三区| 亚洲成aⅴ人在线观看| 成年A级毛片| 丰满的熟女一区二区三区l| 亚洲精品国产日韩无码AV永久免费网 | 九九九九热精品视频| 综合色在线| 中字无码av在线电影| 欧美另类精品一区二区三区| 国内精品视频| 亚洲成人福利网站| 国产91线观看| 91成人免费观看在线观看| 亚洲av色吊丝无码| 88av在线看| 欧美中文一区| 精品一区二区三区自慰喷水| 国产一级妓女av网站| 蜜桃视频一区二区| 毛片网站在线播放| 啪啪国产视频| 综1合AV在线播放| 亚洲一区二区成人| 91福利国产成人精品导航| 曰韩免费无码AV一区二区| 黄色三级毛片网站| 热思思久久免费视频| 国产91精品最新在线播放| 欧美一级在线看| 综合人妻久久一区二区精品 |