999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖神經網絡在12306黑產用戶挖掘的研究

2022-08-02 01:40:58郝曉培朱建生單杏花
計算機技術與發展 2022年7期
關鍵詞:特征用戶模型

郝曉培,朱建生,單杏花

(中國鐵道科學研究院,北京 100081)

0 引 言

高速鐵路以及鐵路信息化技術的快速發展,為旅客的出行、購票等提供了極大的便利。目前鐵路12306互聯網售票系統售票量占全渠道的80%以上,日均售票量超過千萬,已成為全球最大的票務系統。然而節假日運力資源緊張,旅客“一票難求”的情況依然存在,從而衍生出一批線上黃牛利用互聯網法律法規不健全的漏洞以及高效的云資源,囤積大量黑產賬戶進行搶票、囤票、倒票等不正當的方式謀取利益。為了維護客運購票場景的公平公正以及系統的安全穩定,客運團隊研發并上線了風控系統,采用實時行為分析以及基于行為特征進行有監督的用戶分類的方式,識別出了大量的異常購票行為,進行不同策略的卡控,取得了明顯的效果。不僅僅在鐵路客運,其他互聯網行業也存在黑產用戶非法活動,故國內外針對黑產用戶識別進行了大量的研究。在用戶個體特征領域,周亮謹等人[1]基于購票流程中主要購票行為為用戶特征,基于樸素貝葉斯分類算法構建行為分類器,實現異常用戶識別,運行效率和準確率均滿足需要。Moh等人[2]構建Twitter用戶的相關特征,構建特征矩陣計算用戶信任度,從而識別異常用戶。在社交網絡領域,宋艷紅[3]利用G-N社區發現算法以及粗糙集理論計算用戶特征權重以及特征信用值,并構建用戶可行度,從而識別異常用戶。Din I U等人[4]基于社交網絡自身的拓撲結構,對類似社交網絡中的異常郵件進行識別。仲麗君等人[5]介紹了當前基于社交網絡進行異常用戶識別的方式,包括分類、聚類、統計、信息論、混合、圖等六大類,并對各類方法進行了對比。

基于個體特征的異常用戶識別,忽略了個體間的社會關系,無法完整描述用戶特征,社區發現也只關注局部的拓撲結構,沒有很好利用每個節點的語義信息,均存在一定的局限性。為了進一步完善用戶特征表示,該文在研究鐵路客運售票業務的基礎上,構造了旅客個體特征以及社交關系網絡,利用圖神經網絡充分融合個體特征及社交關系特征,構建特征向量,以提高識別異常用戶的準確率。

1 黑產用戶識別模型總體方案

為了提高黑產用戶識別準確率,該文提出了一種基于旅客個體特征及旅客社交關系的黑產用戶識別模型,其總體流程如圖1所示。

圖1 模型總體方案流程

主要包括特征構建、圖嵌入向量表示以及黑產用戶識別等。

(1)特征構建。

圖數據中同時包含兩部分信息:實體特征屬性和實體之間的關系[6]。其中屬性信息描述圖中個體節點的固有特征,對應鐵路旅客的出行及購票特征;結構信息描述了個體之間的關聯性質,對應鐵路旅客之間的購票關系以及同行關系[7]。

綜合考慮鐵路購票系統以及其他出行服務數據的復雜性、多樣性以及安全性,實現了對不同系統,不同類型數據進行獲取、轉碼、清洗、入庫、關聯等處理,從時間、空間等兩個維度構建用戶特征體系[8]。

鐵路旅客之間的購票關系以及同行關系代表了鐵路旅客的社交關系,通過分析具有鐵路同出行社交關系的旅客具有相似度較高的出行特征,比如:常駐地、出行目的等,同時旅客的特征除了跟自身的購票及出行特征有關之外,還與其有同行關系或購票關系相關的旅客特征有關系,這里基于鐵路購票及出行社交關系構建旅客社交關系網絡,如圖2所示。

圖2 關系網絡構建

(2)圖嵌入向量表示。

基于旅客個體特征以及關系網絡生成的數據組成了非歐氏數據集,無法采用傳統的方式進行處理,而圖神經網絡是針對典型的不具備規則空間結構的非歐氏數據類型進行深度學習而發展起來的,可以挖掘出節點之間的關系特征[9],故這里采用圖神經網絡對旅客特征進行處理。其主要采用一定的方法對旅客社交網絡中的旅客節點進行向量表示,隨著節點自身特征、鄰居節點的特征的更新以及圖形拓撲結構的變化得到最終的表示向量,該特征向量保留原始圖的結構和節點屬性信息。

(3)黑產用戶識別。

該文主要采用無核二次曲面支持向量機作為黑產用戶識別模型,該模型可在原空間中使用非線性二次曲面對樣本進行直接分類,避免了核函數結構以及參數的選擇,提高了模型的效率及可用性,該模型將圖嵌入向量成特征向量作為樣本的輸入,實現黑產用戶識別。

2 基于圖神經網絡的特征向量表示

本節主要基于旅客個體特征及關系網絡通過圖神經網絡模型進行特征向量表示。其核心思想是通過學習一個對鄰居頂點進行聚合表示的函數來產生目標頂點的embedding向量[10]。

(1)算法流程。

目前鐵路12306互聯網售票系統已有6億注冊用戶,每年出行人次達到30億,購票及同行關系復雜,其旅客社交網絡組成了規模較大的圖數據,其子圖的節點數存在呈指數級增長的問題,同時也存在部分度非常大的超級節點,導致進行全圖訓練的時間代價、計算代價以及存儲代價不可控。為了解決該問題,該文針對GraphSAGE[11]模型進行訓練,該模型從聚合鄰居節點操作出發,對鄰居節點進行抽樣以控制實際運算節點的規模,同時防止鄰居節點隨機采樣導致局部信息丟失。增加了特征初始化操作,以降低信息丟失率,其主要訓練過程如下:

算法:改進GraphSAGE算法主要流程。

Input:樣本集B;圖G=(V,E),其中V代表用戶節點集合,E代表節點之間的關系;層數K;權重矩陣L(k),?k∈{1,2,…,k};非線性函數σ;聚合函數Agg(k);鄰居采樣函數N(k):v→2v,?k∈{1,2,…,k}

Output:輸出所有節點的特征向量zv,k∈B

1.fori=1…Ndo

2.forj=1…bihdo

4. end

5.end

6.B(k)←B

7.fork=K…1 do

8.B(k-1)←B

9. foru∈B(k)do

10.B(k-1)←B(k-1)∪Nk(u)

11. end

12.end

14.fork=1…Kdo

15.foru∈B(k)do

19. end

20.end

(2)特征值初始化。

如上述算法所示,為了防止對鄰居節點采樣導致局部信息丟失,算法的1~5行,遍歷每一個節點,提前將節點的特征向量與它所有的鄰居節點的特征向量按照固定的權重進行線性組合,使得每一個節點初始狀態下已經包含周圍鄰居節點的一些信息,從而在采樣初始階段保留部分局部信息。

(3)鄰居節點采樣。

算法的6~12行,首先遍歷出樣本集B內參與中心節點聚合操作的所有k階子圖,并在這些節點上進行K次聚合操作的迭代運算,基本思路是:要獲得某個中心節點第k層的特征,需要對第k-1層的鄰居進行采樣,接著對k-1層的每個節點采樣其k-2層的鄰居節點,不斷循環,直到采樣完第1層的所有鄰居位置。

(4)聚合操作。

算法的13~20行主要是對鄰居節點進行聚合操作,其中第15行通過聚合函數對每個節點的鄰居節點特征進行聚合,接著第16行對聚合后的鄰居特征與中心節點的上一層特征進行拼接,輸到單層網絡中獲得中心節點的特征向量,最后對計算好的特征向量進行歸一化處理,以保證所有節點向量在相同的單位尺度上。

(5)參數學習。

該文主要采用無監督學習,即節點與其鄰居具有類似的特征標識,沒有直接相連的節點特征標識相差較大,損失函數如下:

(1)

其中,Zu表示節點u的圖特征向量表示,v表示u節點的鄰居節點,σ指的是sigmod函數,表示樣本數,vn~Pn(v)表示負樣本數。

3 基于二次曲面SVM模型的黑產用戶識別

本節以圖嵌入向量表示生成的特征向量為輸入,利用無核二次曲面支持向量機[12]以實現黑產用戶識別,該算法基本原理如下:

(1)模型輸入。

(2)模型輸出。

(2)

其滿足分類曲面g(z)=0可以將黑產用戶與正常用戶分開。

(3)優化函數。

(3)

故二次曲面支持向量機優化問題可以表示為:

(4)

(4)決策函數。

該模型的目標是將所有的正常用戶樣本點分布在g(z)=1的外側,黑產用戶在g(z)=-1的外側,并最大化所有樣本到分類曲面的相對幾何距離,其對應的分類所測函數為:

f(x)=sign(g(z))

(5)

假設參數最優解為:W*,b*,c*,則最終分類決策函數為:

f(x)=sign(ZTW*Z+b*TZ+c*)

(6)

4 實驗及結果分析

本模型基于目前鐵路客運固定時間段的生產數據作為原始數據,構建用戶基礎特征以及關系網絡。面對海量的交易信息,實驗主要采用Spark進行基礎特征處理,Spark GraphX[13]進行關系網絡構建,最后基于Spark實現GraphSAGE以及支持向量模型。

4.1 實驗數據及預處理

該文主要解決的是二分類問題,將黑產用戶用-1表示,正常用戶用1表示。以現有的風控策略以及鐵路客運用戶畫像系統為基礎,隨機抽取100個正常用戶以及100個黑產用戶作為種子樣本,以整個旅客關系網絡為基礎,擴展出100萬個樣本作為測試數據,其中正常用戶897 813,黑產用戶102 187。為降低模型復雜度,主要挑選了11個基礎特征,如表1所示,并對跨度較大的特征進行歸一化處理。

表1 旅客個體特征

首先將100萬樣本數據按照1∶9分為兩部分,其中90%作為訓練集,10%作為測試樣本,以驗證模型的好壞。同時為了排除不同訓練子集帶來的統計誤差,采用k折交叉驗證(k-fold-cross-validation)方法[14],即將數據隨機分為k組,依次將其中一組作為測試集,剩下的k-1組作為訓練組構建模型,基于本實驗樣本的數據量,隨機將訓練樣本集分成20組。

在圖嵌入向量表示模型中,基于鐵路旅客購票關系以及同行關系構造的關系網絡結構復雜,為了保證模型訓練的效率,設k為2,關系網絡中每個用戶節點可以最多根據其2跳鄰接點的信息進行聚合學習。常見的聚合函數包括平均、GCN歸納式、LSTM、pooling聚合器。其中LSTM具有更強的表達能力,故該文主要采用LSTM聚合。

4.2 評價指標

分別從準確率、ROC曲線、誤傷率以及滯后性對模型進行對比分析。

準確率:即整個樣本集預測結果的準確性,準確率越高越好。

ROC曲線以及AUC值:ROC曲線反映敏感性和特異性連續變量的綜合指標;AUC值即ROC曲線下方面積的大小,值越大代表分類器效果越好[15]。

誤傷率:將正常用戶識別為黑產用戶的比例,比例越小越好。

滯后性:識別異常用戶的耗時對比情況,耗時越短越好。

4.3 結果分析

該文主要采用兩種對比方案進行實驗,實驗一:將原始特征向量,圖嵌入表示生成的特征的向量分別作為二次曲面支持向量機進行對比;實驗二:將該黑產用戶識別模型與現有的風控策略模型進行對比。

4.3.1 實驗一

該實驗的目的是對比旅客個體原始特征與聚合相鄰節點特征(下面簡稱融合特征)對相同模型性能的影響,分別對兩類特征采用二次曲面支持向量機模型訓練之后,分別對測試樣本進行測試,同時對兩個模型的準確率、ROC曲線進行對比分析。

(1)準確率。

從表2可以看出,在相同的黑產用戶識別模型中,基于融合特征的樣本的準確率明顯高于原始特征,同時融合特征的方差相對較小,具有更好的魯棒性,且相對穩定,因此基于圖嵌入向量表示生成的旅客特征更能完整地表達旅客的特征,對黑產用戶的識別具有積極作用。

表2 準確率對比 %

(2)ROC曲線。

ROC曲線和對應的AUC值是衡量分類模型性能以及能力的重要指標,是研究模型泛化能力的主要工具,實驗一兩個模型對應的ROC曲線以及AUC值如圖3所示。

圖3 ROC 曲線與AUC值

如圖3所示,橫軸FPR表示假正率,縱軸TPR表示真正率,其中融合特征模型的ROC曲線完全覆蓋原始特征的ROC曲線,同時融合特征模型的AUC值相對較大,因此融合特征模型的性能更優且泛化能力更強。

4.3.2 實驗二

該實驗的目的是對比現有風控策略模型與黑產用戶識別模型,由于目前樣本的訓練集以及測試集的類別標簽均是采用現在的風控策略進行標記,僅僅依靠針對測試集進行測試的準確率以及ROC無法體現黑產用戶識別模型的性能。因此,測試樣本改為隨機抽取一周的互聯網購票用戶作為測試集,依次用兩個模型進行異常用戶標記,分別從誤傷率以及滯后性兩個方面進行分析。

(1)誤傷率。

誤傷率即將正常購票的用戶識別為異常用戶的比例,通過分析一個月的用戶訪問日志、投訴、行為分析等,發現黑產用戶識別模型的誤傷率降低了10%。

(2)滯后性。

滯后性即識別出異常用戶需要的時間。采用兩個模型識別近半年的異常用戶,并隨機抽取1 000個異常賬戶(編號為1到1 000)進行識別時間分析,如圖4所示(為方便顯示1 000個賬戶隨機抽取節點繪制),其中橫坐標表示時間,縱坐標表示異常賬戶的編號。可以看出,文中模型的散點相對當前風控模型比較集中在左側,經過統計,文中模型在隨機抽取的異常賬戶中,超過60%識別時間有所提前,即現有的風控策略需要積累一定的用戶行為特征才能夠識別出異常用戶,而文中黑產用戶識別模型可以同時通過用戶關系層面的關聯挖掘潛在的黑產用戶,在其進行異常操作之前進行相應的控制。

圖4 異常用戶識別時間對比

5 結束語

分析了現有售票系統的數據特點,構建了用戶實體特征以及實體之間關系特征,基于GraphSAGE模型進行鄰居節點采樣,將旅客個體特征與其相鄰節點特征進行融合,生成最終的旅客特征向量,將其作為無核二次曲面支持向量機的輸入進行黑產用戶識別。實驗證明融合個體特征及鄰居節點特征生成的特征向量在相同的模型下,準確率及AUC值都表現較好,而且相對現有的風控策略模型,降低了誤傷率,縮短了黑產用戶識別的時間。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 亚洲成人一区二区| 国产成人精品日本亚洲| 久久久久国产一级毛片高清板| 91小视频在线| 亚洲第七页| 国产成人夜色91| 夜精品a一区二区三区| 国产一区成人| 亚洲综合精品香蕉久久网| 国产精品.com| 欧美精品v日韩精品v国产精品| 国产精品久久久久久久久| 在线观看免费国产| 免费无码网站| 粉嫩国产白浆在线观看| 精品久久777| 青草精品视频| 国产成人三级在线观看视频| 欧美a√在线| 日韩欧美中文字幕在线韩免费 | 国内精品久久久久久久久久影视 | 免费黄色国产视频| 99ri国产在线| 欧美日本在线一区二区三区| 青青国产视频| 无码福利视频| 国产91视频观看| 亚洲欧洲日韩久久狠狠爱| 人妻丰满熟妇αv无码| 国产精品久久自在自线观看| 欧美一区二区丝袜高跟鞋| 免费jjzz在在线播放国产| 九九九精品成人免费视频7| 国产第一页亚洲| аv天堂最新中文在线| 午夜精品福利影院| 怡红院美国分院一区二区| 成人综合久久综合| 免费a级毛片18以上观看精品| 国产人成乱码视频免费观看| 亚洲av无码人妻| 精品91在线| 国产精品黄色片| 国产欧美日韩综合在线第一| 重口调教一区二区视频| 亚洲欧洲日产无码AV| 国内精品免费| 婷婷色狠狠干| 四虎综合网| 91丨九色丨首页在线播放| 亚洲黄色高清| 久久精品这里只有国产中文精品| 91蜜芽尤物福利在线观看| 色哟哟色院91精品网站| 无码'专区第一页| 亚洲中文字幕手机在线第一页| 亚洲日本韩在线观看| 毛片大全免费观看| 精品欧美一区二区三区久久久| 欧美黑人欧美精品刺激| 热re99久久精品国99热| 国模沟沟一区二区三区| 91区国产福利在线观看午夜| 毛片三级在线观看| 国产精品999在线| 国产迷奸在线看| 欧美视频在线播放观看免费福利资源| 在线观看国产精美视频| 99精品伊人久久久大香线蕉 | 男女性午夜福利网站| 国产在线拍偷自揄观看视频网站| 国产性爱网站| 色哟哟国产精品一区二区| 伊人网址在线| 国产剧情国内精品原创| 全部免费毛片免费播放| 免费人成视网站在线不卡| 凹凸国产分类在线观看| 色婷婷综合在线| 欧美日本在线播放| 女人一级毛片| 国产免费高清无需播放器|