999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Structure2vec算法的網絡欺詐風險特征選擇與評估

2019-06-10 01:01:19張寶明魏程益
軟件導刊 2019年2期
關鍵詞:特征方法

張寶明 魏程益

摘 要:現有特征選擇算法往往只能處理簡單的拓撲結構圖形,對復雜的拓撲結構圖形無能為力,為此選擇Structure2vec算法對網絡欺詐風險進行研究。在梳理相關文獻基礎上,對Structure2vec的數學原理進行分析,給出其對應的卷積神經網絡模型;選擇網絡用戶的信用歷史、身份特質、行為偏好、履約能力和社會關系等5種類型特征數據,構建Stucture2vec關系圖;利用Structure2vec算法編寫Python程序,對樣本數據進行訓練,獲得模型;利用測試數據對模型進行測試,獲得特征向量和對應的風險評估值。結果表明,利用Structure2vec算法對網絡欺詐風險進行特征選擇和評估,效果優于一般卷積神經網絡。

關鍵詞:Structure2vec算法;特征選擇;特征向量;欺詐風險;神經網絡;損失函數

DOI:10. 11907/rjdk. 181935

中圖分類號:TP301文獻標識碼:A文章編號:1672-7800(2019)002-0028-06

Abstract: The existing algorithms of feature selection can only handle simple topological structures and are incapable of designing complex topological structures. Therefore, the Structure2vec algorithm is chosen to study the risk of network fraud. On the basis of combing the related literature, the mathematical principle of Structure2vec is analyzed, and the corresponding convolution neural network model is given. Then, the five types of characteristic data are selected to construct the relation diagram of Stucture2V, including the user's credit history, identity, behavior preference, performance and social relations. Next, the Structure2vec algorithm is used to write Python program, train the sample data and obtain the model. Finally, the model is tested with the test data to obtain the eigenvector and the corresponding risk assessment value. The results show that the Structure2vec algorithm is better than general convolution neural network for feature selection and evaluation of network fraud risk.

Key Words: structure2vec algorithm; feature selection; feature embedding; fraudulent risk; neural network; loss function

0 引言

近年來,網絡金融迅猛發展,大數據金融、第三方支付、P2P、眾籌、供應鏈金融等新業態、新方式不斷涌現。然而,由于網絡金融的網絡性、虛擬性,產品的跟風性、缺陷性,加上人群的多樣性、貪婪性以及信任管理的淡薄性、困難性,欺詐風險不斷出現,返利套現、薅羊毛、貸款失蹤、P2P跑路與ICO詐騙等亂象頻繁發生。為此,利用機器學習、人工智能、大數據等方法,評估、跟蹤、預警網絡欺詐風險,并將其控制在一定范圍內,顯得尤為重要。基于此,以Structure2vec算法為例,分析了網絡欺詐風險的特征選擇與評估方法。

過去幾年,隨著Word2vec的盛行[1,2],相關專家學者已將機器學習與人工智能的焦點集中到特征選擇上。特征選擇對提高算法性能和預處理關鍵數據發揮了很大作用,已成為當前深度學習和模式識別的重要利器與核心主題之一,在聲音處理、圖像與視覺識別、風險控制等領域得到廣泛應用。

國內文獻[3-5]將特征選擇稱為特征子集選擇(Feature Subset Selection,FSS )或屬性選擇,目的是通過一系列特征選擇算法,對原始特征數據進行映射,去除一些不相關特征,保留一些有效特征,并在另外一個空間上生成新的表達——特征向量,從而有效降低數據維度。因此,特征向量是特征選擇的結果,是一種數據表示方式。與原始特征數據相比,其在保存更多有用信息的同時,形式更簡單,更易訪問,泛化(generalization,是指對以前未觀測到的數據表現良好)能力更強,更能將相似特征映射到一起,當然不可避免也會受到一些懲罰和限制。

國外文獻[6]將特征選擇在數學上定義為一個映射,該映射滿足單射性和結構保存性,前者意味著每個值域中的Y在定義域中只能有唯一的X與其對應,后者說明在X所屬空間上若有[x1

過濾方法是指從原始特征中直接選擇特征子集,用于后續機器學習算法[11-15]。由于過濾方法在選擇特征子集時,并沒有考慮后續機器學習算法模型,因而可能會導致選擇出的特征子集不適合后續學習算法,從而影響學習性能(準確率)。包裝方法使用一個預測模型對所有可能的特征子集進行評分,從而尋找到一個能使后續學習算法達到較高性能的子集。具體而言,即在特征子集的保持集上進行測試,計算出錯次數并給出相應得分,最終獲得最優特征子集。由于包裝方法需要為每個子集訓練一個新模型,因此計算量非常大[16,17]。而嵌入方法是通過學習自身以自動選擇特征,其方法多種多樣,主要包括正則化方法(如Lasso算法)、Ridge算法(嶺回歸數值計算)、支持向量機、決策樹和深度學習等。Lasso算法是一種壓縮估計,保留了子集收縮的優點,通過構造一個懲罰函數得到一個較為精煉的模型,同時壓縮一些系數,將其設定為0,是一種處理具有復共線性數據的有偏估計算法,其改進算法包括Bolasso、Elastic Net、FeaLect等[18,19]。此外,利用深度學習,可以對包括文字和聲音在內的序列數據進行特征化(典型方法如Word2vec),對包括圖像在內的二維數據進行特征化(典型方法如CNN),對結構化數據進行特征化(典型方法如Structure2vec)。所有這些嵌入方法,其算法復雜度均介于過濾方法與包裝方法之間。

Structure2Vec提供了一種能夠同時整合節點特征、邊特征、異構網絡結構以及網絡動態演化特征的深度學習和推理的嵌入技術,它不僅可以對網絡中的節點和邊進行推理,還可以對節點、邊甚至子圖進行嵌入(Embedding,又稱向量化)。在Embedding算法中,普遍使用核的算法,將輸入數據映射到一個高階向量空間,從而能更好地解決分類或回歸問題。

國外文獻[20]將核方法(Kernel Methods,KMs)表述為一類模式識別算法,其目的是找出并學習一組數據中的相互關系。核方法的主要思想是基于如下假設:在低維空間中不能線性分割的點集,轉化為高維空間中的點集時,很有可能變為線性可分的。相對于使用通用非線性學習器直接對原始數據進行分析,核方法具有明顯優勢:首先,通用非線性學習器很難反映具體應用問題的特性,而核方法由于面向具體應用問題進行設計,反而便于集成相關問題的先驗知識;其次,核方法的線性學習器相對于通用非線性學習器,有更好的過擬合控制,從而可以更好地保證泛化性能;第三,更重要的是,核方法還是實現高效計算的途徑,它能利用核函數將非線性映射隱含在線性學習器中進行同步計算,從而使得計算復雜度與高維特征空間的維數無關。常見的核函數有費舍爾內核、圖形內核、核平滑、多項式核函數、徑向基函數核(Radial basis function kernel,RBF)、字符串核等。相關算法包括支持向量機(Support Vector Machine,SVM)、徑向基函數(Radial Basis Function,RBF)、線性判別分析(Linear Discriminate Analysis,LDA)以及高斯過程等, 這些算法通過對凸優化問題[21]或者特征值問題進行求解獲得結果[22]。

總之,Structure2Vec是一種新的特征選擇算法,其中使用了核方法。與前人研究相比,本文系統地闡明了其算法原理,改正并重寫了其算法程序,并將其應用于網絡欺詐風險評估,通過與一般卷積神經網絡效果對比,進一步驗證了算法的有效性。

1 Structure2vec算法原理

鑒于文獻[23]對Structure2vec算法的數學原理分析含糊不清,在使用Structure2vec算法進行網絡欺詐風險評估之前,筆者先對其數學原理進行闡述。

1.1 相關數學基礎

1.2 Structure2vec算法描述

其中,[Pr(x)為r×d維概率矩陣]。式(3)又稱為希爾伯特空間上的核分布嵌入(Hilbert Space kernel Embedding of Distribution),與其它核函數相比,其優點是不僅表達能力更加豐富,而且[Pr(x)]與[μi]一一對應。

具體而言,在Structure2vec算法中,將所有圖形結構化的數據X(如圖1左邊部分)看成是具有若干個節點V={[V1],[V2],…,[Vm]}、邊E={[E1],[E2],…,[En]}以及隱含節點H={[H1],[H2],…,[Hn]}所構成的圖形結構化數據,稱為Structure2vec模式圖G(如圖1右邊部分),其中各節點、邊以及隱含節點具有特征值[xi]、[ei]和[hi]。

問題在于,在計算[μi]的過程中,需要耗費太多時間計算[Pr(Hi|{Xi}]概率矩陣,節點越多,耗費時間也就越多,現實中難以實現。為此,需用使用平均場推理和循環置信傳播(Loopy Belief Propagation,BP)等方法簡化運算,以求取其近似值。

當使用平均場推理方法時,可將[Pr(Hi|{Xi}]近似地看作是若干個獨立概率密度函數[qi(Hi)]的乘積,即[Pr(Hi|Xi≈i∈Vqi(Hi)]。其中,[qi(Hi)=f(Hi,Xi,{qj}j∈N(i))],[qi(Hi)]> 0且[H qi(Hi)dHi=1],N(i)為與節點[Vi]有邊連接節點的集合。由此可得到[μi=T(Xi,{μj}j∈N(i))],此處T為非線性函數,實際運用中可使用 式(5)代替。式(5)中,[σ]為激活函數,[W1]和[W2]為系數矩陣,[N(i)]表示與節點i相鄰的所有節點。

同理,若考慮鄰邊E={[E1],[E2],…,[En]}對隱含節點[Hi]的影響,可以將式(5)直接改為式(6),其中[NE(i)]表示連接到節點i的所有邊。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产99热| 国产永久无码观看在线| 亚洲精品自产拍在线观看APP| 18禁影院亚洲专区| 2020国产精品视频| 国产a网站| 国产精品免费p区| 欧美日韩一区二区在线播放| 欧美成人第一页| 日本欧美视频在线观看| 久久狠狠色噜噜狠狠狠狠97视色| 91成人在线免费观看| 97人妻精品专区久久久久| 欧美精品一区在线看| 伊人婷婷色香五月综合缴缴情| 中文字幕亚洲精品2页| 日韩美毛片| 在线欧美日韩| 日本一区二区不卡视频| 在线播放国产99re| 人人妻人人澡人人爽欧美一区 | 欧美一道本| 国产综合日韩另类一区二区| a级毛片毛片免费观看久潮| 国产成人一区| 国产亚洲精品自在线| 国产一在线| 国产H片无码不卡在线视频| 2021国产精品自产拍在线观看 | 国产成人夜色91| 农村乱人伦一区二区| 国产精品第| 日韩成人高清无码| 中文字幕免费播放| 影音先锋亚洲无码| 亚洲国产91人成在线| 国产国模一区二区三区四区| 日韩一级毛一欧美一国产| 亚洲欧美综合另类图片小说区| 国产伦片中文免费观看| 日本人真淫视频一区二区三区 | 亚洲AV电影不卡在线观看| 成年人久久黄色网站| 国产亚洲精品在天天在线麻豆| 青草精品视频| 久久免费成人| 无码福利日韩神码福利片| 日韩午夜片| 亚洲香蕉在线| 亚洲熟女偷拍| 亚洲一道AV无码午夜福利| 日本妇乱子伦视频| 欧美色香蕉| 蜜芽国产尤物av尤物在线看| 欧美一级黄色影院| 国产91精品最新在线播放| 成人毛片免费在线观看| 91精品国产情侣高潮露脸| 在线国产毛片| 午夜丁香婷婷| 日本在线免费网站| 国产男女免费视频| 国产黄网永久免费| 亚洲精品国产精品乱码不卞| 欧美色99| 热99re99首页精品亚洲五月天| av在线无码浏览| 极品国产在线| 久久精品中文字幕少妇| 久久青草免费91观看| 亚洲一区网站| 欧美在线国产| 蜜臀av性久久久久蜜臀aⅴ麻豆| 精久久久久无码区中文字幕| 久久久受www免费人成| 国产区精品高清在线观看| 成人午夜免费观看| a毛片在线免费观看| 国产区免费| 亚洲av色吊丝无码| 天天综合色网| 中文字幕在线永久在线视频2020|