劉華玲,劉雅欣,許珺怡,陳尚輝,喬 梁
上海對外經貿大學 統計與信息學院,上海 201620
當今,數字化金融服務以其非接觸、高效率和服務場景靈活等優勢,極大便利了消費者的金融活動,在大數據、云計算以及人工智能等新興技術的驅動下,以金融科技為主題的金融革命正以燎原之勢席卷全球[1-2],各種創新型數字化金融服務場景和渠道不斷涌現。同時,以此為背景的“黑色產業”肆虐發展,已經滲透到個人信貸、醫療保險和車險理賠等金融領域。據統計,相關“黑色產業”從業人員超過500萬,涉及金額損失達到千億級別[3]。因此,探究新型場景下的金融反欺詐研究方法具有極大的理論價值和現實意義。
早期的文獻多集中于利用檢測規則進行欺詐識別,前提假設為欺詐活動存在明顯的規則模式,可以通過定義一些組合規則進行識別,其具有易操作性和可解釋性,因此在早期的欺詐檢測中廣受歡迎。基于規則的方法高度依賴人類專家的知識判定,難以發現復雜動態且隱蔽的欺詐模式,同時,極易被欺詐者識別進而改變自身的欺詐行為以躲避檢測,這將不斷提升基于規則的檢測難度。為此,許多學者提出使用機器學習以挖掘常規方式難以識別的潛在欺詐模式。該類方法將從不同維度提取用戶的統計特征,如用戶的社會屬性、交易信息和行為信息,用傳統的機器學習模型對用戶數據進行訓練學習[4-5]。然而,此類方法將用戶特征作為獨立的矢量處理,忽略了實體之間的關聯性。
如今,我國信息化邁入以物聯網和云計算為代表的新階段,金融機構積累了海量的用戶屬性信息和行為信息,如何從中挖掘用戶間關聯成為提高欺詐檢測性能的關鍵。圖數據在表示實體復雜交互關系方面具有得天獨厚的優勢,基于圖挖掘的異常識別技術(graphbased anomaly detection,GBAD)因其高效、普適和準確性高等特點受到了工業界和學術界的廣泛關注。此類方法致力于從“關系”角度分析問題,基于行業大數據和相關領域知識構建關聯網絡,實體抽象為圖中的節點,實體間的交互抽象為節點間的連邊,并運用相關的圖挖掘技術識別異常模式的節點、邊或者子圖。相比傳統的欺詐檢測技術,基于圖的異常檢測不僅可以直觀地呈現數據中隱含的復雜拓撲結構,而且將數據對象間的關聯融入到欺詐識別任務中,從網絡的整體拓撲結構出發更容易識別隱藏極深的欺詐行為。近年來,GBAD技術在識別網絡內的欺詐活動方面做出了巨大貢獻,被欺詐檢測專家認為是穩健、可靠和有前途的異常檢測技術[6]。
本文對圖異常檢測在金融反欺詐中的應用進行系統分類,介紹其中具有代表性的方法,探討現有方法的局限性和面臨的挑戰,指明未來的研究方向。具體貢獻如下:
(1)分別從個體反欺詐和群體反欺詐的視角,將圖異常檢測技術系統分類,并對每種技術進行全面的評述、分析和比較;
(2)拓展了圖異常檢測方法,整理歸納近幾年涌現的基于圖嵌入、深度自編碼器以及圖神經網絡等技術解決欺詐檢測的新方法;
(3)結合當前反欺詐的前沿任務展望圖異常檢測技術的發展方向。
Hawkins定義傳統的異常檢測是尋找數據集中分布或形成機制顯著區別于正常模式的數據對象[7]。圖異常檢測[8]是利用圖數據結構進行問題建模,并基于相關的圖數據挖掘技術,在圖中尋找顯著不同于其他圖對象的節點、邊或子結構。
欺詐檢測問題可以轉換為異常檢測任務(anomaly detection,AD),相比傳統的異常檢測技術,圖異常檢測在反欺詐領域呈現出巨大的優勢,主要體現在以下幾個方面:
(1)欺詐領域中數據的相互依賴性
傳統的異常檢測技術將數據視為獨立存在于多維空間中的點。在實際問題中,尤其是在欺詐場景下,數據對象通常相互關聯并表現出依賴性。因此在進行異常檢測過程時需要考慮相關性。圖數據結構通過在相關對象之間引入連邊自然地表示相互依賴關系,為有效捕捉這種長期相關性提供了強大的范式。例如,在評論者-產品評論的圖數據中,評審者的欺詐程度不僅取決于其評論的對象和內容,而且取決于其他評審者如何評價同一產品及其評價的可信度,而這又依賴他們評價的其他產品[9]。由于真實數據集中存在的相關性,在圖數據中檢測異常更為合理。
(2)欺詐領域的異常關系
欺詐現象的本質可以表示為異常關系,通常考慮兩種情況:①基于關系傳播的機會主義欺詐(如果一個人存在欺詐行為,那么他的熟人有很大概率會進行詐騙);②基于相關群體密切合作的有組織欺詐[10]。以上這兩種情況都指向異常關系的檢測。
(3)圖異常檢測模型的健壯性
隨著欺詐的日益專業化,欺詐者通常改變欺詐手法以逃避檢測,例如更改或偽造登錄時間和IP地址等行為線索。但是欺詐者無法操縱整個關聯網絡,因此圖異常檢測被認為是更健壯的對抗欺詐的方法。
圖數據結構對關聯信息強大的表示能力以及圖計算和深度神經網絡等相關技術的發展,使得圖異常檢測技術逐漸成為國內外學者的研究熱點。Akoglu等人[11]將圖異常檢測技術分為基于結構、基于社區、基于分解和基于窗口等類型,系統梳理了每類方法下的關鍵技術,并討論了圖異常檢測技術在包括欺詐檢測在內的真實場景下的應用。Gupta等人[12]對時序網絡中的圖異常檢測技術進行了總結和歸納,包括基于圖相似度、基于特征向量和基于社區這三類方法。Ranshous等人[13]全面概述了動態圖中的異常檢測技術,將其劃分為基于社區、基于壓縮、基于分解、基于距離和基于概率分布五種類型,并對每類方法中的主流算法進行對比分析。Savage等人[14]關注于在線社交網絡(online social network,OSN)中不同類型異常(如異常節點、邊緣或子圖)的檢測。他們將OSN中的異常檢測總結為兩個步驟:(1)網絡特征的選擇和計算;(2)基于該特征空間對觀測進行分類。李忠等人[15]分別基于靜態圖和動態圖的視角,根據異常類型進一步將靜態圖異常檢測劃分為孤立個體異常檢測和群體異常檢測兩類,動態圖異常檢測分為孤立個體異常檢測、群體異常檢測和事件異常檢測三類,并系統梳理了每類異常檢測的關鍵性技術。蘇紅軍等人[16]從技術層面將靜態圖異常檢測分為基于結構、基于社區和基于關系學習三類,按照異常類型將動態圖異常檢測分為基于節點、基于邊、基于子圖和基于全圖四類。近年來,基于深度神經網絡進行圖異常檢測成為新近研究熱點,陳波馮等人[17]從靜態圖和動態圖角度出發,全面概括了基于深度神經網絡的圖異常檢測的研究現狀,并總結了圖異常檢測的實際應用場景和相關數據集。
表1系統梳理了現有的圖異常檢測綜述。盡管已有上述眾多的圖異常檢測綜述,但大多數文獻都基于技術角度,目前仍然缺少針對某一應用領域的圖異常檢測研究進展進行系統深入的梳理和總結。以往的工作或從技術層面對所有的圖異常檢測算法進行分類總結,或集中于某一類型的網絡進行歸納分析。本文聚焦于金融欺詐檢測領域,旨在對此應用背景下的圖異常檢測算法研究進展進行系統的梳理和總結,深入探討應用GBAD進行欺詐檢測的關鍵問題、技術方法和未來挑戰。

表1 圖異常檢測相關綜述Table 1 Overview of graph anomaly detections
基于圖的個體反欺詐可以抽象為給定網絡數據,從中查找異常的節點或邊。面向個體的欺詐檢測又可以分為基于結構特征的方法、基于鄰近性的方法、基于圖表示學習的方法以及基于社團劃分的方法。
基于特征的圖異常檢測是指通過提取網絡結構特征,并結合附加信息源提取的其他特征,在新構造的特征空間中進行異常檢測。
金融場景下,節點在網絡中的重要程度與欺詐風險通常呈現一定的正相關關系,如何識別網絡中的關鍵節點對于欺詐檢測具有重要的現實意義。常用的節點重要性評價指標有中心性度量、PageRank值[21]和HITS[22]等。中心性度量又分為度中心性、加權度中心性、介數中心性[23]、接近中心性和特征向量中心性[24]。2015年,Drezewski等人[25]聚焦銀行金融交易,利用度中心性、介數中心性和PageRank值等特征表示網絡結構,識別用戶在交易網絡中的角色,揭示可疑的洗錢參與者。
除了上述節點重要性評價指標,基于EgoNet特征進行圖異常檢測也是一種經典方法。EgoNet[26]又稱自我中心網絡,一個中心節點與其一跳范圍內的鄰居節點以及所有節點之間的連邊構成一個EgoNet,結構如圖1所示。EgoNet是整體網絡結構的一部分,給定某節點時采用廣度優先搜索獲得,側重于研究單個節點的性質。
Akoglu等人[27]于2010年首次提出基于EgoNet特征的異常檢測算法OddBall。通過觀測EgoNet的特征分布規律,識別不符合規律的EgoNet結構,相應的中心節點視為異常節點。給定圖G(V,E,W),節點i∈V(G),節點i的EgoNet為gi(Vi,Ei,Wi),滿足:(1)Ei∝Ni,1≤α≤2;(2)Wi∝Eiβ,β≥1;(3)λω,i∝Wiγ,0.5≤γ≤1。其中λω,i為加權鄰接矩陣的主特征值,∝表示服從冪律分布。Wang等人[28]提出基于賬戶EgoNet特征挖掘網上銀行中的異常交易,通過構建交易網絡將賬戶行為表示為圖結構數據,同時提取符合冪律分布的EgoNet特征,然后根據賬戶特征與相關冪律分布的“距離”計算其與特定模式的偏差,并將其定義為網銀用戶的異常分數,進行欺詐的檢測與排序。算法使用的特征易于計算,可以用于大規模網絡欺詐檢測。
基于EgoNet特征的方法僅適用于服從冪律分布的加權網絡,并且僅考慮節點的一階鄰域信息,無法捕捉更高階的關聯。GBKD-Forest[29]是一種基于網絡全局結構的無監督異常檢測方法。該方法首先從交易網絡中提取三種類型的結構特征,包括出入度等基本特征、邊連接特征以及EgoNet特征,其中邊連接特征包括PageRank、HITS以及中心性度量;然后基于Bagging方法隨機抽樣特征建立KD樹森林以分離異常節點。GBKD-Forest基于機器學習技術集成多種類型的網絡結構特征,有效提高了欺詐檢測的準確性。
以上研究都是針對單個網絡進行,現實世界中由于業務場景的復雜性,通常需要構建多個交互網絡以提取更全面的信息。Colladon等人[30]認為保理公司中洗錢行為的潛在風險表現在三方面,即債務人的地理區域、經濟部門以及金融交易金額,針對每種風險因素的獨立網絡進行特征表示,綜合評估個體的欺詐風險。Mahootiha等人[31]根據洗錢的三階段模式,即資金放置、資金分層和資金整合,分別構建獨立交易網絡,并通過分析度中心性和中介中心性等網絡指標揭示銀行金融交易中的欺詐行為。
表2系統梳理了圖結構特征在欺詐檢測中的應用。基于特征的圖異常檢測中,圖結構的表征是關鍵,值得注意的是,不同的金融場景以及欺詐手段下,特征選擇各有差異,必須根據構建網絡的實際含義慎重選擇。一方面是以圖結構為中心的特征,包括二元組和EgoNet等;另一方面是以節點為中心的特征,包括節點度、中心性度量和邊權重等。此外,結合多種特征可以提高檢測準確率。

表2 基于結構特征的欺詐檢測Table 2 Fraud detection based on structural features
欺詐被認為是一種社會現象,即欺詐者之間通常會存在某種關聯,這在社會科學中被稱為同質性。同質性假設人們傾向于和在某些方面與自己相似的人交往。基于鄰近度的圖異常檢測利用網絡的結構信息計算節點間的鄰近度,鄰近度高的節點被認為是同一類(正常或欺詐)。
個性化PageRank[38]是節點鄰近度計算的經典方法,是PageRank的擴展。PageRank算法于1996年提出,是基于隨機游走衡量節點重要性的經典算法。在圖上隨機地從一個節點跳到另一個節點,即每一步的隨機游走將從當前節點以相同概率訪問其鄰居節點。在一定條件下,每個節點被訪問的概率收斂于平穩分布,平穩概率即為節點的PageRank值,計算公式如式(1),概率越高節點越重要。
式中,d(0≤d≤1)稱為阻尼因子,L(v)表示節點v的出度。
在PageRank算法中,游走的起始節點是隨機選擇的,在個性化的PageRank算法中,從某個特定節點(種子節點)開始游走,每到一個節點后,以d的概率繼續游走,或以1-d的概率返回種子節點并重新開始。各個節點的平穩概率代表其與種子節點的相關程度。
Vlasselaer等人[39]通過改進個性化PageRank算法,以適應欺詐傳播場景:(1)加入時間衰減權重矩陣W代替鄰接矩陣M,以降低時間久遠的欺詐節點的重要性。即隨著時間的推移,欺詐行為的傳播影響越小。權重公式為ωi,j=eγh,γ為衰減常數,h為時間;(2)定義重啟向量vj,如果節點j發生欺詐行為,則vj=1,反之,vj=0。專家判定的欺詐者標示為種子節點,迭代運行個性化PageRank算法,算法收斂時與種子節點相似的節點具有較高的PageRank值,面臨的欺詐風險也更高。
He等人[40]提出的BiRank算法是PageRank算法在二部圖中的擴展。óskarsdóttir等人[41]改進了BiRank算法并應用于車險欺詐檢測中。通過調整查詢向量,使其包含網絡中已知的欺詐性索賠知識,與已知欺詐行為聯系緊密的索賠獲得更高的BiRank值。
上述方法是從節點層面出發,聚焦個體欺詐,通過度量與已知異常節點的鄰近性進行欺詐檢測。Bershtein等人[42]聚焦反洗錢領域,基于子圖視角提出利用模糊子圖同構估計交易子集與目標洗錢模式的相似性以檢測洗錢行為。
綜上所述,基于鄰近性的圖異常檢測關鍵在于鄰近性的度量方法。節點間相似性度量有個性化PageRank、BiRank以及Jaccard鄰近性等。尋找相似子圖的方法主要包括圖模式匹配和模糊子圖同構等,值得注意的是,這類方法只能識別與已知欺詐模式相似的欺詐行為,在識別未知欺詐類型方面存在著局限性。
進行欺詐檢測等圖分析任務的一個關鍵問題是如何有效地表示圖中的特征信息,揭示隱藏的欺詐線索。圖表示學習是將圖數據映射到低維向量空間的有效技術,它可以學習并表示網絡的拓撲結構和節點的屬性信息[43],進而應用到下游的欺詐檢測任務。圖表示學習方法可以分為三類,即矩陣分解、隨機游走和深度神經網絡。基于矩陣分解的方法以矩陣的形式表示節點之間的連接,并以此矩陣進行分解以獲得節點的嵌入向量。如LLE(locally linear embedding)算法[44]假設每個節點的嵌入表示都是在其嵌入空間中鄰居節點的嵌入向量的線性組合。LE(Laplacian eigenmaps)算法[45]在LLE算法的基礎上考慮了節點之間的權重。基于隨機游走的圖表示學習方法通過圖上的采樣路徑學習鄰域結構,例如DeepWalk[46]通過隨機游走獲得節點序列,Node2vec[47]采用帶有偏向的隨機游走學習圖中節點的嵌入表示。基于深度神經網絡的圖表示學習可以捕捉數據間的非線性關系,以獲得更好的節點表示。
對于標記數據,基于圖表示學習的反欺詐算法大多是基于混合模型,使用DeepWalk、Node2Vec以及LINE(large information network embedding)[48]等圖嵌入模型獲得節點的嵌入表示,然后在低維度的特征數據集中執行傳統的分類方法以進行欺詐檢測。
DeepWalk通過隨機游走的方式獲取節點序列,然后將這些節點序列作為訓練樣本輸入到Skip-gram模型進行訓練,進而得到節點的嵌入表達。2016年斯坦福大學提出的Node2vec改進了DeepWalk中節點序列的生成方式,即通過調整隨機游走權重的方法使圖嵌入的結果在網絡的同質性和結構性之間平衡,從而提升網絡嵌入的效果。其中,結構等價性主要用于表征節點之間結構的相似性,即相同結構的節點嵌入表達應該是相似的;同質等價性則以距離作為節點相似性的度量,這在異常欺詐檢測中具有重要的現實意義。基于此,Zhou等人[49]提出基于Node2vec的互聯網金融欺詐檢測方法,首先利用Node2vec學習金融網絡中每個節點的拓撲特征表示為低維稠密向量,然后將其輸入基于深度神經網絡的分類模型,每個節點用戶的預測結果都是0到1之間的浮點數,它表示數據樣本是欺詐性數據的概率。該方法使用Spark分布式計算框架以提高海量數據的處理能力,它是當前很多工業產品的主流做法。
Node2vec是一種直推式的圖表示學習算法,即需要對網絡中的所有節點進行訓練,嵌入不能泛化到尚未出現的節點。在網絡中添加或刪除節點或邊緣,需要重新迭代整個訓練過程。而金融交易具有動態性,為避免對不斷更新的網絡重復訓練造成的時間損耗,Belle等人[50]提出基于GraphSAGE算法[51]進行節點嵌入表示的欺詐檢測框架。GraphSAGE是一種歸納式的節點嵌入算法,其核心思想是通過學習一個函數實現對圖數據結構的歸納表示學習,該函數通過對節點局部鄰域的特征進行采樣和聚合來生成嵌入,可以泛化到未知節點。Node2vec等直推式算法直接獲取節點的嵌入表達,而GraphSAGE算法的輸出結果是生成節點嵌入向量的映射,可擴展性更強。GraphSAGE為應用鄰居節點屬性的特性聚合提供了一系列可能性,在此欺詐背景下,maxpool和meanpool鄰域特征聚合器提供了最好的結果。
在金融欺詐檢測中,欺詐樣本的數量遠遠小于正常樣本,存在嚴重的類不平衡問題,然而基于圖神經網絡的算法在節點標簽分布嚴重偏斜的情況下往往表現不佳。DR-GCN[52]是解決圖類不平衡問題的先行者。該方法提出了類條件對抗正則化和潛在分布對齊正則化,但不能擴展到大型圖。Liu等人[53]提出基于GNN的不平衡監督學習算法PG-GNN,算法框架如圖2所示。PG-GNN的改進體現在兩方面:首先,利用標簽平衡采樣器選擇節點和邊,分配給每個節點的概率與它的標簽頻率成反比,構造平衡子圖用于小批量訓練;其次,在參數化的距離函數下,進一步設計鄰域采樣器,對欺詐樣本的鄰域進行過采樣,對正常樣本的鄰域進行欠采樣。
以上工作都是采用有監督方法,而在金融欺詐檢測場景下,由于標簽數據難以獲得,通常采用無監督學習的方法來檢測異常。目前大多方法采用殘差分析的思想,以原始數據與估計數據的差距(即重構誤差)作為衡量實例異常的指標,具有較大重構誤差的數據實例異常的可能性更高。
Bandyopadhyay等人[54]提出基于矩陣分解重構節點,給定圖結構G,每個節點vi用鄰接矩陣A的第i行表示,即Ai,為保持節點在低維空間中嵌入的同質性,通過最小化得到H作為節點的嵌入表示,并利用節點重構前后的殘差,為每個節點引入結構異常分數O1i,殘差值越大表示節點欺詐的可能性越大。在屬性異常上,采用同樣的方法,每個節點vi的特征用特征矩陣C的第i行表示,通過最小化得到節點的嵌入表示,并為每個節點引入屬性異常分數O2i,結合O1i和O2i得到節點的欺詐概率。
Bandyopadhyay等人[55]在文獻[54]的基礎上進行改進,提出DONE和AdONE算法。該模型在節點嵌入表示部分替換了文獻[54]中的矩陣分解方法,采用深度自編碼器獲取結構和屬性上的重構損失,用于捕捉節點間的非線性關系,同樣利用損失函數引入結構上的異常分數O1和屬性上的異常分數O2。
上述兩種方法將節點的結構和屬性信息分開考慮,忽略了兩者之間的交互信息,圖神經網絡可以同時編碼節點的結構信息和屬性信息,將兩者結合起來考慮,可以捕捉到節點更好的表示。如圖3所示,Dominant[56]利用圖卷積網絡作為編碼函數,將輸入的屬性網絡壓縮為簡潔的低維嵌入表示;然后利用相應的解碼器函數重構節點的拓撲結構和屬性信息,基于重構誤差獲取節點的欺詐分數。利用GCN可以有效地捕捉節點結構和屬性間的交互信息,提高了欺詐檢測的性能。
綜上所述,圖嵌入是一種將圖中的節點從高維稀疏向量映射到低維稠密向量的有效技術,它學習并表示網絡圖中節點的拓撲結構和屬性信息。與傳統的圖數據挖掘方法相比,在反欺詐業務場景中應用圖嵌入算法,可以獲得全局視角,更清晰地洞察不同實體之間的潛在關聯。此外,基于圖嵌入將原始圖轉化為稠密向量后運算效率顯著提升。
不同社團間的橋接節點或橋接邊可能預示著某種欺詐行為。在信貸場景下,一個節點連接多個社團且社團內人群多數信貸不良,那么這個節點很大可能是黑產中介。黑中介利用互聯網金融平臺采用大數據線上審核的業務特點,通過不斷地挖掘平臺風控規則的漏洞或弱點,進行信息包裝、信息偽造以及遠程助貸等欺詐操作,具體包括偽造證件信息、提供銀行卡資源以及欺詐手機號等。例如,貸款客戶通常共享信息或設備形成社團,連接這些社團的關鍵節點則可以視為黑產中介。
基于社團劃分的欺詐節點識別依賴于在圖中找到密集連接的“近”節點組,并點出跨社團連接的節點或邊。在某些場景下,欺詐可以定義為不直接屬于某個特定社團的“橋”節點或邊。
Sun等人[57]主要解決了兩個問題:(P1)如何找到給定節點的社團/鄰域;(P2)如何找到橋接節點。針對P1,作者基于Personal PageRank的思路,從目標節點出發進行隨機游走,計算節點間的可達概率,以衡量節點間的相似性,其中具有高PPR評分的節點構成目標節點的一個鄰域。對于P2,計算目標節點的所有鄰居節點的成對PPR得分并取平均作為“正常”得分,當該分數比較低時說明節點的鄰居節點位于不同社團,可視為欺詐節點。
上述方法將橋接節點的識別劃分為兩步,首先基于節點的相似性進行社團劃分,然后查找社團間的橋接節點或橋接邊。Xu等人[58]提出一種圖聚類算法SCAN。該算法在進行網絡聚類的同時,挖掘網絡中的橋接節點和離群點,即橋接節點是圖聚類的副產品。傳統的圖聚類算法通常以最大化社團內部邊數為目標,而SCAN算法使用節點的鄰域為聚類標準,共享更多鄰居的節點被劃分到同一集群,從而可以有效區分網絡中節點的角色,如組內節點、橋接節點和離群節點。
橋接節點的識別還可以使用矩陣分解的方法。矩陣分解已被廣泛用于解決從降維[59-60]到圖聚類[61-62]等問題。Tong等人[63]從鄰接矩陣角度出發,提出基于非負殘差矩陣分解的圖欺詐檢測方法NrMF。對于一個圖G的鄰接矩陣A,若其相似矩陣A~的秩為r,則其對應的殘差矩陣為R=A-A~,對A進行矩陣分解可表示為A=A~+R=FG+R,其中矩陣F和G是秩為r的分解矩陣,R是殘差矩陣。F和G反映網絡的群體結構信息,殘差矩陣則對應著異常節點,同時對殘差矩陣R施加非負性約束以增強對異常節點的可解釋性。實驗表明NrMF算法的準確率可以達到0.95左右。
基于圖的個體欺詐檢測方法可以分為基于特征的欺詐檢測、基于鄰近性的欺詐檢測、基于圖表示學習的欺詐檢測以及基于社團劃分的欺詐檢測。
早期的個體欺詐檢測方法主要從圖的特征提取出發,在新構造的特征空間中進行異常檢測,包括基于結構特征的方法和基于鄰近性的方法。前者利用提取的圖結構特征表征正常行為模式,顯著偏離正常模式的被視為可疑個體。后者利用網絡的結構信息量化節點間的鄰近度,鄰近度高的節點被認為是同一類(正常或欺詐)。基于特征的圖異常檢測中,圖結構的表征是關鍵,值得注意的是,不同的金融場景以及欺詐手段下,特征選擇各有差異,需要專家根據業務場景和已知的欺詐活動慎重設計。因此,該方法的性能高度依賴于人類專家的干預,可擴展性差;并且圖特征僅考慮網絡的淺層拓撲結構,無法捕捉節點間的非線性關系。
圖表示學習是將圖數據映射到低維向量空間的有效技術,它可以捕捉節點間的非線性關系以獲得更有效的潛在表示,支持下游的欺詐檢測任務,能夠很好地解決傳統圖特征方法可擴展性差的問題。現有的圖表示學習多基于深度學習,導致該類方法的可解釋性較差,將其運用在欺詐檢測上往往使得檢測結果難以直觀理解。目前,對基于圖表示學習方法的可解釋性仍是學術界的研究難點和熱點。
基于社團劃分的方法旨在挖掘復雜網絡中一類特殊的欺詐節點——橋接節點,橋接節點不直接屬于某一社團,在不同社團之間起著橋梁作用,例如信貸欺詐中的黑產中介。值得注意的是,這類方法應用的前提是網絡中連接多個社團的橋接節點是欺詐節點,因此在網絡構建時,應結合實際欺詐場景定義節點和邊,使其滿足這個前提。
相較于個人欺詐,團伙欺詐的波及范圍更廣,社會危害性也更高,呈現“智能化、產業化、攻擊迅速隱蔽、內外勾結比例上升和移動端高發”五大特征,例如,在信貸領域,黑中介和黑產出現深度融合的態勢,開始以團伙形式開展線上貸款申請審批業務,騙取大量資金。檢測這種虛假的用戶社區(也稱為組或集群)已經成為一個關鍵的焦點。
網絡中的稠密子圖往往表明異常或欺詐行為。以消費金融套現為例,用戶與商戶勾結采取分期付款的形式進行虛假交易,以騙取貸款機構的貸款。這種行為模式致使欺詐用戶節點和欺詐商戶節點之間呈現異常的連接分布,在網絡中呈現出一張致密的雙邊連接子圖。文獻定義這種大量同步的非正常關聯行為模式為LockStep[64],即二部圖中的雙邊聚集行為。基于稠密子圖進行欺詐檢測的一般思路是:首先定義稠密度量指標,并采用搜索策略進行度量指標優化,從而來檢測大圖中的稠密子圖結構,最終識別出欺詐用戶群體。
傳統的稠密子圖挖掘算法一般使用子圖平均度作為稠密度量指標,Charikar[65]提出使用平均度定義子圖的密度,對于一個無向圖G(V,E),其中S?V,定義E(S)={i,j∈E:i∈S,j∈S},定義子圖的密度為f(S)=||E(S)/|S|,即子圖中邊的個數與點的個數的比值,2f(S)是集合S的平均度,稠密子圖的問題則轉化為計算f(S)最大值的問題。求解該f(S)的問題是一個線性規劃問題,Charikar給出了求解問題的精確算法。為了降低算法的復雜度,Charikar提出了一種近似比為2的近似算法。
在二部圖欺詐中,欺詐用戶往往通過與目標節點(正常)建立聯系以偽裝自己,上述利用子圖平均度作為可疑度度量存在一定的偏差,使檢測出的結果包含大量的正常用戶,準確度降低。針對這一問題,Hooi等人[66]提出Fraudar算法:(1)采用列節點入度降權定義邊可疑度cij=1/ln(dj+c),其中dj表示列節點的入度,以降低用戶與熱門目標節點聯系產生的邊可疑度,從而對抗偽裝;(2)設計基于優先樹的貪心算法快速定位最大可疑度子圖,算法的時間復雜度與大圖的邊數近似地呈線性關系,具有應用于大規模數據分析的能力。
Frauder算法的每次迭代只能輸出一個最大可疑子圖,并且可疑子圖中的所有節點都被標記為欺詐節點,增加了后續人工排查的任務量。基于此,Ren等人提出EnsemFDet算法[67],進一步提升算法的精確度和運行效率:(1)對二部圖采用單邊節點采樣將原始圖分解為更小尺寸的子圖,并采用集成框架聚合子問題的輸出,采取多數投票原則,可以降低次優解的總體風險,從而提高預測精度;(2)部署FDET方法來檢測欺詐者,能夠更有效地搜索前k個欺詐子圖;(3)EnsemFDet可以在采樣圖中并行計算欺詐檢測,從而加快檢測過程;(4)在某商城的真實交易數據上進行大量的實驗,驗證了EnsemFDet算法的有效性、實用性和可擴展性。
近年來,有研究者將稠密子圖檢測擴展到張量中,可以支持從更高的數據維度進行問題建模,提升欺詐檢測的準確性。如圖4所示,在商鋪欺詐評論檢測中,欺詐用戶群體在產生欺詐評論時往往存在時間上的聚集性,在建模時增加時間維度的信息,即構建用戶、商鋪和時間三個維度的三階張量,能夠從更高的信息維度辨別真實的欺詐用戶群體,提升算法的準確性。
2015年,Jiang等人[68]提出了CrossSpot算法。該算法給出子張量的可疑度度量,并從一個可疑種子塊開始,對每個屬性逐一進行迭代優化。
以往的算法只基于一種密度度量,導致其只能檢測出特定的欺詐類型。基于此,Shin等人[69]提出一種靈活可調整的稠密子張量檢測框架,支持但不限于算數平均密度、幾何平均密度以及可疑度等密度度量指標。事實上,M-Zoom支持所有滿足式(2)的密度度量指標:
其中,M表示稠密度,B、B′表示塊,R表示關系。如果具有相同關系的兩個塊對于每個維度屬性具有相同的基數,則具有較高或相等質量的塊至少與另一個塊一樣密集。在尋優階段,與CrossSpot算法相比,M-Zoom從整個張量出發采取貪心算法逐個移除屬性值,有效提升了算法的運行速度,并給出近似邊界。
現有的稠密子張量檢測方法只適用于存儲在內存中的小數據集,事實上,現實中的大規模數據集,如社交媒體和網絡,通常被存儲在磁盤上。基于此,Shin等人提出D-Cube[70],一種基于磁盤的稠密子張量檢測算法。該算法以最小化磁盤IO為目標進行優化,并支持Hadoop的MapReduce框架進行分布式運算。
由第3.2節可知,欺詐可以視為二部圖中的雙邊聚集行為,相應的欺詐檢測可以看作可疑稠密子圖挖掘問題。以往基于結構信息的方法多通過設計各種密度度量、最大化算術度或幾何度[71]等方式檢測稠密子圖,但這些方法僅考慮網絡的淺層拓撲結構,無法捕捉節點間的非線性關系。基于此,有學者提出基于深層網絡結構進行團伙欺詐檢測。該方法的一般思路是首先對網絡進行降維處理,通過深度網絡嵌入學習節點的潛在表示,將網絡結構信息編碼在一個連續的向量空間中,然后利用聚類算法在潛在空間中找到高密度區域。降維處理與欺詐檢測不是獨立進行的,而是相互結合使用。
2018年,Wang等人[72]提出深度結構學習模型DeepFD,用于挖掘網絡中的欺詐群體。DeepFD算法通過深度自編碼器將所有的用戶節點嵌入到一個潛在空間中,目標是使同一欺詐塊中可疑用戶的向量表示盡可能接近,而正常用戶的表示則均勻分布在剩余的潛在空間中,從而使基于密度的檢測方法能夠準確地檢測出欺詐塊。DeepFD的深度結構學習框架如圖5所示,該框架主要由兩部分組成:第一個組件的目的是通過用戶節點的向量表示來重構原始圖結構;第二個組件捕捉不同用戶節點之間的行為差異,即如果兩個用戶節點共享大量的商品節點,那么它們往往具有較大的相似性度量。通過對兩個構件進行聯合優化,嵌入結果能夠同時保留全局圖結構信息和用戶行為特征。實驗結果表明,DeepFD的F分數較M-Zoom和D-Cube等基線模型提升10%左右。
與DeepFD算法僅嵌入用戶節點不同,FraudNE[73]將用戶和項目兩種類型的節點編碼到一個共享的潛在空間中,使欺詐用戶和項目盡可能緊密地嵌入到同一個密集塊中,而正常的用戶和項目則均勻地分布在低維潛在空間中。如圖6所示,文獻提出的框架包括兩個自動編碼器,分別處理網絡中的源節點和匯聚節點,這兩部分可以具有不同的神經網絡結構、參數和非線性激活函數,以解決二部圖的表示問題。
基于圖的團伙反欺詐旨在挖掘由異常活動導致的具有不尋常結構的特定子圖,這些子結構通常顯著偏離正常模式,如稠密子圖、稠密子張量、頻繁子圖或其他特定的連接模式。不尋常子圖的定義通常與欺詐檢測問題高度相關,包括基于稠密子圖的欺詐檢測、基于稠密子張量的欺詐檢測、基于深層網絡結構的欺詐檢測以及基于頻繁子圖的欺詐檢測。
網絡中聯系緊密的子圖往往表明異常或欺詐行為,可以通過稠密子圖或稠密子張量挖掘進行有效檢測,兩者的基本思想相似:首先定義稠密度指標,然后采用搜索策略進行度量指標優化以識別欺詐用戶群體,其關鍵在于稠密度的定義。前者基于二維網絡數據進行研究,往往造成數據的缺失。而稠密子張量的方法使用多模數據對網絡進行建模,支持從更高的數據維度進行用戶行為分析,有效提升欺詐檢測的準確性。不足的是,此類方法通過設計各種密度度量進行稠密子圖(子張量)挖掘,僅考慮網絡的淺層拓撲結構,無法捕捉節點間的非線性關系。
基于深層網絡結構的欺詐檢測通過深度網絡嵌入學習節點的潛在表示,將網絡結構信息編碼在一個連續的向量空間中,然后利用聚類算法在潛在空間中找到高密度區域。此方法通過圖嵌入對原始網絡進行降維處理,可以拓展到大規模復雜網絡的欺詐檢測,有效解決傳統檢測算法帶來的維數災難。
4.1.1 公開數據集
關于欺詐檢測的研究大多使用真實世界的數據作為測試平臺[74-75]。目前金融領域可用于圖異常檢測的常用公開數據集如表3所示,涵蓋通信、信貸欺詐、車險欺詐以及醫療保險欺詐等不同領域。其中,在線社交網絡(OSN)領域的公開數據集較多,而涉及個人隱私信息(如銀行和保險等領域)的數據集匱乏。

表3 公開數據集Table 3 Public datasets
4.1.2 合成數據集
欺詐檢測是一個高度敏感的話題,出于隱私考慮,組織和利益相關者不愿意分享他們的欺詐檢測信息,阻礙了研究的進展以及實驗的可重復性。一種可能的解決方案是考慮使用合成數據集。首先使用圖生成器創建盡可能逼近真實場景的網絡,如優先連接網絡、隨機網絡、冪律網絡和互聯網拓撲結構等;然后人為地注入異常信息。目前異常注入的方法[75]主要有三種:(1)擾動原有數據,即對原本正常的網絡進行人為的調整,使其呈現異常狀態,如隨機重新連接邊緣或交換節點屬性;(2)插入欺詐信息,即對原有的圖數據進行擴展,插入異常節點和連邊等;(3)對于標簽數據,可將對應標簽數目出現次數較少的節點視為異常。合成數據集提供了一個通用的基準,允許多組研究人員在同一數據集上評估提出的算法性能。然而,許多在合成網絡上表現良好的算法在實際應用中可能表現不佳,因為實際數據往往很混亂,具有孤立節點、奇異度分布和不平衡類分布。合成數據集在拓撲結構、節點屬性、邊屬性、社區結構、數據分布和相關性等方面如何設計,使其盡可能接近欺詐檢測算法實際處理的網絡類型仍是未來的一大挑戰。
基于圖的欺詐檢測可視為二分類問題,可利用二分類算法的評估方法說明算法的性能。
在有足夠的標記數據時,通常基于ROC或PR曲線的經典標準評估算法性能。ROC曲線以FPR(false positive rate)為x軸,TPR(true positive rate)為y軸,其中FPR指實際負樣本中被錯誤預測為正樣本的概率,TPR指實際正樣本中被預測正確的概率。PR曲線以Recall為x軸,Precision為y軸,Recall與TPR含義相同,而Precision指正確分類的正樣本數占總正樣本的比例。相比于ROC曲線,PR曲線更加關注正樣本(欺詐樣本),對欺詐檢測模型有更好的評估效果。
對于無標簽數據集,Goix[76]提出基于過剩質量(EM)和質量體積(MV)曲線以評估異常檢測方法的性能,但目前這兩種方法還沒有應用到圖欺詐檢測中。
基于圖異常檢測進行反欺詐一直是學術界和工業界的研究熱點。在數字化金融服務迅速發展和網絡規模不斷擴大的情況下,欺詐檢測算法需要高效率且可擴展。近年來,新技術的發展為圖欺詐檢測提供了理論基礎,如張量分解、網絡嵌入以及圖神經網絡等。方法的選擇取決于欺詐檢測的實際需求,最終達到的效果也各有差異。本文對反欺詐中廣泛應用的圖異常檢測技術進行總結,并對未來研究的發展方向進行總結。
不同的復雜網絡的欺詐定義和檢測方法不同,應根據復雜網絡的具體應用場景以及側重的特征選擇合適的異常檢測方法。欺詐檢測方法的分類匯總如表4。

表4 欺詐檢測方法分類匯總Table 4 Classification summary of fraud detection methods
目前,雖然社會網絡分析方法在反洗錢、醫療保險欺詐檢測以及車險欺詐檢測等領域已初見成效,但面對不斷發展的數據變化和實際需求,仍需進一步的發展與創新,主要有以下方向:
(1)海量數據的計算及時性
絕大部分的金融欺詐檢測方案是在事務處理系統中實施的,這種復雜系統能夠實時處理海量事務數據,通常要求毫秒范圍的響應時間。以交易系統為例,這種端到端的時間限制包括交易處理本身、欺詐評分、支付網絡處理以及通信協議等步驟。由于實時處理的限制和大型互聯圖形的使用,社會網絡分析方案面臨嚴重的響應時間壓力。因此,如何利用社會網絡分析實現欺詐檢測的實時性將是一個重要的研究方向。
(2)異構信息網絡的復雜交互性
金融交易處理系統通常涉及眾多交易類型和模型來處理欺詐風險。在金融支付系統中,欺詐檢測模型感興趣的特征可能來自不同類型的社會網絡,這種復雜性成為開發有效圖形解決方案的障礙。同樣,跨渠道欺詐需要在實時響應服務級別協議的壓力下,在多個具有不同特征的圖上同時進行計算。因此,如何在獨立的網絡中執行批量計算也是未來的一個挑戰。
(3)多模態數據的建模可解釋性
數字化場景下的金融服務渠道日趨豐富,不同渠道下的數據來源囊括了諸如文本、音頻以及圖像等多模態數據,多模態數據中所暗含的潛在信息對于分析金融場景中的欺詐行為至關重要。當前針對多模態數據的建模分析多集中于推薦系統和計算機視覺等人工智能商業場景,針對數字化金融科技領域的研究相對較少。因此,探究如何合理解析多模態數據并將其轉化為社會網絡分析法中的實體表達或關系描述是下一階段可突破的學術難點。