呂林濤+袁琴琴+呂暉+李婉榮



摘 要: 針對洗錢交易的大數據大額可疑特征和量化特點,基于凝聚和優化指標的思想,提出一種ML?CDBIE算法。該算法根據節點信息熵的相似性和社區信息熵的穩定性進行洗錢社區發現。根據增加節點后社區熵的變化是否劇烈可以判斷節點的劃分是否正確,是否屬于社區的成員,從而實現洗錢社區的發現。實驗結果表明,該算法不僅具有洗錢賬戶識別率高和良好的社區結構,而且為金融網絡洗錢社區發現提供了一種新途徑。
關鍵詞: 金融網絡; 洗錢交易; 信息熵; 社區發現; 社區劃分
中圖分類號: TN911.1?34; TP393 文獻標識碼: A 文章編號: 1004?373X(2017)17?0131?04
An information entropy based new money laundering community
discovery algorithm of financial network
L? Lintao1, YUAN Qinqin1, L? Hui2, LI Wanrong3
(1. Department of Information Engineering, Xijing University, Xian 710123, China;
2. College of Civil Engineering, Chongqing University, Chongqing 400044, China;
3. College of Computer Science and Engineering, Xian University of Technology, Xian 710048, China)
Abstract: According to the large quantity and suspicious characteristic and quantitative features of money laundering transaction, a money laundering community discovery algorithm based on information entropy (ML?CDBIE) is proposed according to the thoughts of aggregation and indicator optimization. The characteristic of the algorithm is to discover money laundering community according to the similarity of nodes information entropy and stability of community information entropy. According to the dramatic change of the community entropy after nodes addition, it can determine whether the nodes division is correct, or belongs to the community, which can discover the money laundering community. The experimental results show that the algorithm has high recognition rate and perfect community structure of money laundering account, and also provides a new way to discover the money laundering community of financial network.
Keywords: financial network; money laundering transaction; information entropy; community discovery; community division
0 引 言
隨著金融系統的全球化、信息化和網絡化發展,使得資本在世界范圍內以更快更便捷的方式流動,但是如何有效防范金融網絡中的洗錢犯罪行為已成為當前人們關注的熱點。
目前,社區發現技術不僅應用于網絡結構、分析網絡個體間關系,而且也是解決挖掘網絡中隱藏有價值的大數據的一種有效途徑。因此,為了有效獲取復雜金融網絡的洗錢社區,本文基于信息熵的社區發現技術,根據金融網絡中的交易結構及洗錢交易的大額和可疑特征,建立了將交易賬戶映射為網絡中的節點,賬戶間的交易關系映射為網絡中邊的數學模型,并針對洗錢交易的大數據大額可疑特征和量化等特點,提出一種基于信息熵的洗錢社區發現算法,通過應用后表明,該方法不僅解決了金融網絡中節點社區快速有效的劃分,而且也能依據可疑交易特征發現洗錢社區,從而為金融安全交易提供了有力保障。
1 洗錢特征的提取與量化
金融網絡中的洗錢[1]是通過交易金額、交易頻率、交易周期、交易方式等一系列復雜的賬戶交易達到資金的非法流動,其操作過程主要分為入賬、分賬和融合三個階段,如文獻[2]給出的洗錢交易網絡圖如圖1所示。
圖1中的A1~A11表示交易賬戶;箭頭代表交易方向和交易類型,包括存款、轉賬和取款;邊上的數字代表交易金額,單位為萬元。由圖1分析可知,洗錢交易所涉及的單筆和累計交易金額都非常巨大,遠遠高于普通賬戶的平均水平,并且在一定時間內,賬戶之間的頻繁交易使得其交易頻次也體現出大于普通賬戶的特征。若根據中國政府制定的相關可疑交易監測標準[3]中的規定,一般情況下,對于交易金額超過一定銀行規定下限的賬戶以及交易行為符合異常交易監測標準中描述的賬戶需要進行報告、監測和追蹤,因為這些賬戶都屬于可疑洗錢交易賬戶。endprint
針對上述特點,本文提取了能夠進行量化的交易金額和交易頻次這兩個主要特征作為洗錢社區發現的特征向量集。本文提取的是賬戶在某段時間內累計的交易金額和交易頻次,并采用鄰接矩陣和進行量化表達及存儲:
(1)
式中表示有效賬戶個數。
設表示一個金融網絡(n表示賬戶個數),每個節點代表一個交易賬戶,是所有節點的集合,是所有邊的集合,其中賬戶的存(取)款交易用一條零節點指向節點(由節點指向零節點)的邊表示。如果賬戶和賬戶之間存在交易關系,則有邊否則。因此式(1)簡化為式(2)的求解:
(2)
式中:表示邊上的權值,即交易金額和交易頻次。如果賬戶和賬戶之間存在交易,的值就不為0,否則的值為0;表示賬戶自身的交易金額和交易頻次信息。
2 基于信息熵的洗錢社區發現算法
2.1 節點信息熵的定義
信息熵[4]在數學理論上是一個較為抽象的概念,主要是指某種特定信息的出現概率,一般用來標記一個事件的信息熵。對于由個事件構成的系統每一個事件發生的概率為其產生的信息熵為整個系統的信息熵為。
通過對洗錢交易特征[5?9]的分析,如果賬戶的交易行為同時滿足大額交易和可疑交易特征,則作為洗錢賬戶被識別的概率就很大。相應地,這種賬戶節點的信息熵就大于其他的賬戶節點。
根據矩陣中賬戶交易金額的值,賬戶的交易金額為網絡交易金額為為賬戶的交易金額占網絡總交易金額的比例,的值越大,賬戶屬于大額交易賬戶的概率越大;根據矩陣中賬戶交易頻次的值,賬戶的交易頻次網絡交易頻次為為賬戶的交易頻次占網絡交易頻次的比例,的值越大,賬戶屬于可疑交易賬戶的概率就越大。只有當一個賬戶同時滿足大額交易和可疑交易特征,才能被認為是洗錢交易賬戶。因此,賬戶在由金融網絡構成的交易系統中作為洗錢賬戶發生的概率為:。賬戶節點的信息熵為。
網絡的信息熵可以通過計算該網絡所有節點的信息熵的均值得到,為網絡中包含的賬戶個數,即。
2.2 洗錢社區的發現算法構建
基于信息熵的洗錢社區發現算法(以下簡稱ML?CDBIE)是基于凝聚和優化指標的思想,根據節點信息熵的相似性和社區信息熵的穩定性[10?11]進行洗錢社區發現。根據本文社區的定義,相同社區內部的節點具有相似的屬性和緊密的聯系,因此社區內部的節點會具有相似的信息熵,并且整個社區的信息熵也會相對穩定。在對節點進行社區劃分時,如果節點加入到社區,造成社區熵的劇烈增加或減少,表明這個節點不應該被劃分到該社區,否則應該將該節點劃分到該社區。根據增加節點后社區熵的變化是否劇烈,可以判斷節點的劃分是否正確,是否屬于社區的成員,從而實現社區發現。
根據社區發現的原理,本文定義了一個閾值作為判斷節點劃分的依據。如果添加節點到洗錢社區之后的信息熵增量絕對值小于閾值,則添加,否則不添加。考慮到賬戶交易在交易金額以及交易頻次上具有的不確定性和波動性,采用網絡平均信息熵和節點信息熵的標準差作為信息熵增量閾值的標準:
(3)
(4)
因此,基于信息熵的洗錢社區發現算法可以通過兩個階段進行。
第一階段:主要完成洗錢社區節點的劃分。設是所有網絡節點的集合,其算法描述如下:
Step1:計算所有節點的信息熵,并選取節點信息熵最大的節點作為初始社區核節點;
Step2:將核節點的鄰接點以及核節點作為初始社區計算社區的熵如果繼續下一步。否則從中去掉中的節點;
Step3:從的鄰接點中選取信息熵最大的節點如果繼續下一步,否則從中去掉中的節點和的鄰接點;
Step4:計算加入新節點之后的信息熵差如果添加該節點到洗錢社區,否則不進行添加,并從中剔除該節點;
Step5:重復以上步驟,直到所有滿足條件的節點都被劃分到洗錢社區為止。
第二階段:主要完成洗錢社區的相關合并。合并算法描述如下:
Step1:洗錢社區的合并;
Step2:對有邊相連的相鄰社區進行合并;
Step3:計算合并兩個社區之后的信息熵與原社區的信息熵增量的絕對值,如果增量的絕對值在范圍內,則合并兩個社區,否則不合并;
Step4:重復上述步驟直到沒有滿足合并條件的子社區為止。最終生成的社區結構就是洗錢交易社區。
3 實驗與分析
3.1 數據預處理
實踐表明,洗錢交易周期一般為20天左右。因此本實驗的原始數據集選取了某商業銀行2005年3月—5月的流水交易結算數據。共3 026條交易記錄,860個交易賬號。部分原始交易數據集如表1所示。
對原始數據需要進行預處理,剔除不必要的屬性;交易金額的記賬單位改為萬,并截取后四位小數作為精度計算;交易賬號也依次進行了從的編號;并且刪除非活躍賬戶,即沒有發生轉賬交易的賬戶。預處理之后的交易數據集示例如表2所示。
3.2 算法評價指標
為了驗證ML?CDBIE算法的有效性,本文提出了兩個算法評價標準對算法的識別準確率和社區結構進行評價。
3.2.1 ML?CDBIE算法準確率評價
從理論上講,洗錢交易社區應該包括所有的可疑交易節點,即符合大額交易和異常交易特征的賬戶,并且正常賬戶或者不符合該社區特征的交易賬戶都不應該被劃分到洗錢社區中。因此,算法識別的準確率評價對評價算法的有效性至關重要。
通過對原始交易數據中相應賬戶的交易明細進行分析、判斷和統計,設是具有可疑洗錢交易特征且被正確劃分到社區的節點個數,是不具有洗錢交易特征但被劃分到社區的節點個數,是具有洗錢交易特征但是沒有被正確劃分到社區的節點個數。本文算法對洗錢交易識別的準確率定義為:endprint
(5)
洗錢交易社區的劃分精度為:
(6)
3.2.2 社區結構評價
Newman提供了模塊度對社區結構的劃分質量進行評價[12]。假設網絡經過社區劃分之后一共有個子社區,矩陣是一個維的對稱矩陣,元素表示連接兩個不同社區和的邊在所有網絡邊中占據的比例。表示與社區中的節點相連的邊在網絡所有邊中所占的比例。模塊度的計算公式定義為:
(7)
式中:的上限為1,的值越接近1,社區結構就越明顯,在實際網絡中,該值通常位于0.3~0.7之間。
3.3 實驗結果
將預處理后的數據進行ML?CDBIE算法處理,最終生成了具有可疑洗錢交易特征的4個子洗錢社區,如圖2所示。
在4個洗錢社區中,有的子社區之間依然有邊相連,但是他們不符合合并社區的條件;子社區與其他子社區沒有邊相連,是一個獨立的子社區,因為這些節點對應的賬戶只在該社區范圍內進行交易。這些社區中的節點基本都符合大額交易和可疑交易的特征。
3.4 結果分析
3.4.1 準確率
通過對數據的分析,其中社區內部共有111個節點,符合可疑判斷標準賬戶節點一共有98個,不符合的共有13個,社區外部符合判斷標準的賬戶節點共有15個,根據式(5)和式(6)對ML?CDBIE算法的準確率進行計算。ML?CDBIE算法對洗錢交易識別的準確率為:
洗錢交易社區的劃分精度為:
通過計算可知,ML?CDBIE有較高的識別準確率和精確度。
3.4.2 社區模塊度
通過實驗結果對社區結構評價指標進行計算和分析。以下是4×4維的對稱矩陣
按照模塊度的計算公式對社區的模塊度進行計算,社區模塊度=0.403 3≈0.4。一般網絡的模塊度都在0.3~0.7之間,該社區的網絡模塊度介于該值之間,模塊度良好。
4 結 語
本文提出基于信息熵的洗錢社區發現算法,通過應用社區發現技術和信息熵的原理結合,針對洗錢交易的大額交易和可疑交易特征,較好地解決了通過金融網絡中的節點社區劃分從而發現洗錢交易社區問題。實驗結果表明,本文提出的算法不僅具有較高的識別準確率,而且具有良好的社區結構,因此,本文提出的算法在反洗錢技術領域具有重要的理論和實用價值。
參考文獻
[1] 魏萊.反洗錢監管體系與檢測方法研究[D].湖南:湖南大學,2011.
[2] 李玉華,易鑫,孫小林.基于圖熵的鏈接發現算法在反洗錢領域的應用[J].計算機工程與科學,2007,29(11):50?52.
[3] 中國人民銀行.金融機構大額交易和可疑交易報告管理辦法[EB/OL].[2016?12?30].http://www.pbc.gov.cn/publish/Tiaofasi/274/ index.html.
[4] 王剛,鐘國祥.基于信息熵的社區發現算法研究[J].計算機科學,2011,38(2):238?240.
[5] 張曉宇,鄧昌智,王宏安.面向地下錢莊洗錢行為的可視化交互分析平臺[J].計算機應用研究,2015,32(1):170?175.
[6] ZHANG Chengwei, WANG Yubo. Research on application of distributed data mining in anti?money laundering monitoring system [C]// Proceedings of 2010 the 2nd IEEE International Conference on Advanced Computer Control. Shenyang, China: IEEE, 2010: 133?135.
[7] DE KOKER L. Aligning anti?money laundering, combating of financing of terror and financial inclusion: questions to consider when FATF standards are clarified [J]. Journal of financial crime, 2011, 18(4): 361?386.
[8] LIU Keyan, YU Tingting. An improved support?vector network model for anti?money laundering [C]// Proceedings of 2011 the Fifth International Conference on Management of E?Commerce and E?Government. Wuhan, China: IEEE, 2011: 193?196.
[9] ZHANG Chenghu, ZHAO Xiaohu. Research on money laundering recognition based on decision tree algorithm [J]. Journal of Wuhan University of Technology, 2008, 30(2): 154?156.
[10] 鐘芬芬.復雜網絡社區發現算法研究[D].西安:西安電子科技大學,2012.
[11] 蔡波斯,陳翔.基于行為相似度的微博社區發現研究[J].計算機工程,2013,39(8):55?59.
[12] 王林,戴冠中,趙煥成.一種新的評價社區結構的模塊度研究[J].計算機工程,2010,36(14):227?229.endprint