999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進的兩階段聚類方法在金融可疑識別中的應用

2010-05-22 08:06:34吳玉霞牟援朝
統計與決策 2010年5期
關鍵詞:方法

吳玉霞,牟援朝

(華東理工大學 商學院,上海 200237)

0 引言

盡管金融犯罪活動受到了全球的關注,由于金融制度的不足和監控體系的不完善等原因,當前金融犯罪活動尤其是洗錢活動則日益突出,反洗錢問題須亟待解決。各國金融機構保存了大量的客戶資料和交易行為記錄,這些記錄包括了交易資金的流動性和交易次數波動性等,利用信息技術從這些海量的數據中識別出正常的和異常、可疑的交易行為成為各國打擊洗錢犯罪的有效手段,而數據挖掘技術的科學性和有效性則滿足了當前的需求,受到了反洗錢工作部門的重視,成為當前研究的熱點問題。

本文擬通過數據挖掘的聚類技術來對客戶進行管理和區分。大多數單一的聚類技術都有其自身的優缺點,并且其重點在于高質量的聚類結果,而將潛在的需要挖掘的孤立點當作噪音等自動刪除或忽略掉。本文針對金融機構客戶的數量巨大,維數較高等特點,擬將傳統的層次聚類和劃分聚類進行結合,實現優勢互補,并對其進行相應的改進,從而有效識別出異常值和孤立類,本文以期通過該方法的實現,為孤立點的進一步挖掘提供有效的高質量數據。

1 層次聚類和劃分聚類

1.1 層次聚類

層次的方法是對給定數據對象集合進行層次的分解。根據層次的分解如何形成,層次的方法可以分為凝聚的和分裂的[2]。凝聚的方法也稱為自底向上的方法,一開始將每個對象作為單獨的一個組,然后相繼地合并相近的對象或組,直到所有的組合并為一個(層次的最上層),或者達到一個終止條件。分裂的方法又稱為自頂向下的方法,一開始將所有的對象聚成一個簇。在迭代的每一步中,一個簇被分裂成更小的簇,直到最終每個對象在單獨的一個簇中,或達到一個終止條件。

大多數層次聚類方法是屬于凝聚的方法,它是由小類逐漸聚為大類的過程,可以通過譜系圖形象的表達出來,由合并的距離可以看出它們的親疏程度。各種凝聚型的聚類步驟基本相同,所不同的是類與類之間的距離定義不同[2]。類間距離的不同定義就產生了不同的聚類方法。常用的簇間距離度量方法有最小距離、最大距離、平均距離和平均值的距離等。

1.2 劃分聚類

劃分方法是給定n個對象或元組的數據庫,一個劃分方法構建數據的k個劃分,每個劃分表示一個聚類,并且k小于等于n。其基本思路是[3]:首先從數據集中隨機地選擇幾個對象作為聚類的原型,然后將其他對象分別分配到由原型所代表的最相似、也是距離最近的類中。對于分割聚類方法,一般需要一種迭代控制策略對原型不斷地進行調整,從而使得整個聚類得到優化。k-平均法(k-means)是使用最為廣泛和經典的劃分方法,它是以k為參數,把N個對象分為k個類,使類內具有較高的相似度,而類間的相似度較低。

k-means算法過程[3][4]包括輸入輸出,即

輸入:包含N個數據對象的數據集及要生成類的數目k。

輸出:k個類,使平方誤差準則為最小。

具體算法過程為:

(1)任意(或人為)地選擇k個對象作為初始的聚類中心;

(2)計算每個對象與聚類中心的距離(平方誤差),將每個對象賦給最近的類;

(3)重新計算每個類中對象的平均值;

(4)如果均值與上一個循環相比不再發生明顯變化,結束;如果發生變化則返回到第(2)步,直到收斂為止。

從算法的過程可以看出,k個初始聚類中心的選取對聚類結果具有較大的影響,因為算法的初始類中心是任意選取的。

2 改進的兩階段聚類算法

很多傳統的經典的數據挖掘算法都尤其優缺點,關鍵是要選擇適合的算法應用在特定的環境里。針對上面兩種算法的優缺點,提出將兩種算法結合起來,并進行相應的改進。

2.1 兩階段聚類方法的基本思想

(1)采用層次聚類方法對聚類源數據集進行聚類,得到初始聚類結果,找出異常值并保存到黑名單表中。

(2)從待聚類的源數據集中將找到的異常值提取出來作為進一步調查的基礎數據,同時得到另一個待聚類對象集D(從源數據集中除去異常值的對象集)。

(3)采用K-means算法對D進行聚類,其類數和聚類中心是來自層次聚類得到的結果。

(4)得到對象集D的聚類結果,再將異常值單獨作為一類,獲得聚類結果和異常類。

(5)對所挖掘出來的異常值和異常類匯總到黑名單中進一步進行異常挖掘,對聚類的結果進行正常模式和可疑模式的分析,并在聚類的基礎上進行全局孤立點檢測。

2.2 改進的方法

從算法的流程中可以看出,兩者方法的結合很好地彌補了K-means算法的不足。同時能夠有效的識別出異常數據,為反洗錢可疑識別中的應用打下了基礎。但由于在金融應用中,數據量巨大,而起始使用的層次方法由于其高的復雜度,不適宜用于大數據集的挖掘,效率比較低,消耗時間和內存比較大,因此,必須對其進行進一步改進。

改進的方法主要有兩種:

(1)從樣本中抽取一些子樣本進行層次聚類。此方法的思路是從大樣本數據中隨機的或按一定的規則抽取出部分子樣本進行聚類分析,這樣基本上可以得出較準確的聚類數和聚類中心,并能有效縮短其檢查和計算所需的時間。

(2)采用兩步聚類(Two-step)的方法。第一步是單獨通過數據,把原始數據壓縮成易處理的子類集。第二步使用層次聚類方法,將子類逐漸合并成越來越大的聚類,不需要再次通過數據。許多層次聚類從單個記錄開始分群,逐步合并從更大的聚類。兩步聚類的最初的預先聚類使層次聚類即使處理大型數據集也很快,能夠自動的排除出離群點。

第一種改進的方法在一般的聚類分析中比較有效且實用,但在反洗錢可疑識別中的重點是異常值的發現,而此改進方法由于其抽樣性會降低對異常值發現的功能,因此在可疑識別中的應用并不是很合理。第二種方法能夠較好的處理大型數據集且能處理異常值,因此在金融可疑識別中更為實用。本文采用第二種方法進行應用研究。

3 改進的算法在反洗錢中的應用

3.1 數據準備

本文在選擇樣本數據時特選取信息化程度比較高的券商,其完整的數據庫建設保證了數據的準確、完整和一致性,使得本文的分析結果比較客觀。本文選取了國內著名券商A的一個營業部A的數據。券商A為國內十大券商之一,資產狀況良好,不屬于高風險券商,而且其在國內屬于較早建立反洗錢系統的券商,數據庫數據可靠性和完整性較高。本文共采集了營業部A的44247條證券交易數據、7227條客戶資產和2665條資金存取數據,時間采集區間為2009年5月8日至2009年6月8日,并在后文數據預處理中增加若干人工數據用于模型識別效果的評價。

3.2 屬性選擇

數據庫中的數據包含著大量的屬性,每個客戶賬戶數據庫中的屬性就有幾十個,并不是每個屬性都是可用的,如果將不相關或相關性很小的屬性用于建模,將會使得計算代價呈幾何級增加。因此需要提取出與挖掘目標最貼切的最相關的屬性。

選取屬性的標準是要能夠對可疑的洗錢活動進行描述,并且要反應證券公司的交易特點。一個典型、完整的洗錢過程可以分為三個主要階段:放置階段、離析階段和歸并階段。在實際的洗錢操作過程中,三個階段有時很明顯,但大多情況則是則交叉運用,難以截然分開。一般來說,對洗錢者而言放置階段是最困難的一步。在放置階段其資金流動的明顯特征就是入賬資金數量巨大,而進入離析階段后,資金總量不再發生劇烈變動,而資金存取的頻繁性表現加劇,資金從一個賬戶頻繁地轉入轉出,且流向極其復雜。經過對洗錢活動資金存取的特征進行分析,得出結論:聚類方法中的屬性應該包括對資金存取數量、資金存取頻次和交易情況的描述。

總的來說,結合證券公司客戶的交易賬戶特征可以定義5個屬性:賬戶資產總額、月交易次數、月存取次數、月交易總額、月存取總額。

3.3 聚類分析過程

當前數據挖掘技術的建模工具很多,本文使用的建模工具是Clementine軟件。Clementine軟件使用圖形象征的方法,其功能是通過拖拉鼠標和連接屏幕上的功能節點來實現的。實現模型的過程主要是分為兩步:一是對客戶數據庫中的數據進行預處理;二是用Clementine工具挖掘模型的建模實現。

3.3.1 數據預處理

本文是從證券公司客戶的數據庫中抽取出相關的字段,截取一個月的交易記錄并導出到Excel表中用于作為分析的數據來源。

將得到的數據分別導入到SQL Server2005中建成的3張表中。通過屬性的選取、表的合并以及對原始數據進行了處理,剔出了一些非交易數據,如手續費收取、返還和紅利、紅股派發等的記錄數據。經過處理,共整理出了1131條數據記錄。文中通過增加10條人工記錄來驗證聚類可疑識別的效果。其中5條記錄表現的特點是交易次數較少,但存取較頻繁;另5條記錄則是交易很頻繁,存取次數一般。這兩個特點都是可疑報告中的特征。因此共1131條真實記錄和10條人工記錄。每個客戶賬戶包含如表1所示的6個字段。

表1 字段名稱

3.3.2 兩步聚類可疑識別過程和結果

經過數據預處理的過程,我們已經將數據轉換成適合模型且易于挖掘的形式。主要任務就是要把準備好的數據輸入到模型中,通過編輯并連接模型中的節點完成基于兩步聚類的聚類過程,這里應用的建模節點為Two-step節點。

在應用Clementine進行聚類時,要先設置Two-step節點模型選項,對Two-step建模節點的設置如下:

使用分區數據,選擇分區字段位于流中,將數據分割成數個,用于訓練、測試和驗證的單獨樣本,并且可能提供當模型擴展為可適用于大型數據集時,該模型的能力說明;

采用標準化數值字段。兩步聚類會對所有數值輸入字段進行標準化,使其具有相同的尺度,即均值為0且方差為 1;

離群值檢測在預聚類步驟進行,會將相對于其他子聚類具有較少記錄的子聚類視為潛在離群值,且重新構建不包括這些記錄的子聚類樹;

自動計算聚類數。兩步聚類可以非常迅速地對大量聚類解決方案進行分析并為訓練數據選擇最佳聚類數。通過設置最大聚類數和最小聚類數指定要嘗試的聚類解決方案的范圍。本文設置最大聚類為15,最小為2。

基于兩步聚類的細分結果如表2所示。

通過聚類的結果可以看出,聚類五和六兩類由于其所含的記錄數較少,所謂的“小模式”可疑性很大,因此將這兩類數據存入到可疑名單表中,以作為進一步離群數據挖掘的基礎數據。同時將剩下的4類數據作為第二階段的聚類基礎數據。通過輸出的可疑名單數據可以發現,設置的10人工數據中有5條被識別出來。可見通過兩步聚類能夠處理一定的異常值。

3.3.3 設置K-means建模節點并進行劃分聚類

K-means建模節點的設置如下:

指定聚類數。通過兩步聚類,我們得出將數據劃分成6類,由于除掉其中的異常情況,因此,數據還剩下4類,添加一個特殊類作為離群類的存取,將聚類數設為5;

表2 兩步聚類的細分結果

停止條件。將迭代停止條件設為默認的終止準則,最大迭代次數先設定為20,差異的容忍度指定為小于0.00001,滿足以上任意一個停止條件訓練就會終止。由于用于K均值聚類的數據集規模不大,通常迭代的步數不會超過十步;

對集合字段重新編碼。集合字段重新編碼的作用是指定一個0至1之間的值用于把集合字段編碼成一組數值型字段,默認值為0.5的平方根約0.70711,為重新編碼后的變量字段提供合適的加權。值越接近1.0,集合型字段權重越大于數值型字段。本文選擇默認設置處理集合字段。

K-means聚類的細分結果如表3所示。

表3 K-means聚類的細分結果

3.3.4 結果分析

在聚類分析時則根據每條交易的屬性的相似程度進行聚類,當聚類結果顯示,在聚類過程中所選取的所有屬性都能發揮較大的作用,則說明聚類結果顯著;若聚類過程中某一屬性如年交易金額并沒有使用,而僅使用年交易次數作為實際聚類過程中的聚類屬性,或者聚類過程中沒有太多使用某一個屬性,此情況就說明所選取的屬性不合適,并認為聚類效果不顯著。由當前聚類的結果可以得出,所選取的5個屬性均發揮了相應的作用,聚類結果比較顯著。聚類1反映的是那些資產較小,存取活動和交易活動均較少的客戶,可疑性較小;聚類5與1相比,存取次數較高,比較可疑;聚類4相比聚類1客戶資產稍大,交易額也較大,可疑性較小;聚類2是資產較大,交易資金量較小、交易活躍,該類包含的記錄很少,可疑性很大;聚類3與2相比,交易次數較少,金額較大,易存在大額存取和交易的情形,可疑性較大。

聚類2和3包含的記錄均較少,且可疑性較大,將該兩類的記錄匯總到可疑交易名單中。通過聚類的記錄結果,可以發現兩步聚類未識別出的5條人工記錄在聚類2中。

聚類分析是一個循環過程。若聚類結果不夠顯著,如第一階段采用的兩步聚類,需要將異常數據剔除出源數據,異常數據將被專門保存作為需要深入調查的可疑名單中,然后對處理過的原數據進行再次聚類,同時為了避免與上次聚類的結果重合和對其改進,需要改變聚類方法,如第二階段采用的K-means聚類,依次類推,直到聚類結果顯著為止。最后,將在聚類過程中的所有異常類數據進行匯總保存,所得數據集即為可疑數據,然后以賬戶為主題確定出可疑名單。

3.4 孤立點的進一步檢測

孤立點的進一步檢測可分為兩個方面,一方面是進一步分析在兩階段聚類過程中識別出的被匯總保存到可疑名單中異常值和孤立類;另一個方面是在已完成的高質量的聚類的結果的基礎上,進一步對每個類進行全局孤立點檢測。對已列出的可疑名單中的記錄進行檢測比較簡單,本文介紹對全局孤立點檢測建模的過程和處理結果進行分析。

圖1 孤立點檢測建模過程

建模過程如圖1所示,通過在聚類的基礎上設置異常檢測節點來完成異常模型的建立,每個記錄都指定了一個異常指數$0-AnomalyIndex顯示,該指數是組偏差指數與該觀測值所屬聚類中平均值的比。此指數的值越大,觀測值與平均值的偏差就越大。通常情況下,指數值大于 2的觀測值有可能是異常觀測值,因為該偏差至少是平均值的兩倍。

添加表節點并執行將建模的結果輸出到Excel表中 (如圖2所示)以查看得分數據。模型生成的 $0-Anomaly字段表明哪些記錄為潛在異常記錄。可在“設置”選項卡中選中了放棄記錄選項,僅列出標記為潛在異常的記錄。還列出了每條記錄的整體異常指數值,同時給出了對等組和最有可能造成記錄異常的4個字段。

圖2 可疑程度得分

通過查看得分數據,得分表中列出的異常記錄有31條,其中在Two-step聚類中未識別出的5條人工記錄,仍放入孤立點檢測中,其在得分表中$0-Anomaly字段均顯示T(表示屬于異常),可見異常檢測的效果比較顯著。情報分析部門可以根據自身的狀況和資源的情況,按照可疑程度的排序結果選擇要調查的賬戶數,并可根據給出的具體字段的可疑程度,能有效減緩調查的難度和工作負擔。

由于客戶資料的保密性,此處就省略了對具體賬戶的所屬的可疑類型進行分析的過程。建模過程可以將全部記錄中的字段影響異常值程度以散點圖的形式顯示出來,月交易金額與月存取金額的異常值散點圖,如圖3所示。

圖3 資金存取額與交易額的散點圖

要查看顯示所有記錄(不僅僅是異常記錄)的完整散點圖,要取消選擇已生成模型中“設置”選項卡上的放棄記錄選項。使用圖表更方便地查看要標記的記錄,以備進一步調查。

4 結束語

通過挖掘的結果顯示,案例的異常點挖掘通過設置人工數據進行檢驗,人工數據在兩階段聚類過程中分別在不同的階段被識別出來,在異常建模中也被顯示出來,基于兩階段聚類算法的異常識別建模過程能夠根據客戶交易數據和客戶基本信息有效挖掘出客戶交易行為的異常記錄,但是限于數據源以及一些客觀條件制約,使得異常點的挖掘僅僅專注于聚類分析后匯總的可疑名單和各個分組客戶交易行為異常程度,而沒有對客戶在股票買賣、資本運作(轉賬)等方面做深入細致的分析,在今后的研究中將進一步地對這方面進行深入具體的分析。

[1]湯俊.基于客戶行為模式識別的反洗錢數據監測與分析體系[J].中南財經政法大學學報,2005,(4).

[2]毛國君,段立娟,王實等.數據挖掘原理與算法(第二版.)[M].北京:清華大學出版社,2007.

[3]陳光宇.數據挖掘在客戶流失分析中的應用—聚類與分類算法的研究及應用[D].江蘇科技大學,2007.

[4]張業嘉誠.劃分聚類與基于密度聚類算法的改進方法研究[D].大連理工大學,2007.

[5]李文超,周勇,夏士雄.一種新的基于層次和K-means方法的聚類算法[C].第26屆中國控制會議論文集,2007.

[6]謝邦昌.數據挖掘Clementine應用實務[M].北京:機械工業出版社,2008.

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: av性天堂网| 日韩国产另类| 久久精品一卡日本电影| 福利在线不卡一区| 日韩午夜福利在线观看| 亚洲天堂精品在线观看| 久久99国产综合精品1| 五月天在线网站| 亚洲第一香蕉视频| 三上悠亚精品二区在线观看| 91av成人日本不卡三区| 香港一级毛片免费看| 精品综合久久久久久97| 国内精品小视频福利网址| 国产人成网线在线播放va| 呦视频在线一区二区三区| 成人在线视频一区| 久久精品国产999大香线焦| 精品亚洲国产成人AV| 中文字幕啪啪| 精品无码日韩国产不卡av| 国产欧美日韩18| yy6080理论大片一级久久| 免费在线色| 日韩av无码精品专区| av天堂最新版在线| 国产综合网站| 日本欧美中文字幕精品亚洲| 日韩a级片视频| 亚洲欧洲美色一区二区三区| 精品国产Ⅴ无码大片在线观看81| 91激情视频| 国产交换配偶在线视频| 国产伦片中文免费观看| 99热国产在线精品99| 九九九久久国产精品| 国产色网站| 91久久精品日日躁夜夜躁欧美| 萌白酱国产一区二区| 中文字幕调教一区二区视频| 久久激情影院| 国产va在线观看| 国产噜噜在线视频观看| 亚洲高清中文字幕| 成年片色大黄全免费网站久久| 无套av在线| 少妇精品在线| 日韩中文精品亚洲第三区| a天堂视频在线| 亚洲毛片网站| 一区二区三区成人| 亚洲制服丝袜第一页| 欧美激情伊人| 乱人伦视频中文字幕在线| 在线观看精品国产入口| 久草热视频在线| 免费啪啪网址| 找国产毛片看| 青青草久久伊人| 欧美日韩午夜| AV网站中文| 久久亚洲国产最新网站| 在线另类稀缺国产呦| 一级毛片在线直接观看| 免费在线看黄网址| 丁香婷婷在线视频| 色爽网免费视频| 亚洲精品波多野结衣| 亚洲精品图区| 美臀人妻中出中文字幕在线| 国产精品亚洲日韩AⅤ在线观看| 天堂在线www网亚洲| 制服丝袜亚洲| 久久99精品久久久大学生| 国产本道久久一区二区三区| 91久久偷偷做嫩草影院免费看 | 欧美成人免费| 久久免费精品琪琪| 色屁屁一区二区三区视频国产| 香蕉eeww99国产在线观看| 国产一区二区三区在线观看视频 | 亚洲中文精品久久久久久不卡|