陳澤瀛 陶森林 蔡朝輝
(銀聯商務股份有限公司,上海 201203)
近年來,我國經濟快速發展,居民消費水平也日益增長,商戶數量也在急劇增長,尤其是中小微商戶的數量不斷提高。但是,伴隨著消費金額、消費筆數的連續上升和支付方式的不斷豐富,消費欺詐行為也呈現多樣化發展,主要表現為套現、挪用POS機從事賭博等非法行為和刷單等不同形式。每年該類產業鏈造成的金融損失超過千億元,同時還導致了一系列的社會經濟問題[1-3]。
目前主流的風險防控方法主要包括黑名單系統、專家規則系統和機器學習特征模型。然而,黑名單系統強依賴于黑名單數據庫信息和外部數據,對于新的風險案例識別效果較差;專家規則系統主要依賴于金融機構的業務人員經驗積累,好處是因為是經過不斷迭代驗證的專家規則,一般效果不錯,但是對于新業務的遷移性較差,規則的積累需要較長的時間周期和較高的人力成本,且專家規則監控的特征維度有限、泛化能力較弱;機器學習特征模型是目前比較熱門的風控研究領域,已經成為金融反欺詐的主要手段之一,具有特征覆蓋廣、數據處理能力強、對業務能力的要求也相對較弱的優勢。文獻[4]提出了一種基于滑動時間窗口的互聯網金融反欺詐檢測方法,并在網絡支付的數據集上驗證了其有效性;文獻[5]介紹了興業銀行基于大數據技術,提取業務特征,將移動互聯、大數據、人工智能等新技術與欺詐風險防范有效結合,提升了欺詐風險的偵測能力及處理效率;文獻[6]提出了將GBDT算法應用于銀行卡欺詐偵測領域,并以Bagging的方式對模型進行了組合,實驗表明模型效果顯著;文獻[7]通過建立圖拓撲特征體系框架和機器學習的異常檢測算法,對營銷欺詐團伙化網絡進行了智能化偵測,模型效果比傳統模型具有較大提升。
在風險欺詐檢測機器學習算法的有監督學習建模中,大多數處理方法主要以提取業務特征,然后訓練某個機器學習算法建立模型為主,常用的機器學習算法有決策樹、隨機森林、SVM、XGBoost等。我們的目標是學習一個在各個方面都表現良好的穩定模型,但是實際情況通常并不理想,上文提到的研究都取得了良好的欺詐偵測效果,但是對于一些臨界樣本的數據關注較低。另外,目前常見的機器學習風控特征模型多不關注樣本數據之前的時序關系,直接對樣本shuffle處理后訓練模型,忽略了樣本數據之間很重要的時序特征。
近年來,以長短期記憶網絡(LSTM)為代表的深度學習算法在時間序列領域取得了較為廣泛的應用,LSTM網絡可以充分挖掘時序數據之間的內在關聯,與CNN組合后的深度學習網絡具有更加強大的特征提取能力和分析推理能力,但當特征為非連續數據時,預測精度不高[8]。此外,梯度提升機(GBM)模型的相關改進算法也有著不錯的效果,例如,LightGBM算法具有速度快、效率高、占用資源少、支持并行處理等優點,但缺乏對時間序列的整體感知能力[9]。
為了克服單一模型在預測精度上的不足,組合模型的建模方法應運而生。組合模型的思想是綜合所有模型的預測結果,如果一個模型對于某個樣本的預測給出了極高的概率值,這樣即使另外一個弱分類器得到接近閾值的錯誤預測結果,前一個模型的強預測結果也可以糾正此錯誤。
本文采用循環神經網絡LSTM+LightGBM組合模型的方法,將海量的商戶交易數據(交易金額、交易筆數、交易時間、是否周末或者節假日、歷史同期數據等信息)按照信用卡、移動支付等交易方式處理特征組后作為輸入特征,分別輸入神經網絡模型和LightGBM模型進行訓練,在預測階段則綜合兩個模型的預測結果。該組合模型能夠結合兩種模型的各自特點,既可以挖掘時序數據之間的內在聯系,又可以避免非連續性特征對預測結果的影響。測試結果表明,本組合模型能夠降低單一模型在特殊場景下的誤差,具有更加穩定的預測效果。
LSTM網絡(長短記憶的時間遞歸神經網絡)是RNN網絡(循環神經網絡)的改進版本,RNN網絡雖然也可以學習序列模型,但是因為在RNN中損失傳遞不僅存在于層與層之間,也存在于每一層的樣本序列間,隨著層數的增加,反向傳遞的損失數值會越來越小,所以RNN無法學習太長的序列特征。LSTM通過刻意的設計來避免長期依賴問題,其結構示意圖如圖1所示。
LSTM的網絡結構引入了一個叫做細胞狀態的連接,這個細胞狀態用來存放想要記憶的東西,同時在里面加入了3個門:遺忘門、輸入門和輸出門。
遺忘門:該門決定模型會從細胞狀態中丟棄什么信息,計算方法如下:

圖1 LSTM網絡結構

輸入門:輸入門其實可以分成兩部分功能,一部分是找到那些需要更新的細胞狀態,另一部分是把需要更新的信息更新到細胞狀態里,計算如式(2)和(3)。

輸出門:在輸出門中,通過一個Sigmod層來確定哪部分的信息將輸出,接著把更新后的細胞狀態通過Tanh進行處理(得到一個在-1~1之間的值)并將它和前面提到的Sigmod門的輸出相乘,得到最終的輸出。

LSTM網絡作為一個對時序敏感的神經網絡,可以彌補大多數機器學習算法和CNN網絡對于時序數據處理的缺陷。鑒于商戶當天的交易和前一段時間的交易趨勢有較強的關系,因此我們選取預測當天前30天的交易數據作為輸入序列,為了能夠得到更好的模型效果,我們從多維度提取每日交易信息特征,主要包括:交易金額、交易筆數、交易時間等信息,具體如表1所示。
考慮到模型準確性和數據樣本的不均衡,如果一個商戶在某天發生了異常交易,則在30天的滑窗過程中,只要包含了該天的樣本數據,則都認為是正例樣本。此外,在訓練之前還需對所有特征進行歸一化處理,對于筆數、金額數據直接采用min-max歸一化處理:

對于日時間和月時間直接根據自然規律最大值歸一化,對于是否周末和節假日特征采用啞變量處理,即0表示非,1表示是。
鑒于CNN在特征提取方面的優勢和激活函數在非線性方面的良好表達能力,以及眾多經典神經網絡模型在CNN+LSTM組合后的良好效果,因此在LSTM網絡之前增加了三層CNN網絡用于提取特征,激活函數都選擇ReLU函數。最后,在LSTM層后,添加一個Dense輸出層和Softmax完成二分類任務。網絡結構如圖2所示。
LightGBM(Light Gradient Boosting Machine)是一個基于決策樹算法的提升框架,因為其采用了Histogram和Leaf-wise決策樹優化算法,具有訓練速度快、準確率高、支持分布式、內存占用率低等優點,能夠處理規模龐大的數據集,可用于排序、分類、回歸以及很多其他的機器學習任務中。
因為LightGBM不同于LSTM的時序敏感特性,在1.2節列出的特征提取基礎上,LightGBM補充了一些其他的統計特征,主要包括:過去一個月的日平均交易金額和平均筆數、過去一周的日平均交易金額和平均筆數。
為了確認提取的特征信息是有意義的,同時降低計算成本,需要剔除意義不大或者高度相關的特征。通過計算不同特征之間的相關性,對于兩個特征之間的相關系數大于等于0.75,則認為兩個特征之間存在高度相關,保留業務解釋上更合理的特征,篩除其他高相關特征。

表1 日交易流水信息初始特征
在第2章和第3章中,我們分別建立了兩個基于CNN+LSTM和LightGBM的檢測模型,在合并預測結果的過程中,鑒于兩種模型在處理數據過程中的不同優勢,我們設置了一個權重系數α來將兩個預測結果進行線性組合:

其中o1是CNN+LSTM模型的預測概率,o2是Light GBM模型的預測概率,o是最終的預測結果,α的值有最終的評價指標確定,即選擇在驗證集上表達最好的α值。組合模型的訓練和預測流程如圖3所示。
考慮到行業差異的影響和數據連續性,本文從銀聯商務在江浙滬地區的餐飲行業收單商戶中隨機抽取了部分商戶在2017~2019年間的部分交易流水約100萬條樣本數據作為實驗數據,考慮到節假日等特征要素,主要抽取了1~5月和9~12月的流水數據。數據劃分按照7∶2∶1的比例分為訓練集、驗證集和測試集。

圖2 基于LSTM網絡的交易異常檢測模型網絡結構
LSTM模型因為有CNN作為特征提取基礎,因此不需要做太多處理。LightGBM模型在訓練之前需要做相關性分析,丟棄高度相關的特征數據。
計算發現,交易總筆數X9和移動支付筆數X24的相關性為0.81,這也與移動支付方式在市場上的逐漸流行現象吻合,尤其是在長三角地區,考慮到在以后的時間移動支付方式會更加普及和數據表達能力,剔除了移動支付筆數特征數據。
LSTM模型迭代次數為300,初始學習率為0.01,每100個epoch學習率衰減10倍,訓練loss衰減如圖4所示。LightGBM模型的訓練通過大數據環境的PySpark組件完成,Apache Spark是一個快速的分布式實時處理框架,它通過內存計算(區別于傳統Hadoop的MR方式)以實現實時分析數據。
在訓練集上完成模型訓練的任務后,就可以在驗證集上調試組合系數α了,本文選取F1值作為評價指標。F1值是綜合P(precision)和R(recall)兩個指標的評估指標,用于綜合反映整體的效果。

圖3 組合模型流程

其中TP(True Positive)為真正,即實際值為1,預測值也為1;FN(False Negative)為假負,即實際值為1,預測值0;FP(False Positive)為假正,即實際值為0,預測值為1;TN(True Negative)為真負,即實際值為0,預測值為0。在驗證集數據集上的實驗組合系數α和F1值變化曲線如圖5所示,實驗結果發現當α為0.31的時候F1值最大。
本文共選擇了十萬條測試數據作為測試樣本,單獨使用LSTM模型、單獨使用LightGBM模型和組合模型的測試結果如表2所示。
從表2中可以看出,與獨立模型相比組合模型的F1值最高,也比傳統專家規則的效果更好,且不僅對時序敏感,也可以處理大批量數據,可作為金融機構風控系統的補充模型。
本文提出了一種基于LSTM網絡和LightGBM算法組合模型的商戶異常交易行為檢測模型,組合模型不僅可以彌補傳統專家規則和機器學習算法對于時序不敏感的不足,而且可以批量處理多維特征數據,與獨立模型相比,也取得了更高的預測精度,尤其是對于臨界樣本的識別更為有效。但模型效果仍然有很大的提升空間,尤其是獲取更加精準的訓練數據(負例樣本中隱藏了許多未知的正例樣本)。另外,探索更多模型的多種組合方式也值得我們進一步挖掘。

圖4 LSTM模型的訓練loss

圖5 α-F1曲線

表2 不同算法測試結果