孟 萌
(中國人民大學信息學院,北京 100089)
2012年提出“互聯網+”,2017年又發布了《新一代人工智能發展規劃》,表明在2030年之前將人工智能賦能城市建設、公共衛生、自動駕駛、政務司法和社會信用體系。《國務院關于印發社會信用體系建設規劃綱要(2014—2020年)的通知》闡述了提高全社會信用意識和信用水平、改善經濟運行環境的目的。除了國家戰略方向的驅動力,人們生活的線上化也促使金融企業改變原有風控模式。人工智能技術如“換臉”使欺詐現象更隱蔽,這加大了應對欺詐團伙和黑產的壓力,傳統的人工風控手段需要借助金融科技做出更迭。特征工程的加持令簡單模型得到不錯的評價指標,復雜的分析技術只能在結構化數據集上提供邊際性能收益,這是常見分類任務如欺詐檢測、信用評分中經常遇到的問題[1]。
特征工程包括數據預處理、離散數據的編碼、連續數據的分箱、數值的歸一和標準化、對數據分布的轉換、特征衍生等。數據預處理包括數據集成、格式統一、缺失數據處理等。常用編碼方法有one-hot編碼,每個類別變量取值的編碼數目和類別變量不同取值數目相同且屬性數據彼此之間距離相等,適合非排序類離散特征的編碼;另一編碼方式是標簽編碼,數值之間存在數量關系,適合排序類離散特征編碼。最大、最小歸一化和z-score標準化等線性變換并不會改變數據的分布,但是兩者都可以弱化量綱的影響,以歐式距離作為相似度度量的算法例如k-means、KNN對量綱是敏感的,邏輯回歸、神經網絡這類算法利用梯度下降優化目標函數求解參數時可以起到加速收斂的作用。對連續變量做Box-Cox變換可以讓偏態分布接近正態分布,以利用正態分布的良好特性。特征衍生是對特征進行數值和邏輯運算以增強特征預測能力。
對屬性變量編碼和特征衍生都會增加特征維度,特征選擇是從特征集合中去除不相關特征和冗余特征的過程,特征個數為n個選擇可能性為2n。特征選擇過程包括搜索特征子集、評價特征子集、判斷是否滿足終止標準、驗證特征子集是否有效四個步驟。每次增減特征時候都需要評價函數進行評價,直到滿足評價指標。如圖1所示。

圖1 特征選擇框架
特征搜索策略分為全局最優搜索法、序列搜索、隨機法。窮舉法試圖窮舉每個特征空間子集是否符合評價函數,當特征較多時復雜度相當高。序列搜索分為前向搜索、后向搜索和雙向搜索,每次加入一個得分最高的特征是前向搜索,每次得分最低的特征被刪除是后向搜索,加入m個特征到已選特征集并刪除n個特征為雙向搜索[2]。隨機法主要包括遺傳算法、粒子群算法等[3],隨機法是近似全局最優解并且平衡了窮舉法和序列搜索法的優缺點。根據機器學習算法是否參與特征選擇過程分為過濾法、包裝法、嵌入法[4]。過濾法根據特征排序或者搜索策略進行選擇,特征排序的評價指標包括皮爾遜相關系數、fisher分數,主要刪除相關性小的特征。搜索策略包括CFS、mRMR、馬爾科夫毯,可以刪除冗余特征。嵌入法是指特征選擇嵌入到學習算法中進行,典型的是決策樹類算法;另一類典型的是應用L1和L2正則項作為損失函數的算法:最小二乘回歸方法Lasso、基于L1正則的SVM。封裝法搜索策略和算法訓練迭代進行且模型性能指標作為特征選擇的評價指標,常見算法有支持向量機、k近鄰,穩定性較差,具體選擇結構和算法有很大關系。表1從3個維度展示了3種方法的區別。

表1 特征選擇方法
過濾法的特征評價指標在沒有學習算法參與選擇的情況下一般是基于統計學和信息論對特征進行排序。評價指標包含對單個特征和整個特征集的評價,Kira Rendel[5]提出的特征選擇過濾方法RELIEF為每個特征賦予和類別標簽關聯程度相關的權重,此方法適合刪除不相關特征但對冗余特征無效。Koller D[6]研究了一種基于交叉熵的有監督評價指標,算法試圖以一種保持類的條件概率盡可能接近原始分布的方式來消除特征。傳統信息論方法將特征相關性和冗余性分割判斷無法判斷整個特征子集的組合效應。董紅斌等[7]將數據融合領域中的關聯信息熵理論應用到特征選擇中,基于該方法度量特征間的獨立和冗余程度。
特征提取是指對特征重新組合獲得反映事物本質的少量特征的過程,可以減少維度災難的影響使基于距離和密度的算法有效。主分成分析(PCA)是一種無監督的線性降維方法,將數據做標準化處理后計算出協方差矩陣和特征值,將特征值從大到小排列并保留較大的特征值N,高維特征空間轉換成新的N個特征向量構成的特征空間。線性判別分類器(LDA)是一種監督學習的線性降維方法,也是數據集的每個樣本有類的別輸出,PCA是不考慮樣本類別輸出的無監督線性降維技術。
互聯網金融領域內的欺詐具有一定偽裝性,特征難以表征;非欺詐和欺詐類別占比嚴重不平衡,分類器難以學習到準確的決策邊界;欺詐類別的誤判和漏判導致財務成本更高。基于以上問題,可以在特征工程階段解決問題,而不是算法層面解決問題。
2.1.1 交易類數據的特征構造
特征構造是對原始特征進行聚合或者轉換構造出新的特征。信用卡原始特征主要有交易ID,交易類型,驗證模式,接入模式,時間,金額,地點,商戶代碼和群體,持卡類型,發卡行,卡號,持卡人手機號,性別,年齡。Baesens B等[8]根據最近性、頻率、貨幣(RFM)原理創建一些相關特征,再根據無監督異常檢測方法檢測出欺詐模式。最近度衡量事件發生的時間,頻率統計單位時間內特定事件的數量,與貨幣價值相關的特征衡量交易的強度。例如頻率特征和貨幣特征:一個用戶在過去Tday內通過某種渠道或者驗證方式向某類商戶支付一定金額的頻率,如果出現了和之前消費習慣不同的模式意味著欺詐的可能性較高。最近性特征是指2種行為模式之間的時間間隔的對數轉換分數,和其他時間相關的特征比如某個特殊時間點消費的行為。
2.1.2 信貸類數據的特征構造
對于信貸數據而言,信用數據包括人口統計特征、單位信息、家庭信息、歷史逾期情況、設備信息、社交信息、收入和負債情況、消費水平和習慣等。信用數據的特征構造主要有以下幾種方法,聚合處理是對特征做描述性統計,特征組合分為線性組合(對特征做加減變換)、多項式展開(對特征做相乘處理)、加權組合(對特征做加權運算)、決策樹方法(對特征做邏輯運算)。特殊的,對于和時間相關的特征,可以統計不同時間段的滑動窗口下的特征、計算特征之間的時間間隔或者計算不同時間粒度下的聚合特征。
2.1.3 自動化和基于圖的特征構造
自動化特征工程領域中提到的特征組合方法AutoCross將特征類型(類別特征、數值特征、時間序列等特征)作為輸入并輸出特征生成器。其使用散列技巧來提高特征生成的速度,與基于深度學習的方法相比占用的計算資源顯著減少[9]。欺詐行為有一定的偽裝性、聚眾性、多變性,基于圖特征進行特征提取,利用標簽傳播的半監督算法對節點進行預測。Zhao P[10]等人僅僅利用標簽傳播算法對節點是否為欺詐節點做概率判斷從而進行特征提取。
對于欺詐檢測這類任務常見問題是少數類別占比極低,分類模型處理類別均勻分布時算法和評價指標才不失其意義。常用方法一是欠采樣:刪除訓練集中非欺詐性樣本,缺點是會刪除有重要特征的非欺詐樣本。有選擇的欠采one-sided selectio算法刪減非稀有類樣本中的噪聲樣本冗余樣本和離決策邊界較遠的邊界樣本,爭取保留非稀有類別的特征。另一種方法是過采樣:復制訓練集中的欺詐性樣本,缺點是沒有增加新的欺詐特征。有選擇的過采樣SMOTE算法是利用每一個稀有樣本類的K近鄰中隨機的非稀有樣本類的特征和稀有類特征的差值生成稀有樣本。
欺詐類別被誤判為非欺詐的成本是遠高于非欺詐類別的誤判成本,所以基于成本不平衡的任務,大部分解決方法是加入成本敏感學習(CSL),代價敏感學習主要思想是增加錯誤分類權重,可以在損失函數中增加錯誤分類樣本的懲罰權重,讓分類器更好地學習少數類別的特征。成本敏感決策樹(CSDT)算法使用了新的分割準則,計算了每個樹節點的成本。成本敏感邏輯回歸(CSLR)算法將原來的損失函數中變為了成本敏感函數的目標函數。基于數據抽樣的特征工程方法沒有基于成本敏感學習的方法效果好,因為欠采樣和過采樣實際上是改變了數據的分布[11]。
互聯網金融的智能風控技術不僅包括結構化數據的挖掘技術,也包括非結構化數據挖掘技術CNN和RNN等,文章論述了結構化數據的特征工程效用、一般的特征工程方法,然后基于互聯網金融風控領域的欺詐特征難以表征和不平衡類別、不平衡成本等問題,簡述了領域內特征工程的方法。