[摘 要]針對兩類樣本企業(yè)信用狀況的重疊問題,提出一種基于投影尋蹤和逆映射的樣本預處理方法。該方法運用投影尋蹤獲得各樣本點的一維投影值,通過逆映射提取一維投影值的散布特征,生成特征樣本集,由此,在原高維空間中減少兩類樣本企業(yè)信用狀況的重疊,從而有利于對兩類樣本企業(yè)的正確區(qū)分。
[關鍵詞]信用風險;企業(yè)信用評估;投影尋蹤;逆映射;特征提取
一、引言
信用評估最常用的方法是“分類”方法,即根據借款人的財務、非財務狀況,將其分為“正常”(按期還本付息)和“違約”兩類,這樣信用評估問題就轉化為統計學上的某種分類問題。20世紀30年代以來,信用評估方法先后經歷了比例分析、統計分析和人工智能等三個發(fā)展階段。然而,在實際應用過程中,由于信用風險的復雜性和數據的非良性結構,各種信用評估方法的分類效果均會受到不同程度的影響,特別是,當兩類樣本的信用狀況出現重疊時,信用評估方法的分類效果將受到較大影響。對于兩類樣本企業(yè),其信用狀況通常有不重疊和重疊兩種分布情形,在實際中,樣本企業(yè)往往出現第二種情形,此時,對企業(yè)信用風險狀況容易產生誤判。針對這一問題的解決思路主要有:(1)對重疊部分的樣本進行二次判別。如文獻運用混合整數規(guī)劃法,通過兩階段的再分類過程,對重疊部分的樣本企業(yè)進行二次判別,在一定程度上提高了預測精度。(2)運用特定的方法和手段對樣本數據進行預處理,以減少兩類樣本企業(yè)信用狀況的重疊,從而提高預測精度。目前,基于第二條解決思路的研究文獻較為罕見。
投影尋蹤(Projection Pursuit,PP)是一種直接由樣本數據驅動的探索性數據分析方法,特別適用于分析和處理非線性、非正態(tài)的高維數據,其基本思想是把高維數據投影到低維子空間上,尋找出能反映原高維數據的結構或特征的投影,以達到研究分析高維數據的目的。文獻[7]證明了利用投影尋蹤可以使兩類樣本在一維子空間上盡可能分離。文獻[8]提出了將投影尋蹤與支持向量機結合應用于企業(yè)信用評估的思路。但上述研究均是在一維子空間上進行分類識別,易丟失有效信息。有鑒于此,本文針對兩類樣本企業(yè)信用狀況的重疊問題,著眼于第二條解決思路,提出一種基于投影尋蹤和逆映射的樣本預處理方法。該方法運用投影尋蹤獲得各樣本點的一維投影值,通過逆映射提取一維投影值的散布特征,生成特征樣本集,由此,在原高維空間中減少兩類樣本企業(yè)信用狀況的重疊,從而有利于對兩類樣本企業(yè)的正確區(qū)分,可在一定程度上提高信用評估模型的預測精度。
二、基于投影尋蹤和逆映射的樣本預處理方法
對于企業(yè)信用狀況的兩分類問題,設有個企業(yè)組成訓練樣本集,其中,個樣本為“正常企業(yè)”,個樣本為“違約企業(yè)”,。企業(yè)信用評估指標集, 為訓練樣本在指標下的指標值。基于投影尋蹤和逆映射的樣本預處理方法具體步驟如下:
步驟1:評估指標值的歸一化處理。為消除各評估指標的量綱和統一各評估指標的變化范圍和方向,須對評估指標值進行極值歸一化處理。
對于成本型指標,令
(1)
對于效益型指標,令
(2)
式中:分別為第j個評估指標的最大值和最小值。
對于固定型指標,即指標值越接近某一固定值越好的指標,有
(3)
式中:為第j個評估指標的最佳穩(wěn)定值。
步驟2:構造投影指標函數。PP方法就是把維數據綜合成以為投影方向的一維投影值:
(4)
上式中,為單位長度向量。PP方法在綜合投影值時,要求投影值的散布特征應為:局部投影點盡可能密集,最好凝聚成若干個點團,而在整體上投影點團之間盡可能散開。由此,投影指標函數可構造為
(5)
式中,為投影值的標準差,為投影值的局部密度,即:
(6)
(7)
其中,為的均值;R為求局部密度的窗口半徑,它的選取既要使包含在窗口內的投影點的平均個數不太少,避免滑動平均偏差太大,又不能使它隨著m的增大而增加太快,R一般可取值為0.1;點間距離;為單位階躍函數,當時其函數值為0,當時其函數值為1。
步驟3:優(yōu)化投影指標函數。當樣本集給定時,投影指標函數只隨投影方向的變化而變化。不同的投影方向反映不同的數據結構特征,最佳投影方向就是最大可能暴露高維數據某類特征結構的投影方向。通過求解投影指標函數最大化問題可估計最佳投影方向,即
(8)
式(8)所設定的問題是一個以為優(yōu)化變量的復雜非線性優(yōu)化問題,常規(guī)優(yōu)化方法較難處理。模擬生物優(yōu)勝劣汰規(guī)則與群體內部染色體信息交換機制的實碼加速遺傳算法(Real Coded Accelerating Genetic Algorithm,RAGA)是一種通用的全局優(yōu)化方法,用它來求解該問題則十分簡便而有效。RAGA的具體算法參見文獻[9]和[10]。
步驟4:通過逆映射提取一維投影值的散布特征,生成特征訓練樣本集。把由步驟3求出的最佳投影方向代入式(4)后可得各樣本點的一維投影值。由的散布特征可知,在整體上,“正常企業(yè)”樣本的投影點團與“違約企業(yè)”樣本的投影點團之間已盡可能分離。為在原高維空間中生成具有一維投影值 散布特征的特征訓練樣本集,可將投影軸上的投影點逆映射到原高維空間用原始變量表示。逆映射采用定理1來計算。
定理1(內插、外推公式):已知投影軸上a、b兩點和它們在高維空間相對應的點、,通過a、b兩點直線上的任一點c在高維空間的坐標為:
(9)
式中,為內插、外推步長,其值等于a、c兩點間的距離與a 、b兩點間距離之比,內插時,,外推時,。上式的外推方向是從到c,如從到c,上式中的a、b兩點要交換位置。
根據本文的研究目的,同時,不失一般性,本文選取和作為逆映射中的兩個已知點,它們在原高維空間中對應的點分別為和,則由定理1計算得出特征訓練樣本集。
步驟5:生成特征測試樣本。對于一個新的測試樣本,首先,運用式(1)-(3)對測試樣本的評估指標值進行標準化處理,特別地,當測試樣本的第j個指標值在訓練樣本指標值區(qū)間()內時,即為歸一化處理。然后,根據由訓練樣本集得出的最佳投影方向和式(4)計算出測試樣本的一維投影值。最后,按照步驟4,通過逆映射,生成特征測試樣本。
三、結束語
本文針對兩類樣本企業(yè)信用狀況的重疊問題,運用投影尋蹤技術,通過優(yōu)化投影指標函數獲得最佳投影方向,由最佳投影方向計算出各樣本點的一維投影值,使兩類樣本在一維子空間上盡可能分離;然后,通過逆映射提取一維投影值的散布特征,生成特征樣本集,由此,在原高維空間中減少兩類樣本企業(yè)信用狀況的重疊,從而有利于對兩類樣本企業(yè)的正確區(qū)分,可在一定程度上提高信用評估模型的預測精度。本文提出的樣本預處理方法為解決兩類樣本信用狀況的重疊問題、提高信用評估方法的分類效果提供了新的方法和思路。
參考文獻:
[1]丁 欣:國外信用風險評估方法的發(fā)展現狀[J].湖南大學學報(社會科學版),2002,16(3):140-142
[2]薛鋒 柯孔林:基于混合整數規(guī)劃法的企業(yè)信用風險評估研究[J].中國管理科學,2006,14(2):39-44
[3]Martin D. Early warning of bank failure: a logit regression approach[J].Journal of Banking and Finance,1977,1(11):249-276
[4]Sueyoshi T. Mixed integer programming approach of extended DEA-discriminant analysis[J].European Journal of Operational Research ,2004,152(1):45-55
[5]Friedman J H,Turkey J W. A projection pursuit algorithm for exploratory data analysis[J].IEEE Transactions on computer,1974,23(9):881-890
[6]Huber P J. projection pursuit (with discussions) [J].The Annals of Statistics,1985,13(2):435-475
[7]王春峰 李汶華:商業(yè)銀行信用風險評估:投影尋蹤判別分析模型[J].管理工程學報,2000,14(2):43-46
[8]趙曉翠 王來生:基于投影尋蹤和支持向量機的模式識別方法[J].計算機應用研究,2007,24(2):86-88
[9]付 強 趙小勇:投影尋蹤模型原理及其應用[M].北京:科學出版社,2006.1-119
[10]金菊良 丁 晶:水資源系統工程[M].成都:四川科學技術出版社,2002.37-179
[11]鄢烈祥 麻德賢:過程系統尋優(yōu)新方法-非線性映射主軸分析法[J].系統工程理論與實踐,1999,19(9):79-84