◆馬宇州/ 東北農業大學 隋學深/ 審計署審計科研所
我國商業銀行貸款風險等級分類通常采用五級分類法。貸款五級分類法是以借款人的償還能力為核心,把銀行貸款按風險程度或質量高低分為正常貸款、關注貸款、次級貸款、可疑貸款和損失貸款五大類。有兩類屬于正常貸款,后三類屬于不良貸款。審計人員在對貸款風險等級分類真實性進行審計時,除了希望發現正常貸款和不良貸款之間相互錯分的情況外,還希望挖掘出正常貸款和不良貸款數據各自具有的分類規則特征。本文就是運用決策樹方法挖掘分類規劃。決策樹方法是利用信息論中的信息增益尋找示例數據庫中具有最大信息量的屬性字段,建立決策樹的一個節點,再根據該屬性字段的不同取值建立樹的分支;之后在每個分支集中重復建立樹的下一個節點和分支,樹的質量取決于分類精度和樹的大小。
從某商業銀行某一級分行某年度“借款憑證表”中隨機采集了10 萬條貸款記錄作為實驗的原始數據。由于不良貸款(次級貸款、可疑貸款和損失貸款)記錄數占比較低,從10萬條貸款記錄中按照最大化的原則選擇出5350 條屬于不良貸款記錄的數據標記為B 類數據。考慮到決策樹算法對類平衡的要求,即要使輸入決策樹運算的兩類數據量大體相當,所以,從10萬條貸款記錄中隨機選擇出5343條屬于正常貸款(正常貸款和關注貸款)的數據標記為A 類數據。A 類數據和B 類數據共10693 個貸款記錄數據作為初始實驗數據。
根據對商業銀行“借款憑證表”中字段經濟含義的理解,我們剔除那些和貸款五級分類耦合性較強的字段,為了提高運算速度,還剔除了對正常貸款和不良貸款分類不相關的字段,即那些對分類沒有價值的字段。根據以上原則,我們對“借款憑證表”中的42 個字段進行了屬性約簡,剔除掉的字段屬性有:借款憑證編號、借款合同編號、客戶代碼、機構編碼、項目編號、借款憑證原始號碼、貸款類別、專項貸款類別、借款用途、貸款賬號、還款方式、分期還款周期標志、保證形式、擔保合同編號、貸款四級分類、貸款五級分類、表內欠息五級分類、表外欠息五級分類、訴訟時效提示日、操作員和增量標志等共21 個;保留下來的字段屬性有:貸款性質分類、貸款期限分類、基準利率、利率浮動幅度百分比、幣種、借款金額、借款日期、到期日期、展期到期日、本憑證累計收回貸款、本憑證貸款余額、核銷金額、擔保方式、累計實收利息、利息收入、表內應收利息、表外應收利息、表內實收利息、表外實收利息、是否以資抵債和操作日期等共21個。
1.決策表構建。用經過預處理后的含有10693個A、B類混合數據構建決策表。
2.決策表數據結構說明。決策表中包含了21個經過約簡后的屬性,由于算法計算過程中應用的是屬性的英文名稱,為了方便對實驗結果的理解,我們建立了21個條件屬性的英漢對照及屬性經濟含義表,如表1所示。

圖1:銀行風險等級分類規則提取決策樹
決策表中的決策屬性為貸款記錄的正常貸款或不良貸款分類,其中正常貸款類在決策表決策屬性中標記為1,不良貸款類標記為2。然后對決策表應用基于決策樹的REPTree算法進行分類規則挖掘,其模型參數為trees.REPTree-M30-V 0.0010-N3-S1-L-1,為了方便解釋和表述,我們將葉子結點限定的最小事件數選定為30 個,這樣決策數的規模為29,即Size of the tree:29。實驗構建的決策樹如圖1 所示,其分類規則提取表如圖2所示。

表1:實驗數據屬性名稱英漢對照及經濟含義表

圖2:REPTree算法對銀行風險等級分類規則提取表
由圖2決策樹可見,利率浮動幅度百分比(LV_FLOATRANGE)這個屬性處于決策樹的根結點上,說明在本決策表中其分類能力是最強的,其次是操作日期(LV_OPDATE)這個屬性,還有借款金額(LV_LOANSUM)、本憑證貸款余額(LV_REST)、表外應收利息(LV_ORECVINT)、擔保方式(LV_GUARWAY)、本憑證累計收回貸款(LV_TOTREPAY)和到期日期(LV_ENDDATE)等條件屬性都對正常貸款與不良貸款具有一定的分類能力。
由圖2可見,REPTree算法共提取出15條銀行風險等級分類規則。以規則LV_FLOATRANGE <0.5 and LV_OPDATE <20090201 and LV_LOANSUM < 6225 and LV_OPDATE >=20071127: 1.97 (396/0.03) [205/0.03]為例,該項分類規則的含義是在決策表中條件屬性滿足利率浮動幅度百分比(LV_FLOATRANGE)小于0.5,操作日期(LV_OPDATE)在2007年11月27日和2009年2月1日之間,且借款金額(LV_LOANSUM)小于6225 萬元的事件共有604 個,其中屬于第2類(不良貸款類)的有396 個,屬于第1 類(正常貸款類)的有205 個,該項關聯規則在全體樣本集中發生的概率為(396+205)/10693=5.62%,即其支持度為5.62%,其置信度為396/(396+205)=65.6%,也就是說,當某一條記錄滿足上述分類規則的條件時,那么該條貸款記錄屬于不良貸款的可能性是65.6%。
再以規則LV_FLOATRANGE >=0.5 and LV_OPDATE <20071004 and LV_FLOATRANGE >= 20.75 : 1.84(452/0.14)[238/0.12]為例,該項分類規則的含義是在決策表中條件屬性滿足利率浮動幅度百分比(LV_FLOATRANGE)大于0.5 且小于20.75,且操作日期(LV_OPDATE)在2007年10月4日之前的事件共有690 個,其中屬于第2 類(不良貸款類)的有452個,屬于第1 類(正常貸款類)的有238 個,該項分類規則在全體樣本集中發生的概率為(452+238)/10693=6.45%,即其支持度為6.45%,其置信度為452/(452+238)=65.5%,也就是說,當某一條記錄滿足上述規則的條件時,那么該條貸款記錄屬于不良貸款的可能性是65.5%。
由于我們為了控制決策樹的規模,將葉子結點限定的最小事件數選定為30個,從而限制了其提取分類規則的置信度。如果我們將葉子結點限定的最小事件數選定為2 個,那么其決策樹的規模將大幅增加為231,在分類規則置信度提高的同時,其相應的支持度也大幅下降。
確性,因此,對類似不純數據的提純處理是該領域未來進行深入研究的一個重點。
本文的實驗結果在一定程度上揭示了商業銀行信貸資產風險等級分類的相關規律,有助于增強金融審計人員對不良貸款和正常貸款分類數量特征的理解。由于本研究采用的商業銀行實際生產數據中,可能存在一小部分不良貸款和正常貸款之間被相互錯分的情況,即商業銀行為使不良貸款率達標,將不良貸款人為錯分為正常貸款的情況;也可能存在少部分將正常貸款人為錯分為不良貸款的情況。這在一定程度上會干擾決策樹算法對分類規則提取的正

黃石市西塞山區審計局黨支部深入田園社區,認領社區困難群眾的“微心愿”,把溫暖送到居民手中。通過到困難群眾家中走訪慰問,為殘疾或單親困難家庭兒童送去書包等學習用品,詳細了解他們的生活現狀與學習情況,鼓勵他們積極面對生活,用點滴善舉溫暖困難群眾,使他們切實感受到黨和政府的關懷。
(梁倩倩 攝影報道)