王彥博 施京華 張軍
隨著計算機信息科技的迅猛發展,大量的銀行業務數據以電子信息形式存儲于銀行的數據庫系統中,為大數據技術在商業銀行審計業務中的應用提供了豐富的素材。然而,商業銀行業務領域具有客戶數眾多、數據量龐大、產品服務個性化、操作處理批量化、未來業務發展不確定性高等特點,如何從浩瀚的審計對象中有效地發現實質性違規與風險是商業銀行審計工作必須攻克的難題。在現有審計人力資源有限的情況下,完全依靠現場審計不現實,銀行需要運用先進的信息科技手段推進非現場審計,以達到業務“全方位、全覆蓋”檢查的審計目標,為此“大數據審計”應運而生。發展大數據審計因此成為了商業銀行審計工作的必然趨勢。
商業銀行大數據審計是銀行合規內控的重要技術手段,其主要目標是依托銀行內部數據倉庫、數據集市等大數據綜合平臺,在大量錯綜復雜的銀行業務數據中抽絲剝繭、追根溯源,穿透式地發現隱藏在海量數據背后的業務違規與風險狀況。其核心思想是通過構建一個用以衡量審計對象在審計期內業務數據是否存在異常的標準,從而支持對非現場審計任務的狀態進行標記,必要時觸發預警,為現場審計人員后續有的放矢的深入查找問題所在提供依據。
然而,在商業銀行具體內部審計工作中,審計任務門類眾多,審計應用數量龐大,如何構建一套大數據審計應用模式體系,支持對各項審計任務進行有效管理,已經成為了對當下銀行內部審計核心課題之一。本文著重從“衡量標準”入手,探索提出商業銀行大數據審計的“5S”應用模式框架體系,并以國內某商業銀行為例進行大數據審計案例研究,展現在“5S”框架下商業銀行大數據審計應用實踐效果。
商業銀行大數據審計應用模式體系
在大數據審計工作中,審計人員對存儲于計算機信息系統中以電子數據形式所反映的企業經濟業務進行審查,通過數據分析技術手段把握審計重點,收集審計證據,實現審計目標。其中,最為關鍵的技術點是構建一個用以衡量審計對象在審計期內業務數據是否存在異常的標準,而該標準往往是一種知識模型(Knowledge?Model)。通過對國內某商業銀行過往非現場審計任務進行歸納整理,相關知識模型主要分為五類:
Specialist?Knowledge?Model,即基于專家經驗知識的審計模型。該類標準主要依賴審計專家的業務經驗知識,相關模型是基于“業務邏輯驅動”的,尤其在大數據時代到來之前或相關業務領域無法采集到充足的過往數據以支持建模時,開展非現場審計則主要運用該類模型方法形成比照標準;當涉及多名專家共同貢獻經驗知識時,可采用頭腦風暴法、德爾菲法等具體操作方法予以實現;
Static?Knowledge?Model,即基于靜態知識的審計模型。不同于“專家經驗知識模型”,該類標準是純粹基于“數據邏輯驅動”的,通過過往大量數據經驗形成靜態數學公式化模型,模型一旦形成將不再改變,并上升為通用知識定律;該類標準中,經典模型包括Benford定律、二八定律黃金法則等;
Statistical?Knowledge?Model,即基于統計分析的審計模型。該類標準是以“數據邏輯驅動”為主的,同時也涉及一定的“業務邏輯”,通過采集過往相關業務數據,綜合運用概率論、計量方法、假設檢驗等統計分析技術,形成模型化比照標準,相關模型隨輸入數據的變化而發生變化;典型的統計分析方法包括遷徙分析模型、馬爾可夫模型等;
Smart?Knowledge?Model,即基于智能分析的審計模型。該類標準與“統計分析知識模型”相近,但其模型化標準生成方式從以傳統統計技術為主,發展成為以大數據挖掘及機器學習、人工智能技術為主;典型的建模方法包括有監督分類學習、無監督聚類學習、半監督學習、深度學習、自然語言文本挖掘、社交網絡圖挖掘、關聯規則挖掘家族等。
Simulation?Knowledge?Model,即基于仿真模擬的審計模型。該類標準是“數據邏輯驅動”與“業務邏輯驅動”相融合的,可以將其看作為“專家經驗知識模型”在大數據時代的拓展和延伸,其面向某些無法獲取充足過往數據支持智能建模的領域,通過有效的專家業務經驗應用(及形式化驗證)構建準確的業務流程,并通過對業務流程中關鍵節點進行隨機化數據處理,以反復模擬的方式批量產生近似于真實的業務數據,并輔以“統計分析知識模型”或“智能分析知識模型”,生成比照標準;典型的技術方法包括壓力測試、沙盤推演、多元代理模型與模擬等。
商業銀行大數據審計應用實踐研究
專家經驗知識模型化標準應用實踐
“專家經驗知識模型化標準”主要應用于“商業銀行宏觀風險把控”、“以風險為導向的銀行業務審計”等方面。例如,獲取經營機構各時間點的業務和財務數據,分析其當年的業務狀況和發展趨勢,根據以往經驗,快速增長點往往會存在風險管理跟不上業務發展的狀況,如制度不健全、管理手段粗放、重量輕質等問題,故直接憑業務經驗形成比照規則以明確審計重點。具體來看,某些分行小微貸款余額在2012、2013年大幅攀升,根據經驗其中后臺人員數量應按比例有所提升,然而業務數據顯示其中后臺人員數量保持不變甚至減少,與經驗標準存有差異,由此判斷該期間發放的貸款更易隱含風險,事實數據表明相關貸款業務在日后出現了風險集中爆發。
更進一步,在以風險為導向的零售業務審計工作中,“預先提出存在風險隱患的業務模式”是該項工作的核心。審計人員通過充分利用銀行內部數據倉庫的現有數據資源,設計了多種經驗數據模型,如客戶基本信息、客戶工商登記信息、資金流水信息、授信評審信息、臺賬信息等共計五大類、二十多種經驗數據模型,有效識別了客戶異常流水交易、零售貸款資金挪用或流入股市、假批量和假小微、飛單、股東分拆授信、多通道授信、貸款資金回流和員工舞弊等多種業務風險。以工商登記信息為例,根據專家經驗,小微客戶無工商登記信息或已全部處于注銷狀態、小微客戶投資房地產/小貸公司/擔保公司/典當等高度敏感行業、小微客戶名下擁有過多不同行業的企業、小微客戶名下企業的注冊資本不符合小微企業特性、小微客戶在多地開辦企業、同一分行多名借款人存在用款主體之外的關聯關系等均可作為業務風險線索。
靜態知識模型化標準應用實踐
在“靜態知識模型化標準”應用方面,筆者以Benford定律為例,介紹其原理及使用方法,并依托銀行審計業務實際,展示其應用實踐情況。
發現Benford定律
自然界的眾多事物在多種因素影響下隨機發生,往往會呈現某種特定規律。Benford定律則反映了數字出現頻率上的一種內在規律,簡而言之,是指所有自然隨機變量,只要樣本空間足夠大,每一樣本首位數字為“1”至“9”各數字的概率在一定范圍內具有穩定性。該現象由美國天文學家西蒙·紐康伯在1881年首次發現。他在偶然間發現圖書館中對包含以“1”起首的數字的前幾頁較其它頁破爛,經過對其他隨機數據的進一步分析,他得出如下結論:以“1”為第一位數字的隨機數比以“2”為第一位數字的隨機數出現的概率要大,而以“2”為第一位數字的隨機數出現的概率則大于以“3”為第一位數字的隨機數出現概率,?以此類推。1938年,美國物理學家法蘭克·本福特重新發現了這個現象,并收集了很多數據進行分析來驗證這一規律,他發現各種完全不相同的數據,比如人口、物理和化學常數、棒球統計表等數字均符合這一定律。根據該定律可以計算出“1”至“9”各數字出現的概率,結果見表1。
Benford定律在銀行業中的應用
Benford定律反映了數據中的一種通用知識規律,當數字被有意識地操控以達到某種目的時,這種客觀規律將會被破壞,并出現異常。通過發現和分析這種異常,則有可能追蹤舞弊行為,?又由于Benford定律的使用無需其他先驗信息(本文稱其為“靜態知識模型”),其使用方法簡單明了,因此多被用于審查數據準確性以及數據背后行為的合理性。這兩點正是銀行業關注的重點,因此Benford定律在銀行業已有諸多應用,如檢查財務數字信息是否真實、發現信用卡套現商戶等。
綜合已有的研究成果發現,數據符合以下條件即能夠使用Benford定律來進行數值分析:(1)數據不能是規律排序的,比如交易流水號、銀行卡號等,即數值不存在間斷或間斷區間,而是在一個寬幅范圍內連續變動,不存在上下限;(2)數據不能經過人為修飾,即數值的形成受多種因素的影響,不能過度集中也不能完全隨機。從銀行數據的角度看,商戶交易流水、個人交易流水的交易金額,甚至各公司的財務報表均基本符合Benford?定律的應用條件。換言之,若相關數據違背Benford定律檢驗標準,則可視為異常信號,需作為疑點數據進行深入審計分析。
應用案例實證分析
為識別國內某商業銀行某一特定客戶群體的高風險性資金往來,使用SQL語言從企業級數據倉庫中提取審計期內流水數據268,731條,涉及36,596個賬戶,進行Benford定律分析。在數據理解和數據準備階段,忽略流水數據具體金額,只摘取流水發生金額的首位數字,若金額為小于1的小數,則首位數字記為“0”。隨后統計各賬戶從“0”至“9”的首位數字出現次數占總流水次數的比例。
在數據分析階段,統計學中經常使用Pearson相關系數r來評估兩個變量之間的密切程度。若r大于0,則代表兩個變量為正相關,且數值越接近1,正相關越強。為評價每一個賬戶的流水與Benford定律的符合程度,本研究使用相關性系數予以定量計算。經計算,64.69%的賬戶其流水與Benford定律的相關系數≥0.8,?呈現強相關關系,可見賬戶的流水基本符合Benford定律。
為縮小疑點數據范圍和提高疑點數據命中度,本研究重點分析流水次數≥500的賬戶,共計964個,然后按相關系數r升序排序,關注排名前十的賬戶。通過查詢交易金額、交易品種、交易對手、交易對手所在單位等信息對這些客戶進行補充信息分析。據排查,有五個賬戶的交易對手多為客戶所在單位的內部人員,?故認為是正常的內部資金往來,排除嫌疑;有三個賬戶的異常流水多為正常消費類,且金額較小,基本排除嫌疑;發現兩個賬戶的交易對手多至幾十位,且均非單位內部人員,金額多為幾十萬至一百萬不等,并且流水次數頻繁,經查,這兩個賬戶與融資擔保公司資金往來頻繁,視為可疑。可見,Benford定律能夠從幾十萬條數據中有效識別包含認為操縱的非自然流水,迅速定位疑點數據供后續人工驗證分析,減少了大量人力資源投入。未來其他相關應用還包括識別非法商戶、資金掮客等。
統計分析知識模型化標準應用實踐
在“統計分析知識模型化標準”應用方面,筆者通過構建“不良遷徙分析模型”和“馬爾可夫模型”,來預測某商業銀行小微金融弱擔保貸款管控后的風險度(不良率)以及自然風險度,并借這兩個模型對該商業銀行華東區域各家分行的小微弱擔保貸款的風險狀況進行評估比較。
應用背景
貸款的風險可分兩個層面來看:一是貸款的自身質量,即客戶通過銀行準入門檻、排除銀行后續風險管理手段后,貸款所呈現的自然不良率;二是目前常用的不良率指標,即銀行通過自身的風險管理能力以及代償、核銷、打包轉讓等一系列措施,對貸款風險度進行管控后的結果。對于銀行而言,貸款的自身質量很大程度上決定了銀行的信貸質量。在小微金融弱擔保貸款中,?由于銀行對于小微弱擔保客戶的風險控制缺乏有效抓手,因此貸款自身質量更是尤為重要了,也就是獲得貸款自然風險度的量化值。另一方面,不良率往往是對以往數據情況的反映,有效預測未來不良率也一直是銀行精細化管理的訴求。
基于遷徙分析模型的不良預測
根據銀行五級分類政策,擔保類貸款逾期90天以上為不良。以30天為周期,將未逾期貸款的狀態設為a、逾期1~30天的狀態為b、逾期31~60天的狀態為c、逾期61~90天的狀態為d、逾期91~120天的狀態為e,逾期120天以上的狀態為f。以一家分行為例,用2015年1月至2016年3月的每個月月末的數據計算出各個狀態之間的平均遷徙概率,分別可獲得a->b、b->c、c->d、d->e、e->f的概率,通過這幾個概率的乘積即可獲得從各個狀態轉向不良狀態的概率,如P(a->e)=?P(a->b)*P?(b->c)*P(c->d)*P(d->e)。再根據2016年3月末各家分行在各個狀態的余額,即可獲知這些余額最終轉為不良的金額,從而獲得不良率。最終,通過為每家分行建立“不良遷徙模型”,獲知各家分行的年末不良金額。此模型類似于移動平均的預測方法,將計算結果對比分行“一戶一策”排查所得的年末不良金額,模型結果基本可信。由于此模型使用了每個月末的余額數據,這些數據是分行風險管理結果的體現,故采取該模型的結果作為一個分析維度,即不良率這一定量指標的預測結果。
基于馬爾可夫模型的不良預測
(1)馬爾可夫過程簡介:馬爾可夫過程旨在描述這樣一類隨機過程-即在已知過程現在狀態的條件下,過程將來的狀態與過去無關,而只與當前狀態有關,即“無后效性”。
(2)模型前提條件:貸款的各個狀態之間的遷徙可視作為馬爾可夫過程,因此可使用該理論計算狀態之間的遷徙概率。
(3)減少分行風險管理措施干預的辦法:為盡量減少分行的風險管理手段對于貸款狀態轉移的干預,從而獲得更貼近貸款的自然不良率,本模型避開季末數據,而使用某分行2016年1~?2月的小微金融弱擔保貸款計算一步轉移概率矩陣P。筆者認為2016年1~2月的數據一方面更能反映審計期相近的貸款狀況,另一方面在年初時分行大部分風險管理精力投身于上一年的總結之中,對這期間的貸款管控較少。
(4)計算過程:因計算過程較為復雜,此處僅作簡要描述。此模型從某分行2016年1月末的每個借據出發,跟蹤其在2月末的狀態,如狀態a可能仍為狀態a,也可進入狀態b,或者直接結清(狀態g),狀態b則可能遷移至狀態a、狀態b、狀態c和狀態g。以此類推,構建一個7*7矩陣,通過矩陣運算,最終獲得2016年3月末各個狀態的余額數據在2016年年末的情況。
通過以上模型設計,盡量使這個模型不考慮結清貸款的續貸問題、不考慮貸款敞口壓縮措施、也不考慮分行采取催清收、代償、核銷和資產轉讓等處理方法,而只是單純的計算各個借據在分行無風險管理的情況下自然遷徙概率,從而反映貸款自身的風險度。采取這個模型的結果作為另一個分析維度,即貸款自然風險度這一預測指標。
模型結果應用
以2016年3月末被觀測銀行華東區域小微金融弱擔保貸款余額為基礎,經“遷徙分析模型”不良預測,得到預計至2016年末的相關不良余額A,即根據以往的平均遷徙概率得出的不良情況;經“馬爾可夫模型”不良預測,得到預計至2016年末的相關自然不良余額B,即貸款發生逾期后不采取任何催清收等管理措施的不良情況。
由“馬爾可夫模型”預測的自然不良余額B與由“遷徙分析模型”預測的不良余額A之剪刀差,反映了各家分行風險控制的難易程度。針對存量小微金融弱擔保授信業務,華東區域中南京分行風險控制難度較大,這主要是由于南京分行目前存量小微金融弱擔保貸款余額偏高所致,其次是杭州、蘇州、寧波、合肥等幾家分行。
智能分析知識模型化標準應用實踐
在“智能分析知識模型化標準”應用方面,比較典型的應用實踐包括:
違約預測模型:這是目前廣泛使用的貸前風險控制模型,通過納入具有貸后特點的屬性(如客戶的金融資產變化情況、交易流水中的借方/貸方筆數和金額、是否持有某些特定產品等),?使用邏輯回歸、樸素貝葉斯、決策樹、隨機森林、深度神經網絡等有監督分類學習構建違約預測模型,形成可與后續實際業務發展進行比對的標準,可助力于貸后管理及相關審計工作。
自然語言文本挖掘模型:筆者將相關技術運用于2013年“小微金融風險管理”專項審計項目中,取得了良好實踐收效。在項目中,大數據技術人員利用中文分詞、詞頻統計、關鍵詞識別、主題提取、半監督文本聚類等自然語言文本挖掘技術方法,以小微金融不良責任認定報告作為對象,從中快速挖掘、確定每一筆貸款的不良形成原因,并將不良形成原因按主題歸類,從而形成各類不良形成原因的歷史數據統計指標,作為比對標準以支持發現后續業務中的異常情況。該項工作超出人力所及,充分展現了大數據智能技術的在審計工作中的增強效用。
小結
以大數據技術助力審計業務發現疑點數據,審計人員可在千萬條以上的海量數據中迅速發現風險線索,進而采取數據詳查、抽調檔案、訪談客戶經理和評審人員甚至下戶檢查等多種審計手段,從而發現實質性風險。大數據審計為進一步審計抽樣提供了精確制導,再加上其他審計方法的有效配合,極大地增強了審計工作的效率和效果。
為將大數據審計的效果從定性認識提升至定量評價,實現審計工作的精細化管理,本研究開展了對比試驗:對被觀測銀行某分行的零售業務審計采取非現場大數據審計為主、現場檢查為輔的工作方法,發現在保證審計質量的前提下,人員數量下降30%、現場檢查時間壓縮50%、差旅費用節省75%(見表2)。大數據審計節能增效的作用可見一斑。目前,大數據審計已在被觀測銀行零售專項審計中廣泛應用于十余家分行的審計過程,應用效果顯著。
結語
大數據時代為商業銀行審計工作帶來了新的發展機遇,激發了非現場審計領域的大數據智能化發展,同時也帶來了管理上的新挑戰-若不能構建出一套大數據審計應用模式體系,則難以對門類眾多、數量龐大的大數據審計應用進行有效的管理、協調相關的資源。本文從衡量審計對象在審計期內業務數據是否異常的模型化標準入手,為大數據審計應用提出了“5S”應用框架,基于“業務邏輯驅動?vs.?數據邏輯驅動”、“通用靜態模型?vs.?專用動態模型”、“經典數理統計?vs.?數據智能仿真”等方面,闡述了相關模型化標準從專家經驗(Specialist?Knowledge)向靜態定律(Static?Knowledge)向統計分析(Statistical?Knowledge)向智能分析(Smart?Knowledge)再向仿真模擬(Simulation?Knowledge)演化發展。
通過以國內某商業銀行的實際審計業務為例,展開案例研究,本文闡述了前四類模型化標準的應用實踐情況,并通過開展對比組試驗反映出大數據審計應用在商業銀行節能增效方面的顯著效果。在大數據挖掘與人工智能技術發展日益精進的時代,依靠大數據智能模型來分析和預測各事物的發展趨勢已是被普遍認可的方法,筆者認為銀行有必要引入更多、更強的數據預測模型,與定性方法相輔相成,有利于提升銀行審計能力以及全面精細化管理程度。此外,未來研究還將聚焦探索基于仿真模擬的模型化審計標準應用。
(本文僅代表個人學術觀點,不代表供職單位意見)
(作者單位:對外經濟貿易大學金融科技研究中心、中國民生銀行)