蔣雪瑛 張良



[摘要]本文就商業銀行如何在海量防疫物資交易中通過大數據建模快速定位與物資采購使用相關的交易流水這一核心問題,提出基于詞頻分析和OCR識別技術的審計建模路徑,并對建模思路、實踐及應用效果進行闡述。
[關鍵詞]智慧審計? ? 防疫? ? 特殊時期? ? 詞頻分析
一、防疫物資審計背景
2020年初全國新冠肺炎疫情暴發,各大商業銀行積極行動,快速響應,緊急采購、領用并分發了大量物資應對疫情防控。為監督防疫資金的合理使用、促進物資采購依法合規,滿足董事會和管理層精準決策、精準指導、有效監督的需要,銀行審計部門緊急啟動了防疫物資的實際采購與使用情況審計流程。審計時間緊迫且面臨疫情期間辦公人力緊缺、居家分散、高度依賴非現場分析等特殊挑戰下,如何在有限的時間內通過建模從海量交易信息中快速、精準定位與防疫工作相關的物資交易,是完成此次審計工作的重要基礎。
二、防疫物資審計建模
(一)明確建模范圍、目標和流程
商業銀行防疫資金主要有行內財務資金、黨費支出、工會費支出及員工捐款四大來源,主要用于防疫物資采購(如口罩、消毒液等防疫必需品)、員工慰問補助以及統一的對外現金捐贈三大支出上。其中,行內財務資金支出主要在財務內部戶中列支,單列科目標示;員工捐款則全部用于對外現金捐贈,是點對點的賬戶交易,兩者都較容易排查。而黨費、工會費支出由于資金列支于行內各層級機構的黨費、工會費專戶,這些專戶隸屬于法人往來戶,交易量龐大且無直觀標識,排查難度較大。因此,防疫物資交易審查建模工作的最大目標就是從海量交易中精準“打撈”出與防疫收支相關的交易,快速完成交易“定靶”工作。數據“打撈”的精確度越高,審計分析的基礎就越穩固。
構建防疫物資交易審查模型主要包含四個步驟:確定數據范圍、確認賬戶特征、鎖定事件流水和定點樣本分析,如圖1所示。隨著步驟層層推進,需要關注的數據邊界逐步清晰,聚焦的數據范圍也會逐漸縮小。
(二)確定模型數據范圍
用于防疫支出的黨費、工會費交易屬于往來戶事件交易,交易數據全部都在往來戶事件流水大表中。進一步探索表內數據情況,疫情高發時段為2020年1月1日至2020年3月31日,期間往來戶事件流水表中共有上億條記錄,是建模最基礎的數據范圍。
(三)詞頻抽樣勾勒交易特征
顯然,基礎數據范圍遠超人力直接排查極限,需進一步細化數據的賬戶特征以鎖定核心交易。往來戶事件流水表中包含了(行內外)所有法人賬戶交易記錄,可以通過勾勒行內黨費、工會費專用賬戶的賬戶特征,將符合特征的賬戶從全量基礎數據中“打撈”出來,進一步明晰交易邊界。
1.提取黨委、工會賬戶特征,勾勒交易邊界。主要細分三個步驟:一是抽樣非疫情期間(往年同期)的黨費、工會費日常流水,獲取黨費、工會費賬戶的懷疑清單。二是抽取懷疑清單內的賬戶在疫情前三個月內的流水,檢驗是否存在“黨費繳納”“工會費繳納”等黨委、工會賬戶日常業務特征,剔除近期無日常業務流水的疑似凍結戶,縮小清單范圍;然后,以縮小后的懷疑清單為學習樣本,使用Text? Rank詞頻分析算法,對樣本賬戶的戶名進行關鍵詞解析,提取黨委、工會賬戶戶名命名規則。三是使用提取的戶名命名規則排查全量法人客戶基礎信息,篩選出符合戶名命名規則的法人客戶,并提取這些客戶在疫情暴發觀察時段內的全量交易流水,作為基于賬戶特征勾勒的交易邊界數據。
2.抽樣正反雙向高頻詞,建立三大關鍵詞庫。確定賬戶范圍后,需要關注的交易范圍從億量級數據銳減至十萬量級,仍有壓降空間,為此進一步分析交易目的,提取與防疫事件相關度較高的交易。通常交易信息中的摘要、用途、附言與交易目的最為相關,一般以一段話、一句話或一個詞組的形式展現。為剔除與防疫事件無關的交易噪聲,需要抽樣疫情暴發時期(實驗組)、往年同期(對照組)兩個時間段中符合交易賬戶規則的交易流水,使用TF-IDF詞頻分析算法分別進行詞頻學習,即可生成防疫事件的相關詞庫和無關詞庫:首先,對對照組(無疫情暴發的往年同期交易)的摘要、用途、附言作詞頻分析,提取對照組高頻詞,將其納入防疫事件無關詞庫(無效關鍵詞庫);其次,對實驗組的摘要、用途、附言作詞頻分析,提取實驗組高頻詞,并剔除同時存在于實驗組、對照組高頻詞中的詞語,將剔除后的結果集納入防疫事件相關詞庫(柔性關鍵詞庫),根據此相關詞庫內容檢索全量交易,定位防疫事件相關流水。
然而,進一步核實發現,若僅依賴相關詞庫定位交易流水,在一些復合性場景中數據挖掘精度明顯不足,如“黨員慰問”為黨費常規支出(與疫情事件無關的支出),而疫情期間出現的“抗疫一線黨員慰問”卻是一項與疫情高度相關的交易,此類交易會因“黨員慰問”為高頻詞而納入無關詞庫,被剔除出模型結果。為提高模型精度,需要進一步勾勒更加重要的關鍵詞庫,即剛性關鍵詞庫,“剛性詞”即疫情極強相關詞,這類詞一旦在交易的摘要、用途或附言中出現,無論交易信息中是否存在無關詞(無效關鍵詞庫中的詞語),該條交易都應納入模型結果集,不會被剔除,有效提升了模型在符合場景中的精準程度。
確認“剛性詞”范圍主要依賴外部輿情檢索,輿情檢索步驟包含:使用網絡爬蟲抓取20—30篇疫情期間商業銀行下轄各機構(如不同地區分行)發布的新聞資訊,整合為一份咨詢數據包,對其作非結構化詞頻分析,提取新聞熱詞;整合的熱詞包與柔性關鍵詞庫作比對,取兩者的交集部分,驗證確認后納入剛性關鍵詞庫。這里的非結構化詞頻分析統一使用Python技術,基于Anaconda平臺加載jieba分詞包,導入待分析的數據文件,運行即可獲取數據包中的高頻熱詞及其權重,如圖2所示。因此,通過正逆雙向詞頻抽樣分析之后,防疫事件的剛性(與防疫事件直接相關)、柔性(與防疫事件間接相關)、無效(與防疫事件無關)三大關鍵詞庫建立完畢,聚焦的交易數量從十萬量級銳減至萬量級。
3.整合三大詞庫內容,完成數據挖掘模型搭建。將三大關鍵詞庫融入模型挖掘規則,完成模型的最終構建,詞庫內容樣例如圖3所示。對于疫情期間行內黨委、工會專戶列支的交易,摘要、用途或附言內含剛性關鍵詞的,直接納入防疫物資審計模型結果集;含柔性關鍵詞的,進一步篩查是否包含無效關鍵詞,包含的直接剔除,不包含的納入模型結果集。
(四)引入OCR技術,提高線索核實效率
定位防疫物資核心交易后,審計人員需投入大量時間精力核實交易的真實性。非現場條件下,需要遠程復核大量物資采購、簽領單據。這些文件一般為掃描件格式,數量巨大。為進一步提高審計線索核實效率,在此步驟中引入OCR技術,使用InkScape、PDFedit等開源工具,將圖片或PDF文件轉換為Excel或者Word文檔,再作簡單的格式處理,即可直接用于匯總統計。實際項目實施過程中,在掃描件清晰度較高的情況下,對打印格式的中英文識別準確度很高,簽名、手寫體識別率較低。
三、防疫物資交易定靶模型的實踐效果
(一)精準鎖定核心交易,有效支持審計進展
在實際項目進程中,防疫物資交易定靶模型的結果精準鎖定了核心交易流水,將需要關注的交易從億量級數據量縮減到萬量級乃至千量級,有效解決了防疫物資采購與使用交易問題的定位痛點,有力支持了行內員工收受供應商轉賬還款、個別機構向物業公司人員重復發放慰問金等風險的審計線索排查。
(二)拓展應急事件審計方法論,創建建模工具包
基于大數據的防疫物資交易定靶模型構建了防疫事件關鍵詞庫群,建立了剛性關鍵詞庫(5個關鍵詞)、柔性關鍵詞庫(22個關鍵詞)和無效關鍵詞庫(59個關鍵詞),為防疫事件相關其他審計模型的快速構建打下了堅實基礎。同時,也為特殊時期應急事件型審計的非現場數據挖掘提供了行之有效的方法論探索和實施路徑參照。
(作者單位:中國工商銀行內部審計局上海分局,郵政編碼:200002,電子郵箱:jxy163@126.com)