黃妙紅 何勝 王玨 肖嘉麗


[摘 要]電網企業目前的計算機審計工作主要基于數據庫中的電子數據進行分析,而從審計經驗看,被審計單位的各類紙質文件中往往隱藏著大量的審計線索和疑點,如何充分利用相關數據是本課題的核心。基于此,本文首先要解決的問題就把相關紙質文件轉化成計算機能夠識別的文字,這需要企業利用掃描儀將相關文件掃描成圖片;其次,本文研究了OCR圖片識別技術,將掃描后的圖片文件進行OCR處理,并抽取成文字文檔,為相關文檔的深度挖掘和利用奠定基礎。
[關鍵詞]OCR技術;審計文本識別;現場審計
doi:10.3969/j.issn.1673 - 0194.2020.16.036
[中圖分類號]F239.1[文獻標識碼]A[文章編號]1673-0194(2020)16-00-03
0? ? ?引 言
經過多年的信息化建設,電網企業各業務系統中產生了海量的業務數據,僅靠人工進行審計,不能滿足企業的需求。電網企業審計信息化建設應用已有10年的歷史,在此期間,電網企業積累了大量審計信息化經典案例,同時也對前沿信息技術如何在審計業務中應用進行了深入研究。為了進一步提升審計工作效率,推進審計信息化作業模式和手段向智能化、自動化方向發展,企業需要對先進信息技術在審計輔助作業中應用進行深入研究。利用圖片識別技術、大數據分析技術、文本挖掘、自然語言處理、機器學習、商業智能(BI)等高科技手段與工具,基于公司海量業務數據進行智能審計,幫助公司審計部門進一步提高審計工作效率,提升審計的精確監管能力。本文重點研究圖片識別技術(OCR)在電網企業審計現場中的應用。通過OCR技術實現現場取證的紙質文檔結構化,并對文檔合規性進行審查,分類及整理智能化文檔,為智能電子取證打下堅實基礎。
1? ? ?OCR技術在審計現場中的應用
目前,電網企業的計算機審計工作主要基于數據庫中的電子數據進行分析,而從審計經驗看,被審計單位的各類紙質文件中往往隱藏著大量的審計線索和疑點,因此,如何充分利用相關數據是本課題的核心。而首先要解決的問題就是把相關紙質文件轉化成計算機能夠識別的文字。這需要企業先利用掃描儀將相關文件掃描成圖片,然后研究OCR圖片識別技術,將掃描后的圖片文件進行OCR處理,并抽取文字文檔,為相關文檔的深度挖掘和利用奠定基礎。在本課題中,OCR技術在審計現場中的應用分為以下幾點。
1.1? ?交通費發票識別
國家和中央各部委、電網企業對員工出行時乘坐的交通工具均有明文規定,根據出差人的行政崗級、出差事由和目標、出差地的經濟環境水平、出差人數和出差的可行預算,對交通費報銷標準均制定了明確的上限。出差人獲得的交通費報銷憑證的票面清楚地標示了國內機票的艙位和火車票的座位等級。總而言之,企業核查交通費發票報銷,重點是運用OCR技術對機票艙位為頭等艙、商務艙,火車票座位等級為商務座、特等座、一等座、軟臥的差旅費報銷行為進行定位識別,核查超標情況。
1.2? ?酒店住宿發票識別
按照中央廉潔自律八項規定,公務人員出差不能超標入住高檔酒店和會所,也不能有任何高消費行為。在審計檢測中,企業可以通過提取成本費用中的差旅費、業務接待費、會議費等科目下發生的支出,對重點關注的高檔酒店的住宿和消費情況進行核查,提取這些支出原始憑證,對發票開具單位的名稱和信息進行檢查,匹配酒店等級和出差人員的職務級別,從中發現疑點。
1.3? ?違規購買土特產、高檔煙酒識別
企業通過提取成本費用中的業務接待費、宣傳費、會議費、其他費用等科目下發生的支出,檢查員工是否違規購買土特產和高檔煙酒。運用OCR技術對發票開具方的單位和信息、品名、規格、數量、單價等商品內容進行核查,檢查發票開具方是否含有“商貿行”“特產”“煙酒”“貿易公司”等字樣,關注商品名稱中是否含有“煙”“酒”“禮盒”字樣。尤其要注意的是,在多次審計項目實踐中發現部分基層單位存在一些隱形變異現象,如通過開具“購用品”“購水”或者“辦公用品”“文具一批”和“購茶葉”等發票進行變通,掩蓋實際采購的交易行為信息。對于此類現象,審計人員在對原始憑證發票信息進行識別歸類和分析后,可以通過外圍調查、咨詢訪談、突擊盤點實物、觀察法等,對真實交易行為開展定性和審計識別。
1.4? ?財務報表識別
目前,電網企業財務報表的數據分析大都采用人工閱讀審核方式,效率低,無法實現自動化以及智能化。傳統的人工審核方式已經嚴重阻礙了電網企業的審計效率和業務開展。運用OCR技術將財務報表中的文字、表格、圖像轉化為電子版的數據,通過計算機程序,快速采集財務報表數據,再通過AI技術發現其中隱藏的疑點信息,具體步驟如圖1所示。
2? ? ?關鍵技術要素
2.1? ?圖片識別技術
光學字符識別(Optical Character Recognition,OCR)指對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程,即識別圖像中的文字,并以文本的形式返回。
2.1.1? ?OCR的應用場景
根據識別場景,可大致將OCR分為識別特定場景的專用OCR和識別多種場景的通用OCR。比如,現今方興未艾的證件識別和車牌識別是專用OCR的典型實例。通用OCR可以用于更復雜的場景,具有更大的應用潛力。但由于通用圖片的場景不固定,文字布局多樣,難度較大。根據所識別圖片的內容,企業利用OCR可將場景分為清晰且具有固定模式的簡單場景和更復雜的自然場景。自然場景文本識別難度極高,主要原因是圖片背景非常豐富,經常面臨低亮度、低對比度、光照不均、透視變形和殘缺遮擋等問題,且文本布局可能存在扭曲、褶皺、換向等問題,文字可能出現字體多樣,字號、字重、顏色不一的問題。因此,自然場景中的文字識別技術,也經常被單列為場景文字識別技術(Scene Text Recognition,STR)。