王攀娜 楊昆


編者按:隨著人工智能、大數據等信息技術的不斷發展,OCR文字識別技術逐漸應用于審計領域,成為重要的審計技術創新工具。文章探討如何將OCR文字識別技術應用于審計,發現OCR文字識別技術與審計系統相結合、與智能審計工具共建數字化審計平臺、助力構建數據共享平臺三條路徑,并分析了基于OCR文字識別技術實現審計技術創新的保障措施,以期通過OCR文字識別技術實現審計技術創新,提高審計工作效率。
在大數據、區塊鏈、云計算、人工智能等創新技術的驅動下,將OCR文字識別等智能技術融合到審計實務工作中,可以為審計工作提供數字化賦能。使用OCR文字識別技術,可以大大提高數據的準確性,將審計人員從枯燥繁重的工作中解脫出來,節省鍵盤輸入的人力和時間,為審計技術打下非結構化數據采集的基礎,推進審計技術創新。
OCR文字識別技術介紹
OCR文字識別技術概念
光學字符識別(Optical Character Recognition,OCR),通稱為文字識別,通過光學輸入設備獲取紙張上的文字圖片信息,再以通用格式存儲為文本文件。OCR是一種高效、快捷的自動文字輸入方法,實現了計算機認字技術,是計算機視覺研究領域中模式識別和人工智能領域的一種應用。OCR系統性能好壞的衡量指標主要包括識別速度、識別比例、產品的穩定性、用戶界面是否友好、使用的方便性和可行性等。OCR文字識別是實現文字高速錄入的一項關鍵技術,在身份信息識別、金融票據識別、合同信息提取等商業場景中都有比較成熟的應用。
OCR文字識別的處理流程主要包括圖像處理和文字識別,具體處理流程見圖1。圖像處理包括圖像輸入、圖像預處理、版面分析和字符切割四個步驟。圖像輸入是通過電子信號處理讀取圖像。圖像預處理指將圖像處理為有文字的黑色和沒有文字的白色區域、去除圖像成形的噪音、校正傾斜的文字和數字等。版面分析是將文檔圖片進行段落和行的劃分。字符切割是將粘連在一起的文字、段筆等情況進行切割。文字識別過程包括特征提取、字符識別、版面恢復以及后處理四個步驟。特征提取是識別字符圖像的關鍵特征,通過降維處理以便后續進行字符識別。字符識別是根據數學的向量特征,進行字符識別。版面恢復是根據原文檔的排版情況,識別格式,將結果輸出。后處理是將識別出來的文檔與原文檔進行比對校正。
OCR文字識別技術的應用場景
近年來,文字識別技術作為一項采集圖片信息的工具,已經在很多實踐案例中都得到了運用。具體來看,OCR文字識別技術的應用場景大致可分為:通用類,表格、文檔、網絡圖片等任意格式圖片;證件類,身份證、駕駛證、行駛證、護照等證件圖片;票據類,增值稅發票、機動車銷售發票、醫療發票等各種發票;行業類,物流面單、醫療化驗單據等多種行業特定類型圖片;定制模板,用戶自定義識別模板。
OCR文字識別技術應用于審計的路徑
我們認為OCR文字識別技術運用到審計工作場景的路徑主要包括如下三個方面。
OCR文字識別技術與審計系統的連接
1.實時性
審計系統需要及時獲取相關的審計數據,并在短時間內做出專業判斷,借助OCR技術可實現審計系統的實時計算。此外,OCR文字識別技術可實現審計數據的持久存儲。OCR在審計中的應用主要分為圖像采集模塊、OCR文字識別模塊和審計模塊三個部分,中間通過Redis和Kafaka兩個傳輸工具實現。
(1)圖像采集模塊。圖片采集是OCR技術應用的基礎,實現系統的圖像輸入流程,主要功能是對圖像進行預處理,包括去除噪聲、二值化、校正傾斜等,然后發布到Redis的圖形通道中。
(2)OCR文字識別模塊。通過調用Redis的圖形通道獲取到初步處理后的圖片,進行文本檢測,包括文本行分隔和文字分隔;最后將圖片中的信息還原為可被計算機識別的信息,識別之后將文字發布到Kafaka文字通道。
(3)審計模塊。通過Kafaka文字通道,將OCR文字識別模塊識別信息傳遞到審計模塊,進行信息實時計算和持久化存儲。Redis和Kafaka是文字識別技術與審計系統連接框架系統中的消息傳輸工具,因為圖像采集和文字識別速度不同,文字識別和審計模塊處理速度不同,各模塊間直接進行數據的傳遞可能導致消息堵塞。使用Redis和Kafaka作為緩沖,可為系統的穩定性提供保證。
2.全量審計
在對公客戶信貸舞弊風險年審時,審計人員需要從行內信貸系統中隨機抽取100個有貸款的對公客戶信息,通過比對貸款投向信息與企業營業執照的經營范圍是否匹配來識別舞弊信號。審計人員要手動錄入企業名稱、經營范圍信息、統一社會信用代碼等,然后開始后續工作。使用到OCR具體工作流程見圖2。審計人員只需要獲取全量的企業營業執照的照片,并導入到文字識別工具中,即可獲得可編輯的文本信息。為進一步提高審計效率,還可先設計一份數據匯總表單,規定自己所需的信息,將這些文字版企業營業執照變成更可觀的表單。將節省下來的時間用在發現舞弊信號等方面,有效降低抽樣審計導致的重要信息遺漏風險,并提高審計的質量。
OCR文字識別應用于智能審計技術
OCR文字識別技術有助于審計實現非結構化數據采集,助推其他審計技術發揮功效,使得應用范圍可以拓展到更多社會實踐工作領域中。融合OCR文字識別、機器人流程自動化、高級數據分析等多種新興審計技術,將為審計工作提供數字化賦能。智能審計數字化平臺通過數據加工、轉化、存儲、交換、關聯共享和管理等專業化處理,對數據的組合分析、交叉驗證,以實現全面分析。動態、真實地反映審計對象的相關信息,幫助審計部門識別各種審計風險。目前該技術應用于審計數據采集、文檔審閱、底稿編制、海量合同文本、錄音等非結構數據等方面發揮了巨大的優勢。
在審計業務中,審計人員需要閱讀大量的合同,提取合同名稱、合同簽訂雙方名稱、簽訂時間、結算方式等信息,與單位財務報表進行對照、核查,形成初步審計報告。借助OCR文字識別技術和數據分析技術,幫助審計人員發現合同條款中的潛在風險。審核合同時,如果合同信息未電子化,審計人員很難發現多個合同中存在建設內容部分重復或全部重復的情況。使用OCR文字識別技術將合同信息電子化,建立合同信息庫,對合同數據進行重復篩查和關聯匹配。通過將非結構化數據轉變為電子化形式,再利用數據分析功能,將轉換后的數據與現存的結構化數據進行關聯,通過匹配進行核對,實現多點聯動審計。
OCR文字識別技術助力構建共享平臺
OCR文字識別技術是共享中心的關鍵所在,在傳統的共享中心數據的采集主要是人工來進行文字的轉化,將紙質文件上的數據錄入到系統中,但OCR改變了人工錄入數據的工作模式,從源頭上提高數據的準確性。尤其是伴隨著數據的不斷增加,數據不斷復雜化,借助OCR將為共享中心的發展提供更有力的支撐。
使用OCR文字識別技術將紙質文件數據轉化為結構化數據上傳至共享中心,可簡化審計工作流程。通過OCR文字識別技術構建共享中心,內部審計人員可在業務前端直接抓取數據,看見原始憑證的圖像,不必再通過財務人員傳遞才能獲得,超越了業務地點時間的限制,解決了時滯問題和舞弊。OCR文字識別技術能規避手動輸入可能的錯誤,實現自動驗證發票真偽,從發票臺賬取數,掃描識別時直接驗證發票真偽,降低稅務風險。
OCR文字識別技術應用于審計的保障措施
為了實現OCR文字識別技術在審計工作中的應用,下面探討其保障措施。
探尋新型審計模式
隨著內外環境的快速變化,需要探尋符合時代發展的新型審計模式。在業務風險越來越隱蔽的情況下,審計人員必須形成數據思維,統籌分析信息。審計人員需要更多地考慮未來審計工作模式的轉變,改進創新審計技術。將各種前沿技術應用于審計的核心流程中,識別并評估日常工作中可以標準化和自動化的場景,為審計中的關鍵審計流程提供了全新的數字化解決方案,提高了工作效率。
構建智能審計平臺
伴隨著信息技術的快速發展、數據應用的持續拓展,搭建智能化審計平臺,可以實現基于OCR文字識別開展審計工作。參考全球領先的專業服務機構德勤公司的做法,從計劃和風險評估到控制測試再到實質性測試,以及最后的結論與報告階段。
(1)計劃和風險評估階段,使用自動式綜合性數據分析,可快速實現報表、會計科目及分錄的可視化分析,聚焦高風險科目,揭示異常風險。
(2)控制測試階段,借助數字化流程挖掘和設計工具,自動跟蹤業務流程,通過動態視圖可視化呈現,幫助企業更直觀了解流程運行情況,識別異常操作業務,進而深入分析企業內控流程中的潛在風險。
(3)實質性測試階段,利用數據動態可視化技術、機器人流程自動化技術結合第三方數據平臺,對企業圖譜、股權結構、關系圖譜等信息進行挖掘和展示,對企業關聯交易進行展示,輔助審計人員對客戶關聯關系及關聯交易進行充分挖掘,從而提升風險防范能力,保障審計質量。
(4)結論與報告階段,德勤公司自主研發的“勤報通”工具能實現報告審閱流程的高度自動化與智能化,還能通過健康檢查全面快捷地識別報告中的錯誤情況,改進報告質量,提高審計交付的質量。
保障數據的安全性和準確性
信息技術通過計算機程序自動處理,可大大提高工作效率,但不可忽視風險。OCR文字識別技術應用于審計過程中,數據的安全性和準確性是必須面對的重要問題。如采用OCR審計無形資產的形成和攤銷時,要考慮數據獲取是否準確,是否能支持最終形成的審計結論。要注重對數據的管理和保護,設置好數據訪問和存儲的權限,嚴格限制訪問,采用授權機制來保證審計數據的安全。使用OCR文字識別技術提取數據時,可使用一定措施來提高識別準確度。對圖像進行文字識別時,保證光線盡量充足和穩定,且文字的背景最好是純白的背景,這樣能去除干擾因素,進一步保證文字識別技術的識別準確率。在文字識別技術處理流程中,最后一步的人工對比和校正也將保證輸出數據的準確性。
結語
數據時代的到來,審計數據的載體變得越來越多樣化,圖片、照片、影像等資料承載著豐富的審計數據信息。為了了解藏在這些信息背后的復雜關系和潛在風險,審計需要將非結構化數據轉化為可審計的數字或文本信息,揭開審計對象之間的復雜關系。OCR文字識別技術為智慧審計打下了 非結構化數據采集的基礎,如機器人流程自動化技術、自然語言處理技術等。OCR文字識別技術與審計系統結合、與智能審計工具結合、助力構建共享中心這三方面的應用,進一步落實到數據采集、信息審核、審計抽樣三階段具體審計工作流程當中,有助于推進審計智能化水平,提升審計工作的社會服務價值。
參考文獻:
[1]汪莉,葉健彪.基于OCR的審計技術創新與實現[J].中國內部審計,2019(04):44-47.
[2]徐超,陳勇.大數據技術與方法在審計監督中的應用研究[J].數量經濟技術經濟研究,2021,38(05):135-153.
[3]余玉苗,徐慧慧.利用機器學習提升內部審計價值——讀《機器學習強化保證》[J].財務與會計,2020(12):86-87.
[4]張晶,李雅琴,王博文.光學字符識別(OCR)技術在內部審計中的實踐應用[J].納稅,2020,14(01):275.
[5]趙文華.德勤探路審計中的人工智能應用[N].中國會計報,2017-03-03(010).
第一作者:王攀娜(1980—),四川自貢人,副教授、博士、碩士生導師,現就職于重慶銀行博士后科研工作站。