文/暨南大學 羅琦 李云 李俊 周煒
隨著科學技術的快速發展,人工智能越來越多地應用于人們的生活之中,智能交通、智能醫療、智能家居、智能票務系統等給人們的日常生活帶來了更大的便捷。基于人工智能大數據的高校智能財稅一體化服務平臺系統的開發和應用,解決了傳統高校會計中的諸多問題,實現了票據、憑證、賬簿、報表等各環節的自動化、流程化、透明化。基于人工智能技術的高校會計票據系統通過對原始票據進行掃描、文本自動識別和人工校驗,建立了票據影像電子數據庫,其能運用“互聯網+”、大數據挖潛、“云會計”、深度學習、智能算法等智能技術,通過計算機自動生成各類會計憑證,實現憑證制單、審核、沖正、過賬、結賬等基礎會計核算。人工智能技術與高校財務會計專業業務的深度融合,實現了高校會計信息處理的自動性、精準性、實效性和完整性,提升了會計信息處理的效率,降低了高校的運營成本[1]。
人工智能技術主要包括計算機視覺、語音識別和自然語言處理。計算機視覺,顧名思義,就是利用攝像頭,使圖像通過鏡頭傳至圖像傳感器,最后變為一系列數字圖像信息,并通過對圖像信息的處理,完成對目標數據的提取。語音識別是將人們的發音內容從模擬信號轉化為數字信號,利用聲學模型、語言模型和解碼器轉換為計算機語言后,進行相應可讀輸入,轉換形式包括字符序列、二進制編碼等。自然語言處理作為人工智能技術中的一個重要技術,其同樣是充分利用深度神經網絡技術進行相應文字數據的分析、處理等操作。人工智能技術充當了語言研究的有力工具,能實現自然語言的有效量化。基于人工智能技術的高校會計票據識別技術主要運用票據圖像采集、圖像模板匹配、圖像預處理、OCR識別、數據校驗、特征數據提取比對、智能字符識別等技術實現會計信息的智能化采集與處理[2]。
會計流程主要是通過發票憑證等紙質材料或其掃描電子文檔,進行一系列核對工作,確認某筆業務是否真實且合規,最終完成業務閉環。其中,核對紙質材料是一項耗費較大人力的工作,其需要初步確認本次業務中需要的資料是否符合要求,如核對發票購買方及銷售方的名稱、納稅人識別號、地址、開戶行信息,核對發票金額、稅率、總金額,核對開票日期是否合理、發票號碼是否有連號重復等現象等,在重復工作中浪費大量的人力。如果使用圖像識別技術自動完成核對工作,便能大大節省人力。會計票據識別流程如圖1所示。

圖1 會計票據識別流程
(一)圖像分類算法。1.基于卷積神經網絡算法的圖像分類技術。圖像分類算法的經典模型結構主要有AlexNet、LeNet、GoogLeNet、ResNet 等類型,圖像分類采用卷積神經網絡算法進行圖像分類。以高校研發經費報賬所需材料為例,一般需要合同、發票、費用支出申請表、購買小票等材料。例如,將2000 份已發生的業務的合同、發票、費用支出申請表、購買小票作為輸入圖像數據集,在完成訓練后,能初步建立圖像分類模型,后續通過該算法便可以判斷該圖像屬于何種類型。2.基于模板匹配算法的圖像分類技術。由于基于卷積神經網絡算法的圖像分類技術并不能達到百分百的準確率,仍有一定的誤識別率,因此本文采用模板識別法,進一步提升圖像分類的準確性。同時,對于誤識別率的圖片進行人工分類,進一步提升基于卷積神經網絡算法的圖像分類的識別準確率。
卷積神經網絡是計算機視覺技術最經典的模型結構。卷積神經網絡主要包括卷積、池化、激活函數、批歸一化、丟棄法等模塊應用。在計算機視覺中,卷積神經網絡的輸入是由原始像素值或是經過居中、縮放等簡單預處理的像素值組成。利用神經網絡加速器,通過參數初始化、隨機梯度消減處理、非擠壓激活函數、正則化等技術訓練神經網絡。從像素到分類結果獲取數據集,通過尺度不變特征變換、加速魯棒特征等特征提取算法,調整輸入數據,將圖像邊緣、顏色、紋理等特征提取存入線性模型等分類器中,對分類器進行系統訓練。計算機視覺應用體系如圖2所示。

圖2 計算機視覺應用體系
深度學習對計算資源要求很高,訓練可能需要數百個迭代周期,每次迭代都需要通過代價高昂的許多線性代數層傳遞數據。卷積神經網絡通過Dropout控制全連接層的模型復雜度,采用權重衰減方法,進一步擴充了數據容量,在訓練時增加了翻轉、裁切和變色等大量的圖像增強數據。多層卷積和池化層組合作用在輸入圖片上,在網絡的最后加入多組全連接層,ReLU 激活函數一般加在卷積或者全連接層的輸出上,網絡中通常還會加入Dropout,從而有效地減少了圖像過擬合現象。經典卷積神經網絡結構如圖3 所示。在卷積神經網絡中,設置了圖像像素點的空間鄰域內作為計算范圍,卷積核參數的數目也遠小于全連接層。卷積核本身與輸入圖片大小無關,卷積核對空間鄰域內物體邊緣特征、物體拐角處的特征等特征模式進行提取。圖像上不同區域可以共享同一個卷積核,且可不受輸入圖片大小限制。

圖3 經典卷積神經網絡結構
(二)圖像預處理。完成圖片分類后,對特定圖片需要進行預處理。對于常見的發票、支付憑單,采用模板匹配方法進行抽取數據。首先,匹配指定位置,如“通用報銷單”“經費卡號”“填寫日期”,如三者經過OCR識別后均判定為相應的文字,則能判定其為相應材料;如三者中有其中某一者識別為非相應文字,則判定為非對應材料。圖4、圖5所示分別為發票圖像識別圖和支付憑證的圖像預處理效果圖。

圖4 發票圖像識別圖

圖5 支付憑證的圖像預處理效果圖
(三) OCR 識別算法。文字識別是指電子設備檢查紙上打印的字符,然后用字符識別方法將形狀翻譯成計算機文字的過程。目前,對于印刷體的文字識別技術已經較為成熟,其主要通過二值化、噪聲去除、傾斜校正、字符切割、字符識別、版面恢復等過程進行識別。
圖像二值化是將彩色圖像或多灰度圖像轉換成只有兩個黑白灰度的圖像,圖像二值化處理主要通過脫色處理、黑白分割技術實現[3]。對于各類財務彩色票據掃描采集的圖像進行脫色(灰度處理),利用RGB 三種顏色系列的平均值計算算法,將彩色像素轉換成灰度像素,并使用平均值表示灰度像素的灰度(0-255),再進行灰度值封裝后與系統閾值比較,從而進行像素為黑色(1)、白色(0)判定。像素為1時,為字符圖像;像素為0時,需要進行灰度差別轉換,再利用動態閾值判斷,實現圖像二值化分割。在票據圖像采集時,對于圖傾斜的,還需要利用傾斜識別算法,對圖像水平度進行校正。會計票據圖像在傳輸、轉換、存儲、打印等處理過程中,容易受信號疊加、系統衰落、非線性處理等隨機因素的影響,造成圖像粗糙、質量下降、特征淹沒等問題,需要采用均值濾波、中值濾波與維納濾波等算法進行降噪處理,從而獲得合適統計特性,確保能準確地對字符進行分割和識別[4]。
將預處理后的材料進行文字OCR 識別,將材料內的文字信息進行提取。已經完成預處理的材料,可以快速識別指定位置的文字;對于未預處理的材料,則直接全量識別文本,但識別出的文本會有大量的不可用信息,需要定義數據的數據抽取算法[5]。使用OCR 表單識別系統,可提供完整、高效的財務電子單據,通過拍照掃描,系統能自動采集數據信息。據有關研究,通過高效合理的OCR 預識別引擎,可以有效提高標注人員30%左右的標注效率。高校電子系統內置了OCR 識別框不貼合、標注對象不符、標簽和屬性錯誤等多種錯誤類型,支持會計主管針對票務特點自定義錯誤類型。標注數據支持通用json 格式輸出,面向不同客戶的需求,系統提供了多種在線格式輸出數據。同時,所有OCR 預識別票據數據均可導入數據平臺系統支持實際業務,還可自動生成標準AI 數據集用于算法迭代,強化了系統處理能力。
(四)數據校驗。數據校驗方式主要包括奇偶校驗、循環冗余CRC 校驗(Cyclic Redundancy Check)、異或BCC校驗(Block Check Character)、縱向冗余LRC校驗(Longitudinal Redundancy Check)、累加和檢驗(CheckSum)、MD5 等校驗方法。數據在傳輸的過程中會受到各種干擾因素的影響,如脈沖干擾、隨機噪聲干擾和人為干擾等,會造成數據差錯。為了能夠控制傳輸過程的差錯,必須采用有效的數據校驗。通常用一種指定的算法對原始數據計算出的一個校驗值,接收方用同樣的算法計算一次校驗值,如果兩次計算得到的檢驗值相同,則說明數據是完整的。高校財務人員對抽取的數據需要進行相應的數據校驗,校驗規則包括下列幾種:金額類不得含有非數字字符;納稅人識別號必須遵循其相應的規則;金額及其稅率必須相匹配;發票號不得與系統內的其他發票號重號。電子專票采用可靠的電子簽名代替原發票專用章,采用經過稅務數字證書簽名的電子發票監制章代替原發票監制章,高校財務人員可以利用電子票務系統,查閱、驗證電子專票、電子簽名、電子發票監制章等的有效性。利用高校財務系統在線驗證電子發票有效性如圖6所示。

圖6 驗證電子發票監制章
(五)數據比對及存檔管理。將數據抽取后,需要與系統數據進行比對,從而判斷是否存在相應的經費卡號。如:紙質網報單的編號是否與系統內的網報單編號一致;報賬人員錄入的金額與發票金額是否一致;發票金額與業務發生金額是否一致;發票號是否與系統內已有發票號碼重復;發票日期是否與系統內合同簽訂日期形成倒掛關系,即發票開具日期早于合同簽訂日期;是否已經具備了本次業務所以應準備的材料。通過校驗后,對所呈現的結果進行人工審核。對于電子專票的比對,重點在于防范虛假入賬及重復報銷方面。目前,電子發票進行打印之后,其紙質材料僅僅作為電子發票的載體,并不具備相應的防偽認證等功能,并且這種打印材料能夠自行進行復制。在電子發票的報銷中必須有效規避打印件重復報銷的問題,對于高校而言有必要針對性地完善內控機制。財政部、國家檔案局《關于規范電子會計憑證報銷入賬歸檔的通知》(財會〔2020〕6 號文)就相關工作進行了一定說明,為電子發票打印件報銷工作提供了一定指導。利用驗證數字簽名、直連發票查驗平臺驗證、發票號碼驗證等方法,能有效驗證電子發票的真偽性及防范重復報銷。在高校財務管理中,相關人員應充分利用高校財務信息系統,根據國家相關要求執行檔案管理和歸檔保存工作。對于相應的電子會計憑證而言,須嚴格按照國家檔案部門規定的存檔格式和電子標準格式進行存儲,在利用電子專票進行報賬時,也必須將紙質打印件和電子專票一并收集,入庫存檔保存。
同時,高校財務信息系統對數據的規范存儲有著重要作用,其能夠對相應的憑證進行完整的讀取和接收,在相關報賬憑證等財務數據進入數據倉庫之前,會經過抽取、清洗、篩選、歸類等步驟,按照國家檔案行政管理部門的相關要求和規定的格式進行處理,以保證數據的質量,便于后續的查找和分析。高校財務信息系統對于基礎財務數據規范存儲的作用主要體現在三個方面:第一,作為一種高效的工具,財務數據庫可以隨時提供反映高校資金狀況、存借款情況等財務數據資料,為管理者提供實時信息,減少查找時間。第二,財務數據庫隨著日常財務業務的開展,會不斷加入更多的資料信息,其能使高校得到的財務信息更為準確。第三,財務數據為高校所有級別的決策制定過程提供了各類數據支持,是財務相關系統的核心組件。
通過使用人工智能技術中的計算機視覺技術,采用基于卷積神經網絡算法的圖像分類技術,基于模板匹配算法的圖像分類技術、OCR 識別技術,基于專家經驗的數據校驗及比對算法,可以使會計票據業務中的人工部分大大減少,解放人力,提質增效,使其可以內控制度的完善。