999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于OAT架構的審計憑證數字化方法

2023-11-03 11:33:32何梓源張仰森成琪昊
計算機工程與設計 2023年10期
關鍵詞:文本模型

何梓源,張仰森,向 尕,成琪昊

(北京信息科技大學 智能信息處理研究所,北京 100192)

0 引 言

目前,對于審計流程數字化的研究還處于初級階段。有許多的國內外學者對多源、異構、異質的審計信息進行研究[1,2]。Rezae等[3]提出使用數據倉庫技術,將數據格式進行統一,以應對頻度要求更高的審計工作。審計過程的數字化階段主要需要用到OCR光學字符識別技術[4-7]。王興等[8]對OCR用于票據識別的算法進行研究,通過關鍵字匹配與字符大小匹配相結合的算法,可以在自然場景下對火車票據有很好的識別效果。正如王興的研究所述,OCR識別可將數據結構化展示,并利用數據分析工具檢索出有價值的信息[9-13]。

本文通過研究審計憑證數字化及文本分類技術,構建了OAT(optical character recognition attention for text)審計數字化架構,極大提升了文檔關鍵信息檢索效率。在數據獲取階段,首先通過相關審計部門獲得部分高質量審計憑證文檔,用于OCR識別準確率的測試及OCA(optical character with attention)模型調優,然后通過爬蟲技術獲取網上的審計文本,并構建審計聯合知識庫。在OCR識別階段,構建OCA多階段光學字符識別模型,對審計憑證紙質文本進行數字化轉換,并利用模型蒸餾技術,提升OCA模型的處理速度。在文本過濾階段,利用ACPmarked(attention convolution polling marked)架構提取與審計任務相關的語句,形成數字化的高質量審計文本。實驗結果表明,基于OAT的審計憑證數字化架構可以極大提升文檔關鍵信息的檢索效率,驗證了本文提出的OCA模型與ACPmarked架構綜合應用的有效性。

1 基于OCA的多階段光學字符識別模型

目前OCR的應用場景主要分為,自然場景文本檢測與識別、手寫體文本檢測與識別、文檔文本檢測與識別,審計憑證屬于文檔文本檢測與識別。文檔文本的處理方法分為單階段與多階段處理。傳統的單階段文本識別,準確率不高,存在丟失文本內容的現象。傳統的多階段文本識別精準度較好,但檢測時間過長,對于篇幅較長的審計文本識別效果不佳。本文在傳統多階段文本識別模型的基礎上,引入圖像增強算法及注意力機制,提升模型的準確率,并通過模型蒸餾技術優化模型參數,降低檢測時長。

1.1 位置檢測模型

紙質文本數字化的首要任務,是在復雜的場景中定位文字的位置,即文字檢測。CTPN[14](connectionist text proposal network)算法通過改進的vertical anchor方法,只預測文本豎直方向上的位置,將方格的寬度固定,不對水平方向進行預測。其中方格水平長度為16像素。縱向長度為11像素至283像素,將此區間每次除以0.7得到10個anchor,具體數值為:11,16,23,33,48,68,97,139,198,283。隨后利用循環網絡對檢測的小尺度文本進行連接,得到文本行。檢測效果如圖1所示。

圖1 CTPN文字檢測

其中,卷積神經網絡使用VGG[15]提取圖像特征;循環神經網絡使用雙向長短期記憶網絡對特征進行拼接;最終利用全連接神經網絡以及RPN網絡得到CTPN文字檢測結果。

1.2 文字識別模型

通過1.1節所描述的CTPN文字檢測算法,可以定位圖像中文字的具體位置,隨后利用CRNN(convolutional recurrent neural network)算法對文字進行識別。CRNN模型主要分為3部分:卷積神經網絡層、循環神經網絡層、轉錄層。卷積神經網絡層,通過CNN(convolutional neural network)網絡提取圖像特征;循環神經網絡層,利用雙向長短期記憶網絡提取文本的序列化特征;轉錄層引入CTC[16](connectionist temporal classification)Loss計算方法,對識別內容進行無需對齊的損失值計算;最終經過softmax層得到字符輸出。

1.3 OCA多階段光學字符識別模型

1.3.1 引入注意力機制

注意力機制最早廣泛用于計算機視覺領域,傳統無注意力機制的Encoder-Decoder框架將隱含信息統一處理,因此會丟失關鍵信息,使得模型整體水平下降。不同于無注意力機制的模型,帶有注意力機制的模型將輸入語句中的每個單詞,都依據其語義信息,獲得不同的注意力概率分配。

本文利用Soft Attention機制,構建Context Vector環境向量,并將其嵌入到模型中與模型共同訓練,其原理公式如式(1)、式(2)所示

(1)

(2)

其中,Q為查詢向量,K與V通常為序列本身。在進行注意力運算時,首先通過向量Q與每個向量K進行相似度計算,并通過SoftMax函數對結果進行歸一化操作,隨后使用得到的權重和對應的向量V進行加權求和,獲得最終的Attention注意力值。

1.3.2 知識蒸餾

知識蒸餾通常用于模型壓縮,提升模型運算效率,其流程如圖2所示。

圖2 知識蒸餾模型

此方法將參數龐大的模型知識,轉移到參數量較小的模型上,極大提升了模型運算效率。因此,針對多階段OCR模型運算時間過長的問題,本文利用知識蒸餾技術,在保證準確率的同時提升模型整體效率。知識蒸餾可考慮成一個廣義的Softmax函數,如式(3)所示。交叉熵損失公式如式(4)所示

(3)

(4)

其中,T為調節參數,當T無限趨近于0時,結果接近于one-hot向量。當T趨近于無窮時,模型可學習更多的可能性。zj為新模型產生的logits,qi是真實概率,pi為預測概率。

1.3.3 OCA多階段光學字符識別模型

為了在保證模型準確度的基礎上解決模型運算效率問題,本文構建了OCA多階段光學字符識別模型,模型流程如圖3所示。

圖3 OCA模型流程

圖像增強階段主要分為3個步驟:①圖像矯正;②凸顯文字特征;③文字銳化。在圖像矯正階段,首先對圖像進行二值化處理,將文字部分轉換成白色,圖像背景轉換為黑色。其次計算包含全部文字在內的最小旋轉文本邊框,此邊框的旋轉角度與文本的旋轉角度相一致。最終調整圖像角度對其進行仿射變換。過程如圖4所示。

圖4 審計文本圖像矯正

在文字特征凸顯階段,首先對圖像進行對比度增強,隨后利用直方圖正規化技術對圖片進行細節效果處理,直方圖正規化公式為式(5)、式(6)

(5)

(6)

直方圖正規化是一種線性變換方式。輸入圖像為I,I(r,c) 表示I的第r行第c列的灰度值,將I中出現的最小灰度級記為Imin, 最大灰度級記為Imax。 在文字銳化階段,通過對圖像中文字的銳化操作,有利于提升模型最終的識別準確率,實驗見3.3小節,最終獲得的圖像如圖5所示。

圖5 圖像增強階段效果對比

在文字檢測與文字識別階段,利用Soft Attention機制,構建Context Vector環境向量,并將其嵌入到模型中共同訓練。使得模型當前輸出的單詞得到不同的注意力概率分配,有助于提升模型識別準確率。

文字檢測知識蒸餾階段,Teacher模型在卷積層并行使用VGG16與ResNet50網絡結構,并將兩者的運算結果進行拼接。在循環網絡層,使用基于注意力機制的雙向長短期記憶網絡,對序列化特征進行提取。最后,通過全連接層與RPN網絡得到運算結果,并將其進行知識蒸餾得到軟知識。Student模型使用VGG16網絡并增加了dropout機制。在循環網絡層,使用基于注意力機制的雙向長短期記憶網絡,并通過單個全連接層與RPN網絡得到運算結果。在設計損失函數時,Student模型同時學習硬知識(hard tag)與軟知識(soft tag)如圖2所示。

文字識別知識蒸餾階段,Teacher模型在卷積層使用VGG16卷積神經網絡提取圖像特征。隨后利用基于注意力機制的雙向長短期記憶網絡,提取文本序列化特征。最后將向量傳入帶有CTC損失函數的轉錄層得到結果,并將結果進行知識蒸餾得到軟知識。Student模型使用3層CNN卷積單元對圖像特征進行提取。隨后將所得向量通過基于注意力機制的雙向長短期記憶神經網絡。最后利用帶有CTC損失函數的轉錄層得到向量結果。在設計損失函數時,Student模型同時學習硬知識(hard tag)與軟知識(soft tag)。

綜上所述,OCA多階段光學字符識別模型首先對輸入圖像進行圖像增強,其次利用Teacher文字檢測模型和Teacher文字識別模型,訓練Student文字檢測模型和Student文字識別模型。最后依次將圖像增強、Student文字檢測模型和Student文字識別模型進行串連,得到OCA多階段光學字符識別模型。

2 基于ACPmarked的語義分類架構

目前,在網絡平臺上通過爬蟲技術獲得的審計報告,存在大量與審計業務本身無關的信息,例如:公司介紹、渠道廣告等。本文利用ACPmarked多語義融合架構,對數字化后的文本進行文本分類,有效去除審計業務無關的信息。ACPmarked架構主要包括3個模塊:Transformer模塊、基于注意力的雙向長短期記憶模塊、卷積與池化模塊。首先將Transformer模塊與基于注意力的雙向長短期記憶模塊并行排布,豐富審計報告的詞向量表達,隨后通過卷積與池化模塊進一步提取文本特征。最終通過全連接層輸出預測結果。

首先,通過爬取百度百科及頭條新聞約28 G的文本作為Transformer模塊的預訓練語料,并利用word2vec模型進行訓練。隨后,引入位置編碼矩陣,得到帶有位置編碼的詞向量。然后,利用多頭自注意力機制,對傳入的文本向量進行編碼,得到詞向量表示。基于注意力的雙向長短期記憶模塊,利用wiki50維預訓練詞向量對文本進行向量化,隨后通過引入注意力機制,對雙向長短期記憶網絡的輸出結果進行注意力強化,提升模型分類準確率。卷積與池化模塊,首先將Transformer模塊與基于注意力的雙向長短期記憶模塊所輸出的結果進行拼接,隨后利用不同尺寸的卷積核提取文本間的關系。通過設置卷積核尺寸為kernel=2、kernel=3、kernel=4進而提取兩個字、3個字以及4個字之間的相互關系,提升模型識別的整體效果。ACPmarked多語義融合架構如圖6所示。

圖6 ACPmarked多語義融合架構

3 實驗設計與數據分析

為了獲取真實的實驗數據,本文通過相關審計部門獲得了高質量的審計文檔,并利用爬蟲技術爬取了百度文庫、百度貼吧的相關審計工作報告。為模擬傳統審計流程,本文對審計文檔及工作報告進行打印,并利用掃描儀對紙質版審計文件進行掃描,構建圖像數據資源庫。利用OCA模型對圖像數據資源庫中的數據進行識別,得到數字化可編輯的審計工作報告。利用ACPmarked架構對審計工作報告進行文本分類,去除文本中與審計無關的內容。

3.1 圖像數據資源庫構建

傳統審計流程是依靠工作人員手工作業的辦法,對紙質文件進行審計。本文利用掃描儀,對待審計文本進行掃描,獲得圖像。在掃描紙質文件時,不可避免的會出現:①曝光過度;②圖像模糊;③圖像旋轉角過大等問題。如圖7所示。

圖7 掃描過程中的問題圖像

其中,曝光過度與圖像模糊會極大影響后續模型識別的效果,需要對圖像重新進行掃描。圖像旋轉角過大等問題不用重新掃描,可作為后序工作的圖像來源。

3.2 OCA多階段光學字符識別模型參數選擇

3.2.1 OCA圖像增強階段的方法選擇

圖像資源庫中的圖片可能會出現圖像旋轉角度過大、圖片文字不清晰等問題,本文針對5000張問題圖片進行實驗,并利用未引入完整圖像增強階段的OCA模型,對圖像中的文字進行檢測與識別。準確率如式(7)所示,其中,其中TP為正例預測結果也是正例的個數,TN為負例預測結果也是負例的個數,FP是正例預測結果為負例的個數,FN是負例預測結果為正例的個數,分子為所有預測正確的個數,分母為所有數據的總個數。實驗結果見表1~表5

表2 OCA圖像增強階段的方法選擇-凸顯文字特征

表3 OCA圖像增強階段的方法選擇-文字銳化

表4 OCA圖像增強階段的方法選擇-傅里葉變換

表5 OCA圖像增強階段的方法選擇-拉普拉斯算子

(7)

綜上所述,本文在圖像增強階段使用:①圖像矯正;②凸顯文字特征;③文字銳化,其中圖像矯正階段本文使用圖像二值化、計算最小旋轉文本邊框、仿射變換等操作處理圖像數據。在凸顯文字特征階段對圖像進行對比度增強及直方圖正規化處理。在文字銳化階段使用銳化算法對圖像進行銳化操作。最終結果見表6。

表6 OCA圖像增強識別結果

上述結果表明,利用OCA圖像增強技術在審計文本的圖像增強方面取得了很好的結果,并為后續OCA模型識別做出明顯貢獻。因此本模型使用OCA圖像增強技術對待檢測圖像進行處理。

3.2.2 OCA知識蒸餾參數選擇

本文通過知識蒸餾的方法,可以在保證模型準確率的情況下,提升模型的運算效率。針對原文本與識別文本間的區別,通過平均精確率P、平均召回率R與平均F1值(分別如式(8)~式(10)所示)對OCA多階段光學字符識別模型運算結果進行計算

(8)

(9)

(10)

其中,xi表示人工標注標簽個數,yi表示算法獲取的標簽個數,N為審計文本總數。分別使用不同的溫度T對模型知識進行蒸餾實驗結果見表7。

通過表7可知在溫度T=8時,學生模型平均準確率最高。通過閱讀相關論文中的調參技巧,對學生模型的全連接層引入rulu激活函數。調節參數T與激活函數所對應的實驗結果見表8,實驗過程準確率變化圖如圖8所示。

表8 調節參數T與激活函數所對應的實驗結果

圖8 測試數據集準確率

結合表8與圖8所示,本課題最終選用知識蒸餾溫度T為8,并且對全連接層使用relu激活函數。

3.3 OCA多階段光學字符識別模型算法評估

在圖像數據資源庫中,隨機選擇20 000張人工掃描的審計工作報告,利用PaddleOCR、tesseract、EasyOCR作為對比模型進行實驗,實驗結果見表9。

表9 圖像識別平均F1值計算結果

數據表明,OCA-student模型相比于其它模型在綜合處理效率上取得了最好的成績。此結果的根本原因在于,人工掃描的審計工作報告并非完全水平,其存在人工掃描中不可避免的旋轉角度。以PaddleOCR為例,其識別水平文本的效果很好,但對于人工掃描的審計工作報告則得不到很好的結果,模型結果可視化對比如圖9所示。因此定義OCA-student模型為最終OCA多階段光學字符識別模型。

圖9 模型結果可視化對比

3.4 ACPmarked多語義融合架構算法評估

ACPmarked架構主要由Transformer模塊、基于注意力的雙向長短期記憶模塊、卷積與池化模塊所構成。其目的在于,對數字化后的審計文本,提取文件中與審計任務相關的語義信息。通過總結廣告宣傳語和公司介紹所涉及的關鍵詞,本文進一步構建了基于審計工作報告的停用詞詞典。最終,基于ACPmarked架構與停用詞詞典的共同處理,形成數字化的高質量審計文本。由于審計工作的時效性要求,需要在短時間內給出審計結果。因此,本文所涉及的審計憑證數字化流程十分注重模型的效率。這里引入時效比公式,用于衡量模型準確率與其所需時間的效率比,公式如式(11)所示。其中TP為時效比,t為cup計算每條數據的平均時間。本文利用Bag-of-word、LSTM、Attention based Bi-LSTM、BERT-Attention作為對比模型進行實驗,結果見表10

表10 文本分類平均F1值計算結果

(11)

由表10可以看出ACPmarked模型在平均F1值上遠超于Bag-of-word、LSTM、Attention based Bi-LSTM模型。在時效比上遠超BERT-Attention模型,且cup計算每條數據的平均時間約比BERT-Attention模型減少了一倍。因此,利用ACPmarked多語義融合架構對數字化后的審計文本進行處理。

4 結束語

本文將傳統審計流程與信息化技術相融合,提出了基于OAT的審計憑證數字化架構,以實現審計憑證的數字化。OAT架構主要由OCA多階段光學字符識別模型與ACPmarked多語義融合架構所組成。不同于傳統的OCR識別方法,OCA多階段光學字符識別技術融合圖像增強技術與注意力機制,并利用知識蒸餾技術,在保證準確率的基礎上,提升模型處理速度。隨后利用ACPmarked架構提取與審計任務相關的句子,形成數字化的高質量審計文本。OAT架構可以有效實現審計憑證的數字化,減輕審計專業人員的勞動強度,對提高審計效率和質量具有重要意義。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: a天堂视频| 欧美精品在线免费| 久久综合AV免费观看| 欧美亚洲欧美区| 亚洲色图欧美一区| 久久久无码人妻精品无码| 国产91在线免费视频| 国内自拍久第一页| 亚洲国产日韩一区| 中文字幕在线永久在线视频2020| 国产成人综合在线观看| 香蕉综合在线视频91| 国产精品一区二区久久精品无码| 好吊妞欧美视频免费| 亚洲国产日韩在线成人蜜芽| 亚洲美女高潮久久久久久久| 欧美成人一级| 六月婷婷综合| 久久99国产综合精品女同| 最新亚洲人成网站在线观看| 亚洲精品视频在线观看视频| 华人在线亚洲欧美精品| 欧美日韩国产一级| 男人天堂亚洲天堂| 国产精品永久不卡免费视频| 欧美乱妇高清无乱码免费| 日韩A∨精品日韩精品无码| 国产成人高清精品免费5388| jizz国产视频| 青青久久91| 亚洲国产成人久久77| 久久免费成人| 国产综合欧美| swag国产精品| 国产黄色爱视频| 国产成人一区免费观看| 国产精品视频第一专区| 亚洲国产日韩在线成人蜜芽| 欧美日韩午夜| 中文无码精品A∨在线观看不卡 | 日本一区二区三区精品视频| 九九免费观看全部免费视频| 亚洲日韩AV无码精品| 久久成人免费| 老熟妇喷水一区二区三区| 亚洲AⅤ无码日韩AV无码网站| 九色视频一区| 成人a免费α片在线视频网站| 国产欧美精品午夜在线播放| 粗大猛烈进出高潮视频无码| 日韩麻豆小视频| 欧美激情综合| 首页亚洲国产丝袜长腿综合| 国产高清无码第一十页在线观看| 99热这里只有精品久久免费| 日韩高清一区 | 久久久黄色片| 青青热久麻豆精品视频在线观看| 日本在线亚洲| 中文字幕亚洲电影| 免费国产不卡午夜福在线观看| 欧美一道本| 国产精品国产三级国产专业不| 国产中文一区二区苍井空| 国产麻豆精品久久一二三| 久久国产V一级毛多内射| 四虎精品黑人视频| 亚洲综合色在线| 国产精品主播| 午夜色综合| 麻豆国产原创视频在线播放| 亚洲视频二| 久久综合色天堂av| 国产精品污视频| 久久人搡人人玩人妻精品 | 五月婷婷综合色| 亚洲高清中文字幕| 国产精品青青| 亚洲一区色| 国产一级毛片在线| 久久黄色一级视频| 色视频国产|