施海昕 周雪峰 陳凱 劉云鋒



摘 要:傳統發票識別通常拿紙質發票掃描再采用OCR識別,識別準確率為80%至90%。而由于本案使用Word或者Excel格式轉化成的pdf格式發票,文件保留了完整的字符信息和一些相對固定的格式信息。以編譯原理的思維,把發票轉化成的文本看作為一種編程語言,再用有限狀態機去識別。實驗結果表明,準確率可達99%以上,獲得了滿意的效果。
關鍵詞:有限狀態機;發票識別;編譯原理
中圖分類號:TP311
文獻標志碼:A
文章編號:1007-757X(2020)11-0086-04
Abstract:Traditional invoice recognitionis usually completed by scanning paper invoices and then using OCR. The recognition accuracy is about 80%-90%. For our case, the invoice files contain complete character information and some relatively fixed format information. If the text from the invoice is regarded as a programming language, it can be recognized by a finite automaton. Experimental results show that the accuracy of this method can reach more than 99%, which is a satisfactory result.
Key words:finite automaton;invoice recognition;principles of compliers
0?引言
伴隨著我國電子制造業的巨大發展,電子分銷行業在最近二十年中也迅猛增長。電子分銷企業每天都有大量的進口元器件交易,隨之而來是大批國外invoice(發票)需要錄入以便財務確認收票。
企業一般采用人工方式錄入invoice信息和收票,但隨著業務的不斷擴大,人工錄入的缺點暴露得非常明顯:1)錄入效率低,invoice不能及時錄入,影響后續運營流程;2)錯誤率高,并且無法知曉錯誤的存在;3)工作性質枯燥,人員離職率高。
傳統發票識別通常拿紙質發票掃描再采用OCR識別,識別準確率為80%至90%。而在本案中,由于invoice都是國外供應商用Word或者Excel格式轉化為的pdf格式,保留了完整的字符信息和一些相對固定的格式信息,這樣使得用預定義過程算法識別invoice內容成為可能。本文采用編譯原理的思路,把pdf文件轉化的文本看作一種編程語言進行詞法分析和語法分析,從而進行invoice信息的結構化,以及后續同ERP中采購單匹配達到收票的目的。
由于紙質發票的普遍性,目前已有的眾多方法都是基于紙質發票掃描再OCR識別的,如圖1所示。……