基于有限狀態機的Invoice收票自動化系統

2020-12-23 06:57:07施海昕周雪峰陳凱劉云鋒

微型電腦應用 2020年11期

施海昕周雪峰陳凱劉云鋒

摘要：傳統發票識別通常拿紙質發票掃描再采用OCR識別，識別準確率為80%至90%。而由于本案使用Word或者Excel格式轉化成的pdf格式發票，文件保留了完整的字符信息和一些相對固定的格式信息。以編譯原理的思維，把發票轉化成的文本看作為一種編程語言，再用有限狀態機去識別。實驗結果表明，準確率可達99%以上，獲得了滿意的效果。

關鍵詞：有限狀態機;發票識別;編譯原理

中圖分類號：TP311

文獻標志碼：A

文章編號：1007-757X（2020）11-0086-04

Abstract：Traditional invoice recognitionis usually completed by scanning paper invoices and then using OCR. The recognition accuracy is about 80%-90%. For our case， the invoice files contain complete character information and some relatively fixed format information. If the text from the invoice is regarded as a programming language， it can be recognized by a finite automaton. Experimental results show that the accuracy of this method can reach more than 99%， which is a satisfactory result.

Key words：finite automaton;invoice recognition;principles of compliers

0?引言

伴隨著我國電子制造業的巨大發展，電子分銷行業在最近二十年中也迅猛增長。電子分銷企業每天都有大量的進口元器件交易，隨之而來是大批國外invoice（發票）需要錄入以便財務確認收票。

企業一般采用人工方式錄入invoice信息和收票，但隨著業務的不斷擴大，人工錄入的缺點暴露得非常明顯：1）錄入效率低，invoice不能及時錄入，影響后續運營流程;2）錯誤率高，并且無法知曉錯誤的存在;3）工作性質枯燥，人員離職率高。

傳統發票識別通常拿紙質發票掃描再采用OCR識別，識別準確率為80%至90%。而在本案中，由于invoice都是國外供應商用Word或者Excel格式轉化為的pdf格式，保留了完整的字符信息和一些相對固定的格式信息，這樣使得用預定義過程算法識別invoice內容成為可能。本文采用編譯原理的思路，把pdf文件轉化的文本看作一種編程語言進行詞法分析和語法分析，從而進行invoice信息的結構化，以及后續同ERP中采購單匹配達到收票的目的。

由于紙質發票的普遍性，目前已有的眾多方法都是基于紙質發票掃描再OCR識別的，如圖1所示。……

登錄APP查看全文

微型電腦應用 2020年11期

微型電腦應用的其它文章: 人工智能理論的機器自動翻譯系統; “互聯網+教育”下中小學教師信息化培訓實踐及柯氏4R評估分析; 基于PSO優化SVM分類器的配電網電壓波動分析; 智能用電下抄核收全過程自動化流水線式分析; 基于大數據的醫療保險信息安全隱私保護研究; 基于改進SOM聚類模型的配電網短期負荷用電行為分析