999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖像的表格識別問題研究

2021-06-20 02:22:18雷寰宇
科技視界 2021年13期

雷寰宇

(桂林電子科技大學信息科技學院,廣西 桂林 541004)

0 引言

傳統的企業、事業單位收集數據、保存數據一般采用紙質文檔表格進行。紙質文檔表格雖然能夠比較方便地進行數據的收集工作,但是紙質文檔表格在處理數據方面,需要將紙質表格數據先通過手工錄入電腦中,形成電子表格再進行處理。其過程極其煩瑣,需要花費大量的人力物力進行錄入操作,并且錄入錯誤率和速度都容易受人為因素影響。不僅如此,紙質文檔表格在后續的存檔和查閱工作方面都存在較大的難題。為了減輕人工的負擔,提高紙質文檔表格的處理速度,本文研究了一種基于圖像的表格識別應用,通過本應用,可以將固定版面的紙質文檔表格圖像進行灰度化處理,二值化處理等,使計算機更容易處理圖像,再通過圖像矯正,橫豎線識別和輪廓提取等技術得到表格框架,然后對表格框架進行單元格分割,最后利用光學符號識別技術識別單元格中的英文,數字和中文。本應用的研究,將極大地節約人力物力,提高處理紙質表格的工作速度。

1 圖像預處理

通過手機等移動設備采集的圖像容易受拍照環境的影響,容易產生圖像過曝,失真等情況。而在圖像分析中,圖像質量的好壞將直接影響識別應用效果的精度和速度,所以在圖像處理前,需要對圖像進行預處理,以便消除圖像中的無關信息,恢復有用的信息,增強有關信息的可檢測性,最大限度簡化圖像數據。

1.1 圖像灰度化

在灰度圖中,RGB色彩分量全部相等?,F在大部分的彩色圖像包含三種顏色(紅色、綠色和藍色)通道,可以將灰度化看作是將三維通道信息轉換為一維灰度數據的過程[1]。因此,為了提高處理速度,需要減少所需處理的數據量。本應用使用Opencv中的cvtColor()函數對圖像進行顏色空間轉化處理,將彩色圖像轉化成只有灰度顏色通道且灰度范圍在0~255之間的灰度圖,大大減少了圖像中的無用信息,如圖1所示。

圖1 灰度化圖像

1.2 二值化

二值化是選取適當的閾值Tn與每一個像素點的灰度值進行比較,將所有大于或等于閾值的像素點的灰度值設置為255,所有小于閾值的像素點的灰度值設置為0,從而將灰度圖像中每個像素點的灰度值設為0或255,使整副圖像呈現出明顯的黑白效果[2]。為了減少不必要的圖像信息,保留有用的圖像輪廓信息,本應用使用Opencv中的adaptiveThreshold()自適應閾值化函數實現對圖像的二值化處理,通過像素的鄰域塊的像素值分布來確定該像素位置上的二值化閾值。

1.3 高斯模糊處理

由于拍攝的圖像會很容易受到許多環境因素的影響,容易出現圖像失真,較多噪點等問題,為了消除圖像中的噪點,本應用使用Opencv中的GaussianBlur()函數對圖像進行高斯模糊處理。

1.4 橫豎線提取

由于圖像處理后期可能需要不含內容的表格框架圖像,本應用使用Opencv中getStructuringElement()函數,得到指定形狀和尺寸的結構元素,并通過腐蝕和膨脹操作將橫豎線識別出來,其次再將識別出來的橫豎線結合起來,形成表格框線圖,如圖2所示。

圖2 表格框線提取圖像

2 圖像矯正處理

通過手機采集拍攝的圖像往往存在表格圖像傾斜問題,如圖3所示。為了解決此問題,本應用通過圖像邊緣檢測,圖像輪廓檢測,尋找最大輪廓和輪廓多邊形擬合等操作獲取表格四個頂點坐標,并通過透視變換操作將傾斜的圖像矯正,得如圖4所示結果。

圖3 變換前的圖像

圖4 透視變換后的圖像

2.1獲取傾斜表格的四個頂點坐標

為了后一步的透視變換矯正圖像操作,必須獲得傾斜后的圖像中表格的四個頂點坐標。

2.1.1 獲得預處理圖像

為了去除無用信息,保存需要的圖像信息,本應用通過對獲取到的圖像使用高斯模糊操作,灰度化,二值化和表格橫豎線識別操作得到只含有表格框線的二值化圖像。

2.1.2 獲取表格輪廓數據

為了提取出圖像中的表格,本應用在已經預處理好的圖像上首先使用opencv中的Canny()函數進行邊緣檢測操作,通過表格框線與其兩側像素點數值相差較大,變化較快的特性,將表格框線提取出來。再利用已經提取出來的表格框線進行圖像輪廓檢測操作。由于表格存在多個單元格,每個單元格都可以被檢測出輪廓,為了消除表格內存在一個輪廓包含多個輪廓的問題,本算法將輪廓檢索模式設置cv2.RETR_EXTERNAL只檢測最外層輪廓,輪廓逼近方法為cv2.CHAIN_APPROX_SIMPLE壓縮水平方向、垂直方向和對角線方向的元素,保留該方向的終點坐標。

2.1.3 獲取最外層表格輪廓的四個頂點

預處理圖像進行輪廓提取處理后產生了圖像的輪廓數據,將輪廓數據存儲在一個數據列表中,使用輪廓所構成的面積大小作為排序依據,對輪廓數據列表進行從大到小排序,其次對列表中每個輪廓數據進行遍歷,對每一個輪廓數據進行計算輪廓周長,然后利用計算出的輪廓邊長作為參數,進行輪廓多邊形擬合處理,如果擬合處理的結果為四個頂點的,表示找到該表格的最大外邊框,并同時得到最大外邊框的四頂點坐標。

2.2 透視變換

對于發生了透視畸變的圖像,透視變換解決了一般仿射變換不能改變圖像內部點相對位置的缺陷[3]。本應用將源圖像的四頂點坐標與目標圖像的四頂點坐標統一按照左上,右上,左下,右下的順序排序,使用Opencv中的getPerspectiveTransform()函數得到由源圖像中矩形到目標圖像矩形的變換矩陣。然后使用Opencv中的warpPerspective()函數來得到變換好的正視圖。

3 單元格的分割

在識別出橫豎線后,分別將識別出來橫線圖和豎線圖結合形成交點圖,得到了每個橫豎線的交點坐標,將其保存到兩個數據列表中。其次在這兩個數據列表中進行排序,刪除掉相鄰兩個像素點的像素值差值小于該表格最小單元格長度的后一個像素點。最后嵌套循環兩個數據列表對表格進行圖像分割剪裁,取出單元格。

4 單元格內容光學符號識別

本應用利用PaddlePaddle生態下的預訓練模型chinese_ocr_db_crnn_mobile(版本為1.1.1),使用預測API進行單元格圖片文字識別。其基于chinese_text_detection_db_mobile檢測得到文本框,識別文本框中的中文文字,之后對檢測文本框進行角度分類。最終識別文字算法采用CRNN(Convolutional Recurrent Neural Network)即卷積遞歸神經網絡。

5 實驗分析

本次實驗采用的實驗平臺為Python3.7+Pycharm2020.1.3+opencv-python4.1.2.30。圖5為一張表格圖像傾斜的測試樣圖。

圖5 測試原圖

通過對測試樣圖進行圖片矯正和表格框線提取,單元格分割操作并保存每張分割后的單元格圖像后,得到圖6的結果。通過本次實驗可以看出,單元格內容識別率并不是很高。

圖6 csv結果圖

6 結語

本文提出了一種基于圖像的表格提取應用,通過對源圖像進行圖像預處理,圖像矯正等處理,消除圖像因環境和拍攝產生的干擾,再通過橫豎線識別,提取出表格框線,并通過表格框線的交點坐標進行表格圖像的單元格分割,再經過光學符號識別得到單元格中的內容并寫入csv文件。

主站蜘蛛池模板: 成·人免费午夜无码视频在线观看| 国产男女免费完整版视频| 亚洲第一精品福利| 婷婷色一区二区三区| 91麻豆国产在线| 极品尤物av美乳在线观看| 粉嫩国产白浆在线观看| 亚洲成人www| 国产成人区在线观看视频| 国产网站免费| 在线观看国产精美视频| 天天综合网色中文字幕| 99热这里只有免费国产精品| 国产主播喷水| 欧美日韩亚洲国产主播第一区| 久久这里只有精品免费| 精品夜恋影院亚洲欧洲| 亚洲国产精品久久久久秋霞影院| 国产在线观看人成激情视频| 国产日韩久久久久无码精品| 亚洲 日韩 激情 无码 中出| 性色一区| 欧美成人怡春院在线激情| 国产在线精品99一区不卡| 爱色欧美亚洲综合图区| 国产一级无码不卡视频| 久久久亚洲色| 91麻豆国产在线| 毛片国产精品完整版| 欧美视频二区| 亚洲精品色AV无码看| 欧美在线伊人| 波多野结衣一区二区三区88| 玖玖精品视频在线观看| 亚洲高清中文字幕| 成人一区在线| 国产精品国产主播在线观看| 久久精品国产999大香线焦| 亚洲成AV人手机在线观看网站| 精品久久蜜桃| 在线国产资源| 国产又粗又爽视频| 免费黄色国产视频| 亚洲欧美一区二区三区图片 | 亚洲天堂视频在线观看| 污污网站在线观看| 亚洲三级片在线看| 亚洲不卡影院| 精品综合久久久久久97超人该| 一级片免费网站| 一本大道无码日韩精品影视| 亚洲男人的天堂久久香蕉| 国产又大又粗又猛又爽的视频| 欧美人人干| 欧美a在线| 在线观看免费国产| 四虎永久免费在线| 一本色道久久88| 成人一区在线| 色悠久久综合| 草草影院国产第一页| 亚洲一区二区约美女探花| 久久网欧美| 欧美中文字幕无线码视频| 毛片视频网址| 99re在线视频观看| 91美女视频在线观看| 久久精品无码一区二区国产区| 亚洲成A人V欧美综合天堂| 五月天综合网亚洲综合天堂网| 精品国产免费观看| 久久超级碰| 青青久在线视频免费观看| 亚洲女同一区二区| 国产第一福利影院| 欧美狠狠干| 激情成人综合网| 无码国产伊人| 亚洲不卡无码av中文字幕| 久久婷婷五月综合97色| 97国产成人无码精品久久久| 亚洲美女一级毛片|