999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Tesseract—OCR技術的文字識別優化

2018-09-03 03:47:26曹重陽
智富時代 2018年7期
關鍵詞:程序信息企業

曹重陽

一、需求分析

對天貓平臺的企業信息采集下來進行結構化處理,提取出文字信息后匯總進Excel作為交付文件。

主要的功能設計如下:

1、程序能夠自動讀取企業工商信息圖片所在的文件夾路徑,并從文件夾路徑中順序取出圖片進行識別,最終的識別結果以一份匯總的Excel交付。

2、因為天貓平臺公示的圖片內容沒有固定格式,所以需要程序能匹配不同格式的圖片內容提取信息。

3、能夠提取出圖片中的企業注冊號、企業名稱數據項,企業注冊號、企業名稱數據項要進行分析處理。

4、識別準確率需要保證在95%以上。

5、識別速度保持在60秒識別50張圖片。

二、本程序處理圖片方面的關鍵模塊

1、對圖片進行切割:

要求識別的文字信息“企業名稱”“企業注冊號”位于整個圖片的其中一部分,把剩余部分切除,只留下關鍵信息部分,不但可以提高識別速度,還可提升識別率。

2、在進行圖片的二值化時,有兩種方式:

(1)圖片為彩色時,宜找到每個像素點合適的灰色度,因為每個像素點的灰色度不同程度上受到周邊像素加權影響,從而影響整個圖片的識別率。比如本像素點加上周圍8個灰度值再除以9,算出其相對灰度值。

(2)圖片為黑白色時,宜采用max-min方法對圖片進行二值化。

針對本程序識別的圖片的黑白色對比明顯,故采用max-min方法進行二值化。

private static File binaryImage(File orcFile) throws IOException {

// 獲取圖片的BufferedImage對象

BufferedImage bi = ImageIO.read(orcFile);

int h = bi.getHeight();// 獲取圖片的高

int w = bi.getWidth();// 獲取圖片的寬

BufferedImage nbi = new BufferedImage(w, h, BufferedImage.TYPE_BYTE_BINARY);

// 設置合適的經驗閾值,對二值化的識別效果起重要作用

int threshold = new Color(20, 20, 20).getRGB();// 閾值對應的顏色位于黑色文字和偏黑色背景顏色區間即可

for (int x = 0; x < w; x++) {

for (int y = 0; y < h; y++) {

// 二值化處理

if (bi.getRGB(x, y) > threshold) {

int max = new Color(255, 255, 255).getRGB();

nbi.setRGB(x, y, max);

} else {

int min = new Color(0, 0, 0).getRGB();

nbi.setRGB(x, y, min);

}

}

}

// 將二值化處理后的圖片放于D:\\orc_cut_binary下

String orcFileName = orcFile.getName();

String binaryDir = "D:\\orc_cut_binary";

File dir = new File(binaryDir);

// 存儲目錄不存在,則創建目錄

if (!dir.exists()) {

dir.mkdirs();

}

File binaryFile = new File(binaryDir + "/" + orcFileName.substring(0, orcFileName.indexOf(".")) + "binary.png");

ImageIO.write(nbi, "png", binaryFile);

return binaryFile;

}

3、在選取二值化中的經驗閾值,我們有以下思路:

(1)二值化微分計算閾值

(2)二值化類卷積的對梯度變化加強得到閾值

對24位位圖進行中值濾波會改變RGB各分量的值,所以圖片的顏色會發生變化,但對于8位的位圖,由于都是灰度的顏色,所以變化并不明顯,而且濾波的窗口選的越大,對應的濾波效果的模糊度也會上升。

4、增加圖片的亮度:

增加圖片亮度可以使有些彩色圖片的識別率大大增加,本程序別的圖片為黑白照片,增加圖片亮度提升的識別率并不樂觀。

5、對圖片的邊緣進行尖銳化處理:

銳化可以快速調整圖像邊緣細節的對比度,并在邊緣的兩側生成一條亮線一條暗線,使畫面整體更加清晰。對于高分辨率的輸出,通常銳化效果在屏幕上顯示比印刷出來的更明顯。在圖片的Alpha值保持不變的情況下,本程序前期也進行了銳化處理,但效果并不明顯,有時識別率甚至可能低于未銳化處理的圖片。

6、對圖片進行平滑縮放:

有時很多圖片本身無法很好的被識別,但當放大適當倍數時,就可增強識別率,但這個“適當倍數”很難把控,它受諸多硬件因素影響,比如電腦配置、針式打印機打印連貫性差等問題。

猜你喜歡
程序信息企業
企業
當代水產(2022年5期)2022-06-05 07:55:06
企業
當代水產(2022年3期)2022-04-26 14:27:04
企業
當代水產(2022年2期)2022-04-26 14:25:10
敢為人先的企業——超惠投不動產
云南畫報(2020年9期)2020-10-27 02:03:26
試論我國未決羈押程序的立法完善
人大建設(2019年12期)2019-05-21 02:55:44
“程序猿”的生活什么樣
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
英國與歐盟正式啟動“離婚”程序程序
環球時報(2017-03-30)2017-03-30 06:44:45
創衛暗訪程序有待改進
中國衛生(2015年3期)2015-11-19 02:53:32
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 中文字幕日韩欧美| yy6080理论大片一级久久| 精品自拍视频在线观看| 久久不卡国产精品无码| 99福利视频导航| 欧洲高清无码在线| 97亚洲色综久久精品| 国产手机在线ΑⅤ片无码观看| 国产91丝袜在线观看| 亚洲无码免费黄色网址| 亚洲天堂日韩av电影| 国产福利一区二区在线观看| 亚洲欧美另类日本| 国产精品粉嫩| 亚洲aⅴ天堂| 99在线观看国产| 午夜精品一区二区蜜桃| 欧美第一页在线| 中文字幕免费在线视频| 国产精品一线天| 国产一级视频久久| 国产精品入口麻豆| 亚洲成a人片在线观看88| 欧美国产中文| 四虎国产成人免费观看| 久久黄色一级片| swag国产精品| 亚洲av色吊丝无码| 亚洲视频三级| 精品视频一区二区三区在线播| 亚洲日本中文字幕乱码中文 | 日本久久网站| 一区二区影院| 日韩无码白| 亚洲精品国偷自产在线91正片| 超碰免费91| 欧美一区二区三区国产精品| 成人另类稀缺在线观看| 久久青草视频| 免费A级毛片无码无遮挡| 国产精品福利导航| 99久久精彩视频| 影音先锋亚洲无码| 日韩高清中文字幕| 99九九成人免费视频精品| 国产精品无码在线看| 国产丰满大乳无码免费播放 | 精品欧美一区二区三区久久久| 国产亚洲欧美在线视频| 亚洲VA中文字幕| 国产欧美日韩视频怡春院| 久久国产拍爱| 亚洲天天更新| 国产欧美亚洲精品第3页在线| 亚洲A∨无码精品午夜在线观看| 国产网友愉拍精品| 2020国产免费久久精品99| 日本a级免费| 四虎影视8848永久精品| 天天摸夜夜操| 亚洲AV色香蕉一区二区| 国产精品亚洲天堂| 欧美自慰一级看片免费| 欧美国产视频| 久久中文无码精品| 免费看的一级毛片| 欧美天天干| 亚洲中字无码AV电影在线观看| 任我操在线视频| 久久久久国产一级毛片高清板| 国产自产视频一区二区三区| 制服无码网站| 午夜精品久久久久久久无码软件| 国产乱子精品一区二区在线观看| 欧美中文字幕在线播放| 国产亚洲成AⅤ人片在线观看| 国产黄色片在线看| 欧美19综合中文字幕| 国产呦视频免费视频在线观看| 97se亚洲综合在线| 99久久精品国产麻豆婷婷| 久久无码高潮喷水|