999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信手拈來的OCR

2021-08-28 10:03:42
中國信息技術(shù)教育 2021年15期
關(guān)鍵詞:人工智能功能

高手論技

編者按:目前,OCR技術(shù)在各行業(yè)中的應(yīng)用方興未艾。我們可以在通訊軟件、辦公軟件甚至在線網(wǎng)站中找到OCR的使用方法,極大地方便了我們的工作和生活。當(dāng)然,目前人工智能還處于初級階段,更好的場景文字識別將隨著人工智能的發(fā)展而不斷發(fā)展。

應(yīng)用沙龍

主持人:

劉宗凡 廣東省四會市四會中學(xué)

嘉? 賓:

邱元陽? 河南省安陽縣職業(yè)中專

金 琦? 浙江師范大學(xué)附屬中學(xué)

倪俊杰? 浙江省桐鄉(xiāng)市鳳鳴高中

楊 磊? 天津市第五中學(xué)

從1929年德國科學(xué)家Taushek取得的一項光學(xué)字符識別(Optical Character Recognition,簡稱OCR)的專利算起,OCR已經(jīng)發(fā)展了將近100年。漢字的OCR技術(shù)從20世紀70年代末開始進入研究階段,也經(jīng)歷了近50年。OCR技術(shù)的成熟,使得汗牛充棟的書籍變成電子圖書館,我們足不出戶就可以在網(wǎng)上檢索海量書籍。OCR技術(shù)推動了文化的保存、整理、普及、研究,是數(shù)字化浪潮中一朵漂亮的浪花。

隨著工人智能的發(fā)展,OCR技術(shù)更是如虎添翼,在各行各業(yè)得到了廣泛的應(yīng)用,極大地方便了我們的工作和生活。

人工智能(AI)影響下的OCR

楊磊:典型的OCR的技術(shù)路線如圖1所示。其中識別準確率的關(guān)鍵技術(shù)是文字檢測和文本識別,這兩部分是OCR技術(shù)的核心。

以深度學(xué)習(xí)為主要特征的人工智能,改善了OCR的準確度和速度,使得OCR走出了印刷體文字的識別范疇,我們隨手一拍的場景文字,都可以被OCR較為準確地識別出來。

隨著人工智能對科技的全方位影響,OCR在人工智能的助力下邁進了一個新領(lǐng)域?;谏疃葘W(xué)習(xí)的keras-ocr庫提供了方便易用的OCR模型和端到端的訓(xùn)練流程來構(gòu)建新的OCR模型。keras-ocr庫支持Python3.6和TensorFlow2.0.0。

首先安裝庫:

pip install keras-ocr

加載庫

import matplotlib.pyplot as plt

import keras_ocr

加載預(yù)訓(xùn)練模型

detector and recognizer.pipeline = keras_ocr.pipeline.Pipeline()

導(dǎo)入圖片

images = [keras_ocr.tools.read(img) for img in ['./1.jpg','./2.jpg'] ]

預(yù)測文本

prediction_groups = pipeline.recognize(images)

顯示結(jié)果

fig,axs=plt.subplots(nrows=len(images),figsize=(10,20))

for ax,image, predictions in zip(axs,images,prediction_groups):

keras_ocr.tools.drawAnnotations(image=image,

predictions=predictions,ax=ax)

由識別結(jié)果可以看出,當(dāng)圖2中文字發(fā)生扭轉(zhuǎn),識別的準確率變低。上述程序是一個訓(xùn)練好的模型,由于其使用的數(shù)據(jù)集與當(dāng)前所識別圖片相差過大,導(dǎo)致原模型泛化能力下降。如果想對特定圖片進行識別,可以通過特定圖片訓(xùn)練模型,對參數(shù)進行微調(diào)。本例使用的是英文OCR,中文識別相對而言難度有所增加,有興趣的讀者可以繼續(xù)研究。

OCR技術(shù)在各行各業(yè)的應(yīng)用

倪俊杰:1.OCR在銀行中的應(yīng)用

票據(jù)憑證是銀行賬務(wù)處理流程的重要內(nèi)容。銀行票據(jù)電子影像數(shù)據(jù)庫是銀行業(yè)務(wù)信息化的數(shù)據(jù)基礎(chǔ),有了這個數(shù)據(jù)基礎(chǔ),才有可能開展銀行業(yè)務(wù)的各種信息化處理工作。但由于銀行票據(jù)業(yè)務(wù)復(fù)雜,多數(shù)銀行仍停留在“人工分散處理+紙質(zhì)庫房保存+人工查詢”的階段,成為阻礙金融電子化的薄弱環(huán)節(jié)。而借助OCR識別技術(shù),可以使票據(jù)處理達到“自動集中處理+電子安全保存+數(shù)據(jù)有效應(yīng)用”的目標,不但保留了原始單據(jù)的圖像文件,而且對圖像文件進行OCR識別后可以自動建立票據(jù)索引,還可以通過系統(tǒng)接口進一步完成單據(jù)與前臺數(shù)據(jù)的勾對工作,快速找出有問題的單據(jù),并能根據(jù)建立的索引很快找出原始圖像,進行查詢和審核,能高效、快捷準確地完成事后監(jiān)督的工作,從而大大減輕操作員的工作量,減少差錯率,提高銀行業(yè)務(wù)的自動化和智能化水平。

2.OCR在快遞行業(yè)的應(yīng)用

OCR識別技術(shù)不僅能夠快速從快遞單據(jù)上提取識別手機號碼,讓快遞員快速聯(lián)絡(luò)快遞主人,還能快速提取快遞面單上的聯(lián)系人、目的地城市、地址等重要信息,并與系統(tǒng)數(shù)據(jù)進行匹配,實現(xiàn)自動分揀,可以在短時間內(nèi),準確完成大量包裹的自動分揀,讓工作變得更簡單快捷,切實滿足中小型快遞物流分發(fā)網(wǎng)點快速發(fā)展的訴求。

3.OCR在圖書資料管理中的應(yīng)用

在圖書資料管理中,OCR文字識別可以代替人工錄入,將圖片上的文字識別出來,即將圖片上的文字變?yōu)榭删庉嫷奈谋?,以便于檢索分類,大大提高了工作效率,同時避免對珍貴的史料造成損壞,文字識別對紙質(zhì)材料的數(shù)字化轉(zhuǎn)型有重要的意義。

4.OCR在視頻審查中的應(yīng)用

借助OCR識別技術(shù),可以識別視頻中的文字,對互聯(lián)網(wǎng)視頻內(nèi)容進行識別審核、監(jiān)控,篩除掉違規(guī)的視頻、廣告,如一些敏感、不健康的詞匯等,達到高效審查的目的。

值得注意的是,2020年9月28日,在2020AIIA人工智能開發(fā)者大會上,主辦方正式發(fā)布國內(nèi)首份智能文字識別(OCR)能力測評與應(yīng)用白皮書。白皮書指出,OCR技術(shù)已在金融、保險、醫(yī)療、交通、教育等諸多行業(yè)有了深入成熟的應(yīng)用。未來隨著傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型,OCR應(yīng)用范圍和場景將進一步擴展,市場規(guī)模將進一步增大。有權(quán)威機構(gòu)預(yù)測,2025年全球OCR市場規(guī)模將達到133.81億美元。

方便易用的文字識別工具—— QQ

邱元陽:雖然各種OCR軟件層出不窮,軟件功能也越來越強大,識別速度和準確率也在不斷提高,但是很多時候,我們需要的是一款隨手可用的文字識別工具。

在PC版的QQ中,新增了“屏幕識圖”功能,可以用屏幕截圖的方式來識別屏幕上任意可見區(qū)域的文字。這一功能位于截圖功能組,快捷鍵是“Ctrl+Alt+O”。

QQ的屏幕識圖其實就是一種OCR功能,只是內(nèi)置到QQ軟件中了。對辦公一簇來說,QQ是計算機上必備的軟件,有了文字識別功能,可以非常方便地解決網(wǎng)頁文字不能復(fù)制、圖片文字不能提取等常見問題,只要是屏幕上能看到的文字,都可以通過它來識別并復(fù)制下來。這比很多OCR軟件需要加載圖片和文件來進行識別要簡便得多,并且不需要安裝專門的軟件。

在手機版的QQ中,也有類似的文字識別功能。點擊右上角的“+”號,用手機“掃一掃”,再點擊屏幕下方的“轉(zhuǎn)文字”,按提示拍下需要提取的文字,軟件即開始進行文字識別。識別完成后,可以復(fù)制文字,或者提取全文,導(dǎo)出文檔。

無論是PC版還是手機版QQ,其文字識別功能都能在識別后進行編輯,以糾正識別錯誤,并且還能即時進行文字翻譯。

日常辦公軟件中的OCR工具——OneNote和WPS

金琦:從OCR使用體驗上來說,我們?nèi)粘6枷矚g放將辦公素材在Office軟件中編輯,如果能脫離第三方軟件,即在辦公文檔里中添加圖片,就可以隨用隨取圖片中的文字素材,在需要用的時候復(fù)制粘貼即可,這樣辦公操作豈不是更加方便?那怎么識別辦公文檔中的圖片文字呢?我們從兩大辦公軟件,即微軟Office系列和金山WPS Office來說明。

在安裝最新的微軟Office產(chǎn)品時,大家可以看到是有OCR文字識別工具安裝選項,但讀者會發(fā)現(xiàn)安裝完畢后找不到單獨的OCR文字識別工具。事實上OCR文字識別功能可在微軟Office中的OneNote組件中調(diào)用。以微軟OneNote 2016為例,可以右擊要識別的圖片,選擇“復(fù)制圖片中的文本”,就可以直接復(fù)制出來,為其他Office辦公套件所用,這就是OCR文字識別工具在微軟辦公產(chǎn)品中的功能體現(xiàn)。

而金山WPS Office則更進一步,直接可以使用WPS Office打開各種文檔,如w文字(相當(dāng)于微軟Word)、P演示(相當(dāng)于微軟PowerPoint)等,選擇需要轉(zhuǎn)換的圖片,在“圖片工具”中點擊“圖片轉(zhuǎn)文字”,會進入到“金山OCR文字識別”功能。而且相對于微軟辦公產(chǎn)品有更多的轉(zhuǎn)換方式(提取文字、轉(zhuǎn)換文檔、轉(zhuǎn)換表格)可選。

隨手可用的OCR——在線識別

劉宗凡:如果我們不想在計算機上安裝軟件,只要能連上網(wǎng)絡(luò),就可以嘗試直接在線進行文字識別。筆者推薦兩個網(wǎng)站。

(1)OCR Spaceh(網(wǎng)址 ttps://ocr.space/)。

操作步驟如下:

①在 Upload image or PDF file (.png,.jpg,.webp or .PDF)后的文本框點擊“選擇文件”。

②在Language后的下拉框中選擇語言,如果是中文選擇“ChineseSimplified”。

③在“Select OCR Engine to use:”選擇OCR引擎。默認引擎1速度快,支持語言多;引擎2對數(shù)字和特殊符號識別更好。

④點擊“Start OCR!”,開始進行識別,結(jié)果將在下面的文本框中顯示??梢韵螺d相應(yīng)的文本文件(TXT)。

這個網(wǎng)站的優(yōu)點是沒有任何限制,對中、英文印刷體的識別率非常高。不足之處是識別結(jié)果只有文本文件下載,對排版的保留不是很完美;另一個不足是對中文手寫體基本無法識別。

(2)極客在線OCR(網(wǎng)址:http://www.gkocr.com/)。

極客對印刷體的識別率非常高,但有每天10張圖片識別的限制,另外識別結(jié)果也只有文本文件格式。極客對中文手寫體的識別率可以達到85%左右。

OCR軟件的不足之處

邱元陽:目前的OCR軟件,其文字識別還不夠智能化,對識別后的結(jié)果沒有進行語法校對,經(jīng)常會把“一”“-”“_”等類似符號混淆,這幾乎是所有常見OCR軟件的通病。

識別錯誤在所難免,但是糾錯過程完全交給用戶,不僅會加重用戶的負擔(dān),還會出現(xiàn)錯誤遺漏。錯誤較多時,甚至比重新輸入一遍都耗時耗力。目前的語音輸入識別率非常高,當(dāng)需要OCR識別的內(nèi)容比較短小時,普通話較好的用戶可以直接把屏幕上的文字朗讀一遍,基本上就能完全識別了。

智能化不足還體現(xiàn)在對背景的識別和處理上。大多數(shù)OCR軟件并不能直接忽略背景,而是通過二值化和降噪算法來消除背景的影響,但是并不能完全去除復(fù)雜的背景,因而會直接影響最終的識別結(jié)果。特別是背景中有雜亂的線條甚至是干擾字符時,幾乎無法處理。這個缺陷在進行網(wǎng)絡(luò)用戶登錄時身份驗證的設(shè)計上被利用起來,開發(fā)所謂的“圖片驗證碼”,用于解決避免程序化登錄的問題。這些圖片驗證碼,用人眼是可以識別的,用機器的OCR幾乎都無法識別,很好地解決了防止用機器和程序代替人進行網(wǎng)上批量登錄的問題。

二值化處理的另一個問題是,有時要識別的主體文字是一種特殊的顏色,人工肉眼識別時可以很方便地判斷誰是文字誰是背景,但二值化的結(jié)果,卻忽略了文字顏色,自己給自己設(shè)置了識別障礙。

優(yōu)秀的智能化OCR軟件,應(yīng)該能夠判斷出文字主體與背景,直接將文字主體與背景區(qū)分開來,忽略背景和排除干擾圖形之后再進行識別,并利用相應(yīng)語言的語法規(guī)則,對識別結(jié)果進行自我糾錯。

當(dāng)機器的OCR識別能力與人工識別接近時,OCR的應(yīng)用領(lǐng)域就會更進一步地拓展,甚至?xí)龠M計算機視覺研究的進步。這可能需要人工智能的參與,而不是傳統(tǒng)的識別算法。

OCR雖然在近一百年取得了長足的進展,印刷體的識別達到了非常高的準確度,但是在目前人工智能正處于初級階段的情況下,OCR功能同樣受到很大的制約。可以預(yù)見,當(dāng)人工智能技術(shù)得到突破的時候,OCR同樣會在實用性上取得突破,期待這一天早日到來。

猜你喜歡
人工智能功能
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
我校新增“人工智能”本科專業(yè)
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
關(guān)于非首都功能疏解的幾點思考
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
懷孕了,凝血功能怎么變?
媽媽寶寶(2017年2期)2017-02-21 01:21:24
“簡直”和“幾乎”的表達功能
下一幕,人工智能!
下一幕,人工智能!
主站蜘蛛池模板: 精品久久人人爽人人玩人人妻| 免费无码又爽又黄又刺激网站| 国产精品无码AⅤ在线观看播放| A级毛片无码久久精品免费| 精品一区二区三区四区五区| 亚洲av日韩av制服丝袜| 内射人妻无套中出无码| 久久国产乱子| 色精品视频| 国产精品美女自慰喷水| 国产96在线 | 72种姿势欧美久久久久大黄蕉| 国产欧美成人不卡视频| 国产精品主播| 日韩国产无码一区| 97国产精品视频自在拍| 国产精品亚洲精品爽爽| 日韩精品亚洲人旧成在线| 五月婷婷精品| 欧美另类图片视频无弹跳第一页| 国产亚洲精品精品精品| 国产欧美日韩在线在线不卡视频| 全部免费毛片免费播放| 国产免费自拍视频| 国产一二三区在线| 99激情网| 日韩欧美国产另类| 午夜啪啪福利| 国产成人综合亚洲欧美在| 欧美激情视频二区| 视频一区亚洲| 伊人色综合久久天天| 青草视频免费在线观看| 毛片大全免费观看| 97影院午夜在线观看视频| 亚洲成人在线免费观看| 老司机午夜精品视频你懂的| 亚洲最黄视频| 色综合婷婷| 99在线国产| 99re视频在线| 天堂在线亚洲| 5555国产在线观看| 日韩亚洲高清一区二区| www.日韩三级| 久久综合色播五月男人的天堂| 亚洲日本www| 夜夜高潮夜夜爽国产伦精品| 日韩精品亚洲精品第一页| 九九热精品免费视频| 国产黄色爱视频| 日韩欧美国产精品| 午夜毛片免费看| 人妻21p大胆| 国产女人在线| 国产又粗又猛又爽| 日韩国产高清无码| 亚洲精品va| 曰韩免费无码AV一区二区| 毛片免费观看视频| 久久美女精品国产精品亚洲| 国产97视频在线观看| 好吊色国产欧美日韩免费观看| 91偷拍一区| av一区二区三区在线观看| 亚洲成a∧人片在线观看无码| 国产成人精彩在线视频50| 伊人色天堂| 99久久国产综合精品2020| 91在线国内在线播放老师 | 精品欧美一区二区三区久久久| 午夜激情福利视频| 四虎永久在线| 日韩无码视频专区| 国产精品亚欧美一区二区三区| 国产v欧美v日韩v综合精品| 免费无码在线观看| 色妞www精品视频一级下载| 国产成人在线小视频| 国产精品三级专区| 国产精品午夜福利麻豆| 亚欧美国产综合|