吳紫秋
摘 要:作者與同學一起參加了大學生創(chuàng)新創(chuàng)業(yè)大賽,項目名稱為“兒童隨手拍”——基于圖像識別的兒童早教識圖系統(tǒng),英文名為Image Oriented for Kids——Early Childhood Education Based on Image Identification。此項目獲得2017年北京市市級獎。作者基于項目心得,寫下此篇論文。
關鍵詞:圖像識別;兒童早教;思考
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1671-2064(2017)24-0033-01
目前,隨著圖像識別技術(shù)的不斷進步,越來越多的科技公司開始涉及圖形識別領域,這標志著讀圖時代正式到來。為了使圖像識別技術(shù)應用更為實用,我們決定使其工具化。當前兒童早教是一個熱點話題,家長們對于孩子培養(yǎng)的需求越來越高,兒童早期智力開發(fā)和效率成為技術(shù)的一個應用點和突破口。而現(xiàn)有的兒童早教機和軟件都是以非智能的靜態(tài)匹配為主,圖像識別在此方面應用前景極大。我們希望建立一個具備圖像識別、OCR識字、記憶卡片等功能的軟件系統(tǒng),面向家長和孩子為用戶群體,家長引導孩子使用和操作。通過用戶所拍攝的特定圖片或上傳圖片,幫助兒童看圖識字識人,更加生動有效地實施兒童早期智力引導。以豐富多彩的圖片,幫助孩子自主學習,提高孩子學習興趣。
1 關鍵技術(shù)
(1)圖像識別部分采用感知哈希均值算法和差異哈希算法結(jié)合的方法,對上傳的圖片生成64位二進制“指紋”,與做好分類標簽的圖像庫進行對比,返回最相似的作為識別結(jié)果。
目前網(wǎng)民普遍使用搜索引擎搜索自己所需要的資料,這些搜索引擎,諸如google或baidu都具有非常好的識圖功能,可以搜索到圖片,相似的圖片也可以被收搜索出來。這種技術(shù)就是“感知哈希算法”(Perceptual hash algorithm)。其所發(fā)揮的作用就是每一張圖片都可以生成一個“指紋”字符串,對不同圖片的指紋進行比較,所獲得的結(jié)果越是接近,就意味著圖片具有很高的相似度。用這種算法可以比較圖片,并獲得比較結(jié)果。
(2)OCR字符識別部分,通過sobel濾波器去邊緣、優(yōu)化后的大律法閾值算法進行二值化、去噪、校正、字符切割識別等處理過程,提取出圖片上的有效字符(英文、中文均可提取)。
在OCR字符識別的過程中,就是用數(shù)碼相機或者掃描儀等電子設備將字符打印出來,在對字符進行識別的過程中,可以使用字符識別的方法將其翻譯為計算機文字。使用掃描儀掃描文本資料,分析圖像文件就可以獲得文字信息或者版面信息。OCR字符識別是最具友好型的,不僅運行穩(wěn)定,而且操作方便可行,識別的正確率是非常高的。
OCR軟件主要包括圖像輸入和預處理、圖像輸入、二值化、噪聲去除、傾斜較正、版面分析、字符切割、字符識別、版面恢復、后處理。其中,對彩色圖像進行處理的過程中,可以將圖片的內(nèi)容分為前景與背景。對彩色圖技術(shù)處理之后,將前景信息定義為黑色,將背景信息定義為白色,形成二值化圖。去除噪聲就是將畫面上的斑點等等去除。之后,根據(jù)需要對版面進行切割處理,使用文字識別軟件進行文字識別。將處理好的圖片輸入到指定的文檔,做好校對工作。OCR識別系統(tǒng)實現(xiàn)了影像轉(zhuǎn)換,將資料文字轉(zhuǎn)變?yōu)橛嬎銠C文字,對于錯誤的文字及時更正,輸出結(jié)果。
(3)利用python編寫的網(wǎng)絡爬蟲腳本在目標網(wǎng)站自動、高效地下載圖片、成庫。
利用python編寫的網(wǎng)絡爬蟲腳本,在Python的交互式命令行編寫程序,就可以直接獲得結(jié)果,但是不能夠有效保存,在運行python的時候,可以使用文本編輯器寫代碼,保存一個文件之后,這些程序就可以多次重復運行了。
(4)Android開發(fā),app界面、圖像識別、OCR識別界面、記憶卡片功能。
2 幾種算法
2.1 感知哈希算法(pHash)
均值哈希雖然簡單,但受均值的影響非常大。例如對圖像進行伽馬校正或直方圖均衡就會影響均值,從而影響最終的hash值。存在一個更健壯的算法叫pHash。它將均值的方法發(fā)揮到極致。使用離散余弦變換(DCT)來獲取圖片的低頻成分。
離散余弦變換(DCT)是種圖像壓縮算法,它將圖像從像素域變換到頻率域。然后一般圖像都存在很多冗余和相關性的,所以轉(zhuǎn)換到頻率域之后,只有很少的一部分頻率分量的系數(shù)才不為0,大部分系數(shù)都為0(或者說接近于0)。下圖的右圖是對lena圖進行離散余弦變換(DCT)得到的系數(shù)矩陣圖。從左上角依次到右下角,頻率越來越高,由圖可以看到,左上角的值比較大,到右下角的值就很小很小了。換句話說,圖像的能量幾乎都集中在左上角這個地方的低頻系數(shù)上面了。
2.2 差異哈希算法(dHash)
相比pHash,dHash的速度要快的多,相比aHash,dHash在效率幾乎相同的情況下的效果要更好,它是基于漸變實現(xiàn)的。
需要說明的是這種指紋算法不僅可以應用于圖片搜索,同樣適用于其他多媒體形式。除此之外,圖片搜索特征提取方法有很多,很多算法還有許多可以改進的地方,比如對于人物可以先進行人臉識別,再在面部區(qū)域進行局部的哈希,或者背景是純色的可以先過濾剪裁等等,最后在搜索的結(jié)果中還可以根據(jù)顏色、風景、產(chǎn)品等進行過濾。
3 創(chuàng)新點
(1)通過相機拍攝或者照片上傳,能夠遠遠擴充物品的數(shù)量,認知的廣度。
(2)能夠?qū)崟r讓用戶了解物品名稱(中英文)、類別、相似物品等多項信息,增加歸類記憶。
(3)能夠給用戶提供記憶測試、信息與圖片匹配等相關試題,增強識圖的記憶效果。
(4)能夠經(jīng)過數(shù)據(jù)分析,抓住用戶的興趣點,著重進行后期的培養(yǎng)。
(5)操作簡單,可以使用戶擺脫對家長的依賴,培養(yǎng)興趣開發(fā)和自主學習的能力。
4 在早教領域中具有廣闊的應用前景
以用戶提供的特定物體圖片,給出所匹配圖片信息和相關內(nèi)容,進而通過識圖識字系統(tǒng)幫助用戶動態(tài)的記憶此類物體和信息,促進兒童早教、智力開發(fā)、自主學習等能力的形成,幫助兒童從小具備超出同齡人的記憶、學習能力。
參考文獻
[1]劉芳.計算機智能化圖像識別技術(shù)的理論性探究[J].信息系統(tǒng)工程,2017,(4):16-16.
[2]楊琛.試析人工智能中的圖像識別技術(shù)[J].信息通信,2017,(1):16-17.
[3]緱亞斌,李宏博.計算機智能化圖像識別技術(shù)及應用[J].建筑與裝飾,2016,(7):168-169.
[4]翁和王.關于人工智能中的圖像識別技術(shù)的研究[J].信息通信,2016,(10):191-192.endprint