葉建丞
(福建農林大學 機電工程學院 福建福州 350000)
隨著計算機技術高速發展,各種應用計算機的智能化技術層次不窮。然而圖像識別技術是運用最廣泛的技術之一[1]。由于圖像所能給出信息比文字多,所以對圖像識別技術進行綜合概括和優化是大勢所需。在此前提上就要必須對圖像識別技術定義、圖像處理、所用數據集等進行了解,以及對其中應用的識別技術如統計模式識別、神經網絡模式識別、非線性降維等進行掌握。圖像識別技術所能使用的領域十分廣泛如機器視覺、監控系統、醫學領域等。并且隨著5G技術的盛行,可以進行智能化、高速化技術的交叉[2],進而優化圖像識別技術。
圖像識別技術早在20世紀60年代開始進行研究[3],隨著計算機設備發展迅速,計算機處理信息能力變得越來越快。因此圖像識別技術取得了很大的突破性進展。從最早的數字識別、文字識別發展到現如今的物體識別、精細識別、多維度識別等,識別技術從原來的模式識別與格式塔心理學家所提出的原型匹配識別[4]到現今統計模式識別、神經網絡模式識別、非線性降維等高超識別方法。無一不體現智能化圖像識別進步迅速。到目前為止,數據資源越來越豐富,各種算法層次不窮,例如SAR圖像目標識別算法[5]、CNN和FCN[6]等算法,由此計算機圖像識別不管在識別方法上還是應用領域上都呈現出新的變化趨勢。在數據信息采集上,由于大規模圖像數據集的發展如Flickr1024[7]、Places[8]、SUN[9],促進了圖像更精確分類。
圖像識別是利用計算機對輸入進來的圖像進行預處理、細化分析和理解,以識別各種不同模式的目標和對像的技術,更好的使人獲取到有用信息。圖像識別時要經過預處理、特征提取、匹配分類。其中預處理過程使用到了二值化的方法[10],把圖像進行細化,提高清晰度。除了二值化外,還可以結合神經網絡作為預處理技術[11],將特征從高維空間提取到低維的空間進行了減維,達到更好識別的效果。特征提取是使用計算機提取圖像信息,決定每個圖像的點是否屬于一個圖像特征。特征提取是把圖像上的點分為不同的子集,這些子集往往屬于孤立的點、連續的曲線或者連續的區域[12]。特征的好壞對泛化性能有至關重要的影響。匹配分類則就是運用了大規模的數據集進行系統化歸類。在這3個方面中使用計算機圖像識別技術可以確保圖像質量和實際結果,顯示圖像信息內容,通過提取特征來集成圖像信息內容并對其特征進行分類。
數據集是由各種資料、數據結合在一起所形成的整體,其中的數據資料可以是圖像特征、屬性特征、統計數據等[13]。以下我們介紹下其中圖像識別技術利用廣泛的3種數據集。
Flickr1024數據集是一個大型的視覺數據庫,通常被利用在圖像識別技術中。該數據庫包含了多達1024對的高質量清晰圖,涵蓋了各種各樣的場景視角,其數據集可以幫助處理圖像識別中對各個特征的分類。
Places數據集包含了多達1000萬場景的儲存庫,該數據集是結合了場景語言分類的方法進行標記。其具有高覆蓋率和多樣本性的典型特點。智能化圖像識別技術提供了一個大的場景數據庫,對未來的場景識別有促進作用[14]。
SUN數據集是一個含括了899個類別和130519張圖像的數據庫,由此通常使用員會用采集好了的類別結合特殊的算法來實現場景的識別和建立新的界限的作用。
隨著計算機的發展,各種智能化技術更新快速,智能化圖像識別技術也不例外。其中更新較為顯著的是圖像識別中的識別方法。以下三種是現階段使用最多也是最廣泛的高新技術,本節將一一介紹。
統計模式識別方法就是用給定的有限數量樣本集,在已知研究對象統計模型或已知判別函數類條件下根據一定的準則通過學習算法把d維特征空間劃分為c個區域,每一個區域與每一類別相對應。假如分類的樣本條件密度可知,那么就可以根據貝葉斯決策理論來進行對樣本歸類[16]。
非線性降維識別是線性降維識別技術一次優化升級,由于線性識別技術在過去的生活中被人們找出了一些缺點如:在復雜的圖像識別的時候計算量也隨之增多,導致識別時候花費大量的時間和空間特性。所以線性降維識別無法在大范圍使用。而對于非線性降維識別技術來說,它能在不改變圖像屬性、特征的前提下把高維進行降維。并且其識別的精度高識別的速度快。例如在一些運用在圖像維度高識別的系統,如人臉識別系統、指紋識別系統等,利用了非線性識別可以使系統的工作效率變快、成果變得更好[17]。
神經網絡是借助了人類的神經系統,把計算機進行改造模擬人神經系統的一個技術。該識別技術具有很強的學習能力和識別能力,由此能完成圖像的分類和識別[18]。并且神經網絡模式識別類型多,分為深度神經網絡識別、卷積神經網絡識別、BP神經網絡識別等。
3.3.1 深度神經網絡識別
深度神經網絡被認為是一種智能特征提取模塊,在圖像識別中的特征提取時具有很大的靈活性。深度神經網絡的典型特點是它具有多重隱藏層,可以捕獲數據復雜的線性表示。在深度神經網絡中提出一種將高維圖像投影到低維的空間中,對智能化圖像識別技術來說具有較大用處[19]。
3.3.2 卷積神經網絡識別
卷積神經網絡識別是前饋神經網絡,由于它具有可以響應覆蓋范圍內的周圍單元的功能,且對圖像處理、識別有出眾的表現。該識別技術Hubel和Wiesel在研究貓腦皮層[20]中用于局部敏感和方向選擇的神經元時發現其獨特的網絡結構可以有效地降低反饋神經網絡的復雜性,繼而提出了卷積神經網絡(Convolutional Neural Networks-簡稱CNN)[21]。該技術避免了圖像識別中復雜的預處理,可以直接輸入圖像減少誤差。是目前圖像識別技術中使用最廣泛的技術之一。
3.3.3 BP神經網絡識別
BP(back propagation)神經網絡是由Rumelhart和McClelland為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是應用最廣泛的神經網絡[22]。
對于BP神經網絡識別來說,算法十分的重要,它是一種按誤差反向傳播的多層前饋網絡。它在人臉識別系統中廣泛運用[23]。
計算機智能化圖像識別技術由上述的部分結合起來,技術變得越來越成熟,所用的地方很多,例如上述講到的人臉識別其中運用的核心技術就是圖像識別技術。當然,在機器視覺領域中運用該技術進行3D圖像的識別,可以提高機器識別場景的能力,為智能機器人打下堅實的基礎。還有在醫學領域,計算機圖像識別在進行CT等類似檢查時都需要采用圖像識別。通過圖像識別醫生能更好的了解病人體內的情況,使得更好的提出治療方案。還有農業發展、安防系統、交通運輸等領域也能見到圖像識別技術的身影[24]。
5G時代已然到達,5G下的人工智能技術將迎來進一步的優化[25],智能化圖像識別技術也不例外。由于計算機智能化圖像識別的過程中會受到數據信息輸出輸入速度慢的影響,以及在處理圖像特征信息時會遇到信息量大導致時長變長等不足之處。因此,提出把5G技術與計算機、數據集相結合。能提高算法的計算速率,達到優化計算機識別技術的目的,
智能化圖像識別技術是現今運用廣技術先進的技術之一,它已經融入到我們的生活當中。但是時代不斷革新,技術不斷更新,為了保證該技術能走在前沿端,就應該與時俱進更上新時代新技術的步伐,推進智能技術的優化升級。這對我們國家、生活的發展將會起到促進的作用。