


摘要:圖像識別技術是人工智能實現的關鍵技術。文章以圖像識別技術及人工智能的概念為切入點,簡單介紹了圖像識別技術的原理及類型,論述了圖像識別技術的應用過程,并對圖像識別技術在人工智能中的應用進行了進一步探究,希望為圖像識別技術在人工智能領域應用優勢的發揮提供一些參考。
關鍵詞:圖像識別技術;人工智能;SVM
一、引言
近幾年,計算機技術飛速發展,人工智能成為炙手可熱的新興產業。圖像識別技術是當前人工智能中的先導技術,在圖像視頻處理方面可以取得接近甚至超越人類水平的效果。通過在人工智能中應用圖像識別技術,可以降低目標識別工作的不確定性,為人工智能產業發展提供充足支持。因此,探究圖像識別技術在人工智能中的應用具有非常重要的現實意義。
二、圖像識別技術及人工智能概述
(一)圖像識別技術
圖像識別技術(image recognition)主要本質上是通過圖像采集終端傳感器獲取圖像數據文件,在數據預先處理過程中實現特征量類別劃分與預置特征標注,最終識別圖像特征的過程[1]。在長時間發展過程中,圖像識別技術完成了從文字識別到數字圖像識別、再到物體識別的轉變,可以借助計算機技術進行高精度識別,解決人類無法有效識別的問題。
(二)人工智能
人工智能(Artificial Intelligence)是與自然智能相對的概念,展示載體是機器。人工智能特指模仿人類、與人類思維相近或相關的認知功能機器[2]。當前,人工智能在語言識別與合成、自然語言翻譯、圖像識別方面具有顯著進展,如2022年,新發布的OPPO Find X5系列手機ColorOS 12.1系統內預置應用程序DeWiCam可以通過檢查無線攝像頭固定(或用戶觸發的流量模式)實時判斷隱藏的針孔攝像頭。
三、圖像識別技術的原理及類型
(一)原理
圖像識別技術的原理與人類識別物體的原理類似,主要是經過分類提取物體重要特征,排除多余信息干擾后識別圖像。以神經網絡圖像識別為例,其需要先訓練大量被打上標簽的圖片樣本,并對樣本進行類別劃分。進而將未打標簽的圖片輸入神經網絡內,開始預訓練。在預訓練過程中,經神經元先后提取簡單形狀(邊緣部分)、復雜結構、抽象概念,獲得區分不同圖像的標準后輸出最相似的結果。
(二)類型
從圖像識別技術運行過程來看,可以將圖像識別技術劃分為基于神經網絡的圖像識別技術、基于非線性降維的圖像識別技術。其中基于神經網絡的圖像識別技術是將傳統圖像識別方式與神經網絡算法融合后形成的人工模擬動物神經網絡方式,以遺傳算法結合BP神經網絡最為常見,可以應用于智能汽車監控等;基于非線性降維的圖像識別技術是更高維度的識別技術,可以隨圖像進行線性降維(線性奇異分析、主成分分析等),進而求解投影圖像的數據集合,促使數據集合低維最優。
四、圖像識別技術的過程分析
圖像識別技術的過程包括以下幾個環節:
如圖1所示,圖像識別技術包括圖像輸入、預處理、特征提取、分類、匹配幾個環節[3]。其中圖像輸入主要是采集圖像并將其輸入計算機系統內;預處理又包括圖像灰度化、圖像增強、圖像分割、二值化、細化等幾個部分,其中圖像灰度化主要是剔除原始彩色圖像顏色信息,降低計算量;圖像增強主要是消除圖像質量缺陷,促使圖像結構與原有結構一致;圖像分割主要是分離圖像區、背景,規避無效區域干擾特征提取速度;二值化特指利用二值圖像代替灰度圖像;細化則是利用線寬為一個像素的點線圖像代替以往不均勻二值圖像;特征提取即利用數值標識圖像僅有特征,規避虛假特征;圖像分類則是在不同類別圖像庫內存入圖像,降低后續計算復雜度與匹配耗時;圖像匹配主要是比對原模板圖像與前期輸入測試圖像特征相似性。
五、圖像識別技術在人工智能中的應用
(一)圖像獲取
圖像識別技術在人工智能中應用的首個環節是獲取相關圖像。常用的圖像采集方法是在視頻監控平臺接入若干監測點位,在監測點位布置攝像頭,經攝像頭采集圖像數據。除固定監測點位攝像頭采集圖像數據外,還可利用無人機/直升機航拍方式,經無人直升機、多旋翼無人機、固定翼無人機掛載的拍攝倉,對重點位置區域進行多視角抓拍采像,可選擇的無人機型號為EDM-150G、DM-150、CW-300、CW-100。
此外,為解決圖像樣本過少導致地過擬合問題,可以對原始圖像進行仿射變換或鏡像變換,促使圖像樣本數量達到要求。即應用彈性變換算法,面向數字字符的云圖像識別樣本,為樣本圖像字符擴充提供依據。在具體操作時,首先需要面向圖像內的每一個像素點產生2個范圍在[-1,1]之間的隨機數,標注像素點的x方向、y方向移動距離;其次,生成一個以0為均值,以σ為標準差的高斯核k-nn,與隨機數做卷積并作用于以往圖像;最后,以k-nn、σ為變量進行測試,將以往圖像像素點擴充100倍,獲得適宜的扭曲圖像。
(二)預處理
在獲取相關圖像后,若直接借助全局圖像進行特征提取,算法運行耗時較長,且提取特征會分布于圖像多個區域,可提取的字符特征較少,字符區分難度較大。因此,應進行圖像的灰度化、增強與二值化、細化、分割處理[4]。
1.圖像灰度化
因原始RGB圖像每一個像素值涵蓋了紅色-綠色-藍色三個通道,根據三個通道的數據結構,可知其RGB分量在0~255(黑色~白色)范圍內。在圖像灰度化處理時,可以根據不同比例,對RGB三種顏色進行加權平均處理,滿足灰度值設定要求。加權比例受人眼部察覺顏色敏感度的直接影響,紅色加權比例為0.11,藍色加權比例為0.30,綠色加權比例為0.59。
2.圖像增強
為突出目標圖像的有效特征,應以圖像內有價值信息、低價值或無價值信息區分為著手點,進行圖像增強處理。在圖像采集過程中,因場景條件、特殊光照等因素影響,圖像效果較差,應著重調整圖像質量,擴大目標圖像有價值信息區域。如假定灰度圖像f(x, y)的灰度集中分布在[a,b]區間內,a、b分別為最低灰階、最高灰階。此時,可以將圖像的灰度范圍提升到[c,d]區間內,完成灰度的變換,變換后灰度圖像f'(x, y)的變換函數如下:
(1)
根據式(1),可以完成灰度圖像的變換,促使圖像對比度上升或下降。在式(1)直線斜率小于1時,對灰度圖像f(x, y)進行壓縮處理,變換后灰度圖像f'(x, y)對比度小于原灰度圖像f(x, y);在式(1)直線斜率大于1時,對灰度圖像f(x, y)進行拉伸處理,變換后灰度圖像f'(x, y)對比度大于原灰度圖像f(x, y)。通過合理變換,可以有選擇地突出目標灰度區間,減弱非必要灰度部分,完成圖像質量的優化。
3.圖像二值化
在圖像二值化是一種基于閾值的圖像分割方法,可以通過選擇存在差異的閾值,分割圖像內目標區域、非必要背景區域。具體處理時,可以設定一個閾值T,將超過T的像素點灰度值、與T相等或小于T的像素點灰度值分別設定為255、0,完成圖像二值化處理。
4.圖像細化
為順利提取圖像骨架,應以圖像細小部分連通為重點,對圖像進行細化處理。圖像細化本質上是一種逐次去除邊界的方法,需要依據連通性不變的規律縮小原則,選定一組結構元素,在結構內循環至全部結果恒定。即在航拍圖初始地址、高度與寬度已知的情況下,開辟一塊內存緩存區進行初始化。在當前像素為白時跳過,在當前像素為黑時定義為一個結構元素,計算對應結構元素內各位置數值。進而將模板中心覆蓋到待判斷像素上,在模板圖像所覆蓋位置像素為白時歸零,在模板圖像所覆蓋位置像素不為白時歸1。逐次判定模板圖像像素點是否滿足周圍黑像素大于1小于6、0變1次數為1、歸零后0變1次數不為1的條件,若滿足,則將結構元素對應的模板圖像像素點刪除,若無法滿足則進行后續模板像素點的判斷,循環執行至無可刪除模板圖像像素點。
5.圖像分割
在人工智能中,常見的圖像分割方法為基于連通域的目標分割,即尋找圖像內具有相同像素值的區域并進行標記。在具有相同像素值的區域尋找時,可以利用兩遍掃描法,首次遍歷每個像素,完成上方、左側像素檢查;其次,將對應像素的標簽分配給當前像素;最后,由圖像左上角線性移動到右下角,并在檢查當前像素標簽的同時連接區域的多個標簽,完成圖像目標分割。
(三)特征提取
特征提取優劣對圖像識別效果具有決定性作用,特征提取的過程本質上是一個降維的過程,即在選定特征點后,在特征點所在的區域內,將低層次的高維原始圖像像素矩陣抽象為高層次的與圖像識別目標關聯的低維特征向量。常見的圖像特征提取為紋理密度、紋理方向或HSV色彩。其中HSV色彩主要是借助色相(Hue)、飽和度(Saturation)、明度(Value)對圖像進行描述,搭建標示圖像色彩屬性、顏色純度與亮度的空間。在空間內,可以經直方圖水平軸將飽和度或明度通道取值范圍等分為若干間隔,以縱軸象征特定取值間隔的像素個數。在顏色特征提取之后,為避免光照調節對特征識別魯棒性造成干擾,可以利用邊緣檢測算子Canny、方向梯度直方圖,進行紋理密度與紋理方向特征的提取。在Canny算子中,圖像紋理密度特征指標為一幅圖像內邊緣像素數量與全部像素數量的比值;方向梯度直方圖本質上是求解像素點之間梯度變化方向。在方向梯度直方圖中,圖像可以被劃分為若干單元格,每一個單元格可視為一個8維的向量,在特征點所在的區域內,經若干單元格大小的區塊滑動掃描圖像,統計像素點方向劃分到8個方向的梯度變化值,最終實現圖像紋理梯度方向分布差異程度的刻畫。一般方向梯度直方圖差異為方向梯度直方圖中刻度對應取值與總刻度數量的比值。
(四)分類
在圖像特征提取后,可以借助SVM(Support Vector Machine,支持向量機),輸入確定的強相關特征,輸出圖像類別,完成圖像類別的智能劃分。基于SVM的圖像分類本質上是一對多策略的實施,可以將分類器劃分為若干子分類器,將樣本圖像劃分為類別a、b,若航拍圖被分類為a,則繼續被輸入其中一個或多個子分類器,以進一步確定圖像類別;若航拍圖被分類為b,則繼續被輸入另外的子分類器,以進一步確定圖像類別。以河流冰情航拍圖為例,可以將分類器劃分為3個子分類器,將樣本類別劃分為明流和冰塞、流凌和冰蓋,若航拍圖被分類為明流和冰塞,則繼續輸入到子分類器1-2,以進一步確認航拍圖是明流或冰塞;若航拍圖被分類為流凌和冰蓋,則繼續輸入到子分類器1-3,以進一步確認航拍圖是流凌或冰蓋。匯總全部分類數據后,可以獲得圖像分類結果。
(五)匹配
在完成圖像類別劃分之后,應對待處理圖像與樣本圖像進行配準。一般無人機采集的航拍影像攜帶地理信息標簽,包括存儲于飛行記錄內俯仰角、偏航角、橫滾角等姿態數據以及分辨率、三維坐標、焦距。為確保上述地理信息標簽與樣本參數完全相符,可以空間位置特征向量為基礎,借助Similarity Search(相似性搜索)算法,進行航拍圖像-樣本圖像的初步匹配。即以特征向量為匹配依據,將樣本圖像疊加到航拍圖像中。鑒于特征向量內元素為浮點數,可以采用歐式距離進行向量間距離計算,在計算距離低于前期設置閾值時,即判定對應的航拍圖與樣本圖像特征點成功匹配。
初步匹配后,航拍圖像與樣本圖像仍然存在部分無法對齊的區域,為提高兩者吻合度,可以圖像配準為依據,綜合考慮數據噪聲、成像畸變、傳感器精度等因素,在同一個坐標系內進行不同空間尺度、不同時間下的圖像匹配。在精準匹配時,可以將航拍圖像與樣本圖像視為若干傳感器采集的跨模態數據,利用基于強度的圖像配準方法,進行圖像配準。即以互信息(有價值信息度量,隨機變量內涵蓋的另一個隨機變量信息量)為依據,表征航拍圖像與樣本圖像之間相似性,互信息可表示為:
(2)
式(2)中I(R,B)為航拍圖與樣本圖像之間的互信息指標;r為航拍圖像素強度;b為樣本圖像像素強度;PRB(r,b)為航拍圖與樣本圖像像素強度聯合概率分布;PR(r)為航拍圖像素強度邊緣分布;PB(b)為樣本圖像像素強度邊緣分布[8]。在互信息確定后,利用遺傳算法進行求解,獲得最大的互信息。遺傳算法的編碼方式為實數編碼,適應度函數為互信息指標,種群大小為500,隨機產生初始種群,經輪盤賭法選擇種群個體并對個體進行自適應交叉、突變。進而選擇優化互信息指標概率最大的個體作為下一種群變異基礎,循環開展互信息指標評價-選取-交叉突變環節,直到獲得最大迭代次數的終止條件,實現圖像的高程度匹配。
六、結束語
綜上所述,圖像識別技術是人工智能領域至關重要的一項技術,可以借助計算機取得近似于人類識別甚至超越人類識別的效果。在圖像識別技術應用過程中,需要經過圖像輸入、預處理、特征提取、分類、匹配幾個環節。通過合理操作各環節,可以獲得最接近原圖的結果,為人工智能交互提供支持。
作者單位:李敏? ? 漯河食品職業學院
參? 考? 文? 獻
[1]陳逸,張聞中,華守彤,龔孜詣.基于圖像識別的皮帶運輸機故障自動診斷方法[J].制造業自動化,2022(03):205-207.
[2]李觀發.人工智能背景下圖像識別技術淺析[J].數碼世界,2019(06):128-128.
[3]秦放,曾維佳,羅佳偉,徐鵬.基于深度學習的多模態融合圖像識別研究[J].信息技術,2022(04):29-34.
[4]白旭,宋祉明,李成剛.人工智能圖像識別技術在電力系統中的應用[J].中國新技術新產品,2020(17):14-15.