王 莉,龔文輝,李沁穎
(1.南昌交通學院,江西 南昌 330100;2.江西農業大學南昌商學院,江西 共青城 332020;3.江西師范大學,江西 南昌 330022)
建立有效的自然圖像生成模型是計算機視覺中的關鍵問題之一,其目的是通過根據潛在的自然圖像分布來改變一些潛在參數,從而生成各種逼真的圖像[1]。因此,需要一個理想的分類識別模型來捕獲基礎數據分布。但是細粒度圖像樣本的集合可能位于非常復雜的流形上,分類識別實現過程存在一定困難[2],是現今圖像處理領域的研究重點。
關于細粒度圖像分類,汪榮貴等[3]提出一種深度遷移學習模型,將大規模有標簽細粒度數據集上學習到的圖像特征有效地遷移至微型細粒度數據集中。通過銜接域定量計算域間任務的關聯度;根據關聯度選擇適合目標域的遷移特征;使用細粒度數據集視圖類標簽進行輔助學習,采用聯合學習所有屬性來獲取更多的特征表示。但該方法遷移過程速率緩慢,計算效率有待優化。袁建平等[4]設計一個端到端的分類模型來解決細粒度圖像分類問題,使用深度卷積神經網絡獲取圖像視覺特征,并依據提出的端到端文本識別網絡,提取圖像的文本信息,使用相關性計算模塊合并視覺特征與文本特征,傳輸至分類網絡中。但該方法特征提取精度有待完善。
由此文章提出一種基于約束稀疏表達的細粒度圖像分類識別方法。通過圖像預處理防止無關信息干擾,提升分類效率,代入分布結構約束項構建約束稀疏表達分類模型,采用交替方向乘子法實施模型求解,獲得高質量圖像分類識別結果。
為節省細粒度圖像分類識別時間,利用在線硬示例挖掘(Online Hard Example Mining,OHEM)篩選對識別影響結果較多的信息,并預防無關數據的侵擾。在區域建議網絡中輸入一張待分類圖像,輸出置信度序列前N個目標可能存在的范圍。OHEM擁有兩個不同的感興趣區域網絡。左側的感興趣區域網絡僅負責前向傳播推導誤差,右側的感興趣區域網絡從左側網絡中通過誤差排序[5],挑選誤差最高的樣本當作右側網絡輸入。設定區域建議網絡輸出的矩形目標框是Di,其相對得分的推算過程為

(1)
式(1)中,Si表示重疊框相交的面積,S是重疊框的并集面積。非最大抑制算法是區域建議網絡內最關鍵的構成部分。區域建議網絡輸出一系列檢測框Di的相對的分數fi。非最大抑制算法要設定一個常數閾值τ,若檢測框得分高于閾值τ,則把它安放在最終的檢測結果集合E中。與此同時,集合E內所有和檢測框的重疊部分高于重疊閾值τ的檢測框會被強制歸零并刪除[6-7]。在相近的檢測框分數都被強制歸零后,假如實際物體在重疊范圍出現,會致使對此物體的檢測失敗,同時會降低圖像分類識別精度。
不將高于閾值的相近目標框得分設定成0,而是乘以某個衰減函數,這樣就能降低假陰性幾率,剔除對圖像識別具有干擾性的信息。計算過程為

(2)
如果擁有b個類型的訓練樣本圖像,將其描述成如下兩種形式
Bi=[bi1,bi2,…,bij]∈Km
(3)
B=[b1,b2,…,bA]∈Km×ni
(4)
式(3)、(4)均為是第i類訓練樣本圖像矢量組成的矩陣,式(3)中bij∈Km代表第i類第j個訓練樣本圖像矢量。m是訓練樣本圖像矢量維數。式(4)中A是訓練樣本圖像類型個數,ni是第i類訓練樣本數量。
設定矩陣B是字典,將待分類樣本圖像矢量e使用字典B表示,得到e=Bo。o是待分類樣本圖像矢量e在字典B下的表達系數矢量。在稀疏表達方法中,檢測樣本圖像矢量e可通過和自身相同類型的訓練樣本圖像矢量進行表述,并在樣本圖像充足狀況下[8],e在B下呈現出稀疏表達形式,稀疏性越高,越有助于圖像分類識別處理。


(5)

class(e)=argminiti(e)
(6)
在實際操作中,圖像分類識別通常包括光照、姿態與遮擋等偏差,并極有可能被噪聲污染。所以稀疏表達在字典內代入單位陣I∈Km×m來闡明圖像偏差及噪聲。將式(5)的l1-范式最優化問題轉變成

(7)
同樣利用式(8)算出e的類關聯重構偏差,對圖像矢量e進行分類識別。

(8)
上述過程為常用的稀疏表達圖像分類識別手段,由于分布結構[9]是精準分類圖像的先決條件,為此文章將分布結構當作稀疏表達最小優化式中的約束項,并構建細粒度圖像分類識別模型。運算流程如圖1所示。

圖1 分布結構約束稀疏表達下的分類識別流程
采用原始訓練樣本數據當作碼書時,會存在一定數量的噪聲信息。為防止該降低圖像的噪聲,在約束稀疏表達下提取圖像的方向梯度圖,這樣就等同于對圖像實施濾波處理,不但能去除噪聲,還能明確圖像局部內容,將圖像表示為直方圖特征矢量。
直方圖交叉能衡量圖像直方圖特征相似性。把圖像的分布結構利用圖像之間的相似矩陣W進行描述,Wi,j是W的i行j列的因子,將其記作

(9)
式(9)中,D表示圖像直方圖特征維數,Hi表示第i個圖像的直方圖特征,Hi與Hj是最接近的鄰域。挑選各圖像的6個最近領域產生圖像樣本的相似矩陣,此矩陣能呈現出圖像樣本的分布結構信息,明確相似圖像樣本之間的耦合關聯。對圖像進行分類識別就要按照訓練樣本的分布結構相似程度確立樣本類標記的從屬性[10],由此證明了分布結構約束項對圖像分類識別具有至關重要的現實意義。
在分布結構約束項基礎上,組建全新的約束稀疏表達模型,針對待檢測樣本y,基于約束稀疏表達的圖像分類是運用l1-范式約束與編碼保持樣本分布結構約束下,讓編碼誤差為最低,利用訓練樣本集X對y編碼,得到最優編碼系數為

(10)
式(10)中,αi與αj是α內的隨機系數,Wi,j是訓練樣本的分布結構,將分布結構信息儲存于稀疏編碼系數內。構建式(10)的前提是創建檢測樣本的訓練樣本線性系數表征模型y=Xα。按照拉普拉斯矩陣特征,將式(10)等效記作

(11)
式(11)中
L=D-W
(12)
D=∑iWi,j
(13)
將式(11)變換最終式(14),即可獲得圖像分類識別模型的最終形式

(14)
式(14)中
S(α)=(y-Xα)2+βL
(15)
交替方向乘子法是一種處理可分離凸規劃問題的方法,擁有迭代形式簡便、儲存量小和高效率等獨特優勢。交替方向乘子法能把原有問題的目標函數等價分解成多個容易探尋的局部解子問題實施交替分析,迭代獲得問題全局最優解,文章利用該算法完成細粒度圖像分類識別模型求解任務。構建相似度衡量函數。圖像分類識別就是對不同的環境下的圖像目標進行關聯,匹配相等的內容。設計一種度量學習方法(keep it simple and straightforward metric,KISSME)方法,針對固定圖像對(p,q),將其特征記作(up,uq),則圖像相似度計算公式為

(16)
式(16)中,Vs(up,uq)代表(p,q)從屬相關圖像對的幾率,Vd(up,uq)代表(p,q)不屬于相關圖像對的幾率。使用全局與局部相融合手段獲得最終相似度函數,將局部與全局相似度依次記作

(17)

(18)
局部相似度函數與全局相似度函數的總和即為最終的相似度函數
δ(li,lj)=δlocal(li,lj)+γδglobal(li,lj)
(19)
式(19)中,γ表示調整局部與全局相似度函數的超參。利用式(19)構建正則化測度矩陣,得到

(20)
式(20)中

(21)
將圖像分類識別問題等效為排序問題,若兩個圖像是相同內容能獲得更多的分數提高排名,組建三元損失函數

(22)
ltriplet(ln,li,lj)=[δ(ln,li)-δ(ln,lj)+α]
(23)

按照式(20)與式(22)獲得圖像分類識別目標函數

c=1,…,C;r=1,…,R
(24)


(25)

(26)

(27)

(28)
由此可知,一次迭代共分為四部分:首先計算和U1有關的最小化問題,更新變量U1,再算和U2有關的最小化問題,更新變量U2,計算和U3有關的最小化問題,更新變量U3,最終更新兩個對偶變量Λ1、Λ2,完成精準的圖像分類識別目標。
以人臉細粒度圖像作為分類目標,在FaceScrub人臉數據庫上進行實驗,證明所提方法可靠性。挑選人臉數據庫內的50人,每人擁有5張不同表情、光照等變化的正臉圖像。圖像大小從初始160×115像素剪裁成60×50像素。.并設定常數閾值τ為127,配置Intel core i7 5960X 型號CPU,32 G內存,及RX5950XT 型號顯卡的工作站。
為了驗證所研究方法的分類識別的效果,隨機選取上文數據庫中的三幅不同人臉、不同表情的人臉圖像。將所研究方法與文獻[3](基于深度遷移學習的微型細粒度圖像分類)和文獻[4](基于文本與視覺信息的細粒度圖像分類)進行對比仿真,測試三種方法的分類如圖2所示。

圖2 人臉細粒度圖像分類識別結果
由圖2可知,文獻[3]方法的分類結果失去了多樣性和結構信息,文獻[4]方法的分類結果同樣丟失了結構信息,而所研究結果,顯示了現實,多樣化和類別保持的結果。因為所研究方法在約束稀疏表達下提取圖像的方向梯度圖,從而保證了圖像分類識別結構的完整性。
為了驗證在不同光照環境下所研究方法的分類識別性能,將所研究方法與文獻[3]和文獻[4]進行對比仿真實驗,為進一步明確不同實驗環境下三種方法的分類識別性能,將圖像分為三組,每組50幅圖像:正面無表情及光照改變的圖像(1組)、只有表情變化的圖像(2組)和只有光照改變的圖像(3組),測試結果如表1所示。

表1 三種方法的峰值信噪比與分類時間對比
從表1可知,所研究方法分類后的峰值信噪比高于對比的兩種文獻方法,峰值信噪比越高說明圖像質量越好,其平均峰值信噪比為28.9,說明分類的圖像質量較高。圖像分類時間上所研究方法遠低于對比的其他兩種方法,平均分類時間為5.71s。這是因為所研究方法在稀疏表達中引入了分布結構約束項,并在圖像預處理階段運用在線硬示例挖掘方法將檢測樣本中的干擾信息剔除,提高了方法分類識別能力與效率。
針對細粒度圖像分類識別精度不高、計算繁瑣等問題,提出基于約束稀疏表達的細粒度圖像分類識別方法。該方法運算簡便、有效處理稀疏編碼分布結構缺失問題,分類后的圖像質量得到顯著提升,擁有廣闊的應用前景。但在圖像預處理過程中,對不同子類差異特征的提取能力有待增強,這也是后續研究的關鍵內容。