










摘要:螨蟲是古老的微型寄生害蟲,它與人們的健康息息相關。文章借助基于數據驅動的深度學習技術對大規模螨蟲影像進行特征學習分析,通過引入人工建模、AlexNet和VGG16經典的卷積神經網絡等算法,并結合特征圖可視化闡釋了卷積的深層工作機理,對于螨蟲相關的生物學領域及先進計算機視覺方法都具有一定的研究價值。經實驗證明,文章采用數據特征提取結構不僅適用于螨蟲圖像的可視化研究,而且可以將此方法推廣至其他研究領域,具有一定的魯棒性,同時也為其他學科的可視化實驗、研究提供了普適的方法。
關鍵詞:螨蟲;卷積神經網絡;VGG16;特征可視化
中圖分類號:TP751.1文獻標志碼:A
0引言
在數億年前,螨蟲就已經存在。螨蟲是微型害蟲,其體長一般約0.5 mm,有些甚至能小到0.1 mm。螨蟲食性比較多樣化,寄生于人體的螨蟲通常以人的頭皮屑、汗液、淋巴液、分泌物、角質組織等為食,它們無處不在?,F存于世的螨蟲超過50 000余種,通常分為塵螨、粉螨、疥螨、蠕螨等,且廣泛分布于日常生活環境中的角落、地毯、床鋪、空調等處,螨蟲的分泌物和排泄物,以及尸體都是過敏源。研究表明,螨蟲會引發人們患上過敏性鼻炎、哮喘、支氣管炎、過敏性皮炎,甚至腎炎等疾病,有97%左右的成年人都感染螨蟲。通過使用螨蟲顯微影像,借助計算機視覺技術和現代人工智能算法高效率地掌握螨蟲的階段性動態變化對于研究與之相關的生物學、醫學有著非常重要的學術意義和科普價值,這主要依靠圖像特征提取算法來獲取螨蟲圖像的特征信息來實現,并可以進一步對螨蟲圖像進行識別、理解,完成螨蟲目標檢測、圖像分割等下游任務。盡管已有許多成熟的人工建模算法可用于提取各類圖像的特征信息,如方向梯度直方圖(Histogram of Oriented Gradient,HOG)可以分析和統計圖像某局部區域的梯度方向直方圖來表達圖像特征[1],如圖1所示。
HOG具備幾何與光學不變性。又如局部二值模式算法(Local Binary Pattern,LBP)具有旋轉不變性和灰度不變性的優勢,主要用于紋理特征提取[2]。1999年提出的SIFT算法(Scale-invariant feature transform,SIFT),該算法在進行特征變換時具有尺度不變的優點,其主要對待檢圖像進行特征關鍵點提取,是一種用于描述局部特征的算子[3]。進一步利用SIFT特征匹配算法還可以對兩幅圖像間的平移、旋轉及仿射等情況進行匹配。除上述算法以外,還有許多常用的人工建模算法可獲取圖像的特征信息,但由于人工建模方法的實質是對輸入圖像數據按照某個邏輯進行求解運算,對于愈發復雜多變的多樣化輸入數據,在進行特征提取時普遍都會產生不適定解的情況,而且大規模求解運算也會導致一定的延時。文章將在仔細剖析卷積神經網絡的基礎上,提出使用VGG16可視化特征網絡模型的方法來生成多模式特征圖融合的高質量螨蟲圖像特征,該方法具有較高的處理效率、魯棒性,所提取的特征信息較為豐富且效果直觀[4],具有一定的學術研究價值。
1相關工作
卷積其實是一種數學運算。卷積神經網絡(CNN)是在人工神經網絡的基礎上發展而來[5]。相對傳統數學建模算法而言,雖然在相關人工神經網絡領域已經取得了不小的進步,如解決分類問題,但在處理計算機視覺相關問題時,需要相當大的計算消耗,這與其網絡結構有關[6],具體結構如圖2所示。
其中,X表示輸入張量,a、b、c分別為遞進的3個隱藏層,每一層含有n個神經元,O為預測輸出層,為最終輸出。對于一張800×800分辨率的RGB圖片,它含有3個通道,每個通道具有64萬個像素,每個像素都對應一個具體的值,那么需要64萬個數值來表示這張圖片的一個通道。如果利用人工神經網絡對該圖片的一個通道進行分析處理,在該網絡中僅輸入層就需要64萬個神經元,而每個神經元又與下一層的所有神經元節點進行運算,隨著網絡層數的不斷加深,運算量呈幾何倍數增長。由于不知道輸入的像素中哪些是真正有用的數據,而其中的諸多運算往往是冗余的無效運算,它們不僅對于圖像的特征分析并沒有發揮作用,還會使得模型運算空前復雜,而且更容易致使過擬合的發生[7],這種網絡模型會逐個考察數據樣本的任何細節,采用反復“背誦”數據的方式,致使對陌生數據的感知能力變得相當有限。
卷積神經網絡有效緩解了人工神經網絡的問題,大幅度減少了模型的計算復雜度,會更有效地針對圖像進行特征信息的提取。卷積可以看成是一種濾波裝置,利用卷積核(1個固定大小的矩陣)對輸入圖像在空間域上通過平移方式進行局部過濾,以產生相應大小的輸出特征圖[8]。這個過程可以表示為:
式中:f為輸入特征圖,h為卷積核,m、n分別為輸出特征圖的行和列(也可以看成是卷積核平移的水平和豎直方向上的步數),j和k為卷積核的尺寸,對于每個局部區域的過濾是由卷積核與該區域進行乘加操作完成[9],如圖3所示。
圖3演示了利用3×3卷積核,對單通道5×5特征圖(左側)進行特征過濾的情況,從上到下依次為對不同特征圖的局部區域(深色)進行空間平移并輸出特征信息的過程。利用3×3卷積核來過濾5×5特征圖,如果每次只平移1個單位,那么在5×5特征圖中共有9個位置可供3×3卷積核放置,所以會生成3×3的輸出特征圖,其中每個單位歸納了輸入特征圖中的對應位置3×3局部區域的內容,這個過程會花費(3×3)×9的運算量,若使用人工神經網絡,僅第一層便至少需要5×5×n(n為第1層神經元個數)的運算量,而為了達到必要的效果,n一般都不會小。通常可以采用多個不同的卷積核來提取側重點不同的圖像特征。例如,有這么一個卷積過程,如圖4所示。
圖4中間的3×3卷積核針對2個不同的特征圖進行過濾,其輸出結果顯示該卷積核只會關注豎直方向的圖像特征,所獲特征信息是輸入特征圖豎直方向的空間表征。綜上所述,卷積具有運算量小且可依據需要產生多種視覺模式的特點,其已經廣泛應用于計算機視覺、自然語言處理等領域并取得了巨大成就[10]。
1998年,LeNet誕生即為經典,該模型的創作初衷是為了解決手寫數字識別問題[11],要求輸入圖像是32×32×1的單通道數字圖像。LeNet其實是一個混合型神經網絡,可以看作由前后2個部分組成,前面的卷積神經網絡負責提取圖像特征,后面的全連接網絡則用于分類輸出,它不僅包含卷積層,還含有池化層及全連接層[12]。LeNet共有7層,每層均有可訓練參數,每個卷積層含有多張特征圖[13]。LeNet的網絡結構如圖5所示。
LeNet利用卷積神經網絡提取了比較豐富的圖像特征信息,其參數也相對較少,這是由于卷積具有平移不變性的特點[14]。卷積核在圖像空間域上進行窗口滑動時,會使用共享參數。2012年,AlexNet利用GPU加速了網絡訓練,并將Sigmoid激活函數和Tanh激活函數替換成了ReLU激活函數奠定了CNN在圖像分類任務中的核心地位[15]。AlexNet也在2012年圖像識別大賽中奪冠,其網絡結構如圖6所示。
2基于VGG16的特征可視化螨蟲圖像特征提取算法
為獲取螨蟲圖像的較高質量特征信息,并能夠直觀地觀察表征不同模式的通道特征,文章在VGG16的基礎上,引入了可視化特征圖模塊。該模型繼承了VGG16的所有特性,為了保留更多特征信息,輸入張量在經過各池化層之后,卷積核數都會增長一倍。該網絡模型共有13個卷積層,構成特征提取部分,后接3個全連接層用于預測輸出,其有效把握了卷積神經網絡的深度與性能間的關聯,堆疊的3×3卷積核和2×2最大池化層使其結構簡潔,卷積的串接使用會比使用一個較大卷積核產生更少的參數量及更多的非線性變換。此外,由于卷積核專注于空間域信息并擴展通道數,而池化層則會關注如何縮小特征圖尺寸,使得整體網絡模型雖然具有更深更寬的形態,但計算量卻在緩慢增加。
文章采用數據特征提取結構。首先輸入尺寸為224×224×3的圖像,經過2次64個3通道的3×3卷積核進行過濾,再由ReLU進行激活,會輸出尺寸為224×224×64的多通道特征圖。后經2×2的MaxPooling處理,圖像空間尺寸減半,變為112×112×64。又通過128個3×3卷積核進行2次卷積,并通過ReLU激活后,尺寸進一步變為112×112×128。接著依舊使用Max Pooling進行池化,尺寸變化為56×56×128。以此類推,又經過3層256個3×3卷積核的過濾及ReLU作用并經過3次512個3×3卷積核的卷積處理和ReLU操作后,輸出張量尺寸變為14×14×512,最終通過最大池化處理,輸出尺寸為7×7×512的張量。由此特征信息可進一步結合全連接等其他網絡結構進行圖像分類識別等下游任務。對于VGG16來說,可將此結果進行Flatten,把特征張量展成向量,通過兩層1×1×4 096和一層1×1×1 000的全連接層,經ReLU激活后提交至Softmax處理并輸出1 000個預測值[16]。
3實驗結果與分析
為提取富含特征信息的高質量螨蟲特征數據并驗證文章采用數據特征提取結構的有效性,進行3個方面的實驗。首先,針對螨蟲圖像引入人工建模方法進行特征提取,觀察并分析實驗結果;其次,選取了2個以卷積結構為特征處理核心的成熟網絡模型AlexNet和VGG16,鑒于螨蟲圖像數據較少無法滿足深度學習網絡基本的訓練要求,且采集的時間成本較高等因素,同時也為了快速比較上述2種網絡模型的性能優劣,故直接使用上述算法的預訓練模型對小規模螞蟻/蜜蜂數據集進行遷移訓練,通過識別任務的量化結果選定文章所使用的基礎算法;最后,在選定的VGG16的基礎上,為相關輸出層添加可視化模塊,觀察不同尺寸形狀下表達各模式的螨蟲特征圖。
3.1實驗環境
為了盡可能在較短的時間內驗證預期目標,文章使用了2種實驗環境并行實施了處于不同階段的實驗。在3.3基于遷移預訓練、網絡模型的圖像識別比較中,使用的實驗環境為CPU:Intel i5-8 300 h 2.3 GHz,內存:8 G,GTX1060(6 G)顯卡;軟件:Win-dows 10家庭中文版,python 3.5,pytorch 1.10.0,Jupyter Notebook。
實驗3.2針對螨蟲圖像的人工建模特征提取、實驗3.4螨蟲圖像特征可視化則采用硬件配置為:12th Gen Intel(R)Core(TM)i7-12700F,2.10 GHz,20核心,16 G DDR內存,Nvidia RTX3060 12G。軟件環境為Win11家庭中文版21H2,Cuda11.6,cuDNN11.2,pytorch 1.8.0 GPU版,Jupyter Notebook 5.5.0。
3.2針對螨蟲圖像的人工建模特征提取實驗
螨蟲有著比較獨特的體態外觀,在不同生長階段所呈現出的外觀表征和形態結構,如圖7所示。
針對若干張螨蟲RGB圖像,分別采用方向梯度直方圖(HOG)、局部二值模式算法(LBP)及SIFT算法進行特征提取,所獲特征圖結果如圖8、圖9所示。
由以上結果可以觀察到,經典的人工建模方法所得圖像特征信息比較片面,要么是注重某些角點特征,要么是側重邊緣特征等,視覺模式相對單一,并不能很好地表達一個較為通用的特征模式,往往都是針對于某些比較單一的下游任務。
3.3基于遷移預訓練網絡模型的圖像識別比較實驗
文章就AlexNet和VGG16使用螞蟻/蜜蜂微小規模數據集作為訓練數據集和驗證數據集,通過圖像識別應用來驗證2種方法的性能優劣。在訓練集中共有蜜蜂圖像樣本121張,螞蟻圖像樣本124張。驗證集中蜜蜂與螞蟻圖像樣本分別為83張、70張,由于樣本數量很少,故采用20輪迭代訓練來快速比較2種方法的優劣,同時為避免過擬合的發生,兩者均使用Adam優化函數,其中,基于AlexNet的訓練過程與結果如圖10所示。
圖10反映了訓練過程中的誤差率變化,但該模型在訓練集上與其在驗證集上的表現隨著訓練迭代的不斷進行反映出較大的差異,在驗證集上沒有收斂的跡象,反而越發發散,表現出與訓練集較大的方差。接著再使用VGG16預訓練模型進行迭代訓練,其誤差率的變化情況如圖11所示。
在分類識別任務中,2種不同的方法所取得的效果有一定差距,是由特征提取器的性能所決定。由此量化結果可以得出VGG16的特征提取效果明顯好于AlexNet。文章將在VGG16的基礎上,通過引入可視化模塊進行進一步實驗,以確保搭建一個性能優良且結果直觀的網絡模型。
3.4螨蟲圖像特征可視化
針對預置641×414×3尺寸的螨蟲RGB圖像(圖12),進行特征提取并輸出1至13層可視化特征圖,其中具有代表性的第2、4、7、13層的不同特征通道示例如圖13所示。
由圖13不難發現,隨著網絡的層次不斷加深和特征圖空間尺寸的逐步變小,其各層級特征圖所表征的空間細節也逐步向語義信息過渡,以達到使用更小的計算消耗便可以準確表達圖像所蘊含的關鍵信息。圖13比較直觀地描繪了螨蟲圖像處于不同網絡層級的特征信息的具體情況。
4結論
文章圍繞螨蟲顯微圖像特征提取這一具體任務,通過使用不同時期的相關特征提取算法,根據科學實驗的直觀、量化結果,循序漸進地搭建一套基于VGG16的特征可視化網絡模型,其表現出良好的特征提取效果,具有一定的應用價值。文章相關的圖像特征研究對于基于卷積神經網絡的計算機視覺也具有一定的參考價值。
參考文獻:
[1]Newell A J,Griffin L D.Multiscale histogram of orient-ed gradient descriptors for robust character recognition[C]//2011 International Conference on Document Analy-sis and Recognition.IEEE,2011.
[2]ZhangG,HuangX,Li S Z,etal.Boosting local binary pattern(LBP)-based face recognition[C]//Sinobiometrics,2004:179-186.
[3]YanK,Sukthankar R.PCA-SIFT:A more distinctive rep-resentation for local image descriptors[C]//Proceedings of the 2004 IEEE Computer Soiety Conference on Com-puter Vision and Pattern Recognition.Washington:IEEE,2004:506-513.
[4]Xie X M,HanX,LiaoQ,etal.Visualization and prun-ing of SSD with the base network VGG16[C]//Interna-tional Conference on Deep Learning Technologies.ACM,2017:90-94.
[5]Lin T Y,RoychowdhuryA,MajiS.Bilinear CNN models for fine-grained visual recognition[C]//Proceedings of the 2015 IEEE International Conference on Computer Vi-sion.Santiago:IEEE,2015:1449-1457.
[6]楊艷青,柴旭榮.基于人工神經網絡法的遙感影像分類研究[J].山西師范大學學報(自然科學版),2017,31(1):94-98.
[7]李儉川,秦國軍,溫熙森,等.神經網絡學習算法的過擬合問題及解決方法[J].振動,測試與診斷,2002,22(4):16-20+76.
[8]杜曉鳳,李翠華,李晶.基于復合感受野的輪廓檢測算法[J].電子與信息學報,2009,31(7):1630-1634.
[9]耿增民,余夢巧,劉峽壁,等.融合注意力機制與知識蒸餾的孿生網絡壓縮[J].中國圖像圖形學報,2020,25(12):2563-2577.
[10]邊小勇,費雄君,穆楠.基于尺度注意力網絡的遙感圖像場景分類[J].計算機應用,2020,40(3):872-877.
[11]趙志宏,楊紹普,馬增強.基于卷積神經網絡LeNet-5的車牌字符識別研究[J].系統仿真學報,2010,22(3):638-641.
[12]田艷玲,張維桐,張鍥石,等.圖像場景分類技術綜述[J].電子學報,2019,47(4):915-926.
[13]司念文,張文林,屈丹,等.卷積神經網絡表征可視化研究綜述[J].自動化學報,2022,48(8):1890-1920.
[14]王鑫.西夏瑞獸文物圖像增強與三維重建研究與實現[D].銀川:寧夏大學,2021.
[15]尹文楓,梁玲燕,彭慧民,等.卷積神經網絡壓縮與加速技術研究進展[J].計算機系統應用,2020,29(9):16-25.
[16]韋越,陳世超,朱鳳華,等.基于稀疏正則化的卷積神經網絡模型剪枝方法[J].計算機工程,2021,47(10):61-66.
Study on Visual Convolutional Neural Network of Image Features of Mites
TIAN Huan1,WANG Xin2
(1.Department of Modern Service,Lanzhou Vocational and Technical College,Lanzhou Gansu 730070,China;
2.School of Electronic Information Engineering,Lanzhou Vocational and Technical College,Lanzhou Gansu 730070,China)
Abstract:Mites are ancient micro-parasitic pests,which are closely related to people′s health.Using data-driven deep learning technology to conduct feature learning analysis on large-scale mite images will greatly pro-mote the research progress of related disciplines.This paper introduced artificial modeling,classical convolutional neural network algorithms such as AlexNet and VGG16,and combined with feature map visualization to explain the deep working mechanism of convolutions,which has certain research value for the biological fields related to mites and advanced computer vision methods.The experiment proves that the data feature extraction structure adopted in this paper is not only suitable for the visualization research of mite images,but also can be extended to other fields with certain robustness,in order to provide a universal method for visualization experiments and research of other disciplines.
Keywords:mites;convolutional neural networks;VGG16;feature visualization