李遠, 時旭, 楊正春, 譚崎娟, 黃鴻*
(1.重慶大學 光電技術與系統教育部重點實驗室,重慶 400044;2.重慶市婦幼保健院 超聲科,重慶 401147;3.重慶大學附屬腫瘤醫院 影像科,重慶 400030)
高光譜成像(Hyperspectral Imaging, HSI)技術是一種先進的圖像空間信息與光譜信息提取技術,能同時獲取拍攝對象的二維空間信息和一維光譜信息,覆蓋可見光、紅外和紫外等光譜范圍,其已成功應用于遙感監測、藝術保護以及食品安全等[1]。在生物醫學領域,高光譜成像作為一種非侵入性的輔助診斷手段,因其可提供有關組織生理、形態和生化成分的診斷信息,為生物組織學研究提供精細的光譜特征,正逐漸受到廣泛關注[2-5],并已成功應用于非侵入性疾病的診斷和監測[6-7]、圖像引導的微創手術[8]和藥物劑量評估[9]等。近年來,隨著精準醫學理論的高速發展,如何針對高光譜醫學圖像高維度、高冗余度以及“圖譜合一”的特點,設計高效與精確的診斷算法已成為高光譜醫學圖像分析領域的研究熱點。
傳統的高光譜醫學圖像分類方法通常在提取手工特征之后,使用分類器對其分類。Duan[10]等提出一種旋轉不變的局部二值化模式作為紋理特征,同時結合形狀特征和光譜特征,采用支持向量機(Support Vector Machine,SVM)對白細胞進行分類。Ruiz[11]等使用SVM和隨機森林(Random Forest, RF)對活體大腦高光譜圖像進行分類,驗證了傳統分類方法的潛力。Baltussen[12]等對腹腔鏡獲取的結腸癌高光譜圖像進行特征提取后,采用SVM對三種組織類型進行區分。然而傳統的高光譜圖像分類方法無法提取深層特征,其性能受到很大限制。
近年來,深度學習作為一種端到端的方法,已開始應用于高光譜醫學圖像處理領域。其中,卷積神經網絡(Convolutional Neural Network,CNN)成為主流,其使用局部感受野,并且隨著網絡層數的加深,逐漸提取深層特征,在診斷任務中表現優異。Huang等[13]提出了一種將調制Gabor小波與深度卷積神經網絡核相結合的血細胞分類框架(Modulated Gabor CNN,MGCNN),將調制Gabor濾波與卷積神經網絡相結合,對血細胞進行分類。Wei[14]等設計了一種雙通道CNN提取局部特征與全局特征,取得了比傳統卷積神經網絡更好的分類結果。Zhang[15]等提出了一種基于卷積組合單元的三維卷積神經網絡(3DPulCNN),對肺癌三種亞型進行分類。Hu[16]等提出一種空-譜聯合卷積神經網絡,對胃部病理組織進行識別。然而,高光譜圖像波段數量豐富,傳統的卷積神經網絡無法在長距離波段之間挖掘有效的關系信息,并扭曲其原有的光譜序列關系。這限制了卷積神經網絡方法在高光譜醫學圖像上的性能。
Vision Transformer(ViT)以其強大的全局建模能力而受到廣泛關注[17]。ViT中的自注意力機制,可以捕獲長距離光譜波段間的關系,更好地對光譜序列建模,已在高光譜醫學圖像領域取得一定成效。Zhou等[18]提出一種 Swin-spectral Transformer用來獲得有效的光譜和空間特征表示。Li[19]等提出一種光譜紋理Transformer,用來感知光譜上下文信息。Li[20]等提出一種多層協同生成對抗Transformer,用于緩解高光譜醫學標記樣本數量的不足,加深而受限的問題。然而高光譜醫學圖像在獲取過程中,由于采集設備、操作手段,以及預處理方式(光譜矯正、降噪以及解混等)的不同,其光譜分辨率、空間分辨率也往往不同,所拍攝生物組織的光譜曲線差異較大。因此,每個具體的診斷任務往往需要設計不同的算法。當上述算法應用于不同的診斷任務時,其性能難以滿足更進一步的精度需求。
最近,研究人員開始結合Transformer模型和空-譜注意力機制,以提升高光譜圖像分類的精度。空-譜注意力機制可以更好地捕捉關鍵的空間和光譜信息,并根據不同類型的高光譜圖像的特點挖掘關鍵的空-譜信息。Peng[21]等設計了一種雙分支結構的交叉空-譜注意力,其中空間分支用來獲取細粒度的空間信息,光譜分支用來建立光譜序列之間的關系。Ouyang[22]等提出一種空-譜注意力機制,用于依次捕獲空間信息和光譜信息,使模型更加關注差異化的空間和光譜位置。Liu等[23]提出一種雙流深度空-譜注意力機制,分別用于關注空間維度和光譜維度的特征。然而,這些空-譜注意力機制只是簡單地將輸入特征分別處理成光譜序列或空間序列,再依次或并行使用自注意力機制對這兩種序列進行長距離關系捕獲,并未對自注意力機制本身進行改進,使其具備空-譜特征提取能力。此外,這些高光譜圖像分類算法中,往往只進行單一地輸出預測,未能結合多個視野的信息對圖像類別進行綜合預測,這給模型的性能帶來了瓶頸。
基于此,本文提出了一種空-譜自注意力Transformer (Spatial-spectral Self-attention Transformer, S3AT)。首先,為了適應不同儀器設備所采集的高光譜醫學圖像的空-譜信息密度不同,該模型在原有自注意力機制基礎上,將空間注意力和光譜注意力融入自注意力機制中,尋找空間特征和光譜特征之間的內在關聯,得到空-譜自注意力。其次,將不同空-譜Transformer編碼器中的卷積核大小設計為不同尺寸,以獲得不同視野下的空-譜自注意力,并對其進行融合。在最后分類過程中,網絡在不同視野下分別進行預測,并將預測結果使用可學習的預測權重進行融合,形成最終分類結果。在In-vivo Human Brain 和 BloodCell HSI數據集上進行的實驗表明,該方法充分挖掘了空-譜特征,有效地融合不同視野下獲取的信息,在不同儀器所獲得的高光譜醫學圖像上均具有明顯的精度優勢。
本文所提出的S3AT算法如圖1所示。首先以高光譜圖像的一個像素點為中心取出一個圖像塊作為樣本,沿光譜維將圖像塊展開后輸入S3AT網絡。網絡由三階段空-譜Transformer編碼器組成,其內部卷積核的空間感受野(kernel size)依次由大到小。在每個階段的編碼器中,所獲得的空-譜自注意力會與之前更大視野下所獲得空-譜自注意力進行融合。最后,通過可訓練系數對這些不同視野下預測進行加權融合,形成最終的輸出結果。下面對空-譜Transformer編碼器和預測加權融合分別進行介紹。

圖1 空-譜自注意力Transformer流程圖Fig.1 Flowchart of spatial-spectral self-attention transformer
在不同儀器、不同獲取條件獲得高光譜醫學圖像中,信息在空間像素間、光譜波段間的分布往往存在較大差異,這需要模型精細地描繪像素與像素間、波段與波段之間的關系,自適應地挖掘空間信息與光譜信息之間的內蘊關聯。因此,本文設計了一種空-譜Transformer編碼器,其如圖2(a)所示。首先,通過層歸一化、線性層和Reshape(sequence to patch)操作,將輸入特征映射為三個矩陣Q∈Rb×w×w,K∈Rb×w×w和V∈Rb×w×w,其中w為特征的空間尺度,b為特征所含波段數。隨后,這三個矩陣輸入空-譜自注意力(Spatial-spectral Self-attention,S3A)機制模塊,以獲取空-譜特征。在空-譜自注意力模塊中,將Q輸入空間注意力模塊,以精確地挖掘高光譜醫學圖像中不同像素間的關系,賦予特征圖不同空間位置的以不同的重要性,提取更加具有鑒別性的空間特征,其具體結構如圖2(b)所示。首先通過全局最大池化和全局平均池化對Q的通道域特征進行壓縮,并將所得的兩個特征沿通道維進行拼接。接著,通過一個卷積層將這個二通道特征轉換為單通道特征,再以一個Sigmoid函數對其激活得到空間注意力。此過程可表示為:

圖2 空-譜Transformer編碼器結構圖Fig.2 Structure of spatial-spectral transformer encoder
其中,AvgPool(·)表示平均池化操作,
[·]表示特征圖拼接,MaxPool(·)表示最大池化操作,Sigmoid(·)為Sigmoid激活函數操作,fn×n(·)表示卷積層,其中n表示感受野大小。將Q與空間注意力進行點乘并殘差連接,再以ReLU函數激活,可得空間特征:
獲取空間特征之后,為了精確地描繪波段與波段之間的關系,更好地賦予不同波段以不同權重,提取對診斷有幫助的波段,將K輸入光譜注意力模塊,其結構如圖2(c)所示。首先,使用最大池化和均值池化,把K的每個波段內的空間特征信息進行壓縮。然后采用MLP對壓縮特征進行映射,以提高壓縮信息的遷移能力。最后,在每個波段上對兩種壓縮方式得到的壓縮信息相加融合并以Sigmoid函數激活,得到光譜注意力。這個過程可表示為:
其中,MLP(·)為多層感知機。隨后可得光譜特征:
為了獲得空間特征和光譜特征的內蘊關聯,詳細地刻畫高光譜醫學圖像空-譜信息分布,將Fspa和Fspe進行點積,可得本層編碼器下空-譜自注意力。為了更好地利用不同視野下所獲得的空-譜自注意力,對不同視野下所獲的關鍵空-譜信息進行整合,本文設計的空-譜自注意力中,將之前更大視野下獲得空-譜自注意力Apre與本層所得空-譜自注意力進行拼接融合,并接一個卷積層對拼接后的維度進行降維。記本層編碼器的序號為i,i∈{1,2,3},則多視野融合后的空-譜自注意力可表示為:
隨后,Aspa-spei會分成兩條支路:一路會直接輸入下一個編碼器進行不同視野關鍵信息融合,另一路會和fn×n×n(V)進行點乘,得空-譜特征為:
其中:fn×n×n(·)表3D卷積層,n表示本層編碼器感受野大小。最后,經過Reshape (patch to sequence),LayerNorm以及Linear層后,空-譜特征從本層編碼器輸出。
如圖1所示,文本設計了一種多視野預測融合(Multi-View Predictions Fusion,MVPF)策略,將不同感受野下的編碼器對樣本分別進行預測,并對所有預測結果進行有機融合,彌補網絡模型單一預測的不足。具體而言,將三個不同視野下的Transformer編碼器所得空-譜特征分別接以一個分類器,輸出三個類別預測,再對這三個預測進行加權融合。將大視野到小視野所得的三個預測分別表示為p1,p2和p3,則最終融合預測pfusion滿足:其中,αi,i∈{1,2,3}為第i個視野下的可訓練預測權重。這些權重的訓練使用標準的反向傳播算法來進行。由(7)式可得:
設損失函數為L(pfusion),則對于可訓練參數α1和α2的梯度可以通過鏈式法則計算得到,其表達式如下:
為了詳細說明S3AT的結構,受篇幅所限,其重要可訓練網絡參數如表1所示。

表1 S3AT的模型參數Tab.1 Model parameter of S3AT
為了驗證S3AT在面向不同儀器、不同成像以及不同預處理方式下所獲得高光譜醫學數據,均具有出色的分類性能,本文采用In-vivo Human Brain HSI Dataset 和 BloodCell HSI Dataset來進行對比實驗。下面分別對其進行介紹:
(1) In-vivo Human Brain HSI Dataset( Brain HSI Dataset):該數據集由英國南安普頓大學醫院(UHS)和西班牙拉斯帕爾馬斯大學內格林醫院(UHDRN)共同采集。采集系統由Hyperspec?VNIR A-Series相機組成。相機基于推掃技術,使用硅CCD探測器陣列,最低幀率為90幀/秒,光譜范圍為400~1 000 nm,光譜分辨率為2~3 nm,可捕獲826個光譜波段,每行1 004個空間像素。采集對象為進行開顱切除腦腫瘤手術過程中的16名成年患者,最終獲得26張高光譜圖像,其共包含背景、正常、腫瘤以及血管四個類別。在本文實驗中,選取包含全部四種類別的高光譜圖像進行實驗,共包含6個病人、9張圖像。
(2) BloodCell HSI Dataset:該數據集是通過將顯微鏡和硅電荷耦合裝置與VariSpec?液晶可調諧濾波器(Liquid Crystal Tunable Filter,LCTFs)結合起來收集。該數據集包含兩張血細胞圖像,其分別命名為Bloodcell1-3和Bloodcell2-2。Bloodcell1-3的大小為973×799 pixel,Bloodcell2-2的大小為462×451 pixel,它們都含33個波段。每張高光譜圖像含有紅細胞、白細胞和背景3個類別。
由于成像方式不同,采集設備不同,以上兩個數據集中的高光譜圖像的空間分辨率和光譜分辨率存在較大差異,進而空間信息和光譜信息分布有所不同。為了展示這個特性,在兩個數據集中各自隨機選取一個樣本點,以其為中心裁剪出一個patch,分別做出光譜曲線以及某個隨機波段的二維圖像,最終可視化結果如圖3所示。

圖3 Brain和BloodCell HSI數據集上的空間和光譜信息可視化Fig.3 Visualization of spatial and spectral information on Brain and BloodCell HSI Dataset
由圖3可知,本文采用的兩個數據集中圖像的波段數、光譜曲線以及空間分辨率存在較大差異,因此可以驗證所提出算法在不同類型高光譜醫學圖像上的有效性。
為驗證本文算法的有效性,選取卷積神經網絡方法HybridSN[24],SSRN(Spectral-Spatial Residual Network)[25]和DBDA(Double-Branch Dual-Attention )[26],Transformer深度學習方法Spectral-wise ViT[27],SSFTT[28]和CTMixer[29]作為對比算法。每種算法重復進行10次實驗,以均值±標準差(Standard Deviation,STD)的形式表征總體分類精度(Overall Accuracy,OA)、平均分類精度(Average Accuracy,AA)以及Kappa系數(Kappa Coefficient,KC),以便綜合比較并判斷各算法的分類性能。在實驗中,按波段對高光譜血細胞數據進行歸一化處理,而學習率以及樣本Patch大小,均由實驗確定。在兩個數據上的實驗設置如表2所示。

表2 Brain和BloodCell HSI數據集上的實驗設置Tab.2 Experimental setup on Brain and BloodCell HSI datasets
為了對所提出的S3AT進行全面的研究,本文分析了樣本patch大小和學習率對分類精度的影響。對于輸入樣本patch大小,不僅影響空間信息量,而且影響模型的復雜性。至于學習率,學習率過大會導致模型過快收斂到次優解,而學習率過小則會導致導致收斂過程停滯。因此,這些參數需要進行實驗以獲得更好的分類精度。對于學習率,選取范圍為{1×10-5,1×10-4,1×10-3,1×10-2}。對于樣本patch大小,選取范圍為{3,5,7,9,11}。實驗中,采用網格搜索確定最佳參數,數據集劃分與表1相同,結果如圖4所示。

圖4 Brain和BloodCell HSI數據集上的參數分析Fig.4 Parameter analysis on Brain and BloodCell HSI datasets
由圖4(a)和圖4(b)可知,增加樣本patch大小可以明顯提高分類精度。這是因為更大的patch包含了更多的空間信息,提高了樣本的鑒別性。考慮到運算效率,在兩個數據集上,patch大小均設為9。同時,過小的學習率會使得模型更難獲得高級特征,而學習率過大會使模型發散和梯度爆炸,因此在本文兩個數據集中,學習率均設置為1×10-3。
在文本所提出的S3AT模型中,空-譜自注意力機制和多視野預測融合策略占據關鍵地位。為了驗證它們的有效性,以單視野下的原始Transformer網絡為Baseline,在Brain HSI數據集上進行關于視野個數(Number of Views, NV)以及空-譜自注意力機制的消融實驗。結果如表3所示。

表3 S3AT關于不同模塊的消融實驗分析Tab.3 Ablation analysis of the proposed S3AT with a combination of different components
由表3可知,將S3A單獨添加到單視野網絡后,OA,AA和KC分別提升了3.39%,4.44%和10.35%。這說明S3A模塊成功關注到了關鍵的空-譜特征區域,提取出了更具鑒別性空-譜特征。在添加S3A的狀態下,隨著視野數的增多,模型的預測能力得到進一步的提升。這是因為多視野預測融合策略成功融合不同視野下的決策。當視野個數為3時,模型分類表現達到最優。其OA,AA和KC分別提升了7.79%,5.88%和12.08%。當視野個數進一步增大時,模型預測性能下降,這是因為過多的視野使得模型過于復雜,引入過多可訓練參數,陷入過擬合狀態。
在本文所提出的S3AT模型中,多視野預測融合策略占據了重要地位。為了展示不同視野下的預測效果,在Brain HSI數據集上,分別使用三個視野下對應的分類器單獨對整張測試圖像進行預測,同時使用預測融合后的預測圖作為對照,實驗結果如圖5所示。

圖5 多視野預測融合分析Fig.5 Analysis of multi-view predictions fusion
圖5可以看出,在原有各個視野下的預測的基礎上,多視野預測融合策略取得了更好的分類效果。這是由于不同視野下的空-譜Transformer編碼器獲得了不同的關鍵信息,所設計的多視野融合策略有效地對這些信息賦予不同的權重,有效地對其進行整合,從而更好地利用不同視野下所獲的信息,取得更高的分類精度。值得注意的是,從大視野至小視野,模型所獲的預測權重分別為0.41,0.36和0.23。這是因為模型在大視野下獲得了更多的整體信息,而在小視野下,模型獲得更多的細節信息作為補充。
3.6.1 Brain HSI數據集結果
在Brain HSI數據集上,實驗結果由表4所示。由表4可知,ViT取得了最差的分類精度。這是由于ViT偏重于光譜特征提取,未能充分提取到充足的空間特征。其余對比方法均取得了稍好的分類結果,這是因為它們均包含空-譜特征提取模塊,提升了模型的鑒別能力。在對比方法中,SSRN取得了更好的分類結果,這是因為SSRN中的空間注意力和光譜注意力模塊關注到了重點空間區域和重要光譜波段,消除了特征冗余。然而,其單一的預測使得模型精度受限。在所有方法中,本文提出的方法取得了更好的分類結果。這是因為S3AT中的空-譜自注意力機制賦予空-譜特征以不同權重,并且其將不同視野下的診斷預測按不同的權重進行融合,提升了模型的預測能力。

表4 Brain HSI數據集上不同算法的分類結果Tab.4 Classification results of different algorithms on Brain HSI Dataset(%)
為了直觀對比不同方法的預測,在上述實驗中,取其中一次實驗中一張預測圖作為展示,結果如圖6所示。可以看出,本文算法相比其他方法,分類圖錯分點較少,更為平滑。這是因為S3AT在面向基于反射光成像的高光譜圖像時,可以自適應地獲取空-譜自注意力,詳細地描繪出圖像的空-譜信息分布,挖掘更具鑒別性的空-譜特征,并將多視野所得到的空-譜自注意力融合。此外,在預測階段,多視野預測的有機融合,使得模型的預測更加精確。

圖6 各算法在 Brain HSI數據集上的分類結果圖Fig.6 Classification maps of different methods on Brain HSI Dataset
3.6.2 BloodCell HSI數據集結果
在BloodCell HSI數據集上,實驗結果如表5所示。由表5可知,S3AT在大多數指標上,依舊取得更好的分類結果。這是因為在面向基于顯微鏡透射光成像的高光譜圖像時,S3AT的空-譜自注意力模塊仍然能夠捕獲關鍵的空-譜信息,提高模型的分類能力,并且融合了不同視野下的診斷信息。這說明S3AT可以適用于不同儀器、不同成像方式所獲取的高光譜醫學圖像,具有較好的泛化性,節約了模型開發成本。為了直觀對比不同方法的預測,在上述實驗中,取其中一次實驗的預測圖作為展示,結果如圖7所示。由圖7可知,S3AT所得分類圖更為光滑,誤分點較少。這說明基于空-譜自注意力機制和多視野預測融合的S3AT算法的分類性能有明顯提升,具有強的魯棒性,更適合實際應用場景。

表5 BloodCell HSI數據集上不同算法的分類結果Tab.5 Classification results of different algorithms on BloodCell HSI Dataset(%)

圖7 各算法在BloodCell HSI數據集上的分類結果圖Fig.7 Classification maps of different methods on BloodCell HSI Dataset
所有算法在執行時都需要消耗時間和空間資源,因此,對算法的時空代價進行分析非常必要。在神經網絡中,參數數量可用于表示網絡的空間復雜度和大小,也對應計算機內存資源的消耗。該指標越小,則表示網絡的空間復雜度越小。浮點運算次(Floating Point Operations,FLOPs)表示每秒完成預測所需的計算量,用來衡量網絡的運算速度。該指標越小,則表示網絡的時間復雜度越小。而推理時間則直接反映了一個算法在某一個設備上運算效率。使用Brain HSI Dataset上對32個測試樣本在對本文使用的所有算法進行時空代價分析,實驗平臺如表1所示,實驗結果如表6所示。

表6 不同算法的參數量、FLOPs以及推理時間比較Tab.6 Parameters, FLOPs and inference time comparison of different algorithms
如表6可知,S3AT相比HybridSN,SSRN,DBDA,ViT取得了更少的運算次數、更少的推理時間以及更少的模型參數(DBDA除外)。雖然SSFTT和CTMixer在時間復雜度上取得更低的結果,但S3AT分類性能比上述兩個算法有顯著性提升。這說明本文所提出算法具有較高的性能和效率,在高光譜醫學圖像分類任務中得到更好的表現,進而可以在計算資源受限的場景下得到更好地應用,具有較高的實用價值和推廣前景。
在高光譜醫學圖像分類任務中,為了克服Transformer網絡難以適應不同類型的高光譜圖像而導致的性能表現差異較大,以及未能使用多個感受野的空-譜信息的問題,本文基于空-譜自注意力機制以及多視野預測融合策略,提出一種空-譜自注意力Transformer (S3AT)。該方法能根據高光譜醫學圖像中的空-譜信息分布,自適應挖掘重點空-譜信息,并將不同感受野下所獲得空-譜自注意力進行融合,且將不同感受野下的預測進行加權融合。在Brain和Bloodcell HSI高光譜數據集上,OA,AA和KC分別獲得了82.25%,82.27%和76.17%以及91.74%,88.97%和81.86%。實驗結果表明,S3AT對不同類型的高光譜醫學圖像,均具有高精度的分類效果。然而,S3AT中的各個感受野大小為手工設定,未能根據圖像自適應進行尺寸調整。因此下一步研究工作將關注如何設計一種自適應動態感受野,從而使模型更加有效地獲取不同視野下的空-譜信息。