基于注意力機制的增強特征描述子

2021-05-17 05:31:22胡浩博何儒漢胡新榮

計算機工程 2021年5期

陳佳，胡浩博，何儒漢，胡新榮

（1.武漢紡織大學數學與計算機學院，武漢 430000；2.湖北省服裝信息化工程技術研究中心，武漢 430000）

0 概述

圖像匹配是一種通過傳感器獲取不同條件下的待匹配圖像，采用抽象形式提取圖像特征并對特征進行參數描述，再運用所描述的參數進行匹配的方法［1］，且作為計算機視覺領域的關鍵性技術而得到廣泛應用。在影像醫學方面，磁共振成像（Magnetic Resonance Imaging，MRI）技術因其良好的成像方式已成為一種常用和重要的疾病檢測技術。利用MRI技術對人體的非均質柔性生物組織在不同情況狀態下獲得圖像，并使用圖像匹配技術計算出變形前后影像中的特征在目標圖像上產生的精確位移，從而獲得柔性生物組織彈性模量及泊松系數等物理參數，可應用于器官的損傷程度分析以及虛擬外科手術仿真過程中。

由于生物組織受力后形成的非規則、非線性變形場比器官蠕動、呼吸、肌肉伸縮等非線性醫學影像配準［2］產生形變的程度更大且變形場更為復雜，并且柔性體變形場的測量精度要求高于影像配準。因此，實現快速、準確的圖像特征點［3-5］描述是一項極具挑戰性的難題。早期以手工特征為代表的尺度不變特征變換（Scale-Invariant Feature Transform，SIFT）算法［6］在圖像處理的實際應用中非常廣泛，但是因其特征描述子維度過高會造成計算復雜度增加，難以滿足實時要求且無法避免人工標注特征點帶來的弊端以及特征表達欠缺的問題。

鑒于傳統SIFT 方法存在較為明顯的局限性但易于融合其他方法進行相應改進［7-9］的特性，受圖神經網絡（Graph Neural Networks，GNN）［10］中每個實體（節點）間相互依賴的特性與注意力機制思想的啟發，本文提出一種基于圖神經網絡與注意力機制相結合的特征描述方法。該方法利用多層感知機（Multi-Layer Perceptron，MLP）將特征點的位置信息映射到高維空間中，并通過與特征向量相結合，解決了將特征點構建到高維圖結構中的問題。通過運用注意力機制的思想傳遞消息并更新各個節點的權重，利用線性投影得到的增強描述子來豐富描述特征的信息。

1 相關工作

近年來，國內外研究人員在特征點描述方面做了大量工作與研究［11-13］。早期David Lowe 教授提出的手工特征描述SIFT 算法因其強大的優勢而廣泛應用至今，隨后文獻［14］提出的改進SURF 算法有效提升了速度與實時性，文獻［15］所提與深度學習相結合的特征描述算法SuperPoint 在真實場景下表現出優異的性能。

雖然深度學習在歐氏空間中的數據方面取得了顯著成績，但是眾多成功的案例表明，很多實際應用場景中的數據是從非歐式空間中生成的且需要進行有效分析。圖神經網絡是將深度學習應用在圖數據上的一種神經網絡結構，它借鑒了卷積網絡、循環網絡和深度自動編碼器的思想，其中使用較為廣泛的CNN 是圖卷積神經網絡（Graph Convolutional Network，GCN）和圖注意力網絡（Graph Attention Networks，GAT）等。文獻［16］首次將GCN 用于圖像語義分割并提出了Graph-FCN 模型，因為使用卷積神經網絡提取特征時，這些特征由于下采樣的原因會導致局部位置信息的損失，而局部位置信息對于語義分割任務至關重要。網絡層數的加深會使得感受野逐漸增大，此時網絡不僅具備局部特征，而且可同時捕獲到更加全面的特征，使得捕獲的特征信息更加鮮明，該做法的優勢是能夠放大數據中最重要部分的影響，且該特性已被證明對機器翻譯和自然語言理解等任務是有效的。文獻［17］利用MLP 對GNN 提取的物品特征和節點特征進行評分預測推薦。隨著融入注意力機制的模型數量持續增加，圖神經網絡在聚合過程中使用注意力可對多個模型的輸出進行整合。文獻［18］運用多層注意力神經網絡對中文隱式篇章關系進行識別，并有效提高結果準確率。

目前，多數特征描述方法僅考慮特征點附近的局部特征信息，而忽視相鄰關鍵點之間的聯系，從而缺乏信息的豐富性并導致特征描述的信息缺失。為解決該問題，本文提出一種基于GAT 的增強特征描述子。一方面通過消息傳遞機制可有效利用圖神經網絡中復雜的節點信息，另一方面運用注意力機制可摒棄無用和干擾信息，并有效完成對特征點的描述。

2 增強特征描述子

2.1 增強特征描述子基本框架

本文提出一種基于注意力圖神經網絡的增強描述子，先運用多層感知機將關鍵點位置信息嵌入到高維空間中，再通過與初始描述子相結合來構建圖神經網絡模型。本文通過引入注意力機制來提高描述子生成模型的魯棒性。借鑒人類視覺中的選擇性視覺注意力機制，通過快速掃描源圖像和目標圖像來獲取需要重點關注的相似目標區域，然后對該區域投入更多的計算資源，以獲取更多需要關注的細節信息并抑制其他無用信息。本文增強特征描述框架如圖1 所示。

圖1 本文所提增強特征描述框架Fig.1 Framework of the proposed enhanced feature description

2.2 關鍵點編碼器

關鍵點編碼器利用多層感知機將圖像中的關鍵點位置信息與關鍵點初始描述子相結合，并用于之后形成的復雜圖結構。

在非均質柔性生物組織產生非線性形變時的二維MR 影像上，采用高斯差分算子（Difference of Guassians，DoG）與Harris 角點檢測算子提取大量的特征點，并采用SIFT 描述子對提取的特征點進行描述，從而得到初始描述子di。同時，通過MLP 將特征點位置信息pi嵌入到高維空間，再將初始描述子與嵌入后得到的結果相結合形成局部特征，具體如式（1）所示：

2.3 注意力圖神經網絡

考慮到關鍵點在同一影像的空間和視覺關系，例如突出的關鍵點、自相似的關鍵點或相鄰的關鍵點的同時，還應考慮從另一張目標圖像中的局部特征獲取信息。尤其是對比2 個模棱兩可的圖片時，人們通常都會反復在2 張圖片之間查看，以篩選出試探性的匹配關鍵點，并通過尋找周圍的線索來幫助區分相同與相似之處。基于此，本文在圖神經網絡中引入了注意力機制。在傳統手工描述子的基礎上，將圖像內和圖像間的特征進行聚合并得到增強描述子為fi∈?D。

在由特征點構成的圖結構中，節點為關鍵點，邊則分為同一圖像內關鍵點的邊εself以及不同圖像間關鍵點的邊εcross。采用消息傳遞式（2）沿上述2 種類型的邊傳播信息，其中在同一圖像中傳遞消息時稱為自我注意，而在不同圖像間傳遞消息時則稱為交叉注意。傳遞的信息在不同層次及層次間可聚集和更新。例如，(L)xAi可以看作是關鍵點i在源圖像A中的L層上。消息傳遞式的結果mε→i是所有關鍵點{j：(i，j)∈ε}消息聚合的結果，其中ε∈{εself，εcross}。源圖像A中其他剩余關鍵點i的消息傳遞更新如式（2）所示：

目標圖像B中的所有關鍵點也同時執行類似的更新，將指定數量具有不同參數的層L鏈接起來，并同時沿著圖像內的邊和圖像間的邊進行消息聚合。當L=1 時，如果L為奇數時，則ε=εself；如果L為偶數，則ε=εcross。此時，通過傳遞消息mε→i并進行相應的計算過程是注意力聚焦的過程，它類似于數據庫中的檢索數據，且i相當于查詢qi的形式，通過某些元素的屬性（關鍵字ki）來檢索某些元素的值vi。消息計算過程具體如式（3）所示：

其中，權重wij是Softmax 在關鍵字和查詢上的相似度，且wij=Softmaxj(qikj)。

鍵、查詢和值被看作圖神經網絡深層特征的線性投影，則所要查詢的關鍵點i在圖像Q中，源關鍵點在圖像S中。

在每一層L中，2 個圖中所有的關鍵點都可以學習和共享，那么可根據初始描述子和關鍵點位置（在表示xi中進行編碼）進行檢索與聚焦，且最終所得到的增強特征描述子是線性投影，具體如式（6）所示：

3 實驗結果分析

3.1 實驗步驟

本文實驗的主要步驟為：

步驟1對圖像數據集進行預處理后，將大量源圖像和形變圖像輸入到本文網絡模型中。

步驟2采用DOG 算子和Harris 檢測器分別從柔性生物組織形變前后的MR 圖像中提取出特征點。

步驟3對于步驟2 得到的特征點，通過采用多層感知機將特征點位置信息編碼并與特征點的初始描述符相結合，運用圖注意力神經網絡進行監督學習，并通過消息傳遞式來調整權值和偏置，以提升模型性能。

步驟4將源圖像和形變圖像的特征描述符作為結果進行輸出。

與傳統手工提取圖片特征描述子方法相比，本文方法得到的特征描述子將包含更多的特征信息，且大幅提升特征描述子的健壯性。

3.2 實驗數據

3.2.1 訓練集

對神經網絡進行訓練時，實驗使用了多視圖立體數據集（MVS）［19］，它包含超過1.5M 個64×64 的灰度圖像塊以及來自不同視圖的500K 個3D 點。同時，本文在該數據集基礎上加入了兩組真實采集的志愿者小腿的初始和變形MR 圖像，具體如圖2 所示。在每對圖像中，左圖顯示的是初始自然姿勢，右圖顯示的是生物組織在一定力作用下的變形姿勢。圖2（a）和圖2（b）分別顯示了在腳背和腳趾上發生推力和擠壓時小腿的變形情況。

圖2 志愿者小腿的初始和變形圖像Fig.2 Initial and deformed images of the lower leg of volunteers

由于真實采集的志愿者MR 圖像樣本容量較小，因此本文對圖2 中的4 張圖片分別進行翻轉、鏡像、旋轉、調節原圖片亮度、對比度、高斯模糊、銳化以及添加噪聲等操作，且每進行一種操作都將轉化后的結果切分成64×64 大小的圖像塊，具體如圖3 所示。

圖3 經過一系列操作后得到的多個64×64 圖像塊Fig.3 Multiple 64 × 64 image blocks are obtained after a series of operations

3.2.2 測試集

本文用真實采集的志愿者MR 圖像作為測試集。由于篇幅限制，這里僅顯示4 組測試圖像并對其進行分析說明。如圖4 所示，每組圖像包括原圖和變形后的圖。圖4（a）為使用推力使腹部變形的圖像；圖（b）為使用壓力使腹部變形的圖像；圖4（c）和圖4（d）為志愿者在側臥的情況下，腹部受到推壓的變形影像。這些圖像是由0.5 T 的MRI 設備拍攝的，其中的視野或FOV 被設置為24 cm×24 cm，兩個切片之間的距離是2 mm。

圖4 志愿者腹部的初始和變形圖像Fig.4 Initial and deformed images of the abdomen of volunteers

3.3 系統環境與參數設置

本文系統采用MATLAB 和Python 混合編程技術實現。使用的工作環境包括一個2.60 GHz Intel?CoreTMi7-9750H CPU 和一個NVIDIA GeForce RTXTM2060 GPU。

實驗使用以下4 個性能指標對實驗結果進行評價：1）總匹配對的數量（NM）；2）正確匹配對的數量（NCM）；3）不正確匹配對的數量（NWM）；4）檢測率（DetectionRate），即正確匹配的對數占總匹配對數的百分比，其計算方法如式（7）所示：

由于在注意力模塊中層數L不同，在每層中的關鍵點的權重wij也會不同，因此注意力模塊中層數L的取值是一個關鍵參數且對實驗至關重要。為找到L的最優值，當層數L為1～11 時，實驗分別計算了不同層數時的特征點匹配率。圖5 給出了層數取值分別為1、3、5、7、9、11 時的檢測率結果。從圖5 可以看出，當層數L取5 時，源圖像與目標圖像的匹配率效果較好，當層數繼續增大時，L取7 和9 時效果并未得到大幅提升，然而當L取11 時，檢測率反而呈下降趨勢。

圖5 層數L 對檢測率的影響Fig.5 Influence of the number of layers L on detection rate

圖6 給出了不同L層數下的程序運行匹配所耗費的時間。從圖6 可以看出，當L取1、3 和5 時，程序運行所耗費的時間較少，但是當L取7、9、11 時，程序運行所耗費的時間驟然增加且呈現出指數級增長。這說明僅增加注意力模塊中的層數不會顯著提高效率。通過結合圖5 和圖6 可知，當層數L取5 時，匹配檢測率最高且花費的時間相對較少，而當層數L取7、9 和11 時，匹配檢測率呈現出下降趨勢且程序運行耗費的時間顯著增加。因此，本文將實驗層數L設定為5。

圖6 在不同層數L 下程序運行耗費的時間Fig.6 The time of program running under different layers L

3.4 方法對比分析

為驗證本文設計模型的有效性與優越性，實驗將本文提出的特征描述方法與SIFT、SURF、DAISY［20］與GIH［21］進行對比分析。其中SIFT 和SURF 都是基于高斯差分的描述子，且已經證明其對于仿射變換是健壯的。DAISY 是面向稠密特征提取的可快速計算的局部圖像特征描述子，它的本質思想和SIFT 是一樣的，但不同的是DAISY 在分塊策略上進行了改進，而GIH 是專門為處理非剛性圖像變形而設計的描述子。上述描述子均使用最近鄰匹配方法進行比較。從圖7（a）和圖7（c）可以看出，本文算法和最近鄰匹配方法相結合所獲得的總匹配對數均多于其他方法，但正確匹配對數與SIFT 方法相比尚顯不足。從圖7（b）和圖7（d）可以看出，本文方法和最鄰近匹配方法所獲得的正確匹配對數明顯優于其他方法，尤其是在圖7（b）的實驗結果中，本文方法所獲得的正確匹配對數明顯高于其他方法，主要是因為在AbdPress 實驗中，下半部分所產生的形變較小，從而導致總匹配對數和正確匹配對數異常高。

圖7 5 種方法在不同實驗上的結果Fig.7 Results of five methods on different experiments

圖8 給出了不同方法在不同實驗上所得的檢測率結果。在圖8（b）AbdPress 實驗結果和圖8（d）SAbdPush2 實驗結果中，本文方法獲得的檢測率均高于其他方法。由于SIFT 方法對于形變程度較小的兩幅圖片匹配具有一定優勢，因此在圖8（a）AbdPush 的實驗結果中，SIFT 方法的檢測率高于本文方法及其他方法。在8（c）SAbdPush1 的實驗結果中，DAISY 方法因其對稠密特征的提取方法較為突出，使得其檢測率高于其他方法。從實驗總體可以看出，本文方法在實驗中獲得的檢測率均處于較高水平且具有比較穩定的效果，但是相較于各種方法的優勢之處仍有提高的空間。

圖8 5 種方法在不同實驗上的檢測率Fig.8 Detection rate of five methods on different experiments

圖9 是使用推力使腹部變形的圖像初始圖像和變形圖像完整的實驗結果，其中圖9 中圓圈所標記出來的點是被DOG 和Harris 從初始圖像中提取出來的107 對特征點，白線是經過本文算法+NN 得出的正確匹配點的連線。

圖9 Abdomen push（AbdPush）實驗結果Fig.9 The experimental results of Abdomen push（AbdPush）

4 結束語

本文提出基于注意力圖神經網絡的增強描述子，該描述子將注意力機制融入圖神經網絡中，運用注意力機制中的自我注意和交叉注意方法設置適合的層數，并通過融合相鄰節點信息來描述特征點。實驗結果表明，與傳統描述子相比，該描述子通過結合最近鄰匹配算法可提升正確匹配對數和檢測率，且對優化MR 影像特征點的匹配具有重要的應用價值。下一步將通過加入零樣本或少樣本的思想方法來優化網絡模型，以解決MR 影像實際樣本較為匱乏的問題。