郭勁文,馬興華,駱功寧,王 瑋,曹 陽,王寬全*
(1.哈爾濱工業大學 計算學部,哈爾濱 150001;2.哈爾濱醫科大學附屬第一醫院,哈爾濱 150001)
心血管疾病(CardioVascular Disease,CVD),亦稱循環系統疾病,是一系列涉及循環系統的疾病,通常由粥樣動脈硬化導致。據最新公開的心血管疾病數據統計,國內身患心血管疾病的人口數量已達3.30 億,且患病人數依然在不斷增長。在國內主要疾病死亡人數的統計中,CVD 占城市居民主要疾病死亡的43.81%,而在農村居民主要疾病死亡的占比更是高達46.66%[1]。隨我國日益嚴重的老齡化趨勢,CVD的死亡率依然在不斷攀升,已對國民健康和社會發展造成了巨大影響。
有效的預防、檢查及治療可顯著降低CVD 的死亡率,血管內光學相干斷層掃描(IntraVascular Optical Coherence Tomography,IVOCT)技術憑借它針對心血管的良好成像已成為醫生診斷CVD 的重要手段。IVOCT 是迄今最前沿的現代化血管成像技術之一,通過近紅外光反射的血管內成像模式成像,在生物組織的成像領域展現了可靠的性能[2-3]。該技術以弱相干光干涉儀的基本原理作為理論基礎,檢測入射弱相干光在生物組織深淺層面背向反射或散射信號的差異,生成生物組織的結構影像。
具體而言,IVOCT 基于邁克爾遜干涉測量法并使用超高亮度二極管發射器作為光源。光源射出的光通過光纖進入光纖耦合器后形成兩束光束,其中一束進入待觀察物體,而另一束則進入圖像信號接收系統。由兩條路徑反射或反向散射的光通過光纖耦合器重新集成到光束中并由檢測器接收。隨后測量光散射的輻射能和通過生物組織時間在不同深度組織之間的差異,進而通過顯示偽色的灰度值得到生物組織影像,其中:淺色(如淺黃色和淺綠色)代表輻射較強的區域;暗色(如藍色和黑色)代表輻射較弱的區域;綠色代表輻射平均的區域[4-6]。
在臨床IVOCT 系統中,數據采集使用了包括定位(Position)、清洗(Purge)、噴入(Puff)以及回撤(Pullback)在內的4P 方法[7-9]。在數據采集過程中:定位用于確定目標位置;清洗利用造影劑清洗成像導管的管腔血液;噴入確保指引導管與冠脈同軸;回撤將近紅外光傳輸到探頭并通過導絲拖拽采集連續的截面反射信號實現管腔內影像的采集。高反射的人造物導絲會導致探頭發射的近紅外光發生反射,因而在拖拽的過程中,極坐標圖像的導絲區域會形成高亮的月牙形偽影,且導絲的遮掩將導致所成影像的導絲后方存在貫穿整個圖像的黑色矩形偽影,如圖1 所示。IVOCT 檢查的所有成像均會不可避免地出現上述導絲偽影,其中偽影面積約占單張影像的10%并且貫穿整個圖像,偽影區域的管腔內壁組織信息無法被獲取。

圖1 IVOCT圖像與導絲偽影Fig.1 IVOCT image and guidewire artifact
醫生在觀察IVOCT 序列時,可根據臨床經驗結合序列上下幀之間的影像信息和導絲偽影運動軌跡,推測導絲偽影區域的影像信息,進而分析管壁與斑塊的表征并診斷CVD。但臨床經驗的差異可能導致不同醫生對于導絲偽影區域圖像信息的推測不一致。去除導絲偽影能夠促進醫療影像系統的現代化和IVOCT 影像診斷CVD 的標準化,有助于醫生更加準確地診斷CVD,減小誤診與漏診的概率。
為去除IVOCT 導絲偽影,本文提出了基于Transformer 的結構強化網絡(Structure-Enhanced Transformer Network,SETN),以生成器(Generator)和判別器(Discriminator)構成的生成對抗網絡(Generative Adversarial Network,GAN)架構重建導絲偽影區域圖像,以提高IVOCT 圖像的連續性與完整性。根據IVOCT 圖像管壁結構復雜以及序列上下幀具有關聯性的特點,SETN 的生成器關注序列上下文信息且針對IVOCT 的管壁結構進行了強化設計。為關聯上下幀特征并通過鄰幀信息強化待復原區域的語義描述,SETN 使用了能夠同時分析單幀空間位置和序列時序的Transformer 模塊挖掘序列的上下文關聯性。此外,在原始圖像(ORIginal image,ORI image)主干生成網絡的基礎上,SETN 引入了并聯的RTV(Relative Total Variation)[10]圖像強化生成網絡完成ORI 圖像和與之對應RTV 圖像導絲偽影區域的重建。RTV重建獲取的結構特征被融入ORI 圖像的紋理特征,用于輔助ORI 主干生成網絡對導絲偽影區域的圖像重建。
本文的主要工作為:1)首次提出了一種基于Transformer的結構強化網絡SETN 用于去除IVOCT 圖像中結構信息復雜且區域占比大的導絲偽影;2)結合IVOCT 圖像結構復雜的特點,提出了在RTV 圖像上提取結構特征的RTV 強化生成網絡,用于在ORI 重建圖像時強化IVOCT 的圖像結構以提高導絲偽影去除性能;3)設計了關注時/空間域信息的Transformer 編碼器,分別從單幀空間域和序列時間域的角度挖掘IVOCT 序列圖像特征的上下文關聯性;4)分別從偽影區域重建性能和計算機輔助診斷(易損斑塊分割以及管腔輪廓線提取)的角度驗證了本文導絲偽影去除方法的實效性。
通過偽影去除技術提高醫療圖像的成像質量在醫療影像的臨床應用中具有重要意義。在放射影像檢查中,由金屬物植入導致X 光線衰減形成的放射狀偽影可以通過去噪技術消除[11]。而IVOCT 為光學成像技術,它的偽影由近紅外光的導絲反射導致部分區域無法成像。圖像補全技術能有效處理區域較大且集中的圖像缺失,因此本文基于圖像補全技術提出IVOCT 導絲偽影去除方法。
基于傳統方法的圖像補全技術主要分為兩類:基于補丁的方法和基于擴散的方法。
基于補丁的方法依次搜索缺失區域并填充高匹配度的補丁。Liu 等[12]使用了馬爾可夫隨機場模型估計并結合單應性變換以增強修復與周圍區域的一致性和結構的連貫性;Ding 等[13]提出了一種利用非局部紋理匹配和非線性濾波的圖像補全方法以兼顧圖像強度和紋理的一致性。
基于擴散的方法將圖像信息從邊界擴散到缺失區域以實現缺失區域的填充。Li 等[14]提出了一種基于擴散的圖像補全方法,通過定位補全區域后利用通道內和通道間變化的局部方差實現數字圖像的補全;Sridevi 等[15]提出了一種基于分數階導數和傅里葉變換的擴散圖像補全方法,以解決補全中階梯狀和散斑偽影的問題。
基于傳統方法的相關技術初步探索了圖像補全的技術路線,并為該任務提供了清晰的解決思路,但與后續發展的深度學習技術相比,傳統方法普遍存在難以應對復雜圖像和高占比缺失的缺陷。
隨著近年來深度學習算法的不斷發展與完善,圖像補全技術得到長足的發展,基于深度學習方法的圖像補全技術主要采用卷積神經網絡(Convolutional Neural Network,CNN)和Transformer 兩種網絡構架。
1.2.1 CNN
深度學習首先以普遍適用于計算機視覺(Computer Vision,CV)任務的CNN 架構引入圖像補全任務。基于CNN的圖像補全方法使用編碼器-解碼器的網絡結構提取圖像特征并復原圖像信息。Xie 等[16]提出了一種自動編碼預訓練的深度網絡修復模型,利用無監督特征學習實現了圖像的修復;Favorskaya 等[17]使用全連接網絡對去除視頻序列中的偽影后的紋理進行重建;K?hler 等[18]通過卷積層學習像素破壞圖像塊到完整圖像塊的映射,進而修復特定掩碼區域。
基于CNN 的方法擅長細節的重建,但受限于修復區域的尺寸等因素。隨著深度學習技術的發展,以CNN 為圖像生成基礎的GAN 架構[19]被提出應用于圖像的生成和補全任務,此類方法利用隨機產生的噪聲逐漸生成待修復對象,克服了CNN 方法受限于修復區域的缺點。GAN 是一個包含生成器G和判別器D(兩個前饋網絡)的博弈學習模型。其中,G通過真實圖像訓練模型參數并生成全新的圖像,而D通過訓練鑒別真實圖像與生成圖像的差異。若D無法區分生成圖像與真實圖像,則認為G的性能滿足要求,這種關系可認為是G和D競爭的最小最大博弈。綜上所述,G(D)試圖最小化(最大化)對抗損失V(D,G)作為損失函數,如式(1)所示:
其中:z和x分別表示噪聲Pz(z)和真實數據分布Pdata(x)采樣的隨機噪聲向量和真實圖像。
在圖像補全相關方法中,G通過學習完整圖像特征生成缺失區域圖像信息,D鑒定生成的圖像信息的可信度。Kim等[20]提出了一種聚合相鄰幀時間特征的循環神經網絡(Recurrent Neural Network,RNN),實現了VINet 模型修復視頻;Chang 等[21]使 用了改進3D 門控卷積以及T-Patch GAN(Temporal Patch GAN ),提出了LGTSM(Learnable Gated Temporal Shift Module),最終實現了自由形式遮掩的視頻補全;Lee 等[22]提出了復制并粘貼參考幀相應內容的深度學習網絡框架CAP(Copy-And-Paste)以補全目標幀中缺失區域。
盡管堆疊卷積層能夠使CNN 提取較抽象的高級語義特征,但依然存在全局信息獲取有限、圖像不同區域間語義信息相對獨立等局限性。而近年提出的Transformer[23]網絡架構使用注意力機制實現全局上下文信息的捕獲,能獲取目標相關的長距離關聯性特征。
1.2.2 Transformer
Transformer 是一種基于注意力機制的網絡構架,最先應用于自然語言處理(Natural Language Processing,NLP)領域。Transformer 憑借其強大的序列信息處理能力,成為了當前完成NLP 相關任務的最先進的深度學習模型。由于它在NLP領域各項任務中優異的性能表現,CV 領域的研究人員也開始探索Transformer 在CV 任務上的應用潛力。Dosovitskiy等[24]首次提出了Vision Transformer(ViT)應用于圖像分類任務。而后隨著Transformer 在CV 領域的快速發展,它在CV 領域得到了大規模的普及并被用于處理包括圖像補全在內的各類CV 任務。
與Transformer 相比,CNN 的局部語義信息處理僅計算相鄰像素間的關系,無法快速獲得上下文信息,而RNN 的線性序列分析結構僅能有限地計算單向依賴的語義信息。Transformer 分析序列上下文信息不受長期依賴問題的影響,能夠避免因序列過長導致的性能下降。由于在序列分析上的優勢,Transformer 也被應用于圖像補全工作中。Jiang 等[25]提出一個Transformer GAN 模型驗證了Transformer 架構應用于圖像生成任務的可行性;Zeng 等[26]提出了一個時空聯合Transformer 網 絡(Spatial-Temporal Transformer Network,STTN)模型,實現了對視頻運動對象缺失幀的修復。
與自然圖像相比,醫療圖像具有圖像相似度高、聚焦細微結構的紋理特征以及不同模態之間差異大的特點,因此針對任務數據特點的圖像補全方法雖然在相應的各類自然圖像的補全任務上具有很好的性能,但遷移至如IVOCT 圖像的醫療圖像補全任務上時,性能會有所下降。本文針對IVOCT影像的特性設計了SETN,使用先進的Transformer 分析序列上下文信息,且在兼顧紋理特征的同時加強了圖像結構特征。
本文提出了基于SETN 的IVOCT 導絲偽影去除方法,SETN 為生成器和判別器構成的GAN 模型。
生成器的網絡結構如圖2 所示,包括ORI 圖像主干生成網絡、RTV 圖像強化生成網絡以及結構特征融合模塊。ORI圖像主干生成網絡是生成器的主干網絡,主要提取ORI 圖像的紋理特征并針對原始圖像的導絲偽影區域進行重建;RTV圖像強化生成網絡是生成器的并行分支網絡,主要通過提取結構特征并重建RTV 圖像偽影區域的方式為主干網絡提供結構信息輔助ORI 圖像的偽影去除;結構特征融合模塊融合RTV 圖像強化生成網絡獲取的結構特征與ORI 圖像主干生成網絡獲取的紋理特征,為ORI 圖像的解碼還原提供兼顧紋理與結構的圖像特征。

圖2 SETN生成器的網絡結構Fig.2 Generator network structure of SETN
SETN 使用兩個T-Patch GAN 判別器分別監督ORI 主干生成網絡和RTV 強化生成網絡的重建結果,它的設計對于難以重建或需要精細化的區域進行了更加細節化的處理。
ORI 主干生成網絡以未作處理的極坐標IVOCT 圖像序列作為輸入,重建圖像缺失區域信息以完成導絲偽影的去除,包括ORI 編碼模塊、Transformer 模塊以及ORI 解碼模塊。ORI 編碼模塊將輸入序列中待去除偽影圖像以單幀形式處理提取圖像紋理特征;Transformer 模塊由順序連接的6 個Transformer 編輯器組成,用來建立整個圖像序列各幀編碼特征之間的上下文關系;ORI 解碼模塊根據ORI 編碼模塊和Transformer 模塊獲取的具有序列信息的特征以單幀的形式重建導絲偽影區域。
2.1.1 ORI編碼模塊
由于導絲偽影的尺度分布不均,為將不同尺度特征輸入空間結構固定的Transformer 模塊,同時防止簡單的卷積堆疊破壞特征間的聯系,SETN 的ORI 編碼模塊被設計為特征編碼+層次編碼的編碼模式,為Transformer 模塊分析序列上下文信息提供高魯棒性的紋理特征。
特征編碼對ORI 圖像進行基本特征提取,為后續的層次編碼提供尺度遞進的紋理特征。它由5 組卷積核大小為3×3的卷積層和負斜率為0.2 的帶泄漏線性整流函數(Leaky Rectified Linear Unit,LeakyReLU)激活層交替連接組成,其中卷積層的輸出通道數量為[64,64,128,128,256]。
層次編碼提取不同尺度的ORI 圖像特征,為應對不同尺度導絲偽影的解碼重建而設計實現了不同層次特征的逐幀混合,為序列各幀圖像提供層次化語義特征。它的結構設計與特征編碼相同,但為實現層次化特征提取,卷積層以[1,2,4,8,1]的分組方式完成分組卷積,其中每個層次編碼的輸出的通道數為[384,512,384,256,128]。此外層次編碼相鄰卷積層執行Concat 操作,以實現多級通道層次的混合。
SETN 通過特征編碼與層次編碼獲取輸入圖像序列中ORI 圖像的不同尺度紋理特征,為后續的Transformer 模塊提供了高魯棒性強的層次化特征向量。
2.1.2 Transformer模塊
在IVOCT 圖像序列中,序列上下文信息可以為導絲偽影去除提供更加豐富的語義信息。因此在單幀圖像特征提取后,SETN 使用善于捕獲全局上下文信息的Transformer 通過注意力機制建立序列幀之間的關聯。本文設計了能夠分別提取IVOCT 圖像時/空間域上下文信息的Transformer 模塊,在分析序列時序關聯性的同時,建立單幀圖像不同位置特征之間的聯系。
Transformer 模塊由順序連接的6 個Transformer 編碼器組成。通過不同尺度的patch 劃分和flatting 操作,特征序列被轉化為embedding 序列并輸入至Transformer 編碼器。在Transformer 編碼器中,時間域特征整合器(Temporal Domain Feature Integrator,TDFI)和空間 域特征 整合器(Spatial Domain Feature Integrator,SDFI)分別從序列各幀關聯性的時間域和單幀各位置關聯性的空間域兩個角度處理整合序列,如圖3 所示,圖3 中⊕代表鄰層間的殘差連接,通過四方格劃分的方形塊代表圖像的patch 特征。

圖3 Transformer編碼器與時/空間域特征整合器Fig.3 Transformer encoder and temporal/spatial domain feature integrators
TDFI 按序列時序將每一幀位置相同的patch embedding排列為embedding 序列,以完成同位置patch 在序列維度上的語義特征分析,進而在上下幀圖像中查找各幀patch 區域內與待重建區域相符的特征。由于時間域特征分析以全局角度在圖像序列中查找注意力信息,TDFI 整合特征劃分patch的尺寸設置較大(起始Transformer 編碼器TDFI 的patch 尺寸設置為7×7),以增大在時序序列中查找缺失區域相關特征的感受野。
SDFI 將單幀圖像的patch embedding 排列為空間維度的embedding 序列,以建立單幀圖像不同位置特征之間的聯系。與TDFI 相比,SDFI 關注單幀圖像的空間關聯性,以捕獲與待重建區域有關的單幀圖像內語義信息。SDFI 整合特征劃分patch 的尺寸設置較小(起始Transformer 編碼器SDFI 的patch尺寸設置為3×3),以獲取更多的小尺度紋理描述,并在同幀圖像中查找缺失區域相關的紋理特征。
由于ORI 編碼模塊獲取的特征向量代表不同尺度特征,SETN 以不同尺度特征的Transformer 編碼器完成不同尺度特征分析。在Transformer 結構中,每個Transformer 編碼器的輸入patch 尺寸皆以與之相連的前一個編碼器的2 倍遞增。
將通過TDFI 與SDFI 整合的embedding 序列并行輸入Transformer 編碼器,其中序列位置編碼的設計遵循ViT。Transformer 編碼器由多頭自注意力(Multi-head Self-Attention,MSA)子模塊 和多層 感知器(Multi-Layer Perceptron,MLP)子模塊順序連接組成,其中層標準化(Layer Normalization,LN)應用于每個子模塊之前,殘差連接應用于每個子模塊之后。殘差連接能夠使模型關注當前模塊前后差異以防止網絡退化,LN 使輸入數據均值方差相同以加快網絡收斂。
為使Transformer 編碼器具有更好的擬合能力且處理序列更加穩定,MSA 子模塊集成了多個并聯的自注意力(Selfattention)層,以避免單個自注意力層序列信息獲取的局限性,其中自注意層通過Query、Key 和Value 三元組計算目標輸入序列各embedding 之間的關聯性,計算過程可具體表示為:
其中:(Q,K,V)為輸入序列與可學習參數矩陣相乘得到的Query、Key 和Value 三元組;d為Query/Key 的維度(實驗模型設置為32)。MSA 子模塊并聯多個自注意力層的計算可具體表示為:
其中:Qi、Ki和Vi分別為第i個自注意 力層的Query、Key 和Value 三元組;head為單個注意力層學習的注意力參數矩陣;WO為將多個自注意力層的拼接維度映射至輸出維度的可學習參數;h為實驗模型head數量,設置為8。
2.1.3 ORI解碼模塊
為將Transformer 模塊完成序列分析后的圖像紋理特征用于導絲偽影去除任務,本文設計了與ORI 編碼模塊中特征編碼對應的ORI 解碼模塊以重建導絲偽影區域圖像。
ORI 解碼模塊通過上采樣將圖像特征轉化為ORI 圖像信號。它的結構特征編碼相對稱,由5 層的卷積核大小為3×3 且連接LeakyReLU 激活層的反卷積層組成,其中插值使用scale_factor 設置為2 的雙線性(bilinear)處理方式實現。
ORI 主干生成網絡為導絲偽影去除提供圖像細節的紋理特征,而RTV 化IVOCT 圖像能夠有效地表達圖像結構信息。因此本文設計了RTV 強化生成網絡用于重建RTV 圖像的導絲偽影區域,并通過紋理特征融合模塊將結構特征引入ORI 圖像的導絲偽影去除。
2.2.1 IVOCT圖像RTV化
RTV 強化生成網絡的輸入為通過RTV 化得到的RTV 圖像序列。RTV 化[10]是一種圖像的結構化分離方法,它的實現總變差分模型可具體表示為:
其中:I和S分別為輸入原始圖像和輸出結構化圖像;p為二維圖像像素索引;λ表示結構圖像與原始圖像的相似權值;?為梯度算子。
圖像RTV 化的主要參數設置包括:λ∈(0,0.05],用于控制平滑的程度;σ∈(0,6],用于確定最大紋理選擇;sharpness∈(0.001,0.03],用于控制圖像銳化;Itermax控制轉化迭代次數。不同參數值設置的RTV 化圖像結果如圖4 所示,與其他結果相比,圖4(c)中RTV 圖像紋理消除有效且結構清晰,因此本文IVOCT 圖像序列的RTV 化遵循圖4(c)的參數設置。

圖4 IVOCT圖像的RTV化結果Fig.4 RTV results of IVOCT image
2.2.2 RTV強化生成網絡結構
RTV 強化生成網絡的結構組成與ORI 主干生成網絡相同,包括參數一致的RTV 編碼模塊、Transformer 模塊以及RTV 解碼模塊,其中兩個生成網絡的Tranformer 模塊實現參數共享以減少網絡參數量。
RTV 強化生成網絡的Transformer 模塊亦由4 個包括TDFI 與SDFI 的Transformer 編碼器組成。為保證模型效率的同時關聯更豐富的高相似度值patch 特征,SDFI 將以當前幀與上、下幀共計3 幀的patch 作為輸入。此外,因在較大patch上提取的結構特征能夠更好地描述圖像結構,輸入至SDFI的初始patch 尺寸設置為7×7。
結構特征融合模塊把RTV 強化生成網絡獲取的結構特征融合至ORI 主干生成網絡提取的紋理特征中,以在導絲偽影區域的圖像重建過程中實現結構強化。
如圖5 所示,待融合結構特征主要包括當前幀結構特征和序列結構特征。當前幀結構特征為RTV 編碼模塊最終提取的結構特征Fself,它可為修復導絲區域邊界結構提供良好的性能。序列結構特征為RTV 解碼模塊不同尺度反卷積層計算特征及它們是時序維度獲取的全局結構信息。上述序列結構特征根據下采樣由深到淺獲得,較深的下采樣特征趨近于描述圖像的整體構架,而較淺的下采樣特征趨近于描述圖像的細節特征。

圖5 結構特征融合模塊Fig.5 Structural feature fusion module
結構特征融合模塊將當前幀結構特征和序列結構特征融入主干網絡獲取的紋理特征方式如圖5 所示,Fself、及與ORI 解碼模塊對應層的輸入進行Concat 操作,Concat 所得完成結構強化的紋理特征將輸入至對應反卷積層。該融合模塊按照次序依次完成下采樣由深到淺的不同層次特征融合。
本文的SETN 設計采用GAN 的網絡架構,因此損失函數包括重建損失函數與對抗損失函數兩類,其中重建損失函數使用像素級重建損失函數(即L1 損失)。
生成器的重建對象包括ORI 和RTV 兩種圖像,因此重建損失函數分為ORI 重建損失和RTV 重建損失。
ORI 重建損失是針對原始圖像缺失重建設計的損失,該損失計算模型輸出的補全圖像序列與目標圖像序列的差異,其間兩者的差值與待重建區域的掩碼信息相乘,而后計算單個像素的平均差異,計算方式如下:
其中:Mt為ORI 圖像序列的待重建區域掩碼信息為完成ORI 補全的圖像序列;為輸入序列與掩碼值的乘積,即ORI 主干網絡的輸入序列數據;⊙表示同或運算。
為了使補全內容在缺失邊界上與原圖像具有一致性,同時也使補全結果更加符合原始未缺損圖像,缺失邊界損失的計算方式與式(5)一致,不同在于它的掩碼信息保留非待重建區域的圖像,在缺失邊界損失計算方式如下:
ORI 總重建損失由缺失重建損失與缺失邊界損失加權相加得到,計算方式如下:
其中:λhole與λvalid分別為與兩個損失函數的加權參數。
RTV 重建損失與ORI 重建損失LORI的計算方式類似,針對缺失區域和缺失邊界圖像設計的損失分別為與且該損失也由兩個損失函數的加權相加得到,加權參數設置與ORI 重建損失一致,計算方式如下:
重建損失函數Lrec由ORI 重建損失LORI與RTV 重建損失LRTV構成,其中RTV 結構圖像在補全時強化結構以輔助重建,因此兩個損失的重要性需要通過加權制衡。重建損失函數Lrec計算方式如下:
其中:ω為LORI與LRTV兩個損失函數的加權參數(取值范圍為[0,1])。
對抗損失函數由判別器對抗損失及生成器對抗損失函數組成,其中判別器對抗損失計算方式如下:
其中:Yt為與待補全圖像序列對應的Ground Truth,即無導絲偽影的IVOCT 影像序列。
生成器對抗損失分為ORI 對抗損失以及RTV 對抗損失,兩者計算方式相同且加權相加,生成器對抗損失的計算方式如下:
生成器的損失由重建損失及生成器對抗損失函數加權相加得到,計算方式如下:
其中:λrec與λadv分別為Lrec與Ladv兩個損失函數分配的權值。以上參數數值選定的標準通過相關經驗及實驗確定,具體的參數數值如表1 所示。

表1 損失函數參數值Tab.1 Parameter values of loss function
本文實驗所用數據集由哈爾濱醫科大學附屬第一醫院提供,包括137 組來自不同患者的IVOCT 影像序列,其中每個圖像序列包括50 幀連續的IVOCT 圖像。本文SETN 的輸入序列長度設置為10,因此每組的數據將被分為5 段10 幀的IVOCT 圖像序列,其中100 組的數據被劃分為訓練數據,其余組的數據被劃分為測試數據。在上述序列中每幀圖像均含有導絲偽影,其中導絲偽影均由專業醫生標注。
為保證實驗驗證與分析的真實性和準確性,本文使用如圖6 所示方法對IVOCT 圖像序列的單幀圖像分別進行預處理,以構建具有真實Ground Truth 的導絲偽影去除單幀訓練數據。在圖6 的添加導絲偽影的步驟中,根據導絲偽影的寬度分布統計,按圖7(a)中概率分布的導絲寬度期望在拼接圖像中添加不同寬度的導絲偽影(同序列圖像中偽影寬度一致)。

圖6 IVOCT單幀圖像預處理流程Fig.6 Flow of IVOCT image preprocessing

圖7 偽影軌跡和寬度統計Fig.7 Artifact trajectory and width statistics
為確保IVOCT 圖像序列中導絲偽影添加軌跡趨近真實偽影,本文還分析了臨床數據中的導絲運動軌跡,偽影軌跡散點如圖7(b)所示。圖中軌跡分布在極坐標下統計,導絲運動軌跡趨近于連續的螺旋結構,運動軌跡中存在的不均勻抖動主要由自動/手動回撤速度不一致造成。預處理IVOCT序列的偽影位置分布隨機選取等長度數目的連續散點位置進行映射。
本文SETN 使用GAN 網絡架構完成視頻序列的圖像補全,因此為有效地評估IVOCT 重建圖像的質量,選擇常用于評價圖像補全模型的4個指標對實驗結果進行評估:峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結構相似性指數度量(Structural Similarity Index Measure,SSIM)、平均絕對誤差(Mean Absolute Error,MAE)和弗雷 謝初始 距離分 數(Frechet Inception Distance score,FID)。
1)PSNR 是使用最廣泛的衡量圖像間相似程度的評價指標之一,衡量標準是計算缺失重建圖像與未缺失圖像之間的峰值信噪比(單位:dB),數值越大表示缺失區域重建圖像的質量越好。計算公式如下:
其中:RMSE是重建圖像K和原始圖像I之間的累積平方誤差;m和n分別為重建圖像的長和寬;MAXI為未缺失圖像中像素值的最大值(灰度圖像MAXI=255)。
2)SSIM 是計算圖像間結構相似性的評價指標,主要從亮度、對比度和結構三個角度比較。在比較兩張圖像之間的差異時,與PSNR 相比,SSIM 更加貼合人眼對于圖像質量的判斷。計算公式如下:
3)MAE 是深度學習領域常用的衡量誤差指標之一,在如圖像分類、圖像分割等多種計算機視覺任務中均有應用。盡管它僅考慮單像素值間的差異,但在衡量圖像差異上具備易于理解和解釋、計算簡單等優點。計算公式如下:
其中:m和n分別為重建圖像的長和寬;yi和分別為未遮蓋圖像和重建圖像的像素值。
4)FID 是從圖像特征的角度衡量真實圖像與生成圖像間差異的計算指標,計算方式量化并比較二者特征向量之間的距離。二者的特征向量均由Inception v3 模型得到,而距離通過Frechet Distance 計算。FID 值越小表示向量分布越相似,即缺失區域重建結果的質量越高。計算公式如下:
其中:m和S分別為經驗均值和經驗協方差;r 和g 分別為真實數據和生成數據;Tr()表示矩陣的跡。
本文驗證SETN 有效性的實驗基于Pytorch 深度學習框架并使用NVIDIA RTX 3090 GPU 服務器完成網絡模型的訓練。訓練過程中,選用Adam 優化器優化損失函數,參數β1和β2分別設置為0.9 和0.99,訓練學習率設置為0.000 01,每10 000 次迭代衰減為當前學習率的0.1。訓練迭代次數為500 000,BatchSize 設置為2。輸入模型的IVOCT 圖像分辨率統一調整為624×336。
為了驗證本文SETN 在IVOCT 導絲偽影去除任務上的實效性,將SETN 與圖像補全方法及消融分析模型進行了圖像補全性能的對比與分析,結果如表2,其中:加粗表示最優結果。

表2 導絲偽影去除的評估結果Tab.2 Evaluation results of guidewire artifact removal
由表2 可知,SETN 在PSNR、SSIM、MAE 以及FID 指標上均取得了最優性能,其中與性能最優SOTA(State-Of-The-Art)方法(STTN)相比,各指標性能增/減幅分別達到了2.3%、0.177%、6.1%以及13.3%。這表明SETN 針對IVOCT 圖像特點設計的結構強化模型更適用于完成醫療圖像的補全工作,且能夠切實有效地去除IVOCT 圖像中的導絲偽影。
為了驗證本文SETN 中Transformer 模塊以及RTV 強化生成網絡的有效性,設計了兩個SETN 變體模型并進行相應模塊的消融分析實驗。其中SETNTR-表示移除了SETN 生成器中的Transformer 模塊,編碼與解碼模塊直接相連完成圖像重建;SETNRTV-表示移除了SETN 生成器中的RTV 強化生成網絡,僅由ORI 主干生成網絡完成紋理特征的提取與重建。根據表2 可知,移除Transformer 模塊后,未利用序列上下文信息的SETNTR-在各項指標上性能均有下降,這說明SETN 中Transformer 模塊時/空間域特征提取的設計對圖像重建具有積極的意義;SETNRTV-與SETN 的實驗結果對比表明,RTV 強化生成網絡提取結構特征并融合至ORI 主干生成網絡是有效的。
圖8 給出了STTN、消融分析模型SETNRTV-與SETN 的箱式圖。與STTN 相比,SETNRTV-對于時/空間域分別計算注意力的Transformer 編碼器在IVOCT 導絲偽影去除任務的序列分析上效果更好。對比SETNRTV-和SETN 的箱式圖可知,添加RTV 強化生成網絡的生成器在導絲偽影區域的重建性能提升明顯。SETN 與STTN 相比,測試數據預測的箱式圖更穩定且集中,說明SETN 的導絲偽影去除更穩定可靠。

圖8 實驗結果箱式圖Fig.8 Box plots of experimental results
圖9 展示了各方法在導絲偽影區域進行的重建細節紋理。與STTN 的重建結果相比,SETNRTV-在細節紋理分布的還原上更接近Ground Truth,說明時/空間域Transformer 模塊的設計能夠有效地分析IVOCT 的序列信息。與STTN 和SETNRTV-相比,本文SETN 重建結果的紋理處理和明暗度的表現均更突出。在細小結構以及邊界清晰度等細節上,SETN的重建結果避免了其他模型在邊界上可能會出現模糊的情況,而此類細節正是醫生診斷相關疾病的重要依據。而與SETNRTV-相比上述細節的提升,進一步驗證了SETN 中RTV強化生成模塊提取的結構特征對于紋理信息分布指導的有效性。

圖9 導絲偽影區域重建結果的細節對比Fig.9 Detail comparison of reconstruction results of guidewire artifact area
導絲偽影區域重建結果整體結構的對比如圖10 所示,在偽影區域圖像結構較為復雜時,SETN 的重建圖像在層次上更加接近原始圖像,這進一步驗證了SETN 通過RTV 圖像特征強化結構特征的可行性。

圖10 導絲偽影區域重建結果結構對比Fig.10 Structural comparison of reconstruction results of guidewire artifact area
為驗證SETN 去除導絲偽影對于IVOCT 圖像的計算機輔助診斷工作具有積極的意義,以導絲偽影去除前后的IVOCT圖像作為數據基礎在下游視覺任務上進行實驗,對比、分析易損斑塊分割和腔體輪廓線提取任務基于SETN 去除偽影圖像數據完成的優勢。
3.5.1 易損斑塊分割
本實驗將對比導絲偽影去除前后,U-Net+ResNet50 模型對于IVOCT 圖像中易損斑塊的分割結果,以驗證本文SETN的導絲偽影去除性能及其對于易損斑塊分割任務的意義,其中易損斑塊分割的評價指標包括像素準確率(Pixel Accuracy,PA)、平均像素準確率(Mean Pixel Accuracy,MPA)、交并比(Intersection over Union,IoU)、DICE系數(DICE Coefficient)、精準率(Precision)以及召回率(Recall)。
如表3 所示,分割模型在去除偽影的IVOCT 圖像上進行分割的性能顯著優于未處理圖像,這表明導絲偽影去除工作能夠提高IVOCT 圖像質量,對于IVOCT 圖像的易損斑塊識別具有重要意義。對比STTN 和SETNRTV-處理圖像的模型分割結果,本文的SETN 在PA、MPA、IoU 以及DICE 指標上達到了最優性能,這表明SETN 中的時/空間域Transformer 和RTV強化生成網絡的設計均能夠提升導絲偽影去除的性能。

表3 不同輸入的分割結果 單位:%Tab.3 Segmentation results of different input unit:%
圖11 展示了SETN 導絲偽影去除前后U-Net+ResNet50的分割結果,其中:白色扇形區域代表易損斑塊,灰色扇形區域代表導絲偽影。將使用SETN 處理后的影像作為數據完成斑塊分割時,分割模型能夠更好地定位斑塊區域從而準確地完成分割,這表明去除導絲偽影有效地提高了IVOCT 數據的完整性和連續性,有利于深度學習模型完成易損斑塊的特征提取。

圖11 導絲偽影去除前后的分割結果Fig.11 Segmentation results before and after guidewire artifact removal
3.5.2 管腔輪廓線提取
已提出的IVOCT 圖像心血管腔體輪廓線提取方法通常使用插值方法預測導絲偽影區域的腔體輪廓線,但插值方法根據邊緣趨勢將預測的平滑曲線作為導絲偽影區域輪廓線,因此難以預測復雜且存在尖銳的管腔輪廓。本文的SETN 通過大量具有結構復雜輪廓線的IVOCT 數據進行訓練,它的導絲偽影去除結果能夠真實還原腔體輪廓線。
如圖12 所示(圖中白色輪廓線為插值方法預測結果),插值方法在提取結構復雜的導絲偽影區域管腔輪廓線時無法實現精準的預測,而SETN 通過導絲偽影區域圖像的重建精準地還原了腔體輪廓線。與STTN 相比,SETN 導絲偽影區域重建的輪廓線更接近真實管腔輪廓。SETN 通過重建偽影區域獲取了完整且連續的IVOCT 影像,能為提取導絲偽影區域的管腔輪廓提供全新的應對方法。

圖12 導絲偽影區的域輪廓線對比Fig.12 Contour comparison of guidewire artifact area
本文提出了一種基于Transformer 的結構強化網絡(SETN),以去除IVOCT 圖像中結構信息復雜且區域占比大的導絲偽影。SETN 的生成器并聯了ORI 主干生成網絡和RTV 強化生成網絡,分別提取原始圖像中的紋理特征和RTV圖像中的結構特征;設計了時/空間域Transformer 編碼結構,以關聯單幀圖像不同位置間以及序列上下文信息。導絲偽影區域的圖像重建以及下游視覺任務的驗證結果均驗證了SETN 對于IVOCT 影像計算機輔助診斷的價值。后續工作將嘗試進一步研究結構強化的融合方式,以更好地融合紋理與結構信息;其次,在IVOCT 圖像分析的其他下游任務上將開展導絲偽影去除的應用;最后,將進一步探索更加先進且輕量級的網絡結構,以更加高效且精準地完成IVOCT 圖像導絲偽影去除。