孫劉杰,劉 麗,王文舉
(上海理工大學 出版印刷與藝術設計學院,上海 200093)
數 字PCR(Digital Polymerase Chain Reaction,d PCR)是一種高靈敏度、高準確性的核酸絕對定量技術[1-3]。因其無需任何校正就能實現對目標核酸的絕對定量,且具有建立標準曲線的獨立性、高靈敏度和特異性等顯著優點。該技術在食品安全[4-5]、基因表達[6-8]、生物標記物發現[9-10]和疾病診斷等領域廣泛運用。在dPCR中,快速準確地識別熒光圖像中的陽性點對于保證檢測的準確性至關重要。
傳統的PCR熒光圖像分析方法主要是通過分析熒光圖像的閾值關系[11-12]、目標形狀[13]、像素差異[14]、梯度信息等特點來實現熒光圖像分割,劉聰等[15-16]在低濃度熒光液滴圖像識別中先后提出了廣義帕累托分布熒光微滴分類與改進的分水嶺分割算法的熒光微滴識別方法。后者是基于前者的改進,主要是利用直方圖均衡化和高斯濾波等預處理方法后使用局部自適應閾值分割提取目標,降低對圖像灰度信息的依賴,最后結合熒光液滴形狀等特點定義微滴黏連度函數,降低了分水嶺分割中的錯誤分割比例,實現了熒光微滴分類,但識別率還有待提高。與閾值方法相比,機器學習通過提取尺度和梯度等特征,將已提取特征及圖像對應標簽輸入到如支持向量機、自適應增強(Adaboost)[17]等分類器中進行訓練分類,實現熒光圖像目標識別。Zhao等[18]提出了基于種子的聚類分割和K-means算法:首先利用融合雙通道的圖像得到核分割結果,接著提取三組核特征將其中五個特征經過最小冗余最大相關選擇后用于隨機森林分類器進行訓練,最后實現了較好的熒光圖像細胞分割;Gadea等[19]使用隨機森林分類器將CHARM與SIFT分別提取到的神經元熒光圖像特征進行分類訓練,實現了高含量熒光顯微圖像神經元較好的檢測效果,但該方法未實現計數功能。由上可知,熒光圖像陽性點識別費時費力,無法完全適應大數據下的熒光圖像分析任務。而基于深度學習的熒光圖像分析可以進行端對端的學習,實現大數據下的高通量dPCR熒光圖像處理與分析。近年來,具有層次特征學習能力的深度學習方法在生物醫學圖像分析方面取得了重大突破。主要是通過構建深度學習網絡結構模型,學習熒光圖像的魯棒性和高層次特征表示與語義信息等,實現熒光圖像細胞的識別檢測。Konfhage等[20]提出一種基于特征金字塔融合的熒光圖像中復雜真核細胞的檢測,首先用ResNet訓練細胞核特征,再與減少了層數的ResNet的Mask R-CNN[21]模型的特征金字塔連接相加融合特征,使用細胞核信息來改進細胞檢測和分割,細胞核通道用于提高細胞檢測和質量。
本文提出了一種多特征融合高通量d PCR熒光圖像識別方法來實現高通量dPCR熒光圖像陽性點識別,提高熒光圖像陽性點識別率。首先通過ResNet與特征金字塔提取熒光圖像特征,再通過自上而下路徑結構與注意力機制實現特征再融合;接著,區域建議網絡RPN(Region Proposal Network)使用自適應交并比IOU(Intersection-over-Union),計算陽性點包圍框置信度,輸出陽性點候選框,然后將RPN得到的候選框使用ROI Align(Region of Interest Align)重新固定尺寸后,輸入至全連接層和全卷積層得到陽性點識別結果。從實驗結果可知,本方法具有識別率高、可靠性強等特點,在一定程度上使用有限的標記數據就能實現對高通量d PCR熒光圖像陽性點識別,識別效果較佳且時間較短。
本文研究對象為高通量d PCR基因芯片,在激發過程中使用窄帶LED作為激發光源,經過二向色鏡組的激發濾光片得到熒光激發波段的激發光,并使用準直透鏡使LED光盡量均勻照射在基因芯片上。激發光經過二向色鏡進入熒光顯微物鏡照射在基因芯片上,熒光染料吸收能量后產生熒光,最后通過成像適配物鏡將熒光信息在CCD相機上成像。在成像物鏡與CCD之間放入一塊45°轉向反射鏡,在多次拍攝成像過程中,通過電控裝置控制基因芯片水平位移臺,順序移動基因芯片,獲取完整熒光圖像并進行拼接[22],成像原理如圖1所示。

圖1 高通量dPCR熒光圖像成像原理Fig.1 Principle of high-throughput dPCR fluorescence imaging
本文所提出的多特征融合高通量dPCR熒光圖像識別方法(HDFINet)如圖2所示。第一部分為特征融合,ResNet網絡提取熒光圖像特征經過金字塔進行第一次特征融合,經由引入的自上而下的融合路徑,實現熒光圖像下層特征更有效提取,被上層特征所利用;同時,在自上而下結構中,引入注意力機制來分配熒光圖像通道與空間權重,使特征映射能夠更好地響應熒光圖像特征。第二部分的RPN主要實現陽性點目標搜尋,為更好搜尋目標位置,使用自適應IOU來減少丟失熒光圖像陽性點信息的可能性。第三部分為識別部分,ROI Align將熒光圖像候選區域中陽性點特征重新固定尺寸后,輸入至全連接層和全卷積層,進行類別與回歸框回歸,輸出陽性點識別結果,并以不同顏色掩碼表示每個陽性點所包含的像素區域。

圖2 多特征融合高通量dPCR熒光圖像識別Fig.2 Multi-feature fusion high-throughput dPCR fluorescence image recognition
ResNet殘差網絡常用于提取特征,在深度神經網絡中,下層特征通過幾十個網絡層到達頂層。經過許多層后,網絡感受野擴大,細節信息保留較少,即高通量dPCR熒光圖像陽性點較為低級別的信息丟失,如對比度與亮度和陰性點相差不大的陽性點,通過對下層特征的低級別信息特征進行重提取融合,可有效將陰性點與陽性點區分開。常見的結構即為ResNet與特征金字塔(Feature Pyramid Networks,FPN)結構,本文為將熒光圖像下層特征層信息融入至上層特征層中,在FPN中引入自上而下的特征融合路徑,通過注意力機制對熒光圖像融合后特征進行權重分配,使特征層更好地響應熒光圖像特征。
3.1.1 自上而下路徑結構
本文使用ResNet來獲得五個特征級別的特征層Ci(i=1、2、3、4、5),殘差網絡獲得的熒光圖像特征經自下而上特征融合后得到新的特征層,即Pi(i=2、3、4、5),計算過程見公式(1):

其中Up代表大小為2的上采樣,Conv代表卷積核大小為1×1卷積。
通過引入自上而下的特征融合結構,利用來自較低層的精確定位信號來縮短信息路徑并增強特征金字塔,如圖3中藍色框所示。

圖3 自上而下路徑結構Fig.3 Up-bottom path structure
自上而下的特征融合路徑從P2到P5通過卷積塊后經注意力機制模塊得到每個特征級別Ni(i=2、3、4、5),得到的特征映射大小與相應級別Pi(i=2、3、4、5)的大小相同,N6為N5通過最大池化后經注意力機制模塊所得,具體計算見公式(2):

其中ο代表注意力模塊,Conv1代表卷積核大小為1×1卷積。Conv2代表卷積核大小為3×3卷積。
3.1.2 注意力機制模塊(Attention module,AM)
注意力機制廣泛應用于在圖像分類[23]、姿態估計[24]與圖像字幕[25]等領域,使網絡更關注圖像中的重要信息。熒光圖像中陽性點目標小而密集,易導致陽性點誤識別以及未識別,因此在自上而下的特征融合路徑中引入通道與空間注意力機制[26],通道注意力的作用是增大有效通道權重,抑制無效通道權重,空間注意力在空間上對特征圖不同位置分配不同權重,增強特征表達能力。
特征圖F∈RC*H*W通過通道注意力產生通道權重MC∈RC*1*1,通道權重與特征圖F逐元素相乘,得到新特征圖,由于通道注意力得到的是特征圖的全局信息,為了避免特征圖中局部信息損失,本文將新特征圖與特征圖F求和,得到保留局部信息的特征圖F',特征圖F'經過空間注意力得到空間權重MS∈R1*H*W,特征圖F與空間權重逐元素相乘,得到特征圖F'',增強熒光圖像特征表達,如圖4所示,?表示逐元素相乘,GAP表示全局平均池化(Global Average Pooling),MLP表示多層感知機(Multilayer Perceptron)。注意力模塊計算見公式(3),通道注意力計算見公式(4),空間注意力計算見公式(5),σ表示softmax。

圖4 注意力模塊Fig.4 Attention module

如圖2中RPN部分所示,RPN的主要目的是搜尋熒光圖像陽性點,通過交并比IOU的置信度分數大小,判斷陽性點候選框與陽性點邊界框重合度,IOU值越大說明陽性點候選框與陽性點邊界框重合度越高,識別分割結果越精確;但在訓練過程中偏大候選框易因IOU值稍微偏小被忽略,對于高通量d PCR熒光圖像陽性點識別,偏大陽性點候選框能更好地包含被識別陽性點。為了解決部分候選框過小而導致陽性點信息丟失的可能性問題,在RPN中引入懲罰系數λ重新設定IOU的大小。首先,對于高通量dPCR熒光圖像陽性點識別,本文更希望候選框能夠涵蓋陽性點識別區域,本文將候選框相對大小在原候選框相對大小基礎上擴大5%左右;擴大的新候選框盡可能將陽性點信息全面保留,從而減少陽性點丟失信息的可能性。此外,本文在傳統的IOU標準定義中引入懲罰系數λ來重新定義IOU,傳統的IOU標準定義為:

式(6)中S1為候選框,S2為真實值,對于區域S2-S1∩S2即未包含的陽性點區域懲罰力度和S1-S1∩S2的懲罰力度一樣。當λ=0時,式(6)與式(7)相同,IOUnew計算公式定義為:

本文中λ=0.3,自適應IOU后的RPN層使得包含更多陽性點信息的候選框被保留。
RPN部分將搜尋到的熒光圖像陽性點候選框經過置信度排序篩選后輸入進ROI Align,ROI Align將熒光圖像候選區域中陽性點特征重新固定尺寸后,輸入至全連接層和全卷積層。這個過程分兩步同時進行,第一個分支由一個256通道卷積層和兩個1 024維全連接層組成,卷積核大小為7×7。一個全連接層用于熒光圖像陽性點邊界框回歸,對陽性點進行定位,另一個全連接層對陽性點進行概率估計,判斷目標是否屬于陽性點進行分類預測。第二個分支由6個卷積層、一個2×2反卷積層和一個上采樣層構成,前5個為256通道卷積層,卷積核大小為14×14,經過反卷積和上采樣后得到一個28×28大小特征圖。經過卷積和sigmoid函數進行輸出,通過設定置信度閾值為0.5得到熒光圖像陽性點分割掩碼。最后將熒光圖像陽性點識別結果輸出。具體過程如圖5所示:

圖5 熒光圖像陽性點識別Fig.5 Recognition of positive points in fluorescence images
本文使用已標注熒光圖像數據集進行實驗。GROIE[27]克服現有ROI(感興趣區域)提取的局限性,即從FPN中只選擇一個(最佳)層。提出FPN的所有層都保留有用的信息,引入非局部構建塊和注意機制來改進Mask R-CNN,并在檢測識別實驗中取得良好結果,本文在熒光圖像數據集上進行了實驗,并將實驗結果與本文提出的HDFINet進行了比較。VarifocalNet(VFNet)[28]引入IOU感知分類分數與變焦損失對大量候選框進行精確排序,提升密集物體識別性能;本文中的熒光圖像陽性點分布密集,因此本文在VF-Net中驗證了熒光圖像的識別效果。YOLOv4[29]是 一個高效、強大的單階段檢測 模型。為了比較,本文在熒光圖像數據集上驗證了YOLOv4的效果。此外,本文進行了消融研究,選擇Mask R-CNN作為消融研究的基線,以驗證所提出的注意力機制和自上而下路徑結構的有效性。實驗結果表明,本文提出的方法性能優于Mask R-CNN、GROIE、VF-Net、YOLOv4。
為驗證文中提出的高通量d PCR熒光圖像陽性點識別網絡有效性,使用CCD相機拍攝高通量dPCR熒光圖像,仿真實驗平臺為Python3.7,所使用計算機和配置環境的硬件參數為處理器Inter(R)Core(TM)i7-10700K。顯卡芯片NVIDIA GeForce RTX 2070 SUPER,顯卡芯片內存8 G。
本文根據高通量dPCR熒光圖像陽性點的形狀與亮度特征,使用霍夫圓檢測并通過標注者二次篩選實現熒光圖像陽性點的半自動標注,將標注好的圖像轉換為COCO注釋格式。在本文實驗中,選擇并使用已標注高通量d PCR熒光圖像數據集的6 500幅圖像,從數據集中隨機選擇6 000幅圖像作為訓練圖像,500幅圖像作為測試圖像,測試圖像中共79 119個陽性點。
本文用公式(8)、(9)、(10)作為評估標準。TPR(True Positive Rate)表示真陽性率,PPV(Positive Preditive Value)表示陽性預測值,TP(True Positive)表示正確識別的陽性點個數,FP(False Positive)表示誤識別為陽性點的個數,FN(False Negative)表示未被識別的陽性點個數。為全面評估模型,引入綜合指標F1[30]對TPR和PPV進行綜合評價,用來衡量模型優劣,F1的值越大,說明模型識別能力越好。本文使用F1來評估結果。

4.4.1 消融實驗
本文選擇Mask R-CNN作為消融研究的基線。為了公平比較,所有實驗數據和參數設置保持不變。Mask R-CNN with B表示加入自上而下結構,Mask R-CNN with AM表示加入注意力機制。如表1消融實驗結果所示,在Mask RCNN中加入自上而下的結構后,模型指標F1提高了0.52%。通過增加了自上而下的結構,縮短了信息路徑,并通過來自較低級別的精確定位信號增強了特征金字塔。

表1 消融實驗結果Tab.1 Results of ablation experiment
在Mask R-CNN中隨著對FPN結構增加通道與空間方向上注意力機制后,模型指標F1提高了0.59%。主要是通道注意力與空間注意力產生具有不同權重的熒光圖像注意力圖,增強熒光圖像陽性點處特征,并減輕熒光圖像背景影響。
此外,通過對自上而下的結構增加注意力機制,即HDFINet,模型指標F1提高了0.75%。消融實驗說明:引入自上而下結構與注意力機制能有效提高網絡的綜合指標。圖6是消融實驗結果圖,顏色表示某一顏色區域的像素都屬于某一陽性點,所有陽性點顏色都使用不一樣偽彩色掩碼表示。從圖6可知,引入自上而下結構與注意力機制后的網絡已經全部識別出陽性點,而只引入其中一種或不引入,都存在未識別出來的陽性點或誤識別,圖中以紅框框出。

圖6 消融實驗結果圖Fig.6 Ablation experiment results
4.4.2 對比實驗
在本節中,本文將提出的方法HDFINet與Mask R-CNN、GROIE、VF-Net和YOLOv4四種方法進行了比較。表2顯示了不同方法下識別結果的比較,圖7為不同方法下的識別效果圖,圖中用紅色方框將未識別以及誤識別的部位框出。

表2 不同方法識別結果Tab.2 Recognition result of different methods

圖7 不同方法實驗結果圖Fig.7 Experimental results of different methods
GROIE認為FPN的所有層都保留有用的信息,并引入了非局部構建塊和注意機制,然后使用改進的Mask R-CNN網絡對目標進行識別。GROIE對熒光圖像陽性點的F1指標值比本文方法低2.24%,GROIE將FPN所有層的熒光圖像特征信息聚合,引入了非必要的背景和無關信息,引起ROI提取效果不佳。VF-Net在COCO數據集上實現了更強的檢測性能,但在熒光圖像數據集上效果不佳,基于無錨的密集檢測器對于熒光圖像數據集中小而密集的陽性點搜尋結果較差,F1指標值比本文方法低5.26%。YOLOv4為了提升準確度,加深了網絡深度,獲得更大的感受野,同時引入注意力機制通過路徑聚合重組特征信息,網絡層數加深以及感受野的擴大使熒光圖像保留的細節信息變少,且熒光圖像中的陽性點目標小而密集,使得在識別階段的效果較差且誤檢較高,F1指標值比本文方法低2.49%。本文提出的HDFINet網絡與Mask RCNN相比,F1指標值提高0.75%。
本文在基于高通量dPCR熒光圖像陽性點特征基礎上,設計了多級特征融合結構,通過在Mask R-CNN中添加注意力機制和自上而下的結構來構建;添加注意力機制和自上而下的結構增強了熒光圖像較為低級結構信息從下層到頂層的傳播,并提出了一種具有較高識別率的多特征融合高通量d PCR熒光圖像識別方法(HDFINet)。實驗結果表明,與基線模型Mask R-CNN相比,有效提高了高通量dPCR熒光圖像陽性點識別率,綜合指標F1提高了0.75%。與YOLOv4、VF-Net、GROIE相比,本文方法綜合指標F1最高。說明本文方法對高通量熒光圖像的有效性和先進性。對其他熒光圖像分析也具有一定研究參考價值。