張玫玫 高凡 屠娟 吳意赟 章東?
1) (南京大學(xué)物理學(xué)院,近代聲學(xué)教育部重點(diǎn)實(shí)驗室,南京 210093)
2) (江蘇省中醫(yī)院超聲科,南京 210029)
乳腺癌的發(fā)病率居我國女性惡性腫瘤首位, 早期診斷乳腺結(jié)節(jié)良惡性對于乳腺癌的治療具有重要意義[1].組織病理學(xué)檢查是乳腺結(jié)節(jié)良惡性判斷的金標(biāo)準(zhǔn), 但是其需要通過手術(shù)或者穿刺取得組織樣本, 會給患者帶來痛苦和附加經(jīng)濟(jì)負(fù)擔(dān)[2].因此在進(jìn)行組織病理學(xué)檢查之前, 需要對乳腺結(jié)節(jié)進(jìn)行預(yù)篩查.目前預(yù)篩查的方法包括X 射線成像[3]、計算 機(jī) 斷 層 成 像(computed tomography, CT)[4,5]、核磁共振(magnetic resonance imaging, MRI)[6,7]和超聲成像.X 射線和CT 有電離輻射會對人體構(gòu)成危害, MRI 耗時長且成本過高.相對而言, 超聲成像由于非侵入性、成本低、無電離輻射等優(yōu)點(diǎn),在臨床上廣泛應(yīng)用于乳腺結(jié)節(jié)的預(yù)篩查.乳腺成像評分和分級標(biāo)準(zhǔn)(breast imaging reporting and data system, BI-RADS)可以指導(dǎo)醫(yī)生對乳腺超聲圖像進(jìn)行診斷[8].BI-RADS 基于圖像特征(如縱橫比、輪廓的不規(guī)則程度、鈣化、邊緣的清晰度等)診斷結(jié)節(jié)良惡性并分級[9,10].但是人工診斷的工作量大且主觀性強(qiáng), 因此計算機(jī)輔助診斷技術(shù)受到廣泛關(guān)注[11,12].
生物組織可視為由許多散射子構(gòu)成, 組織微結(jié)構(gòu)的改變會導(dǎo)致散射子分布變化, 從而影響超聲回波信號的形狀和強(qiáng)度.基于超聲回波信號包絡(luò)形狀特性的統(tǒng)計方法可以用于組織定征, 常用的數(shù)學(xué)模型包括: 瑞利分布[13,14]、Rician 分布[15]、K 分布[16]和Nakagami 分布[17]等.但應(yīng)用此類模型需要先驗證超聲回波信號的包絡(luò)特征是否可靠.此外, 在從超聲射頻(radio frequency, RF)信號得到回波包絡(luò)的數(shù)字信號處理過程也會導(dǎo)致信息損失.
熵是概率密度的函數(shù), 與分布參數(shù)相關(guān), 可以定量描述散射介質(zhì)的微結(jié)構(gòu)[18,19].熵分析無需預(yù)先驗證信號的分布, 既可使用包絡(luò)信號, 也可使用原始超聲RF 信號.超聲原始RF 信號由于沒有預(yù)壓縮、平滑、對比度增強(qiáng)等處理, 比傳統(tǒng)超聲圖像包含更多的組織結(jié)構(gòu)信息[20].直接使用RF 信號可以避免數(shù)字解調(diào)過程中對參數(shù)估計的影響, 并且不依賴于機(jī)器的個性化設(shè)置.因此, 基于超聲RF 信號的熵分析, 在超聲組織定征具有重要的應(yīng)用前景.另一方面, 超聲在生物組織中傳播時會產(chǎn)生不可忽略的非線性, 非線性信號可以反映生物組織的動力學(xué)信息, 因而可以提供更多的組織結(jié)構(gòu)信息[21,22].
本文基于超聲RF 信號二次諧波的熵研究乳腺結(jié)節(jié)的良惡性定征.采集306 例乳腺結(jié)節(jié)的RF信號(包括良性158 例, 惡性148 例); 基于滑動窗口技術(shù)[20]實(shí)現(xiàn)非線性超聲的熵成像, 提取包括熵、加權(quán)熵等特征參量, 使用支持向量機(jī)(support vector machine, SVM)[23-25]進(jìn)行良惡性分類, 并采用交叉驗證法對結(jié)果進(jìn)行驗證.此外, 本文還討論了滑動窗口大小對非線性超聲熵成像效果的影響.
熵是反映信號混亂度的參數(shù)[26].如果信號所有位置的幅值大小相等, 熵為最小值; 如果信號所有位置的幅值大小均不相等, 且每種大小只出現(xiàn)一次, 熵為最大值.

其中Hc為熵;y為待測信號的幅值,w(y)為幅值y的概率密度函數(shù), 即每種大小的幅值y出現(xiàn)的次數(shù).利用滑動窗口技術(shù)[20]掃描整個超聲原始RF信號, 在每一個小窗對局部信號的幅值進(jìn)行直方圖統(tǒng)計, 然后根據(jù)(1)式計算熵.
加權(quán)熵[27]也同樣反映信號的混亂程度, 但計算公式中多了一個幅度加權(quán)因子, 可以補(bǔ)償熵定義中缺失的信號幅度,

聲波在生物組織中傳播時會產(chǎn)生不可忽略的非線性效應(yīng), 產(chǎn)生波形畸變, 滋生高次諧波[21].二次諧波成像相比于傳統(tǒng)基波成像, 具有更高的空間分辨力, 在消除近場偽像和旁瓣干擾、增強(qiáng)組織對比度、提高深部組織回聲信息等方面都具有優(yōu)勢[28-30].本文針對超聲RF 信號的二次諧波, 應(yīng)用熵與加權(quán)熵的滑動窗口成像方法, 計算其熵與加權(quán)熵.
從2019 年4 月至2020 年1 月, 使用彩色超聲成像系統(tǒng)(Vinno-70, 蘇州飛依諾)對306 例患者進(jìn)行乳腺超聲掃查并保存超聲原始RF 信號.數(shù)據(jù)采集采用X6-16L 寬帶探頭(6—18 MHz), 設(shè)置在二次諧波模式, 發(fā)射頻率為5 MHz, 接收頻率為10 MHz.其他參數(shù)(機(jī)械指數(shù)、成像深度、增益等)根據(jù)診斷需要設(shè)置.RF 信號的采樣率為50 MHz,每幀312 線, 每個病例采集20 幀.為保證采樣數(shù)據(jù)格式一致, 采集時盡量將乳腺結(jié)節(jié)置于圖像正中, 選取合適探頭角度使得結(jié)節(jié)剖面盡可能大以便于觀察.
由超聲科醫(yī)師在RF 灰度圖像上手動選取感興趣區(qū)(region of interest, ROI), 選取外切于乳腺結(jié)節(jié)的矩形區(qū)域, 要求包含結(jié)節(jié)區(qū)域, 且選取盡可能少的正常組織.圖1(a)是超聲RF 灰度圖像和感興趣區(qū)ROI 的選取示意圖, 圖1(b)是某三條RF 信號線的波形圖, 其中RF2 穿過乳腺結(jié)節(jié).
除熵與加權(quán)熵之外, 還提取了常用于乳腺結(jié)節(jié)良惡性診斷的其他圖像參數(shù)(灰度、結(jié)節(jié)縱橫比、不規(guī)則度、深度、大小).灰度為傳統(tǒng)超聲圖像的局部亮度, 反映超聲在局部區(qū)域的回波強(qiáng)度大小.縱橫比是結(jié)節(jié)的縱向長度和橫向?qū)挾鹊谋戎? 是臨床上評判結(jié)節(jié)良惡性的重要指標(biāo).不規(guī)則度是良惡性判別的一項重要指標(biāo), 惡性結(jié)節(jié)由于細(xì)胞的分裂更易擴(kuò)散, 形狀更易趨向于不規(guī)則.深度一定程度上影響結(jié)節(jié)被發(fā)現(xiàn)的難度, 更深的結(jié)節(jié)不易被發(fā)現(xiàn)因而更有可能轉(zhuǎn)為惡性, 本文取ROI 下邊框的縱坐標(biāo)作為結(jié)節(jié)的深度.大小也與結(jié)節(jié)良惡性相關(guān), 惡性結(jié)節(jié)由于容易擴(kuò)散, 其面積會迅速增大, 而良性結(jié)節(jié)的生長相對緩慢[13].本文計算ROI 矩形的長度與寬度的乘積, 作為結(jié)節(jié)的大小.
圖2 為熵及加權(quán)熵成像過程的示意圖.首先使用滑動窗口遍歷整個原始RF 信號二次諧波矩陣,計算局部的概率密度函數(shù), 并利用公式計算局部的熵或加權(quán)熵.再對得到的新矩陣進(jìn)行線性插值和上色操作, 即可得到樣本所對應(yīng)的熵或加權(quán)熵圖像.

圖1 (a) 超聲RF 灰度圖像和ROI 選取示意圖; (b) RF 信號線的波形圖Fig.1.(a) Illustration of ultrasound RF gray imaging and selection of ROI; (b) waveforms of RF signals.

圖2 熵及加權(quán)熵成像過程示意圖Fig.2.Illustration of entropy and weighted entropy imaging.
組織病理學(xué)檢查作為判斷乳腺結(jié)節(jié)良惡性的金標(biāo)準(zhǔn).將所取乳腺包塊標(biāo)本置于濃度10%福爾馬林溶液固定, 石蠟包埋, 4 μm 層厚.脫蠟后行蘇木精-伊紅染色(HE 染色), 使用光學(xué)顯微鏡進(jìn)行形態(tài)學(xué)觀察和圖像采集分析.對于惡性病變者予以免疫組化檢測, 觀察細(xì)胞染色情況.
支持向量機(jī)是一種用于解決二分類問題的機(jī)器學(xué)習(xí)算法, 屬于監(jiān)督學(xué)習(xí)[31].其目標(biāo)是在樣本特征所組成的高維空間中計算出一個超平面, 最大限度地分隔兩類樣本, 使其到超平面的距離最大化.在n維空間, 設(shè)超平面為

其中w= (w1;w2; ···; 3wn)為法向量;b為位移項, 決定了超平面與原點(diǎn)之間的距離.點(diǎn)x=(x1;x2;···;xn)到超平面(w,b)的距離r表示為

最大超平面的求解為

其中y為樣本的實(shí)際分類, 正類時y= 1, 負(fù)類時y= —1; 下標(biāo)i是樣本的序數(shù).通過求解(6)式得到大間隔劃分超平面所對應(yīng)的模型:

對于線性不可分問題, 使用核函數(shù)將樣本映射到高維空間中, 讓其在高維空間線性可分.令φ(x)表示將x映射后的特征向量, 于是超平面模型可表示為

類似(6)式, 有

使用拉格朗日乘子法得到其對偶問題:

由于特征空間維數(shù)可能是高維, 甚至無窮維,可以將(10)式可重寫為

其中κ(xi,xj) 為核函數(shù), 本文最終使用高斯核函數(shù),其表達(dá)式為

其中σ>0 為高斯核的帶寬.
采用雙樣本t 檢驗[32]來衡量所提取參數(shù)在良性和惡性兩類樣本之間是否具有顯著差異.使用“受試者工作特征(receiver operating characteristic, ROC) ”曲線和曲線下面積(area under curve,AUC)來評價分類結(jié)果[4].
以TP (true positive), TN (true negative),FP (false positive), FN (false negative)分別表示被模型預(yù)測為正的正樣本、被模型預(yù)測為負(fù)的負(fù)樣本、被模型預(yù)測為正的負(fù)樣本、被模型預(yù)測為負(fù)的正樣本, 則真陽性率(true positive rate, TPR)、真陰性率(true negative rate, TNR)、假陽性率(false positive rate, FPR)、假陰性率(false negative rate,FNR)、準(zhǔn)確率(accuracy)可以由下述公式計算:

其中TPR 也被稱為敏感性, TNR 為特異性.
本文以FPR 為橫軸, TPR 為縱軸給出ROC曲線, AUC 可以衡量分類能力.當(dāng)ROC 曲線為一條對角線(純機(jī)遇線)時, 代表分類能力為0, 對應(yīng)的AUC 為0.5.ROC 曲線離純機(jī)遇線越遠(yuǎn), AUC越大, 表明分類能力越強(qiáng).AUC 的取值范圍為0.5—1.0, 1.0 代表能夠完全區(qū)分.
本文共收集306 個病例.經(jīng)過病理分析, 其中良性158 例, 惡性148 例.圖3 和圖4 分別為典型的惡性乳腺癌和良性纖維瘤的病理圖、RF 灰度圖、熵圖和加權(quán)熵圖.圖3(a)為乳腺癌的典型病理圖, 病理表現(xiàn)為不規(guī)則的異型腺體在纖維間質(zhì)中浸潤性生長; 圖4(a)為良性纖維瘤的病理圖, 病理表現(xiàn)為增生的纖維圍繞在由雙層上皮構(gòu)成的腺體周圍.由于結(jié)節(jié)的吸聲特性, 無論惡性還是良性結(jié)節(jié),在RF 灰度圖中均呈現(xiàn)低回聲.相比與良性結(jié)節(jié),惡性結(jié)節(jié)呈現(xiàn)明顯的直立生長特征, 縱橫比明顯大于1, 而良性結(jié)節(jié)只在某個層面橫向延伸, 縱橫比往往較小.熵圖和加權(quán)熵圖上結(jié)節(jié)的輪廓與RF 灰度圖基本一致.但由于良惡性結(jié)節(jié)間熵和加權(quán)熵值的統(tǒng)計學(xué)差異(熵約0.2, 加權(quán)熵約0.1)相對兩者的整體取值范圍(熵為4—6, 加權(quán)熵為1—3)較小,單張圖像無法通過熵或加權(quán)熵直觀反映樣本的良惡性.后續(xù)將通過病例的定量統(tǒng)計表明熵和加權(quán)熵在乳腺結(jié)節(jié)良惡性區(qū)分中的作用.

圖3 某惡性結(jié)節(jié)表現(xiàn) (a) 病理; (b) RF 灰度圖; (c) 熵圖; (d) 加權(quán)熵圖Fig.3.Presentations of a typical malignant mass: (a) Micrograph; (b) RF grayscale image; (c) entropy image; (d) weighted entropy image.

圖4 某良性結(jié)節(jié)表現(xiàn) (a) 病理; (b) RF 灰度圖; (c) 熵圖; (d)加權(quán)熵圖Fig.4.Presentations of a typical benign mass: (a) Micrograph; (b) RF grayscale image; (c) entropy image; (d) weighted entropy image.

表1 特征參數(shù)的分布Table 1.Distribution of various parameters.
使用窗長為0.5 倍RF 脈沖寬度(橫向與縱向空間尺度一致)的矩形窗對所有樣本進(jìn)行熵和加權(quán)熵成像.為了保證滑動窗在實(shí)際空間中的形狀接近于正方形, 橫向窗長由縱向窗長結(jié)合探頭的陣元寬度(即相鄰兩個RF 序列的間距)換算得到.兩個方向掃描的重疊率均設(shè)置為50%(即滑動步長為窗長的一半).然后根據(jù)醫(yī)生選取的ROI 計算樣本各項參數(shù).表1 統(tǒng)計了每個參數(shù)在所有良性和惡性樣本中的平均值和標(biāo)準(zhǔn)差, 并對兩類樣本作t 檢驗以驗證差異性.進(jìn)一步利用線性分類器對每個參數(shù)根據(jù)良惡性分類.表1 列出了各參數(shù)經(jīng)線性分類器(linear-discriminant classifier, LDC)分類的準(zhǔn)確率和ROC 曲線的AUC.由表1 可見, 所提取的參數(shù)(圖像灰度、縱橫比、不規(guī)則度、深度、結(jié)節(jié)大小、熵、加權(quán)熵)中, 除了圖像灰度以外, 均與良惡性相關(guān), 表現(xiàn)為雙樣本t 檢驗下, 良性和惡性的參數(shù)值有顯著差異.AUC 和準(zhǔn)確率最高的兩個參數(shù)是縱橫比和熵, 表明這兩個參數(shù)與乳腺結(jié)節(jié)良惡性的相關(guān)度較高.縱橫比作為重要的臨床診斷指標(biāo),當(dāng)結(jié)節(jié)屬于惡性的時候, 更傾向于直立生長, 因此高度往往會大于寬度, 導(dǎo)致縱橫比大于1.表1 中惡性結(jié)節(jié)的縱橫比(約1.06)顯著高于良性結(jié)節(jié)的縱橫比(約0.78).熵表示了圖像局部的混亂程度,與細(xì)節(jié)上的毛刺、邊界的清晰度等因素均有關(guān)系.惡性結(jié)節(jié)存在邊緣毛刺, 邊界不清晰等特點(diǎn), 會導(dǎo)致局部圖像的混亂度增大, 因而惡性結(jié)節(jié)的熵(熵或加權(quán)熵)大于良性結(jié)節(jié).由表1 可見, 熵的表現(xiàn)優(yōu)于加權(quán)熵, 可能是因為圖像灰度(體現(xiàn)RF 信號強(qiáng)度)與良惡性無明顯關(guān)聯(lián).但加權(quán)熵依然具有69%的準(zhǔn)確率, 可以作為對熵的補(bǔ)充.此外, 不規(guī)則度、深度及大小這些參數(shù)也與結(jié)節(jié)的良惡性相關(guān), 可以作為良惡性分類時的輔助參數(shù).
進(jìn)一步采用不同參數(shù)組合作為特征輸入, 利用SVM 進(jìn)行良惡性分類.不同參數(shù)組合如下: 輸入A為縱橫比+不規(guī)則度、輸入B為縱橫比+不規(guī)則度+大小+深度、輸入C為縱橫比+不規(guī)則度+熵+加權(quán)熵.圖5 為使用不同輸入?yún)?shù)進(jìn)行SVM 訓(xùn)練時的ROC 曲線.當(dāng)輸入A時, 曲線下面積(AUC)為0.76, 準(zhǔn)確率為72.2%.當(dāng)輸入?yún)?shù)增加大小和深度之后, AUC 提升為0.79, 準(zhǔn)確率提高至75.5%.當(dāng)加入熵(包括熵和加權(quán)熵)時, AUC提升至0.87, 準(zhǔn)確率提升至81.4%, 相對于輸入A 和B, AUC 和準(zhǔn)確率明顯增加.當(dāng)輸入?yún)?shù)為C時, 敏感性為78.4%, 特異性為84.2%.

圖5 不同參數(shù)組合的ROC 曲線Fig.5.ROC curves with various input parameter combinations.
圖5 的結(jié)果與表1 的結(jié)果相比較可以看出, 組合多個參數(shù)并使用SVM 進(jìn)行分類的結(jié)果要明顯優(yōu)于在LDC 下僅使用單個參數(shù)的結(jié)果.因為SVM可以尋找參數(shù)之間隱含的組合, 使其與良惡性的相關(guān)度比單個參數(shù)更高.另一方面, 使用高斯核函數(shù)可以將低維輸入空間線性不可分的樣本, 通過非線性映射算法, 轉(zhuǎn)化為高維空間線性可分的樣本, 進(jìn)而在高維空間建立一個線性超平面來對樣本進(jìn)行分類.

圖6 不同滑動窗口大小重構(gòu)的熵圖 (a) 0.2 倍脈沖長度; (b) 0.5 倍脈沖長度; (c) 1.0 倍脈沖長度; (d) 2.0 倍脈沖長度Fig.6.The reconstructed entropy images with various window sizes: (a) 0.2 times pulse length; (b) 0.5 times pulse length;(c) 1.0 pulse length; (d) 2.0 times pulse length.
為了準(zhǔn)確估計圖像局部的熵或加權(quán)熵, 需要設(shè)置合適的滑動窗口大小.已有研究表明, 過小或過大的窗口均會影響參數(shù)的穩(wěn)定估計, 同時過大的窗口還會導(dǎo)致分辨率的下降[19].本文針對乳腺RF 信號, 對滑動窗大小進(jìn)行優(yōu)化.圖6 為同一張超聲原始RF 信號經(jīng)過不同大小滑動窗口重構(gòu)的熵圖,圖7 是306 例乳腺RF 信號經(jīng)過不同大小滑動窗重構(gòu)之后, 所選取的ROI 中的平均熵值.結(jié)果表明, 在滑動窗口大小等于0.5 倍RF 脈沖長度時,平均熵取得最大值, 此時的熵圖最為清晰明亮.
Shan 等[33]使用SVM 對283 例數(shù)據(jù)做良惡性分類, 使用參數(shù)包括縱橫比、結(jié)節(jié)大小、尖峰數(shù)量等, 準(zhǔn)確率達(dá)到77.7%, AUC 為0.842.Chang 等[11]使用灰度共生矩陣提取結(jié)節(jié)的紋理特征參數(shù), 再利用SVM 和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類, 準(zhǔn)確率分別達(dá)到80.00%和85.42%.本文在常規(guī)超聲參數(shù), 例如縱橫比、深度、大小的基礎(chǔ)上, 用滑動窗口技術(shù)提取非線性超聲RF 信號熵(包括熵和加權(quán)熵), 使用SVM 進(jìn)行分類, 準(zhǔn)確率達(dá)到81.4%, AUC 為0.87,高于傳統(tǒng)機(jī)器學(xué)習(xí)方法的結(jié)果.但本文結(jié)果與大數(shù)據(jù)的深度學(xué)習(xí)的結(jié)果[34]仍有一定差距.

圖7 306 例乳腺RF 信號的平均熵值隨窗口大小的變化Fig.7.Dependence of averaged entropy on window size for 306 samples.
本文提出的乳腺結(jié)節(jié)良惡性分類方法具有較好的普適性, 適用于大多數(shù)圖像清晰, 能夠人工劃分出ROI 的乳腺結(jié)節(jié), 對結(jié)節(jié)大小沒有特殊的篩選需要.所提取的特征既包括大小、縱橫比等整體形態(tài)參數(shù), 也包括通過滑動窗口技術(shù)提取的反映細(xì)節(jié)的熵與加權(quán)熵.但該方法仍有一定的局限性, 主要體現(xiàn)在: 1) ROI 選取及不規(guī)則度的評分由人工給出, 仍然具有一定的主觀性; 2) 研究病例數(shù)稍顯不足, 還需進(jìn)一步增加樣本量以對其適用性進(jìn)行檢驗; 3)采用傳統(tǒng)SVM 進(jìn)行分類, 有待結(jié)合大樣本數(shù)據(jù)進(jìn)行深度學(xué)習(xí)網(wǎng)絡(luò)分類.
本文提出一種基于非線性超聲RF 信號熵(包括熵和加權(quán)熵)的乳腺結(jié)節(jié)良惡性篩查方法.單個參數(shù)與良惡性相關(guān)度分析表明, 超聲RF 信號熵對結(jié)節(jié)的良惡性具有較高的區(qū)分度, 可以作為良惡性診斷的一個判別指標(biāo).通過滑動窗口技術(shù)提取的非線性超聲RF 信號熵與縱橫比、大小、不規(guī)則度等常規(guī)超聲參數(shù)相結(jié)合, 在SVM 上能夠獲得高于大部分傳統(tǒng)方法的準(zhǔn)確率.進(jìn)一步的工作將進(jìn)一步優(yōu)化參數(shù)提取, 使用更為先進(jìn)的機(jī)器學(xué)習(xí)方法, 建立一套成熟的良惡性診斷系統(tǒng), 以幫助醫(yī)生完成乳腺結(jié)節(jié)的預(yù)篩查.