周孟齊,胡廣芹,林嵐,李斌,張新峰
北京工業大學 a. 環境與生命學部;b. 信息學部,北京 100124
據統計,2020年我國癌癥新發病例457萬例,其中肺癌新發病例82萬,死亡71萬例,發病率和死亡率均居首位[1]。臨床上,癌癥可根據癌細胞的擴散程度分為5個時期:Ⅰ期為產生癌細胞,Ⅱ期為癌細胞在癌變部位發生輕微擴散,Ⅲ期為癌細胞在周邊發生擴散,Ⅳ期為癌細胞轉移至遠端,Ⅴ期為癌細胞擴散至測量方法的極限。其中,Ⅰ期和Ⅱ期兩個時期統稱為癌癥早期[2]。癌癥早期患者可以通過化療、放療等方式進行治療,達到治療目的,因此早發現有重要意義。
中醫通過望聞問切四診合參的方式診斷,具有無創無痛的優勢[3]。面診作為望診的內容之一,在診斷過程中發揮著重要作用,如面部為全身經絡血脈匯聚之處,面部的顏色、光澤、紋理特征表現可以直接反映人體內部氣血運行狀態,并反映人體內部器官健康狀態[4]。同時積聚患者面部皮膚狀態會發生改變,積聚即為腫瘤,如果人體某一部位發生癌變,會影響全身經絡氣血的運行狀態,體現在面部的特征參數上[5]。
目前,已有關于面診信息化的研究,其中YCbCr顏色空間是YUV的國際標準化變種,在數字電視和圖像壓縮(如JPEG)方面都有應用,其中Y與YUV中的Y含義一致,指亮度,CB和CR分別指藍色分量和紅色分量[6-8]。但關于癌癥風險預測評估的報道較少,基于此,本研究旨在結合面部顏色和紋理特征,使用機器學習的方法,對是否具有早期肺癌風險進行分類研究,以期為肺癌早期發現提供客觀依據。
本研究數據處理流程圖如圖1所示,通過專業設備進行人面部圖形的采集,并將所采集到的圖像按照研究所制定的標準進行篩選、分類。通過BiSeNet 進行面部圖像分割,獲取無背景噪聲的研究區域;對分割后的圖像進行顏色空間的轉換,并在YCbCr顏色空間模型中通過CB以及CR的值尋找非膚色點,利用均值濾波的方法進行降噪。對降噪后的圖像通過一階顏色矩的方法獲取亮度分量、紅色分量、藍色分量3個顏色特征值,同時采用灰度共生矩陣獲取ASM能量、熵、對比度3個紋理特征值;使用隨機森林的算法進行分類研究,并計算6個特征對分類模型的貢獻度。

圖1 數據處理流程圖
本研究數據來源于中國醫學科學院腫瘤醫院數據庫和中國醫學科學院中醫藥健康工程研究室面部圖像數據庫。采集時均使用同一廠家同一型號的面診采集儀,并保證光照條件的一致性以及光源的穩定,對圖像進行篩選,最終將圖像人群劃定在35~50歲的華北地區人員。在符合年齡和地區的前提下,再次進行數據篩選。
(1)患癌人群納入標準:① 采集時醫生病歷診斷顯示為早期肺癌;② 為首次接受治療。
(2)未患癌人群納入標準:體內無任何炎癥感染。
(3)圖像納入結果:剔除不符合要求的圖像,即非早期肺癌患者、已經治愈的患者、體內存在炎癥的患者圖像以及采集時有異物遮擋的圖像。整理圖像,最終納入患癌圖像158例,不患癌圖像200例,數據分布較為均衡,并對數據進行標簽分類,0表示患癌,1表示不患癌。
(4)訓練集和測試集:每次試驗將279例圖像作為訓練集,79例圖像作為測試集。
本研究使用BiSeNet網絡進行分割,將圖像中的整個面部區域作為目標前景,其他區域作為背景。BiSeNet網絡是一種雙路徑分割網絡[6-8],即通過空間路徑(Space Path,SP)和上下文路徑(Context Path,CP)分別獲取位置信息特征和語義信息特征,將兩者通過特征融合模塊進行融和,篩選有效特征,從而準確分割目標區域。BiSeNet算法被廣泛應用到各個領域的目標分割中,均取得了較高準確度的分割結果。
在本研究中的空間分支網絡由3個隱含層組成,每個隱含層包含一個不步長為2的卷積層(conv)、批量標準化層(bn)、激活層(relu),因此SP輸出特征圖的尺寸為原始圖像的1/8,可保存豐富的低級空間特征信息,而CP分支使用殘差網絡,獲取最大的感受視野,進而獲取上下文語義信息。BiSeNet結構如圖2所示。由圖2可知,注意力提取模塊使用全局平均池化的方式來學習特征,特征融合模塊則將SP分支與上CP分支輸出的特征池化為一個特征向量,并進行權重選擇,進而識別到整個人臉區域。用100幅圖像進行面部區域標注,送入模型,進行學習。

圖2 BiSeNet結構模型
面部顏色是中醫面診過程中的一個重要信息,在不同的顏色空間中反映出的顏色信息也不一致。面部顏色特性在YCbCr顏色空間[亮度(Y)、藍色分量(CB)、紅色分量(CR)]上具有較好的信息反映能力,且可根據CB和CR的取值范圍區分膚色點,且其取值與年齡、性別、職業等因素無關,由于YCbCr顏色空間上,具有橢圓膚色聚類的特性,需對非膚色點進行檢測[6],因此本研究將面部圖像轉換到YCbCr顏色空間上,其轉換關系如公式(1)所示,將圖像轉化到YCbCr顏色空間后,進行非膚色點檢測。YCbCr空間使用非線性分段分割膚色區域時,近似于橢圓形狀,如公式(2)~(3)所示。

式中,Y為圖像在YCbCr顏色空間模型中亮度通道上的分量,CB為其藍色通道上的分量,CR則為其紅色通道上的分量。R、G、B分別代表圖像在RGB顏色空間模型中紅色通道、綠色通道以及藍色通道上的分量。

式中,x、y分別表示圖像閾值的橫、縱坐標;a表示在YCbCr顏色空間膚色點聚類而成的橢圓模型的長軸的值;b表示短軸的值;ecx、ecy分別表示橢圓模型中心點的橫、縱坐標;θ表示坐標軸遠點到中心點的角度。
根據研究計算可得[7-8],在YCbCr空間聚類區域中,θ=2.53,cx=109.38,cy=152.02,a=25.39,b=14.03,ecx=1.60,ecy=2.41。本研究通過轉換公式獲取圖像CB和CR的值,通過公式(3)計算出x和y的值,并帶入公式(2)的左側部分,計算其結果。若大于1則表明該點不在橢圓區域內,即為非膚色點。將圖像中的每一像素點的CB,CR值代入,計算對應像素點的x、y值,并入公式(2)的左側,與1比較,發現只有當CB、CR兩值同時滿足133≤CB≤173、77≤CR≤127時,其結果才滿足≤1,落入橢圓區域內部[7]。基于此,在本研究中,對像素點CB和CR值篩選,并將不能同時滿足兩值范圍的點,記為非膚色點,并使用9×9的均值濾波器進行濾波,達到降噪的目的。
在YCbCr顏色空間模型中,通過獲取Y、CR、CB的一階顏色矩,即圖像各像素點的均值作為其顏色特征值。
除了顏色特征,面部還包含了許多其他有用的信息。紋理特征是對圖像灰度空間分布模式的分析,描述圖像像素與像素之間的關系,且不受顏色和亮度的影響[8]。本研究采用灰度共生矩陣(Gray Level Co-Occurrence Matrix,GLCM)提取ASM、熵、對比度3個特性,分別反映圖像灰度分布均勻程度、平均信息量和灰度反差,三者可從不同的角度描繪出圖像在灰度空間上的局部特征,反映面部的紋理特征,計算公式如式(4)~(6)所示。

式中,P(i,j)表示在灰度空間中灰度級之間的聯合條件概率密度,對于本研究,給定空間距離d=1,采用4個共生矩陣,其角度分別為 0°、45°、90°、135°時,灰度以 i(某行)為起點,出現在灰度級j(某列)上的概率。同時將所有圖像二值化,獲取其灰度圖像,使用4個不同角度的共生矩陣,分別按公式(4)~(6)進行計算,并取4個矩陣計算結果的均值作為最終的紋理特征。
隨機森林是機器學習的一種方法,計算速度較快[9],其是通過多個決策樹構造而成,最終的輸出結果是由多個決策樹組合而成的結果,因此優于任何一個單個決策樹的輸出結果[10],因此隨機森林被廣泛應用到分類[11]、預測[12-13]等方面。本研究在構造隨機森林模型過程中使用ID3算法建立決策樹,并對ID3算法進行改進,在構造時進行最大特征數的限定,通過調節最大特征數以及決策樹的個數,觀察兩者對隨機森林的分類結果的影響,尋找最優參數。隨機即指樣本的隨機抽取和特征的隨機選擇。
本研究將數據集進行劃分,對訓練集的279個樣本進行有放回地隨機抽取,對抽取出的K組樣本進行訓練,其構造過程如下:① 確定原始訓練集:D={1,2,……279};② 對訓練集進行特征確定,確保所選擇的特征對分類有意義;③ 對訓練集D進行K次有放回地隨機抽樣,每次抽取N個樣本,其中N小于訓練集D,得到K組樣本集,本研究中,K分別取值為30、0和100,即決策樹的個數;④ 使用ID3算法,分別對K組樣本用信息增益的方法構造決策樹,進而形成有K棵決策樹的隨機森林;⑤ 輸入待測樣本,根據步驟④的決策數據計算輸出結果。
研究以準確率作為模型的評價指標,準確率的計算方法如公式(7)所示,混淆矩陣示意表如1所示。


表1 混淆矩陣示意表
構造隨機森林后,對特征的重要度進行分析。隨機森林中的特征選擇主要有3種方法:χ2檢驗、信息增益、Gini系數。本研究在選用信息增益的方法進行特征選擇。信息增益的選擇標準是按照每個子節點的純度達到最高純度進行的,其值越大純度越高。
特征集合A為特征信息。由于本研究是一個二分類的數據集,故i的值有2個,并根據公式(8)計算信息量。根據式(9)~(10)分別計算出其先驗熵、后驗熵。

式中,數據集D作為信息,Di為D中的一種類型;P(Di)表示輸出結果為第i類的概率。

式中,P(Di|Aj)表示在特征Aj條件下取得第i類的概率。P(aj)表示隨機選擇樣本時選擇特征aj的概率,Aj為特征aj中的一種。
信息增益是指信息從先驗熵到后驗熵減少的部分,反映了信息消除不確定性的程度,其值越大,消除不確定性的能力越強,相關性越強,計算方式如公式(11)所示。本研究,樣本集合D={Di|i=|0,1},特征集合A={Aj|j=|1,2,3,4,5,6}。

在具體進行特征選擇時,信息增益計算步驟如下:① 根據公式(8)~(11)計算每個特征的信息增益;② 比較集合A中各個特征的信息增益的大小,選擇信息增益最大的特征最為分割的子節點,并選擇該特征下的樣本的類別作為子節點;③ 對子節點重復上訴2個步驟,直至能夠獲取最終的分類結果。
經過訓練學習,采用BiSeNet網絡模型圖像進行分割,其分割結果準確率為96.25%。每幅圖像均能夠較為準確的分割出人的面部區域,其分割效果如圖3所示,通過分割,獲取研究中的目標區域,即人的整個面部圖像。去除其他與面部圖像參數無關的噪聲,排除其他干擾因素。

圖3 分割效果圖
將分割后的圖像轉化到YCbCr顏色空間中,通過CB以及CR的取值范圍,尋找非膚色點,并采用9×9的滑動窗口,通過均值濾波的方法進行降噪處理,并在該顏色空間中,計算3個分量的平均值,作為其顏色特征,隨機選擇2組肺癌患者與未患癌人群的特征提取結果展示如表2所示,從顏色特征數值上可以看出,癌癥患者面部的顏色特征與未患癌人群面部的顏色確實存在明顯差異,尤其表現在紅色分量上,特征選擇也證實了紅色分量的特征貢獻度最大。

表2 部分面部顏色特征結果
對彩色圖像進行二值轉化,獲取其灰度圖像,并對灰度圖像進行灰度級量化,量化后采用角度分別為0°、45°、90°、135°的4個共生矩陣,計算ASM、熵、對比度反映面部的紋理特性,隨機選擇2組肺癌患者與未患癌人群的紋理特征提取結果如表3所示,通過表3中數據對比可得出,肺癌患者面部圖像的ASM值大于0.5,而未患癌人群的面部圖像的ASM小于0.5,兩者存在較為明顯的差異;同時兩者熵和對比度在數值上差異也較明顯。

表3 部分面部紋理特征結果
本研究構造隨機森林,設置2個超參數,即決策人樹個數和最大特征值,將決策樹個數分別設置為30、50和100,最大特征等設置為2、3和4,在不同參數下,進行訓練和測試,并對測試結果進行分析。首先觀察混淆矩陣,并根據混淆矩陣計算模型的準確率。圖4為其中1組測試結果的混淆矩陣,根據混淆矩陣,快速獲得TP、FP、TN、FN的值,并根據公式(11)計算每次訓練的模型所做出分類的準確率,即正確判斷的數量占測試集總數的比例。分別對數據集進行了9次訓練和測試,9次測試結果準確率如表4所示。通過表4可以看出,當決策樹的個數一定時,隨著最大特征數的增加,其預測結果的準確率也有所提升,但是所用的時間也隨之增長。對比第3次和第6次實驗,預測結果相同,且為本研究最高,但第3次所用的時間明顯少于第6次。

圖4 1組測試結果的混淆矩陣

表4 隨機森林預測結果
參數的設置不僅影響模型的準確率和效率,同時也影響整個模型的擬合程度,設置不當會造成整個模型欠擬合和過擬合。經過多次實驗調整,將決策樹個數設置為30,最大特征數設為4時,模型擬合程度最好,同時具有最高效率和最佳準確率。隨機森林的準確度為87.3418%,高于SVM的64.7200%。在該參數條件下的模型最優,在該參數條件下,對特征選擇進行評估,其結果如圖5所示,可以看到6個特征中,紅色分量的貢獻度最大,其次是ASM。

圖5 特征重要度
本研究從中醫望診法中的面診法出發,通過分析面部顏色和紋理信息,針對肺部是否存在早期癌風險進行了研究。在早期關面診的研究中,對面部的顏色特征信息進行研究而忽略了紋理特征的研究[12-13]。相關文獻[6-7]雖然是針對腸癌進行的,但也僅是在顏色特征對比上進行,而本研究中除了顏色特征外還引入了紋理特征,從灰度空間反映患者表現在面部上的信息。
在面部分割的過程中,使用BiSeNet算法獲取到完整的目標區域。近年來人臉識別分割算法不斷發展,但仍然存在效率低、分割不準確等問題,相關文獻[12-24]分別用不同的深度學習方法進行面部區域的分割,其分割準確率在93%~95%,且耗時近3 min。而本研究所采用的雙邊語義分割結構模型分別從空間路徑和上下文路徑2個方面獲取圖像中面部位置信息和語義信息,在分割過程中保存了豐富的信息和最大感受視野,準確率為96.25%,且耗時為1 min左右。
本研究中,轉換顏色空間模型,獲取更為精確的顏色信息。通過YCbCr顏色空間尋找非膚色點,并使用均值濾波進行降噪處理,排除了化妝等因素導致的影響,從而使最終的分類結果更為可靠[25-27]。于婧潔[5]對早期肺癌與面診的相關研究中,通過梯度決策樹對面部顏色特征進行訓練,對是否患有早期肺癌進行預測研究,但僅對額部進行研究,忽略了口唇的顏色特征,因此準確率僅在60%左右。而本研究不僅使用了在整個面部的顏色特征信息,還融入了紋理特征信息,而隨機森林的使用也提升精準度至87.3418%。為早期肺癌的發現提供輔助依據,表明研究中的面部分割模塊融入面診儀中,實現高精確度的分割,用于后續的面診分析,減少噪聲干擾。
本研究首先對面部圖像進行分割,并在YCbCr顏色空間模型中檢測非膚色點并降噪,最大可能的減少環境帶來的影響。通過顏色特征和紋理特征,使用ID3算法構造隨機森林。通過準確率、召回率、精確度是對隨機森林模型進行評估,并調整最大特征數和決策樹個數尋找最優模型。根據結果,針對本研究,當決策樹個數設置為50,最大特征數設為4時,參數最優,模型最優。
本研究未對舌部信息進行分析,未來將增大數據集并融合舌部信息進行研究,以獲取更高準確率的分類模型。