蔡莉莉,侯珂珂
(1.中山大學新華學院生物醫學工程學院,廣州510520;2.中山大學新華學院健康學院,廣州510520)
分類問題作為數據挖掘和模式識別領域的重要問題之一,一直以來受到眾多科研學者的廣泛關注。在我們的生活實際應用中常常會遇到分類問題,最常見的如基于醫療數據集的疾病診斷問題,它是一種典型的分類問題。根據醫療儀器設備獲取的疾病的生理指標數據,采用數據挖掘和機器學習算法可以構建出分類決策模型,從而實現對疾病類型的分類和診斷。
隨著智慧醫療概念的提出,越來越多的人工智能算法技術被應用于醫療分類問題的研究中,用以輔助醫生臨床疾病診斷。杜權等人分別采用支持向量機、隨機森林算法和1維卷積神經網絡訓練出心律失常檢測模型,檢測心律失常準確率高達97.17%[1]。苗豐順等人提出了一種基于Cat?Boost算法的糖尿病診斷模型,取得了較為優異的預測結果[2]。神經網絡具有強大的非線性映射能力,常用于分類問題研究中。吳燎將BP神經網絡應用于中醫疾病診斷中,實現了對高血壓、胃病和冠心病的高效預測。王增輝構建出基于人工神經網絡的心臟病預測模型,模型的分類準確率達到85.7%[3]。
醫療數據分類預測模型準確率的提高非常依賴模型能否有效挖掘出數據內在特征,將數據集的有效特征提取出來進行建模有助于改善模型分類精度。受限玻爾茲曼機(restricted boltzmann ma?chine,RBM)因為具有較為顯著的特征表達能力,被廣泛應用于神經網絡中作為特征提取的有效手段[4]。2006年,Hinton提出由堆疊多個RBM構成的深度置信網絡(deep belief network,DBN)架構,并將其應用于圖像分類問題研究中,深度學習的概念由此被提出[5,6]。本文利用RBM強大的特征提取能力,在深度置信網絡結構基礎上進行改進,提出一種基于回歸權的深度置信網絡結構,并將其應用于醫療數據分類問題研究中。實驗部分針對3個醫療數據集,分別利用改進網絡結構和傳統DBN網絡進行預測,以驗證其有效性。
神經網絡的參數學習算法一般使用反向傳播算法,即BP算法。BP算法是一種經典的有監督學習算法,訓練過程極度依賴有標簽的樣本數據。并且使用BP算法在訓練過程中,其參數初始值通常采用隨機初始化的方式獲得,這種隨機初始值很容易使得梯度下降尋優過程中陷入局部極值,導致結果較差。Hinton提出的深度置信網絡是利用多個玻爾茲曼機進行堆疊形成的一種生成模型,利用RBM使用無監督算法訓練的優勢,不僅可以有效保留其優秀的特征提取能力,且預訓練獲得的參數可以作為BP參數尋優的初始值,從而提高收斂速度[6]。圖1為RBM結構圖,圖2為由兩個RBM堆疊形成的DBN示意圖。

圖1 RBM網絡結構

圖2 2個RBM構造的DBN結構
從圖1中可以看出,RBM共包含兩層:可見層和隱含層。觀察RBM的網絡結構可以發現,其層內節點間無連接,層間節點為全連接。圖1中ai、bi分別表示可見層節點和隱含層節點的偏置,W為層間節點的連接權??梢妼幼鳛閿祿斎?,可以為二進制數據或者實數型。RBM采用基于對比散度學習算法訓練可見層和隱含層之間的連接權和偏置,使得RBM可以最大概率表征輸入數據的分布特征[7]。圖2描述了兩個RBM堆疊構建DBN網絡的過程。核心是將第1個RBM的隱含層的輸出作為第2個RBM的輸入層,通過逐個訓練RBM內部層之間的連接權,就獲得了權值的初始化參數。此種訓練算法稱為逐層貪婪預訓練算法[8]。
為了在DBN網絡基礎上實現分類的目的,往往需要在網絡后新增一個輸出決策層,用于輸出分類結果。一般情況下,輸出層與上一層的連接權默認采用常數權。在此基礎上,本文考慮將回歸權系數作為最后輸出層與上一層的連接權,而其他層的權值仍為常數權形式,在少量增加網絡訓練復雜度的情況下,以提高網絡的泛化能力,如圖3所示。

圖3 基于回歸權的改進DBN結構
假設輸入x=(x1,x2,…,xn),隱層2的節點個數為l,其第k個節點的輸出值為Hk。則有回歸權系數表達式如(1)所示,決策層的輸出如式(2)所示。

這里aki(i=1,2,…,n)表示各回歸權值的系數因子。
針對上述改進網絡的學習算法包括如下兩步:
(1)基于訓練數據使用逐層貪婪預訓練算法逐個訓練RBM,獲得DBN網絡權值的初始化參數。
(2)在初始化參數的基礎上,利用BP算法進行全局調優,其中輸出層的回歸權系數因子使用最小二乘法計算,其他各層的權值參數尋優使用梯度下降算法調整。
本文選用UCI機器學習庫中常用于分類研究的三個醫療數據集進行建模分析。他們分別是Wisconsin Breast Cancer數據集、Heart Disease數據集以及Mammographic masses數據集。其中Wis?consin Breast Cancer數據集和Mammographic mass?es數據集均為乳腺腫瘤圖像樣本數據集,可用于預測乳腺腫瘤的良惡性類別。Heart Disease數據集是一組病人體質數據,可用于預測患者是否患有心臟病。
Wisconsin Breast Cancer數 據 集 共 有569個 樣本數據,無缺失數據,其中良性樣本357例,惡性樣本212例。該數據集具有32個屬性,其中前兩個字段為病例編號和腫瘤良惡性標簽值。本文中用于建模的特征為30個,記錄了腫瘤病灶組織細胞核半徑、周長、面積、平滑性等10個特征量的平均值、標準差和最差值。Mammographic masses數據集共有961條數據,樣本中含有缺失數據,剔除缺失數據樣本后,共有830條數據。該數據集提供了X射線照射乳腺腫瘤組織影像獲取的腫瘤形狀、密度、BI-RADS評級標準值以及病人年齡等5個輸入特征,最后一列記錄了良惡性類別。該樣本集共包含良性樣本427例,惡性樣本403例。Heart Disease數據集含有303條數據,無缺失值,包含患病樣本138例,未患病樣本165例。每個輸入樣本記錄了病人的年齡、性別、血壓、血糖、膽固醇及心電圖相關的數據共計13個。針對各數據集中包含的值域比較分散的屬性,在下文進行建模時分別進行了歸一化的操作。
為了對比改進DBN網絡結構是否能有效改善分類模型的泛化能力,針對以上三個醫療樣本數據集,分別構建出普通DBN結構預測模型和回歸權DBN結構模型進行對比分析。網絡結構均采用由兩個RBM堆疊形成,各層網絡節點個數通過粒子群優化算法確定。參數初始化階段訓練RBM采用對比散度快速學習算法,這里的學習率設定為0.1,迭代次數為50次。全局參數調整階段使用梯度下降算法進行調優,損失函數為均方誤差。學習速率設定為0.1,迭代次數為500次。
模型評價指標采用分類模型常用指標,包括分類準確率、查準率、查全率和F1分數,定義公式如式(3)—式(6)所示[9]。

這里,TP表示樣本真實類別為正例,且預測為正例的樣本個數,TN表示樣本真實類別為負例且預測為負例的樣本個數;FN表示樣本真實類別為正例但被錯判為負例的樣本個數;FP表示樣本真實類別為負例但被錯判為正例的樣本數。
本文中為了方便對比,將良性類別記為P,惡性類別用N表示。
針對以上3個醫療數據集,分別構建出基于常數權的DBN網絡和基于回歸權的DBN網絡分類模型。實驗中訓練集和測試集的數據劃分比例均為7∶3。另外,為了減少訓練隨機性對模型性能的影響,性能指標皆取10次仿真結果的平均值。由此得到三個數據集中各測試集的性能指標結果分別如表1、表2、表3所示。

表1 Wisconsin Breast Cancer實驗結果對比

表2 Heart Disease實驗結果對比

表3 Mammographic masses實驗結果對比
由表1—表3的仿真結果可以看出,采用改進回歸權的DBN網絡構建的分類模型在分類準確率和F1分數上較之原始DBN網絡結構均有一定提升。且各分類模型的性能指標值均達到80%以上,其中在Wisconsin Breast Cancer數據集上的分類準確率高達96.7%,取得了較好的預測效果。
本文在原始DBN網絡結構的基礎上,提出一種改進回歸權的DBN網絡結構用于實現對醫療數據分類問題研究。借助于RBM強大的特征提取能力,實現對高維醫療數據特征的有效挖掘,從而構建出性能較為優異的決策模型。在三個醫療數據集上的仿真結果表明,改進權值的DBN網絡結構較之原始DBN結構在各性能指標上均有一定程度提升。因此,未來將考慮進一步優化網絡結構和模型參數,并將該模型應用于更多的醫療數據建模問題中,為臨床醫生提供輔助決策。