基于隨機森林和多標記學習算法的慢性胃炎實證特征選擇和證候分類識別研究

2016-08-01 07:47:44徐瑋斐顧巍杰劉國萍劉晏顏建軍鐘濤

中國中醫藥信息雜志 2016年8期

徐瑋斐顧巍杰劉國萍劉晏顏建軍鐘濤

摘要：目的對慢性胃炎實證證候的特征癥狀進行選擇，并建立證候模型，為慢性胃炎證候量化診斷的建立提供方法學參考。方法運用慢性胃炎中醫問診規范化量表采集臨床癥狀和體征，并運用機器學習領域新提出的隨機森林和多標記學習算法對慢性胃炎的實證癥狀進行選擇和模型構建。結果運用隨機森林和信息增益算法，結合多標記學習算法對證候分別建模，隨機森林算法挑選出15個特征癥狀，信息增益方法挑選出20個特征癥狀，二者的模型最高準確率分別為83%、82%。通過評價，隨機森林算法選出的特征癥狀更加精簡，提高了診斷模型的識別率。結論隨機森林結合多標記學習算法可實現慢性胃炎實證證候特征癥狀的選擇，同時還可解決幾個證候相兼問題，彌補傳統學習算法的不足。

關鍵詞：隨機森林算法；多標記學習算法；慢性胃炎；特征選擇；證候

DOI：10.3969/j.issn.1005-5304.2016.08.006

中圖分類號：R259.733 文獻標識碼：A 文章編號：1005-5304（2016）08-0018-06

證候指人體生理病理的整體功能狀態，臨床上常指對個體整體功能狀態的判斷結果[1]。證候分類是對不同個體生理病理整體功能狀態進行分類的一種方法，主觀癥狀和體征（舌脈等）信息則是中醫證候分類的主要依據。此外，癥狀和體征的出現在不同證候中有不同的規律，這種規律可以利用現代方法去尋找和不斷完善，從而找到證候分類標準的制訂和完善方法。劉渡舟教授大力提倡“抓主癥”，并指出每一種病證都有其特異性的主癥，可以是一個癥狀，也可能由若干個癥狀組成[2]。隨著數理統計學和數據挖掘技術的發展，如何找出患者的主癥，是提高臨床辨證準確性的關鍵，也是中醫步入“數字中醫”時代的緊迫任務。特征選擇旨在去除不相關特征和冗余特征，力求以最少的特征來表達原始信息，并達到最優的預測或分類精度。特征選擇與尋找“主癥”的目的相同。隨機森林算法（random forest algorithm）是一種嵌入式的特征選擇方法，充分利用了集成分類器構建過程所產生的分類模型。隨機森林算法適合對高維、離散型數據進行建模仿真，當數據含噪聲時也表現出良好的性能。

本課題組前期研究顯示，臨床實際中慢性胃炎證候往往不會單一出現、時常交織在一起，2個以上證候兼雜的情況占30%以上[3]。這屬于典型的多標記問題。因此，我們運用課題組提出標記相關特征的多標記學習方法[4]和隨機森林算法相結合，進行慢性胃炎癥狀和體征的選擇和實證證候分類識別，為慢性胃炎的中醫證候診斷規范化及客觀化研究提供參考。

1 資料與方法

1.1 研究對象

2008年9月-2010年10月于上海中醫藥大學附屬龍華醫院、上海中醫藥大學附屬曙光醫院、上海交通大學醫學院附屬新華醫院、上海市普陀區中心醫院及上海市中醫醫院消化內科門診、住院部、胃鏡室進行病例采集，去除信息不完整及不符合慢性胃炎診斷的量表，共采集有效樣本919例。其中男性354例（38.5%），平均年齡（44.61±14.54）歲；女性565例（61.5%），平均年齡（48.70±12.74）歲。本研究獲得上海市醫院倫理委員會批準，所有納入病例患者均簽署知情同意書。

1.2 診斷標準

1.2.1 西醫診斷標準參考中華醫學會消化病學分會《中國慢性胃炎共識意見（2006年，上海）》[5]，通過胃鏡與病理組織學結果結合臨床表現診斷篩選為慢性胃炎患者。

1.2.2 中醫證候診斷標準參考《中藥新藥臨床研究指導原則（試行）》[6]及中華人民共和國國家標準《中醫臨床診療術語·證候部分》[7]制定脾胃濕熱、濕濁中阻、脾胃氣虛、脾胃虛寒、肝氣郁滯、肝胃郁熱、胃陰不足、胃絡瘀血8個證候的辨證標準。

1.3 納入標準

①符合慢性胃炎診斷標準和中醫證候診斷標準；②對本調查知情同意者。

1.4 排除標準

①精神病患者及伴有其他系統重度疾病者；②語言表達能力較差，病情敘述有困難者；③未獲得知情同意，拒絕配合者。

1.5 采集量表的制作方法

由上海市資深中西醫結合消化系統臨床專家、臨床醫生及研究者組成研究小組。參考以往量表制作的經驗[8]，通過文獻檢索，參考國內慢性胃炎證型與證候有關的癥狀頻率的報道，初步制定出臨床流行病學調查表。并經2輪專家咨詢及相關的統計學檢驗，完善修改量表。確定的中醫問診量表包括寒熱、汗、頭身胸腹、二便、飲食口味、睡眠、情緒、婦女共8個維度，及既往史、望診、切診等內容，共113個變量。

1.6 調查方法

量表中對癥狀給以明確的定義，指出問診時的具體操作方法和順序。病例采集人員經統一培訓。為保證在調查過程中的統一，小組成員定期集中，對典型病例的資料進行討論，以盡可能保證所采集資料的一致性。

1.7 診斷方法

邀請3位臨床經驗豐富的高年資主任醫師，參考課題組制定的辨證診斷標準，對信息完整的病例進行中醫辨證診斷。選取2位專家診斷結果一致的數據進行錄入；對于診斷不一致的數據，再與專家討論，診斷結果達成一致后再錄入。

1.8 數據輸入及處理

采用Epidata3.1軟件建立數據庫。獨立雙遍錄入，并對2份錄入數據進行對比核查。再進行邏輯檢查，修正調查表填寫錯誤。

1.9 分析方法

1.9.1 癥狀（體征）特征選擇方法前期研究顯示，信息學的特征提取方法中信息增益（information gain）的結果最優[4]，因此，本研究運用隨機森林和信息增益2種算法進行對照，分別對慢性胃炎臨床常見證候進行特征選擇，并運用REAL多標記學習算法對證候進行識別。采用matlab7.0進行分析。

1.9.1.1 信息增益信息增益在機器學習領域被廣泛應用。在信息論中，樣本屬性的信息增益越大，其包含的信息量也越大。它是通過計算一個特征能帶來多少用于分類的信息，以衡量特征對應分類的重要度。在信息增益中，重要性的衡量標準就是看特征能夠為分類系統帶來多少信息，帶來的信息越多，該特征越重要。

1.9.1.2 隨機森林算法本研究利用Abhishek Jaiantilal的R package randomForest工具包訓練出中醫慢性胃炎數據的分類模型以確定特征重要度。在不增加原樣本集樣本的情況下通過自舉法（bootstrap）選擇樣本子集構建一組分量分類器，然后利用投票（voting）機制綜合分量分類器的結果得到最終分類結果。在構建分量分類器時，未被選中的樣本組成袋外（out-of-bag，OOB）數據集，用袋外數據進行測試得到袋外誤差（out-of-bag error，OOB Err）。在森林每一顆樹的構建過程中，記下OOB事例集，并記下分類投票正確的個數。隨機改變OOB事例集中一個特征m，把這些事例訓練成樹。然后用之前未受改變特征m影響情況下正確分類投票數減去改變OOB事例集中特征m后的正確分類票數得到票數差，這個票數差客觀反映了特征m對分類的影響程度。對每棵樹做相同處理，然后每棵樹結構得到的票數差取平均值稱為特征m的重要度（raw importance）。取出重要度參向量importance=（ipt1，ipt2，…，iptn）。則權

1.9.2 多標記學習方法為了更好地體現標記之間的關聯性，本研究運用課題組提出的標記相關特征的多標記學習算法（REAL算法）進行證候模型的建立。

輸入：訓練特征集（以及每個特征集對應的類標簽集）；測試特征集（以及每個特征集對應的類標簽集）；近鄰數（k）；參數（s）。

輸出：類向量（）；真值向量（）。

算法流程如下：

Step1：通過特征選擇算法挑選各個標記N個相關特征，將每個特征的標號分別放在1個數組中。

Step2：對原始數據集進行10倍交叉檢驗，劃分訓練集和測試集。

Step3：根據每個標記分別使用相關的特征子集進行訓練。所屬訓練樣本之間的距離→每個類的先驗概率→由每個樣本的距離選取最近的k個近鄰→近鄰的標簽→累計每個樣本的近鄰確實是該類的個數→后驗概率。

Step4：根據每個標記分別使用測試集中相關的特征子集進行測試，計算所屬訓練樣本的特征子集和測試樣本的特征子集之間的距離→測試樣本的近鄰→近鄰的標簽→通過先、后驗概率得到每個值的最大后驗概率值。

1.9.3 實驗設置與評價根據每個證型分別選取112、100、70、60、50、40、30、20、15、10、5個癥狀組成的證型相關的特征子集，再運用多標記學習方法對相應的特征子集建模。實驗結果的評價采用5種在多標記學習用的比較常見的評價指標：漢明損失（Hamming loss）、首標記錯誤（One-error）、覆蓋距離（Coverage）、排序損失（Ranking loss）、平均精度（Average precision）。

1.9.3.1 平均精度表示預測標記集合中的標記排序等級比實際中的某個的特定標記更高的統計概率。實際反映了預測標記的平均準確率，該值越大分類性能越好。

1.9.3.2 覆蓋距離代表覆蓋預測樣本標記的平均距離，該值越小分類性能越好。

1.9.3.3 漢明損失評價示例-標簽對錯分的次數，該值越小越好。也就是不屬于某個事例的標記被預測為該事例了，或者屬于某個事例的標記卻沒有被預測出來。

式中表示2個事例-標記對相應位置上數值的區別。

1.9.3.4 首標記錯誤計算預測的最高等級標記不在樣本標記集合的次數，該值越小越好。在單標記分類問題中，該評價準則被視作普通的分類錯誤。

1.9.3.5 排序損失表示不相關標記比相關標記排序更高的次數，該值越小分類性能越好。

其中代表Y中Yi的補集。

2 結果

2.1 基于隨機森林和信息增益的REAL算法不同特征數下平均準確率的變化

由于前期的研究顯示，信息增益方法選取20個特征時的識別率最高，平均準確率達到最大值為82%[6]。因此，本研究主要利用隨機森林算法分別選取不同的特征數運用REAL算法進行分析，分別選取112、100、70、60、50、40、30、20、15、10、5個癥狀組成的證型相關的特征子集，在這些癥狀（體征）子集上進行證候診斷模型的建模，研究癥狀（體征）選擇對證候預測模型的影響。以挑選的特征數目為橫坐標、預測的平均精度（最高為1）為縱坐標作圖，具體結果見表1、圖1。

從圖1中可以看出，隨著特征數的變化，平均準確率是不同的。在選擇的特征數為15時，平均準確率達到最大值83%，之后隨著特征數的增加，平均準確率逐漸下降。

圖2是利用隨機森林算法特征選擇數目為15、信息增益特征選擇數目為20時，REAL算法各項性能的對比。

從圖2中可以看出，利用隨機森林算法進行特征選擇時平均精度、覆蓋距離、漢明損失、首標記錯誤和排序損失分別達到0.830、0.157、0.137、0.265和0.114。而利用信息增益進行特征選擇時，這5項指標分別為0.820、0.160、0.142、0.283和0.117。基于隨機森林算法的REAL算法的各項性能要高于信息增益。

特征選擇方法下REAL算法各項性能比較

2.2 提取的最優癥狀（體征）子集

隨機森林算法在選取15個癥狀特征時的識別率最高，平均準確率達到最大值83%；而信息增益方法選取20個特征時的識別率最高，平均準確率達到最大值82%。可見隨進森林算法的結果更好，因此，我們得到慢性胃炎4個實證證候脾胃濕熱、濕濁中阻、肝氣郁滯、肝胃郁熱的最優癥狀（體征）子集，并按照權值進行排序。

脾胃濕熱證提取的癥狀（體征）有苔黃、苔白、苔膩等15個癥狀體征，濕濁中阻證提取的癥狀（體征）有苔膩、苔厚、苔白等15個癥狀體征，肝氣郁滯證提取了因情緒而加重、脅肋脹或痛、苔膩等15個癥狀體征，肝胃郁熱證提取了舌色紅、苔膩、灼痛等15個癥狀體征，具體見表2。

3 討論

特征選擇不僅可以去除數據的冗余特征信息和無關特征信息從而提高原始數據的質量，而且還可以大大降低數據挖掘的成本。

3.1 特征選擇

隨機森林算法是一種機器學習方法，適合對高維、離散型數據進行建模仿真，當數據含噪聲時也表現出良好的性能。它是Leo Breiman[9-10]于2001年提出的一個新的組合分類器算法，從而對數據進行挖掘和模式識別。該方法在許多領域得到了應用，例如天文學、微陣列、藥物發現、癌細胞分析等[11]。其主要優點有：①較少的參數調整；②不必擔心過度擬合；③適用于數據集中存在大量未知特征；④能夠估計哪個特征在分類中更重要；⑤當數據集中存在大量的噪音時同樣可以取得很好的預測性能。本研究充分考慮到中醫數據的多標記特點，將隨機森林算法和REAL多標記學習算法結合，挑選出慢性胃炎4個實證證候的癥狀和體征大部分與中醫理論相符。如濕熱內蘊，上泛舌面可見苔黃、苔膩、苔厚。根據中醫理論，舌中部多反映中焦脾胃的病變，脾胃運化失常，多見舌中厚膩。寒濕困脾，濕濁上泛見舌苔白厚膩，苔滑、齒痕、胖大皆為寒濕停滯，脾失運化的表現。肝氣郁滯可見脅肋脹痛，肝失條達則因情緒而加重，肝胃不和、胃氣上逆可見噯氣等。肝胃郁熱則見舌色紅，熱使脈道擴張、血行加速，氣血沸涌，致使舌體脈絡充盈而舌色紅，灼痛、大便便質偏干、苔黃也皆是熱證的典型表現。

但肝氣郁滯證候中同時出現“痛有定處”和“痛無定處”2個癥狀，脾胃濕熱證和濕濁中阻證中見脈弦，與中醫理論不完全相符。可能有以下原因：①臨床上肝氣郁滯證多與血瘀等證候相兼出現，單獨出現者較少，故而痛有定處和痛無定處同時出現。②弦脈臨床主痛，肝膽病、痰飲、脾胃濕熱及濕濁中阻證濕郁化飲也可見弦脈。雖然這幾個癥狀（體征）可以用中醫理論解釋，但并非該證候的特異性癥狀（體征），考慮在今后研究中擴大樣本量，進一步深入探討。

3.2 證候模型構建

本研究是將隨機森林算法和信息增益方法進行對比，前期研究顯示信息增益方法選取20個特征數目時的識別率最高，平均準確率達到最大值。4個證候的特征子集分別為：脾胃濕熱證共提取苔黃、苔膩、胸骨后燒灼感等癥狀（體征）20個；濕濁中阻證共提取苔白、舌胖大、苔膩等癥狀（體征）20個；肝氣郁滯證共提取因情緒而加重、脅脹或痛、痛無定處等癥狀（體征）20個；肝胃郁熱證共提取舌色紅、灼痛、喜冷等癥狀（體征）20個。

而隨機森林算法在選取15個癥狀特征時的識別率最高，平均準確率達到最大值為83%。通過比較發現，信息增益所得結果中包含的癥狀（體征）基本包含了隨機森林算法選出的15個癥狀（體征），可見隨機森林算法能夠達到精簡癥狀的目的，并且提高了證候的識別率。同時，隨機森林算法能夠計算單個特征重要性，能衡量各個特征對分類問題的重要性和貢獻度，為證候診斷的客觀化提供了直接的參考和依據，也為慢性胃炎證候的診斷標準建立提供了借鑒。

參考文獻：

[1] 呂愛平，李梢，王永炎.從主觀癥狀的客觀規律探索中醫證候分類的科學基礎[J].中醫雜志，2005，46（1）：4-6.

[2] 傅延齡，劉渡舟.抓主癥方法的認識與運用[J].中華中醫藥雜志， 1993，8（4）：43-44.

[3] LIU G P， ZHEN R W， YAN S X. Association analysis and distribution of chronic Ggastritis syndromes based on associated density[C]// 2010 IEEE International Conference on Bioinformatics and Biomedicine Workshops（ITCM2010）.Hong Kong，2010：790-794.

[4] LIU G P， YAN J J， WANG Y Q， Application of multi-label learning using the relevant feature for each label （REAL） algorithm in the diagnosis of chronic gastritis[J]. Evidence-Based Complementary and Alternative Medicine，2012 （2012），Article ID 135387.doi：10.1155/2012/135387.

[5] 中華醫學會消化病學分會.中國慢性胃炎共識意見（2006年，上海）[J].中華消化內鏡雜志，2007，24（1）：58-63.

[6] 鄭筱萸.中藥新藥臨床研究指導原則（試行）[M].北京：中國醫藥科技出版社，2002：124-129.

[7] 國家技術監督局.中醫臨床診療術語：證候部分[M].北京：中國標準出版社，1997：17-20.

[8] 劉國萍，王憶勤，董英，等.中醫心系問診量表的研制及評價[J].中西醫結合學報，2009，7（1）：1222-1225.

[9] BREIMAN L. Random forests[J]. Machine leaning，2001，45（1）：5-32.

[10] BREIMAN L. Manual on setting up， using， and understanding random forests v4.0[EB/OL].[2014-05-10].http：//oz.Berkeley.edu/users/ breiman/Using-random-forests-V4.0.pdf.

[11] REMLINGER K. Introduction and application of random forest on high though put screening data from drug discovery[EB/OL].[2014- 05-10].http：//www4.ncsu.edu/ksremlin.