王海燕 魯思博 孟軍



摘要:目的 ?建立基于人工神經網絡編碼數據挖掘技術的中醫婦科病辨識數據分析方法。方法 ?檢索中國期刊全文數據庫(CNKI)、萬方期刊數據庫、維普中文期刊數據庫,收集1980~2019年公開發表的關于婦科疾病多囊卵巢綜合癥(PCOS)的中醫治療與診斷方面文獻,獲取婦科辨證分型數據集,采用ANN模型對數據集進行量化分析。結果 ?通過模擬數據集ANN分析,建立了三層網絡結構ANN模型,其中輸入層包含15個輸入神經元、隱含層包含4個神經元、輸出層包含6個神經元,獲得了多囊卵巢綜合癥中醫婦科證素與證候之間的內在邏輯關系。重復訓練及測試結果顯示,中醫證型的預測匹配率為100.00%。對15個輸入協變量進行了參數重要性分析顯示,精神狀況>周期>身體上部>皮膚>舌象>經色>面色>大便8個癥狀的指標規范重要性大于50%。結論 ?基于人工神經網絡技術建立了一種婦科疾病中醫診療的證素-證型關系的神經網絡方法,也為挖掘民族醫學信息數據進行定性辨識、動態及多維數據的處理與分析提供一種有效途徑。
關鍵詞:人工神經網絡;婦科疾病辨識;數據挖掘;中醫證型
中圖分類號:R71 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.3969/j.issn.1006-1959.2020.11.001
文章編號:1006-1959(2020)11-0001-04
Abstract:Objective ?To establish a data analysis method for TCM gynecological disease identification based on artificial neural network coding data mining technology.Methods ?Retrieval of Chinese Journal Full-text Database (CNKI), Wanfang Journal Database, Weipu Chinese Journal Database, collection of publicly published literatures on TCM treatment and diagnosis of gynecological diseases polycystic ovary syndrome (PCOS) from 1980 to 2019, and access to gynecological syndromes Classification data set, ANN model is used to quantify the data set.Results ?Through ANN analysis of the simulation data set, a three-layer network structure ANN model was established, in which the input layer contains 15 input neurons, the hidden layer contains 4 neurons, and the output layer contains 6 neurons, and polycystic ovary syndrome is obtained The internal logical relationship between gynecological syndromes and syndromes in traditional Chinese medicine. Repeated training and test results show that the prediction matching rate of TCM syndromes is 100.00%. A parameter importance analysis of 15 input covariates shows that mental condition> period> upper body> skin> tongue> menstrual color> face color> stools are more than 50% of the index of 8 symptoms.Conclusion ?Based on artificial neural network technology, a neural network method of syndrome-syndrome relationship of traditional Chinese medicine diagnosis and treatment of gynecological diseases is established.
Key words:Artificial neural networks;Gynecological disease identification;Data mining;TCM syndromes
20世紀后期,人工智能(AI)技術蓬勃發展,數據挖掘技術也隨之不斷進步,其中人工神經網絡(artificial neural networks,ANN)是人工智能領域興起的研究熱點。ANN的概念最初由W.S. McCulloch和W.Pitts等人于1943年提出[1],其在模式識別、智能機器人、自動控制、預測估計、生物、醫學、經濟等領域已成功地解決了許多現代計算機難以解決的實際問題,表現出了良好的智能特性[2]。目前,大多數研究主要關注點為利用ANN進行卵巢早衰預測模型、舌脈象客觀化[3]、臨床異常病案的甄別[4]、老年癡呆診斷[5]、數據挖掘方法[6]等中醫證候分析,但關于基于人工神經網絡技術辨識婦科疾病證素-證型邏輯關系的報道較少。基于此,本研究通過以婦科疾病多囊卵巢綜合癥(PCOS)為例,應用數據挖掘技術整理研究病案,通過ANN方法探究中醫婦科病癥與證型間的內在聯系,以期建立婦科疾病證素-證型推理模型,并為后期智能診斷進行方法學探索。
1數據挖掘與建模分析方法
1.1醫案數據來源 ?ANN模型數據庫來源于中國期刊全文數據庫(CNKI)、萬方期刊數據庫、維普中文期刊數據庫。檢索關鍵詞:“中醫”“POCS”“多囊卵巢綜合癥”“多囊卵巢綜合征”。檢索式:“中醫”AND(“多囊卵巢綜合癥”or“多囊卵巢綜合征”or“POCS”),檢索時間為1980~2019年公開發表的中醫治療與診斷PCOS方面的文獻研究。納入標準:①中醫治療POCS的臨床醫案,并且列明診斷;②年齡18~40歲;③列明疾病癥狀[7,8];排除標準:①文獻醫案記錄不符合中醫、西醫診斷標準;②文獻中未列示癥狀或列示癥狀不足;③重復出現的醫案;④綜述類文獻。收集有效文獻391篇,獲有效醫案112篇,歸納入圍文獻中常見癥狀17項,對每種癥狀對應屬性予以數字編碼,歸納主要證型6種,見表1。
1.2 ANN建模 ?采用SPSS 22.0系統進行ANN建模,對中醫證型數據庫進行挖掘分析,并采用中文字符定義各分析指標。
1.2.1分析指標 ?癥狀:經量、周期、經色、面色、舌象、脈象、精神狀況、小便、大便、皮膚、形體、胃腸、道、頭面部、上部癥狀、下部癥狀、多毛、黑棘皮癥共17項,作為輸入層初始系統協變量。證型:陽虛肝郁證、肝郁血虛證、痰濕證、脾陰兩虛證、腎虛證、血癖證共6項,作為系統輸出變量。
1.2.2婦科病癥候數據庫 ?應用SPSS 22.0軟件構建數據表,將有效醫案112癥候編碼輸入數據表,建立SPSS數據集文件見圖1。
1.3 ANN分析 ?運行SPSS 22.0軟件,選擇“分析”項下“神經網絡”菜單,選取“多層感知器”BP模型進行分析,網絡信息設置內容見表2。
2模型分析測試結果
基于SPSS群體數據集文件,按照多層感知器(MLP)BP模型進行設置,并通過模擬數據集ANN分析,建立了三層網絡結構ANN模型,其中輸入層包含15個輸入神經元、隱含層包含4個神經元、輸出層包含6個神經元,見圖2;重復訓練及測試結果顯示,中醫證型的預測匹配率為100.00%,見表3。對15個輸入協變量進行了參數重要性分析,結果顯示精神狀況>周期>身體上部>皮膚>舌象>經色>面色>大便8個癥狀的指標規范重要性大于50%,見表4。
3討論
建立基于人工神經網絡編碼數據挖掘技術的中醫婦科疾病辨識數據模型分析方法,挖掘婦科辨證診斷過程中的有用信息,以獲得中醫婦科疾病診治證素之間、證素與證候之間的內在邏輯關系,使未來對醫學信息數據挖掘進行定性度量、動態及多維數據的處理與分析效率成為現實,從而促進民族醫藥信息數據挖掘更加智能化、知識化[9]。
現代醫學疾病命名與中醫的病癥命名存在密切關聯,本研究基于人工神經網絡編碼數據挖掘技術分析PCOS的疾病證素與證型的邏輯關系,結果顯示疾病的辯證分型主要為陽虛肝郁證、痰濕證、肝郁血虛證、脾陰兩虛證、血癖證、腎虛證類6類主要證候。PCOS與中醫“崩漏”“月經后期”“閉經”“不孕”等病癥有關,涉及肝、脾、腎三臟,兼有痰濕、瘀血等病癥,主要因氣血運行于三臟功能失調直接關聯,長期積聚形成痰濕、瘀血,因果循環再以這些病理產物為因,又進一步壅塞于肌膚、胞宮而致病癥。中醫重視對情志因素的辨證分析,近年來有大量研究探索情志因素與多種疾病的相關性,在婦科疾病的診療中也同樣關注情志因素的重要影響[7]。《內經》中首次提出的以情勝情原則“悲勝怒、喜勝憂……”;《河間六書》描述:“婦人天癸既行,當以厥陰經論之”;《傅青主醫學全書》中描述:以養肝平肝、解郁調經立法,診治女性月經不調,婚久不孕,均表明PCOS的相關中醫病癥應從“情”辨證論治,將調肝理氣之法貫徹治療始終。本研究結果顯示,PCOS癥狀重要性分別是精神狀況>周期>身體上部>皮膚>舌象>經色>面色>大便,其指標規范重要性均大于50%,在所有癥狀重要性指標中“精神因素”居于首位,客觀角度驗證了傳統中醫論述的可靠性。
目前關于分析各種中醫病癥與證型的關系多采用聚類分析、因子分析、決策樹分析、Logistic回歸分析等統計學方法。蔣文星等[8]采用決策樹C5.0算法分析PCOS“癥-證”的模型準確性達到98%。本研究采用ANN分析訓練集與測試集的結論一致,準確性均達到100.00%,說明ANN分析方法具有有效性,但由于研究所采用的數據集不包括臨床病案數據,因此本研究方法的分析精度與同類研究比較僅有參考價值。此外,本研究未涉及中醫診斷證型與治療方劑的內在邏輯關系模型,有待在后續研究中進一步探討。
綜上所述,檢索挖掘已發表PCOS的中醫診療數據,建立了三層網絡結構ANN模型,確定了證素-證型數據的內在邏輯關系,為中醫診斷的智能化提供了一種有效思路。
參考文獻:
[1]袁金秋,劉雅莉,楊克虎.基于人工神經網絡的數據挖掘技術在臨床中應用進展[J].圖書與情報,2010(3):95-98.
[2]雷文平.試論人工神經絡及其在機械工程領域中的應用[J].中國機械,2015(24):217-218.
[3]鄒慧琴,李碩,陶歐,等.RBF神經網絡在中醫藥領域中的應用及其在SPSS 17.0軟件中的實現[J].中華中醫藥學刊,2015,33(2):336-338.
[4]Hassanzadeh H,Nguyen A,Karimi S,et al.Transferability of artificial neural networks for clinical document classification across hospitals:A case study on abnormality detection from radiology reports[J].J Biomed Inform,2018(85):68-79.
[5]Egerer E,Siemonsen S,Erbguth F.Acute diseases of the brain and heart:A reciprocal culprit-victim relationship[J].Med Klin Intensivmed Notfmed,2018,113(6):456-463.
[6] 許玉龍,盛夢園,王哲,等.幾種數據挖掘方法用于中醫證候分析的對比研究[J].中國中醫藥信息雜志,2019,26(12):97-102.
[7]王玉蓉,曹云霞.精神、心理因素與多囊卵巢綜合征[J].中國婦幼健康研究,2004,15(5):303-305.
[8]蔣文星.數據挖掘在婦科PCOS中醫證候及用藥規律中的研究初探[D].廣州中醫藥大學,2016.
[9]黃文金,姚明龍,葉云金,等.關聯規則在《中醫婦科學》證素診斷中的應用[J].湖南中醫雜志,2015(8):148-149.
收稿日期:2020-04-10;修回日期:2020-04-22
編輯/杜帆