999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的圍絕經期綜合征中醫證候分類算法分析

2016-12-19 08:23:50吳宏進許家佗張志楓屠立平張婷婷徐蓮薇劉巧蓮
中國中醫藥信息雜志 2016年1期
關鍵詞:數據挖掘分類

吳宏進,許家佗,張志楓,屠立平,張婷婷,徐蓮薇,劉巧蓮

1.上海中醫藥大學附屬龍華醫院,上海 200032;2.上海中醫藥大學,上海 201203;3.上海中醫藥大學附屬岳陽醫院,上海 200437

基于數據挖掘的圍絕經期綜合征中醫證候分類算法分析

吳宏進1,許家佗2,張志楓2,屠立平2,張婷婷3,徐蓮薇1,劉巧蓮3

1.上海中醫藥大學附屬龍華醫院,上海 200032;2.上海中醫藥大學,上海 201203;3.上海中醫藥大學附屬岳陽醫院,上海 200437

目的 采用現代中醫診斷技術結合人工智能分析方法進行圍絕經期綜合征中醫辨證研究,以期建立最佳證候分類方法。方法 門診收集圍絕經期綜合征患者四診信息,按照中醫辨證標準進行證型分類,采用貝葉斯網絡算法、K最近鄰算法、支持向量機算法3種常用數據挖掘分類算法對圍絕經期綜合征四診信息數據進行分析。結果 分別得出在相同訓練、測試樣本數據下3種算法建立圍絕經期綜合征中醫證候模型所需時間、分類準確性、覆蓋率及margin曲線,分析了訓練樣本數量對3種算法的影響,并對3種算法所建立模型進行了評價。結論 在圍絕經期綜合征證候分類效果方面,貝葉斯網絡算法優于其他2種方法。

圍絕經期綜合征;中醫證候;數據挖掘;分類算法;訓練樣本;margin曲線

圍絕經期綜合征(menopausal syndrome,MPS)指婦女絕經前后出現的一系列絕經相關癥狀,是伴隨卵巢功能下降乃至衰竭而出現的影響絕經相關健康的一組癥候群,初為月經改變、潮熱、盜汗、失眠及泌尿生殖道癥狀,遠期可發生骨質疏松和心血管疾患[1]。目前,國內有關本病的中醫證候診斷尚無統一的規范的、客觀的標準。因此,本研究采用數據挖掘分類方法對MPS證候進行分析。

數據挖掘方法主要有分類分析、聚類分析、關聯分析、序列模式分析等。其中分類分析就是找出描述并區分數據類或概念的模型(或函數),以便能使用模型預測類標記未知的對象類。本課題采用數據挖掘技術中比較成熟的K最近鄰、貝葉斯網絡、支持向量機算法,研究其在MPS中醫辨證中的應用。

1 資料與方法

1.1 研究對象

2011年4月-2012年10月上海中醫藥大學附屬岳陽醫院門診MPS患者367例,年齡40~60歲,中醫辨證為肝腎陰虛證94例、肝郁氣滯證89例、脾腎陽虛證41例、心脾兩虛證71例、心腎不交證72例。

1.2 納入標準

⑴符合女性MPS診斷標準[2-4]:①年齡40~60歲婦女;②月經紊亂3個月以上;③出現潮熱、烘熱汗出、煩躁易怒、焦慮、情志異常等癥狀;④實驗室檢查示血清雌二醇(E2)降低,促卵泡素(FSH)明顯上升。同時符合上述3條即可診斷。⑵符合肝腎陰虛證、肝郁氣滯證、脾腎陽虛證、心脾兩虛證或心腎不交證中醫辨證分型標準[4-5]。

1.3 排除標準

①雙側附件及子宮切除術后;②合并急性感染性疾病者;③明確診斷患有呼吸、心腦血管、肝、腎、血液、內分泌等系統疾病者;④近3個月曾用過雌、孕激素替代治療者。

1.4 調查方法

1.4.1 問診指標及方法 采用問卷調查形式,遵循臨床流行病學調研方法,設計統一的臨床診斷記錄表,由經過培訓的中醫診斷專業研究生逐一詢問患者并填寫記錄表。該表是在前期文獻分析基礎上,結合本研究室《中醫四診信息采集表》(2007V2.0)和《健康狀態評價問卷》(H20.V2009)[6],通過相關專家考評及數據收集反復修改而制定,包括患者年齡、職業、婚育狀況、文化程度、既往史、用藥史、癥狀體征、舌脈象等。中醫辨證由相關專業具有副主任以上職稱的3名醫師進行辨證,取一致結果。

1.4.2 脈診指標及方法 脈搏波采集分析設備采用上海中醫藥大學研制的DDMX-100型單道脈象儀(專利號ZL200520038993.8)。脈象定性分析指標為從脈圖中讀取的脈位、脈力、至數、脈名等。由3名以上中醫診斷專家進行判讀,取一致結果,判斷標準以《現代中醫脈診學》[7]中的脈象分類標準為主。

1.4.3 舌診指標及方法 舌象采集儀器采用本課題研發的TDA-1舌象儀(產品尺寸20 cm×15 cm×10 cm,包括光源設計、CCD設備構架、電源設計、外形設計等內容),采用本研究室研發的《中醫舌診分析系統》(V2.0)舌象分析軟件進行數據分析。舌象定性指標:舌色分為淡白舌、淡紅舌、紅舌、紅絳舌、黯紅舌、青紫舌6類,苔色分為薄白苔、白苔、薄黃苔、少苔4類。正常舌象為淡紅舌、薄白苔。舌象判斷由3個相關診斷專家按顏色分類進行判斷,取一致結果。

1.5 數據挖掘方法

采用基于JAVA的開源數據挖掘平臺WEKA3.6數據挖掘軟件[8],方法分別為貝葉斯網絡算法、K最近鄰算法、支持向量機算法。

1.6 實驗分析

實驗數據為367例病例的四診信息,包括癥狀信息(包含51個特征屬性)、脈搏波參數(包含24個特征屬性)、舌圖像參數(包含18個特征屬性)。對原始數據進行預處理,并根據WEKA所要求的格式(.arff)將數據分為頭信息和數據集信息2個部分;采用十折交叉驗證方法進行分析。正確率為該屬性被正確分類的概率,錯誤率指在所有被分配為該屬性的記錄中的錯誤率,精確度計算該屬性的總體精確度,覆蓋率評估模型在該屬性上的覆蓋率。

2 結果

2.1 3種算法分類結果

K最近鄰算法所耗費的建模時間最短,而支持向量機算法建模時間最長,正確分類例數及總正確率最多的算法為貝葉斯網絡算法,標準誤差最小的是貝葉斯網絡算法,最大的是支持向量機算法,見表1。

表13 種算法對367例MPS患者證候分類結果

2.2 貝葉斯網絡算法

脾腎陽虛證正確分類例數最多、正確率最高,其次為肝郁氣滯證和心脾兩虛證,而肝腎陰虛證被誤分為心腎不交證的例數較多,分類正確率也相對較低(見表2、表3),考慮可能脾腎陽虛證的特征值與其他證型區別較大,而肝腎陰虛證與心腎不交證的特征值存在相似之處,因此出現誤分的情況。圖1表明,該算法構建模型在樣本數>180時分類趨于穩定,計算代價也處于較低水平,樣本數<90時分類準確率偏低且計算代價較高,樣本數>90時準確性大幅度提高且計算代價大幅度下降。

表2 貝葉斯網絡算法對各證型分類情況(例)

表3 貝葉斯網絡算法中各屬性分類評估結果

圖1 貝葉斯網絡建模margin曲線

2.3 K最近鄰算法

脾腎陽虛證正確分類例數最多、正確率最高,其次為心脾兩虛證,而肝腎陰虛證被誤分為心腎不交證的例數較多,分類正確率也相對較低(見表4、表5)。圖2表明,該算法構建模型在樣本數>104時分類趨于穩定,計算代價也處于較低水平,樣本數<94時分類準確率偏低,而且計算代價較高。

表4 K最近鄰算法對各證型分類情況(例)

表5 K最近鄰算法中各屬性分類評估結果

圖2 K最近鄰算法建模margin曲線

2.4 支持向量機算法

脾腎陽虛證正確分類例數最多、正確率最高,其次為心脾兩虛證,肝腎陰虛證被誤分為心腎不交證的例數較多、分類正確率較低(見表6、表7)。圖3表明,該算法構建模型在樣本數>80時分類趨于穩定,計算代價處于較低水平。該算法在小樣本環境下表現出驚人的收斂速度,精確度迅速提高,計算代價大幅下降,但樣本數據增加后其精度和計算代價都較差。

表6 支持向量機算法對各證型分類情況(例)

表7 支持向量機算法中各屬性分類評估結果

圖3 支持向量機建模margin曲線

2.5 3種分類算法模型評估

ROC曲線常用于比較2組或多組實驗結果,并判斷實驗結果合適分界點,常用于診斷模型的評估,比較各種分類方法所建立模型的優劣。分別采用貝葉斯網絡、支持向量機、K最近鄰算法,得出每個證型ROC曲線下面積,大致在0.7~1之間(見表8)。從面積診斷意義上來說,診斷價值較高。采用貝葉斯網絡算法得出各證型ROC曲線面積最大,K最近鄰算法得出各證型ROC曲線下面積最小。

表8 各證型不同判斷方法ROC曲線下面積

3 討論

基于數據挖掘技術進行的MPS中醫證候分類研究在中醫證候模型構建速度方面,K最近鄰算法花費時間最短,支持向量機算法花費時間最長;在證候模型準確度方面,貝葉斯網絡分類器所建立的證候模型準確率最高,K最近鄰分類器所建立的證候模型準確率最低;在魯棒性方面以支持向量機方法最佳,在極小的訓練樣本下表現了極高的分類穩定性,貝葉斯網絡算法的魯棒性最差,在訓練樣本不足時準確性難以提高。貝葉斯網絡與其他所有的分類算法相比,其網絡容易建立,沒有結構學習過程,只需先驗概率就可以完成,分類過程十分高效,具有最小的出錯率[9-10]。因此,運用貝葉斯網絡方法等數據庫知識發現和數據挖掘技術,將數據挖掘結果結合專家經驗和臨床驗證進行反復修訂,是建立中醫學辨證論治規范化研究方法學平臺的重要手段[11]。支持向量機算法是模式識別中基于結構風險最小原理的數據分類方法,可將變量集映射到高維特征空間中并進行正確區分,其優點在于解決小樣本、非線性及低維空間不易區分的難題。

實驗表明,在對質量較高、樣本量較大的數據集進行分類時,貝葉斯網絡算法是最佳選擇。而大多數情況下,能夠獲取的訓練樣本總是很有限,數據中包含空值,支持向量機算法常被選擇應用。因此,綜合本次研究結果,在應用數據挖掘軟件進行數據分析時,應根據數據類型、特點,選用合適的分類算法,才能達到預期的效果。

[1] 豐有吉,沈鏗.婦產科學[M].2版.北京:人民衛生出版社,2010:263.

[2] 曹澤毅.中華婦產科學[M].北京:人民衛生出版社,1999:2281.

[3] 樂杰.婦產科學[M].7版.北京:人民衛生出版社,2008:320.

[4] 中華人民共和國衛生部.中藥新藥臨床研究指導原則:第三輯[M]. 1997:3.

[5] 張玉珍.中醫婦科學[M].北京:中國中醫藥出版社,2002:168.

[6] 朱紅紅.亞健康狀態的問卷評價方法與流行病學特征研究[D].上海:上海中醫藥大學,2010.

[7] 費兆馥.現代中醫脈診學[M].北京:人民衛生出版社,2003:163-165.

[8] WITTEN LH, FRANK E.數據挖掘實用機器學習技術(第二版)[M].董琳,邱泉,于曉峰,等,譯.北京:機械工業出版社,2006.

[9] 羅敏霞.數據挖掘與知識發現的技術方法及應用(上)[J].運城學院學報,2005,23(2):1-5.

[10] 盧志茂,劉挺,郎君,等.神經網絡和貝葉斯網絡在漢語詞義消歧上的應用對比[J].高技術通訊,2004,14(8):15-19.

[11] 胡金亮,李建生,余學慶.中醫證候診斷標準研究背景與現狀[J].河南中醫學院學報,2005,20(3):77-79.

Classification Algorithm Analysis of TCM Syndrome of Menopausal Syndrome Based on Data Mining

WU Hong-jin1, XU Jia-tuo2, ZHANG Zhi-feng2, TU Li-ping2, ZHANG Ting-ting3, XU Lian-wei1,

LIU Qiao-lian3(1. Longhua Hospital Affiliated to Shanghai University of TCM, Shanghai 200032, China; 2. Shanghai University of TCM, Shanghai 201203, China; 3. Yueyang Hospital Affiliated to Shanghai University of TCM, Shanghai 200437, China)

Objective To establish the optimum syndrome classification method by using the technology of modern TCM diagnosis and artificial intelligence analysis method for menopausal syndrome differentiation of TCM. Methods Diagnostic information of menopausal syndrome patients was collected and syndromes were classified according to TCM syndrome differentiation standard. Three kinds of common data mining classification algorithm, Bayesian network, K-nearest neighbors and support vector machine, were used for analysis on information data of the four methods of diagnosis of menopausal syndrome. Results The time, classification accuracy, coverage rate and margin curve of establishing TCM syndrome model by the three kinds of algorithm methods under the circumstances of same training and data. The influence of the number of training samples of 3 kinds of algorithm methods was analyzed, and the model established by the three kinds of algorithms was evaluated. Conclusion Bayesian network algorithm is better than the other two methods in the menopausal syndrome classification effect.

menopausal syndrome; TCM syndrome; data mining; classification algorithm; training samples; margin curve

10.3969/j.issn.1005-5304.2016.01.009

R259.886

A

1005-5304(2016)01-0039-04

2014-12-25)

2015-01-29;編輯:陳靜)

國家科技支撐計劃(2012BAI37B06);國家自然科學基金(30873463、81173200、81373556);國家自然科學基金青年基金(81102558);上海市重點學科資助項目(S30302、S30303);上海中醫藥大學附屬龍華醫院院級基金科研項目(2014YR04)

張志楓,E-mail:rchbt@163.com

猜你喜歡
數據挖掘分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
給塑料分分類吧
主站蜘蛛池模板: 97亚洲色综久久精品| 欧美日本中文| 亚洲精品自产拍在线观看APP| 先锋资源久久| 91小视频在线| 欧美特黄一免在线观看| 亚洲水蜜桃久久综合网站 | 久久精品波多野结衣| 国产成人无码AV在线播放动漫| 狠狠色噜噜狠狠狠狠奇米777| 波多野结衣一区二区三区四区视频| 国产va在线观看| 日本福利视频网站| 日韩在线欧美在线| 2021国产乱人伦在线播放| 国产免费高清无需播放器| 91毛片网| 无码区日韩专区免费系列| 欧美不卡在线视频| 欧美国产日韩一区二区三区精品影视| 日韩在线观看网站| 在线免费看黄的网站| 人妻精品久久无码区| 欧美一区国产| 高清亚洲欧美在线看| 97视频免费看| 2020亚洲精品无码| 国产综合另类小说色区色噜噜| 成人av手机在线观看| 一区二区影院| 久久久久亚洲Av片无码观看| 日韩免费毛片视频| 精品国产中文一级毛片在线看 | 欧美一区精品| 精品久久人人爽人人玩人人妻| 91亚洲视频下载| 国产日本欧美在线观看| 欧美人在线一区二区三区| 国产精品19p| 日韩高清中文字幕| 日韩色图在线观看| 日韩成人高清无码| 日韩天堂视频| 亚洲aaa视频| 老司机午夜精品视频你懂的| 一级毛片免费观看久| 日韩福利在线观看| 免费 国产 无码久久久| 97se亚洲| 国产制服丝袜91在线| 国产精品第5页| 亚洲国产综合自在线另类| 免费一级大毛片a一观看不卡| 成人国产免费| 亚洲欧洲日韩综合色天使| 亚洲A∨无码精品午夜在线观看| 69精品在线观看| 成人亚洲天堂| 久久香蕉国产线看观| 久久亚洲黄色视频| 国产成人免费| 一区二区在线视频免费观看| 性视频一区| 制服丝袜一区| 永久在线精品免费视频观看| 潮喷在线无码白浆| 免费观看国产小粉嫩喷水| www.亚洲天堂| 欧美一区中文字幕| 亚洲欧美一区二区三区图片| 免费不卡视频| 国产欧美日韩在线在线不卡视频| 伊人网址在线| 超薄丝袜足j国产在线视频| 伊大人香蕉久久网欧美| 中文成人在线视频| 亚洲—日韩aV在线| 久久男人资源站| 一区二区三区精品视频在线观看| 色综合天天视频在线观看| 国产毛片基地| 国产福利在线免费|