999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于一致性預測器的中醫證素組合診斷模型

2014-07-26 01:21:14王華珍洪燕珠
廈門大學學報(自然科學版) 2014年1期

王華珍,呂 兵,洪燕珠

(1.華僑大學計算機科學與技術學院,福建 廈門361021;2.廈門大學醫學院,福建 廈門361102)

近年來,中醫學術界提出了證素組合辨證的新辨證體系,即通過“癥候獲取—證素識別—證型判斷”三個環節進行辨證.在中醫診斷過程中,首先獲取病人臨床癥狀(如寒熱、疼痛、二便、舌象、脈象等),接下來分析這些癥候對病位(如心、肝、脾、肺、腎、胃等),病性(如風、熱、濕、痰、氣虛、血虛、陰虛等)等貢獻度,計算出各個證素的權重,然后通過閾值判斷篩選出若干個證素(如脾氣虧虛證、肝陽上亢證、心腎不交證、肺火犯肺證、肝腎陰虛證等),最后由這些證素的組合確定出證型[1].從機器學習角度看,當對新出現的被測數據(病例)進行模式判別時,要求分類器能夠同時輸出多個類別(證素組合),則分類器必須是特殊的域預測分類器而非傳統的點預測分類器.目前存在的解決方案主要是將證素權重度量方法與傳統分類器進行組合,輸出所有類別(證素)的權重值而非單點預測值.如模糊集與貝葉斯分類器或支持向量機(support vector machine,SVM)組合,貝葉斯網絡與支持向量機組合,關聯規則與決策樹組合,熵理論與神經網絡(neural network,NN)組合等[2].此外還有特定的多標記分類器算法(multilabel learning,MLL),主要通過對傳統機器學習算法進行改編以適應域預測輸出.如李國正等[3]對K近鄰算法(K-nearest neighbour,KNN)進行改編,從而將MLL-KNN應用在中醫冠心病證素組合診斷.但以上這些算法的證素權重值大都由特定數據集計算得到,純粹是一種計算方法,缺乏理論意義和統計可解釋性.因此機器學習模型經常受到主流統計學家的詬病,無法得到中醫醫生的信任.

本文引入一致性預測器(conformal predictor,CP)構建中醫證素組合診斷模型.CP以算法隨機性水平值作為證素的重要性度量,以算法風險水平為閾值,選取符合條件的若干個類別作為可選類別進行輸出[4].這種域預測形式恰好符合中醫證素組合診斷模式,并且CP的算法風險水平屬于假設檢驗理論的范疇,具有明確的統計意義和可解釋性,能夠被醫療研究領域的學者所接受.本文的研究對象是中醫慢性疲勞臨床證候數據集.慢性疲勞綜合征是現代高效快節奏生活方式下出現的一組以長期極度疲勞(包括體力疲勞和腦力疲勞)為主要突出表現的全身性證候群.目前西醫對于慢性疲勞的病因不明確,尚未找到有效的防治措施;中醫藥治療慢性疲勞雖然有一定的優勢,但由于目前關于慢性疲勞的中醫證候診斷及療效評價尚無統一、規范、客觀化的標準,使中醫藥防治慢性疲勞的臨床療效缺乏說服力[5-6].本研究將對慢性疲勞的證素辨證體系研究進行有益的探索,提供重要的方法學支持.

1 CP模型

1.1 算法原理

CP是一種帶置信度的域預測分類器,其置信度能對預測域進行有效的風險評估,已引起全世界眾多研究者的研究與討論,被廣泛應用到生物醫學數據、傳感數據、圖像數據、時間序列數據等領域[7].

CP理論認為機器學習一般假設訓練學習樣本服從獨立同分布假設(i.i.d分布),而獨立同分布假設可以等同于Kolmogorov算法隨機性假設.假設實際問題已經輸出了訓練樣本序列z(n-1)=(z1,z2,…,zn-1),并給定待測數據xn.CP將對xn預賦每個可能的類別值y∈Y={1,2,…,C},組成檢驗樣本zyn=(xn,y)(將會有C個檢驗樣本,即((xn,1),(xn,2),…,(xn,C)).再將檢驗樣本zyn和訓練樣本z(n-1)n連接構成檢驗樣本序列,這時會有C串的檢驗樣本序列

接下來利用統計學的假設檢驗方法對上述C串檢驗樣本序列逐一進行算法隨機性(i.i.d分布)的顯著性檢驗(又稱假設檢驗).檢驗統計量p值的構造方案如下:首先設計樣本奇異映射函數:

對z(n)y中的每一個樣本進行一一對應的奇異值映射,得到一維奇異值樣本序列樣本奇異值αi表示對應樣本zi隸屬于整體z(n)y數據分布(即i.i.d分布)的不一致程度(nonconformity).根據奇異值序列α(n)y就可以計算出z(n)y的算法隨機性水平值:

當對待測數據xn進行預測時,把統計量值與顯著水平標準ε比較.若值小于ε則拒絕原假設,即以算法風險水平ε(對應的置信度為1-ε)為閾值,CP輸出預測結果為:

以上公式稱為CP有效性定理[4].滿足公式(5)則說明CP的預測域具有可校準性.由于置信度與算法風險水平互補,因此有效性定理也可以解釋為CP算法的準確率不低于置信度.

1.2 樣本奇異值映射函數設計

CP需要設計樣本奇異映射函數將檢驗(高維)樣本序列(公式1)一一對應地映射成樣本(一維)奇異值序列(公式(2)).CP一般利用傳統機器學習方法對高維樣本序列進行數據挖掘,從而獲取樣本的奇異值.隨機森林(random forest,RF),SVM,NN,樸素貝葉斯分類器(Na?ve Bayesian,NB)等算法被嵌入到CP框架中用來計算樣本的奇異值[8-9].列舉如下:

1)CP-RF:該方法利用RF算法計算樣本的奇異值.RF是樹分類器CART的組合分類器算法,當對數據集構建RF模型后,數據集中的任意兩個數據能夠獲得基于RF的相似性度量.對于任一樣本zi,CP-RF的樣本奇異值映射函數設計方案如下:

2)CP-KNN:當在樣本原始空間里度量兩個樣本之間的距離,則CP-RF退化成CP-KNN.相應地,對于任一樣本zi,樣本奇異值度量公式如下:

3)CP-NB:該方法利用NB模型計算樣本的奇異值.NB是一種基于后驗概率的分類器,后驗概率越高,則對應的類別越可能成為真實的類別.因此對于任一樣本zi,一種直觀的樣本奇異值計算方案是:

其中p(yi)是被測數據xi的預測為類別yi的后驗概率.NB通過對數據集進行頻數統計獲得類概率等模型參數,同樣適用于具有離散特征的中醫數據分析.但由于NB需要提供數據分布等先驗知識,并且要求數據的特征之間具有獨立無關性,使其在機器學習領域具有局限性.

2 實驗數據

本文使用的慢性疲勞數據集是通過流行病學整群抽樣調查法收集的.首先設計慢性疲勞中醫臨床癥狀分級量化表,其次在2007年8月至2008年12月期間對福建省閩南地區的大學、中學、小學教師及醫院的醫生和護士進行流行病學調查及臨床證候調查,記錄患者癥狀、舌象和脈象等臨床證候信息.臨床證候有95個,即慢性疲勞數據集有95個特征,每個特征的取值方法為:用0表示患者無該癥狀,1表示有此癥狀.然后根據2名主治醫師以上職稱的專家研究商討后,對病例進行證素組合診斷.根據前期初步研究結果,慢性疲勞證素主要有脾虛證、心虛證、肝郁證和氣虛證共4類[10].將每個證素看作一種類別,將標記脾虛證為類別1,心虛證為類別2,肝郁證為類別3,氣虛證為類別4.這樣慢性疲勞數據集的類別集中的元素將是1,2,3,4.以此為標準確診為慢性疲勞的患者有736例.以175號樣本為例,該樣本的類別集為{1,2,4},表明該病例同時呈現脾虛證,心虛證和氣虛證,沒有出現肝郁證.在736個病例中,呈現單證素結果的病例有169個,多證素組合的病例有567個.

3 實驗結果與討論

本實 驗 將 CP-RF 與 CP-NB,CP-KNN,MLLKNN進行對比.當運行CP算法時需要對訓練樣本進行模式轉換,將多類別模式樣本轉換為常規的單類別模式樣本.在實驗中根據類別集的類別數目對數據進行復制,每一份指派其中的一個類別為該數據(病例)的類別.仍以175號樣本(類別集為{1,2,4})為例,需要復制2次,這樣一共得到3份175號數據,并分別指定類別為1,2,4.當運行 MLL-KNN算法時采用參考文獻[3]提供的算法程序,在預測新數據時將K近鄰中類概率大于閾值0.5的所有類別作為預測類別進行輸出.當使用RF和NB算法時,相關參數采用默認值.對K值設置時選取K=1,5,9,11進行實驗.在實驗中采用“留一法”進行交叉驗證,這樣將獲得736個測試結果.以下對這些結果進行分析.

3.1 閾值對預測域的影響

在中醫證素組合診斷實踐中,需要指定閾值以篩選出合適的證素.一般來說,閾值對最后篩選得到的證素數目影響很大.將閾值設置得過高,則選出的證素數量減少,可能會漏掉某些重要的證素;如果設置得過低,則選出的證素集中將會有大量冗余證素.因此閾值的確定是中醫多證素組合診斷的關鍵技術之一.指定一系列不同的閾值,算法將輸出一系列對應的預測域.統計這些預測類別集與真實類別集的擬合率,其結果如圖1所示,其中算法參數K=1.

圖1 不同閾值下4種算法的擬合率比較(K=1)Fig.1 Comparison of matching ratios with different threshod values for four methods(K=1)

在圖1中,對于 CP算法,即 CP-RF、CP-NB和CP-KNN,閾值是風險水平ε(對應的置信度為1-ε);而對于MLL-KNN,閾值是比率值.由圖1可以看出,CP-RF的表現遠遠好于CP-NB和CP-KNN,這說明利用RF模型進行樣本奇異函數設計是有效的,即式(6)能夠深刻地刻畫出樣本的奇異性,從而使式(3)給出的算法隨機性水平值是一種有效的證素重要性度量.而由于中醫數據的特征一般呈現相關、離散等特點,NB算法和KNN算法都無法適用這類數據的數據挖掘,無法正確地度量出證素的重要性值.從CP-RF與MLL-KNN的對比可以看出,CP-RF的最高擬合率是0.997 3,遠 遠 高 于 MLL-KNN 的 最 高 擬 合率0.870 9.從整體曲線看,在[0.01,0.28]低閾值情況下CP-RF的擬合率高于MLL-KNN,在其他高閾值情況下CP-RF的表現比MLL-KNN差.但是CP算法的優勢是具有良好的實用性,因為在實踐中使用者希望機器預測結果具有較高的置信度,這將需要指定較低的算法風險水平作為CP預測域的閾值.針對CP-RF可以看出,在較低閾值[0.01,0.2]范圍內(即置信度值為[80%,99%]),擬合率基本不變,保持在[0.982 3,0.997 3]之間.這說明在高置信度下 CP-RF的擬合率不僅非常高,還具有很好的穩定性,這將克服不同的閾值對預測域中證素數目的波動性,解決中醫多證素組合診斷關鍵的技術難題之一.

接下來考察算法參數K在其他取值下對實驗結果的影響.針對實踐中使用者通常使用的置信度值99%,90%,80%(對應的閾值為0.01,0.1,0.2),各種算法的擬合率匯集在表1中.

從表1可以看出,在K取不同值時CP-RF的擬合率表現都遠遠高于其他3種算法,這說明K的取值不是區分不同算法性能的關鍵參數.也進一步表明,采用RF模型作為樣本奇異值映射函數是有效的,能對被測病例的各個證素進行可靠的重要性評估,從而獲得準確的證素組合診斷結果.針對CP-RF算法可以看出,K取不同值時其擬合率幾乎沒有變化,這說明CPRF對K值參數具有很好的魯棒性.又由于RF對自身建模參數也是魯棒的,因此CP-RF算法具有很高的自動化水平程度,彌補了人工專家診斷成本高昂等缺陷.

3.2 CP準確率的校準性

CP最顯著優勢是對預測結果提供有效的置信度評估,即CP預測域的準確率能夠被置信度所校準(或框圍).在對736個證素組合(多類別)預測域統計準確率時,需要根據真實類別集的類別數目進行重復統計.針對真實類別集中的每一個類別,若出現在預測域中則統計為正確一次,否則統計為錯誤一次.以175號樣本(類別集為{1,2,4})為例,假設CP算法的預測域是{1,2},則175號樣本被統計3次,其中預測正確2次,錯誤1次.準確率由正確次數比總的統計次數獲得.指定一系列不同的算法風險水平閾值(置信度),統計相應的預測域準確率,得到準確率與置信度之間的關系曲線,實驗結果如圖2所示.

圖2 3種CP算法的校準性比較Fig.2 Comparison of calibration for three CP models

在圖2中,對角線基準校準線意味著準確率與置信度精確相等.由圖2可以看出,CP-RF,CP-NB和CP-KNN 3種模型的準確率校準線與“基準校準線”基本擬合,特別是在置信度值比較高的閾值情況下(置信度值大于0.4以上),3條準確線都貼合甚至高于“基準校準線”.這說明在使用者廣泛接受的高置信度閾值區域內,CP算法的準確率不低于置信度值,CP的準確率能夠被置信度閾值所框圍,滿足校準性.然而在置信度閾值比較低的區域內(置信度小于0.4),CP-NB和CP-KNN的準確率校準性略低于“基準校準線”,這種現象一方面來自于實驗數據量沒有充分大而帶來的統計波動誤差,另一方面也可能是因為數據模式轉換(例如上述175號樣本被統計3次)導致數據集差異性降低.這兩個因素對分類性能較差的CP-NB和CPKNN帶來明顯的副作用.然而對CP-RF模型,其準確率值大都超過指定的置信度值,即式(5)中CP-RF的錯誤率小于指定的算法風險水平,這體現了CP-RF模型的優越性.CP模型以算法風險水平(置信度)為閾值,而置信度屬于假設檢驗理論范疇,具有明確的統計意義和可解釋性,能夠被醫療信息處理專家所接受.這區別于MLL-KNN等算法,其閾值一般通過簡單頻數計算獲得,沒有明確的可解釋性.

表1 4種算法在不同K值下的擬合率比較Tab.1 Comparison of matching ratios for four methods with different Kvalues

4 結 論

本文采用CP模型構建中醫慢性疲勞證素組合診斷模型.CP以樣本序列算法隨機性水平為證素的重要性度量,以算法風險水平為閾值進行域預測輸出.在實驗中RF,NB,KNN等算法被嵌入到CP框架中用來計算樣本奇異值.實驗結果表明,對于實踐中常用的置信度范圍[80%,99%],CP-RF的擬合率大大高于其他域預測分類器,并且保持在[0.982 3,0.997 3]基本不變.這說明CP-RF不僅準確率非常高,還具有很好的穩定性.克服了閾值選取對預測域的波動性,解決了中醫證素組合診斷關鍵的技術難題之一.同時CP預測域結果的準確率不低于置信度閾值,能夠被置信度所校準,具有明確的統計意義和可解釋性,能夠被中醫醫生所接受,將在臨床診療應用中發揮積極的輔助作用.

[1]朱文鋒,何軍鋒,晏峻峰,等.確定證素辨證權值的 “雙層頻權剪叉”算法[J].中西醫結合學報,2007,5(6):607-611.

[2]Su S B.Recent advances in zheng differentiation research in traditional Chinese medicine[J].International Journal of Integrative Medicine,2013,1(7):1-10.

[3]Liu G P,Li G Z,Wang Y L,et al.Modelling of inquiry diagnosis for coronary heart disease in traditional Chinese medicine by using multi-label learning[J].BMC Complementary and Alternative Medicine,2010,10(1):37-49.

[4]Vovk V,Gammerman A,Shafer G.Algorithmic learning in a random world[M].New York,USA:Springer,2005.

[5]王天芳,薛曉琳.亞健康狀態與慢性疲勞綜合征[J].中國中西醫結合雜志,2008,28(1):77-79.

[6]張振賢,張燁,王揚,等.理虛解郁方對慢性疲勞綜合征患者負性情緒及皮質醇與5-羥色胺的影響[J].上海中醫藥大學學報,2012,26(5):38-40.

[7]Gammerman A,Vovk V.Hedging predictions in machine learning[J].Computer Journal,2007,50(2):151-177.

[8]Wang H Z,Lin C D,Yang F,et al.Hedged predictions for traditional Chinese chronic gastritis diagnosis with confidence machine[J].Computers in Biology and Medicine,2009,39(5):425-432.

[9]Vanderlooy S,Maaten L V D,Sprinkhuizen-Kuyper I.Off-line learning with transductive confidence machines:an empirical evaluation[C]∥Proceedings of the 5th International Conference on Machine Learning and Data Mining in Pattern Recognition.Germany:Leipzig,2007:310-323.

[10]洪燕珠,周昌樂,張志楓,等.慢性疲勞患者中醫常見證候要素研究[J].中醫雜志,2009,50(12):1114.

主站蜘蛛池模板: 国产精品专区第一页在线观看| 国产日韩欧美在线视频免费观看| 亚洲欧美成人网| 久久精品免费国产大片| 国产成人精品第一区二区| 欧美日韩北条麻妃一区二区| 国产熟睡乱子伦视频网站| 国产在线观看一区精品| 激情综合图区| 亚洲人成网站观看在线观看| 曰AV在线无码| AV在线天堂进入| 亚洲福利片无码最新在线播放| 国产精品久久精品| 国产尤物在线播放| 亚洲天堂日韩在线| 免费在线一区| 亚洲第一页在线观看| 99久久精品国产麻豆婷婷| 成年人福利视频| 少妇被粗大的猛烈进出免费视频| 国产福利在线免费观看| 精品少妇人妻一区二区| 一区二区三区成人| 呦女亚洲一区精品| 亚洲三级色| 国产91小视频在线观看| 亚洲三级色| 欧美国产在线精品17p| 国语少妇高潮| 91精品国产91久久久久久三级| 免费福利视频网站| 99资源在线| AV在线天堂进入| 国产午夜小视频| 国产精品私拍在线爆乳| 国产a网站| 亚洲成a人在线观看| 亚洲欧美成人综合| 久久久久亚洲AV成人网站软件| 白浆视频在线观看| 日韩在线播放欧美字幕| 亚洲精品少妇熟女| 91小视频在线| 国产微拍一区二区三区四区| 久久人午夜亚洲精品无码区| 欧美日韩精品一区二区视频| 欧美性精品| 亚洲 日韩 激情 无码 中出| 精品无码人妻一区二区| 国产极品粉嫩小泬免费看| 久青草免费在线视频| 日韩资源站| 亚洲福利片无码最新在线播放 | 免费看av在线网站网址| 国产精品毛片在线直播完整版| 亚洲精品人成网线在线| 国产精品三区四区| 国内熟女少妇一线天| 久久中文电影| 成人中文字幕在线| 国产肉感大码AV无码| 毛片免费在线视频| 欧美日韩午夜| 国内a级毛片| 91无码人妻精品一区二区蜜桃| av一区二区无码在线| 蜜桃视频一区二区| 全午夜免费一级毛片| 免费国产好深啊好涨好硬视频| 亚洲AV无码久久天堂| 制服无码网站| 久久青草精品一区二区三区| 91视频精品| 激情乱人伦| 中国一级特黄视频| 久久亚洲天堂| 国产九九精品视频| 精品福利一区二区免费视频| 亚洲日韩精品伊甸| 天天色天天综合| 国产日产欧美精品|