李四海,呂曉云
LISihai1,LVXiaoyun2
1.甘肅中醫學院 信息工程學院,蘭州 730000
2.蘭州大學 中西醫結合研究所,蘭州 730000
1.SchoolofInformationEngineering,GansuUniversityofTraditionalChineseMedicine,Lanzhou730000,China
2.InstituteofIntegratedTraditionalandWesternMedicine,LanzhouUniversity,Lanzhou730000,China
中醫強調辨證論治,即從各方面綜合診察患者機體當前階段的整體反應狀態。證素辨證學認為[1],患者的癥狀、體征為證候,通過對證候的辨識而確定的病理本質為證素。辨證就是根據中醫學理論,通過對癥狀(證候)進行分析,明確病位與病性(證素),最終做出證名診斷的思維認識過程。中醫辨證過程中存在大量的模糊、不確定信息,其辨證過程可以歸納入不確定多屬性決策問題。在不確定信息的表示及融合方面,傳統的方法主要有:基于概率的優化方法及主觀Bayes理論、不確定性推理及人工神經網絡方法、多屬性決策及效用理論、D-S證據理論等。由于D-S證據理論具有處理不確定性的能力以及在工程應用上表現出來的實用性能,近年來在醫學診斷、目標識別、故障診斷、投資決策及傳感器信息融合等方面得到廣泛應用[2]。
在眾多的不確定推理方法中,貝葉斯網絡被廣泛用于中醫證素識別及藥物功效預測[3-4]。Bayes方法是根據先驗概率來更新后驗概率。優點是具有堅實的理論基礎,計算量適中。缺點是需要大量的概率數據來構造知識庫,無法區分模糊及不確定信息,在實際應用中,主觀概率及其一致性很難得到保證。
證據理論是由Dempster于1967年首先提出,由Shafer于1976年進一步發展起來的一種不精確推理理論,也稱為D-S理論[5],屬于人工智能范疇,最早應用于專家系統中,具有直接表達“不確定”和“不知道”的能力,能夠根據證據的積累不斷縮小假設的集合。與主觀貝葉斯方法不同,D-S理論是用一個概率范圍而不是單個的概率值來描述不確定性:用信任函數來度量不確定性,用似然函數來度量由于“不知道”帶來的不確定性。這樣就弱化了相應的公理系統,滿足比概率更弱的要求,即不必滿足概率可加性。與主觀Bayes方法相比,證據理論具有更好的靈活性及實用性。
設Θ為辨識框架,由一系列互斥且可窮舉的基本命題組成。問題域上的任意命題A都屬于2Θ,在冪集2Θ上定義基本概率分配BPA(BasicProbabilityAssignment)m:

BPA實現了將2Θ上的任意子集映射為[0,1]上的一個數m(A),當m(A)>0時,稱 A為BPA的焦元。對焦元A,分別定義信任函數Bel和似然函數Pl:

Bel(A)和Pl(A)分別表示對事件A信任度的下界和上界,Pl(A)-Bel(A)反映了對A不知道的程度。
對不同概率分配函數的組合是通過求正交和實現的。

(2)多個信任函數的組合


其中K反映了證據之間的沖突程度,K越小,沖突程度越高,當K=0時,無法使用Dempster規則,當K→0時,會得到與常識相悖的結論。
基于D-S理論的中醫辨證模型以患者所表現出的各種癥狀、體征(證候)為依據,根據對證候的辨識來確定病理的本質(證素),由病位、病性證素構成最終的證型名稱(證名),其中,由證候辨識證素是關鍵。設辨識框架 Θ={syn1,syn2,…,synm}為所有證素的集合,共 m個證素,證候的集合 s={s1,s2,…,sk}共 k 個證候,共有n個專家。面對相同的證候,不同的專家會根據各自的知識和經驗給出不盡相同的診斷結果,所以模型采用多級融合的群決策模式,以降低系統的不確定性同時提高診斷結果的可信度。
第一級融合:以各種證候為證據,經過證據融合,得到證素的初步辨識結果。具體過程為:首先由每個中醫專家根據證候集及自己所具有的中醫知識給出每個證候下的基本概率分配,然后對所有證候的mass函數求正交和。這樣,對相同的證候集,通過證據融合得到每個專家各自的mass函數。
第二級融合:在相同的辨識框架Θ下,對所有專家給出的mass函數再次進行證據融合,進一步降低系統的不確定性,提高各證型之間的可區分程度。二級融合結果作為最終的辨證依據。
基于D-S理論的多級中醫辨證模型如圖1所示。

圖1 基于D-S多級證據融合的中醫辨證模型
大量的研究表明,D-S理論在實際應用中需要注意兩個問題:對沖突證據的處理及提高計算效率[6-8]。
首先是證據沖突問題,當各個專家的意見發生嚴重不一致時,會產生證據沖突,對沖突證據的處理可從兩個方面進行:(1)根據對專家的信任程度,為專家賦予不同的可信度,降低可信度低的專家對融合結果的影響,降低決策風險。(2)對沖突證據進行預處理,然后再使用Dempster規則合成證據,如通過對證據加權求平均來消解或緩解證據沖突[9]。
其次是計算量問題,這是保證基于D-S理論中醫辨證模型實用性的關鍵問題,由于中醫證候、證素很多,規范后的證候有700余項,證素有50余項,如果直接使用該模型時會產生“焦元爆炸”。假設有k個證候,m個證素,則要得到一個第二級融合的證據需要的計算量為2km,如此指數級的計算量是難以接受的。
Voorbraak發現[10],如果mass函數的合成將產生一個Bayes信任函數(即一個識別框架上的概率測度),則mass函數用它們的Bayes近似來代替,將不會影響Dempster合成規則的結果。Voorbraak給出了mass函數的Bayes近似計算公式,即

根據以上公式,在第一級融合前,首先計算mass函數的Bayes近似,減少焦元的數量,即識別框架中凡是含有兩個及以上證素者其mass函數值均為0。假設經近似計算后識別框架中含有單個證素的焦元有t個,證候數量仍為k個,則近似計算后的貝葉斯mass函數矩陣如下:

每個專家的BPA可按如下的公式計算:

可以看出,以上公式將正交和變為了連乘的形式,大大簡化了計算量,從而使得基于D-S證據理論的中醫辨證模型具有更好的實用價值。第一級融合結束后,對所有專家的BPA進行第二級融合仍按公式(2)進行。
為了有效合理地利用D-S證據融合2得到的基本概率賦值進行證型決策分析,給出如下的決策判據:
(1)目標證型應具有最大的基本概率賦值。
(2)目標證型的基本概率賦值應該大于合成的不確信度。
(3)目標證型的基本概率賦值與其他證型的基本概率賦值的差值應該大于給定的閾值θ。
(4)不確信度賦值m(Θ)必須小于某個閾值。
(5)證據沖突程度K要小于給定門限值,以保證診斷結果的合理性和實用性。
使用該模型對冠心病進行中醫辨證。首先收集冠心病的一系列證候(包括主訴癥狀及四診信息),構成證候集,然后對證型名稱進行規范,按照本虛(氣虛、血虛、陰虛、陽虛)、標實(氣滯、血瘀、痰濁、寒凝)將證型分為氣虛血瘀、氣滯血瘀、血瘀痰濁等證型[11],分別用S1、S2、S3來表示,構造辨識框架 Θ={S1,S2,S3,{S1,S2},Θ}。證候集由本虛和標實的各主要癥狀和次要癥狀組成。
在證候集中,與各證素關聯的癥狀主要有脈診、舌診及體征信息,癥狀有主、次之分。如血虛的主癥為紫默舌、口唇青紫;次癥為胸痛、脈弦。痰濁的主癥為膩苔;次癥為脈滑[12]。中醫專家根據各證型的主、次癥狀給出各癥狀對證素的貢獻度,即基本概率分配,對各主、次癥狀的BPA進行融合可得到每個專家的BPA。表1給出了兩個專家面對相同證候集給出的各自的BPA,分別用m1和m2表示。

表1 D-S證據融合后的mass函數(K=0.705)
對兩位專家給出的mass函數進行證據合成,首先計算歸一化常數K:

限于篇幅,其他計算過程省略,最后合成的結果如表1所示。從表1結果可知,m(Θ)明顯減小,說明D-S證據融合降低了疾病診斷的不確定性。融合前,每個專家對各證型給出的基本可信度函數值都偏低,無法得出令人信服的診斷結果;融合后,基本可信度函數值較單個專家給出的基本可信度函數值具有更好的可區分性,主要證型的基本可信度函數值有較大程度的提高:S2的基本可信度函數值由融合前的0.4或0.3提高至0.51,為各證型中最大,根據本文提出的證型決策規則,S2(氣滯血瘀證)為最終診斷的證名。隨著專家證據的積累,假設集會逐步縮小,主要證型的可信度會不斷提高,診斷結果也會更令人信服。
需要指出的是,當專家較少時,最終診斷結果與證型決策規則(3)中閾值θ的關系較大。閾值θ越小,診斷結果越穩健,但診斷結果中可能會包含多個證型;反之,如果要求最終診斷結果中只包含單一證型,則閾值θ可以取大一些,表明診斷決策為追求精準度而愿意承擔診斷結果缺失的風險。如果專家較多且采用了合理的沖突證據消解方法,閾值θ對最終診斷結果影響不大,當θ取值較大時模型仍然具有較高的辨證精度。
以下進行近似計算,以和表1加以對比,首先計算出Bayes的mass函數,然后計算新的歸一化常數K′:

根據表2的融合結果,依據證型決策規則,可以得出診斷結果仍然為氣滯血瘀證,說明近似計算方法是有效的。由此可知,如果診斷結果只關注單一證型,則近似計算過程簡單明了,特別是當證據很多時,計算量大為減少,使得基于D-S證據理論的中醫辨證模型具有更好的實用價值。對比兩種方法的計算結果發現,表2中合成的mass函數值較表1都有不同程度的增加,原因在于通過mass函數的Bayes近似,對{S1,S2}及Θ的不確定性進行了消解,增加了S1、S2、S3的確定性。

表2 近似計算后的mass函數
基于D-S多級證據融合理論建立了中醫辨證模型,分析了模型的證據沖突及近似計算問題,提出了證型決策規則,并以冠心病的中醫診斷為例驗證了模型的有效性。理論分析和實際應用表明,模型的有效性很大程度上依賴于證候和證素之間的基本可信度分配,在下一步的工作中,BPA可以考慮采用專家診斷和人工神經網絡、支持向量機輸出相結合的方法,以得到更為客觀和準確的可信度分配,進一步提高基于D-S理論中醫專家系統的實用性和有效性。
[1]朱文鋒.證素辨證學[M].北京:人民衛生出版社,2008.
[2]何兵,郝愛民,趙沁平.一種基于不確定信息的決策方法[J].計算機學報,2004,27(2):281-285.
[3]朱文鋒,朱詠華,黃碧群.采用貝葉斯網絡運算進行中醫辨證的探討[J].廣州中醫藥大學學報,2006,23(6):449-452.
[4]劉穎,李江,王耘,等.貝葉斯網絡在中藥活血化瘀功效預測中的應用[J].北京中醫藥大學學報,2008,31(4):229-231.
[5]姚麗莎,趙海峰,羅斌,等.基于證據理論的小波域多特征醫學圖像融合[J].計算機應用,2012,32(6):1544-1547.
[6]徐從富,耿衛東,潘云鶴.面向數據融合的DS方法綜述[J].電子學報,2001,29(3):393-396.
[7]張航,王一軍,羅大庸.改進的D-S證據理論及在水質評價中的應用[J].小型微型計算機系統,2010,31(6):1236-1239.
[8]尹慧琳,王磊.D-S證據推理改進方法綜述[J].計算機工程與應用,2005,41(27):22-24.
[9]呂悅晶,宋向勃,張蕾,等.一種加權改進的D-S證據推理算法[J].計算機應用與軟件,2011,28(10):30-33.
[10]VoorbraakFA.Computationallyefficientapproximation ofDempster-Shafertheory[J].IntJMan-MachineStudies,1989,30:525-536.
[11]孫亞男,寧士勇,魯明羽,等.貝葉斯分類算法在冠心病中醫臨床證型診斷中的應用[J].計算機應用研究,2006,11:164-166.
[12]吳榮,聶曉燕,王階,等.基于貝葉斯網絡的名老中醫治療冠心病辨證規律研究[J].中國中醫藥信息雜志,2010,17(5):98-99.