陳 杰,程 勝,徐 夢,史豪斌
1.中國載人航天辦公室,北京100083
2.中國航天科技集團公司 軟件研發中心,北京100094
3.西北工業大學 計算機學院,西安710072
當今社會,計算機已經成為了醫學現代化的一種必不可少的工具,計算機輔助診斷已經滲入到了現代醫學的方方面面。在傳統的醫療診斷中,病因探尋、疾病診斷、合理治理等需要專家依據已有的經驗進行決策,這無疑增加了專家們的主觀疲勞,甚至可能因為疲憊出現誤診的情況,因此如何使用計算機輔助決策成為了一個熱門的課題[1-3]。在醫療輔助診斷中,醫療病癥分析以及病情診斷往往存在著多個病情屬性。以闌尾炎診斷問題分析,通常闌尾炎疾病分為慢性闌尾炎、急性闌尾炎、闌尾炎穿孔三種不同的類型,癥候指標有腹痛開始部位、惡心嘔吐、大便、壓痛、肌緊張和反跳痛、體溫和白細胞數幾種指標去評估闌尾炎疾病的種類,闌尾炎疾病的診斷明顯屬于一類多屬性決策問題。
多屬性決策是智能決策理論研究中的重要內容,已經被廣泛應用于工業過程管理、戰術武器評估、戰場態勢評估、經濟效益評估、智能輔助醫療等領域中,對人們的生產生活產生了巨大的作用[4]。同時,作為多屬性決策領域的重要分支,近年來,多屬性群決策方法的研究熱點集中在如何高效配置多屬性決策方法的權重[5]、如何設計高效的不同群體交互方式[6]、決策屬性與決策權重等作為先驗條件不被完全所知情況下的群體決策一致性驗證方法等方面[7]。數據聚集算子是數據聚集過程中的一個十分簡單,但是十分有效的工具,是多屬性決策方法中常用的方法之一[8]。
多屬性決策方法充分考慮到決策屬性權重系數與屬性要素的配置對于決策水平的影響,基于多屬性決策理論的輔助決策方法具有解決醫學輔助診斷中多屬性決策問題的可行性。但是目前多屬性決策方法及其相關理論在醫學輔助診斷上應用相對較少,本文結合多屬性決策方法與復雜網絡的相關理論,提出了一種面向醫療輔助診斷的可視化多屬性決策方法。
文獻[6]針對醫學輔助診斷領域中的面向中風后吞咽功能障礙康復治療的問題,首先給出了一種群體智慧定義以及群體智慧涌現方法,在此基礎上,給出了一種基于群體智慧的多屬性決策方法,使計算機能夠學習群體經驗并進行自動決策以實現醫學輔助診斷。但是該方法面向群體智能決策,并未討論個體多屬性備選方案輔助決策的方法。文獻[9]針對一類多屬性群體決策問題進行了探討,提出了一種廣義直覺模糊OWA算子,但是該工作仍然存在一定的缺陷。例如,OWA 算子側重于數據本身對權重的影響,并未考慮到數據之間的關聯以及數據的位置對于權重的作用,因此具有一定的片面性。文獻[10]探討了一類多屬性決策領域中決策矩陣元素為區間數的不確定的問題,提出一種基于冪均算子的區間型多屬性決策方法。但是,該工作存在的問題是使用冪均算子計算數據之間的支持度,但是沒有考慮到數據之間的重要性。在實際情況中,不同重要性的數據需要被賦予不同的權重。
本文針對醫療輔助診斷中的多屬性決策問題進行研究,受啟發于先前工作[8,11],結合了復雜網絡[12]的相關基礎理論,提出了一種面向醫療輔助診斷的可視化有序加權幾何平均算子,綜合了有序序列中數據的位置、數據的重要程度、數據間的支持度等屬性。本文主要有以下三個方面的貢獻。首先,針對醫學診斷問題,考慮到以往決策算子的弊端,給出了一種具有可視化性的有序加權幾何平均算子,該算子通過可視圖理論[13]將有序加權幾何算子中的有序數據集合轉化為復雜網絡中的結點集合,復雜網絡中的結點與有序數據一一對應,復雜網絡中結點之間的連接關系反應了數據之間的可視性。其次,借鑒庫倫定律[14],設置了一種支持度函數,支持度函數反應了網絡中某個結點受其他結點的支持程度,該支持函數不僅考慮到了結點之間的距離也考慮了結點自身數值的大小。最后,基于可視化有序加權幾何平均算子與支持度函數設計了一種可視化多屬性決策方法,該方法被用于解決醫療輔助診斷中的多屬性決策問題。
在軍事、管理以及生產的各個領域中,數據信息的融合技術起著至關重要的作用,同時人們對信息融合算子也一直給予高度的重視。著名學者Saaty等人在1983年提出了著名的加權幾何平均算子(Weighted Geometric Averaging,WGA)算子[15]。加權幾何平均算子是一種簡單易用的信息融合算子,該算子是對每個數據進行加權,加權的依據是每個數據的重要性,然后進行融合。隨后在1988 年,Yager 等人提出了一種有序的加權幾何平均算子(Ordered Weighted Geometric Averaging,OWGA)[16]。有序算子與經典算子的區別在于前者是對給定的數據信息從大到小進行有序排序處理,并通過對數據信息所在的位置進行加權后融合。但是,后者并沒有考慮到數據信息的融合過程可能和數據的位置有一定關系。
定義1 設定一組原始的數據(a1,a2,…,an),首先對該組數據進行從大到小的排序,獲得有序的數據(b1,b2,…,bn),定義有序加權幾何平均算子為:

式中,ω=(ω1,ω2,…,ωn)T是指數加權向量,其中,ωi∈。本文定義bi是一組數據(a1,a2,…,an)中第i 個數值最大的數據。在有序加權幾何平均算子中,原始的數據ai與權重無關,而權重與數據融合過程中的位置有關。但是在該算子的設計中,權重的設計沒有考慮到數據本身的大小以及數據之間的相互支持度。
OWA算子具有兩種測度,分別是orness測度與andness測度[17]。針對OWA算子中權值難以確定的問題,文獻[18]基于orness測度水平,結合OWA算子與最大熵原理,給出了基于最大熵原理的OWA算子求解的非線性規劃模型,如公式(2)所示:

其中,Disper(W)表示權重向量W 的離散度,orness(W)表示具有權值向量W 的OWA算子的orness測度。
使用Lagrange算法求解OWA算子的多項式得到該模型的解析解[19]。
如果α=0,則W=[0,0,…,1]T;如果α=1,則W=[1,0,…,0]T。
如果n=2,則w1=α,w2=1-α。
若n ≥3,0 <α <1,則:

庫倫定律是在1785年由法國科學家庫倫由實驗發現,該定律描述了真空中相距為d 的電荷Q1,Q2之間相互作用力的物理規律。其主要思想是,靜止不動的兩個點電荷之間相互作用力的計算需要考慮它們的電荷量的乘積以及它們之間距離,而力作用于它們之間的直接連線。庫倫定律的表示形式如下所示:

其中,k 為常數,F(Q1,Q2)表示靜止電荷Q1,Q2之間的相互作用力,d 是兩個靜止電荷之間的距離。該定律描述了一種空間中的兩個結點之間相互作用力的基本形式。近些年,庫倫定律模型的思想已經開始應用到了復雜網絡的相關研究中,并引起了學者的廣泛關注[14]。
Lacasa等人在2008年提出了著名的可視圖(Visibility Graph,VG)理論,可視圖理論建立了時間序列與復雜網絡之間的聯系,該算法可以將時間序列簡單快速地轉變為復雜網絡[20]。復雜網絡中的結點與序列中的數值一一對應,結點之間的連接關系反應在了數據之間的可視性。可視圖的定義如下所示。
定義2 設定使用二元組表示的兩個數據(i,bi)與(j,bj),如果兩個數據之間具有可見性,則對于任意一個在二者之間的數值(k,bk)均滿足:

在可視圖中,如果兩個數據之間滿足可見性,則在可視圖中兩個結點會被連接。在復雜網絡理論中,結點的度一定程度上反映了該結點的重要性,結點的度就是與結點相連的邊的個數。一般而言,結點的度越多,結點受其他結點的支持程度越多,結點的支持度往往通過支持度函數來描述,但是如何定義結點的支持度函數一直是一個廣受學者關注的問題。本文受到庫倫定律的啟發,結點的支持度的計算不僅需要考慮結點之間的距離同時考慮結點自身數值的大小。
定義3 設定復雜網絡中存在結點Oi,Oj,兩個結點的數值分別為Oi,Oj,兩個結點之間的距離為dij,定義兩個結點之間的支持度函數為:

其中,n 為任意一個正整數。 Sups(OiOj)表示結點Oj對結點Oi的支持度。網絡中的所有結點對結點Oi的支持度之和定義為:

使用O={O1,O2,…,On}為一組從大到小的有序數據,該組有序的數據共計有n 個數據,可視化有序加權幾何平均算子可以表示為:


K(Oi)表示網絡中其他結點對結點Oi的支持度之和,其中。能夠對結點Oi產生支持度的結點與之均滿足可見性。
本文提出的可視化有序加權幾何平均算子借鑒了庫倫定律的基本思想。該算子的實際意義是相對于有序加權幾何平均算子,該算子將序列中的數據映射為復雜網絡中的節點,這使得在計算序列的評估值的時候不僅能夠考慮到數據所在的位置對于結點權重的影響,也考慮了結點之間的距離與結點自身數值的大小對于決策結果的影響。理論意義在于,通過一種可視化理論建立了有序加權幾何平均算子與復雜網絡之間的聯系,并借用庫倫定律計算結點之間的支持度,這為面向醫學診斷的決策算子的權值估計提供一種新的方法。
設定存在一組數據,該組數據的數值分別為:55,45,50,40,70,75,80,85,60。現使用本文提出的可視化多屬性決策方法對這些數據進行評價。具體過程如下:
步驟1 首先將這組數據有序化,得到85,80,75,70,60,55,50,45,40。
步驟2 根據可視圖理論計算出每一個結點的可見性結點,計算得到:結點85 的可視化結點為80;結點80的可視化結點為:85,75;結點75 的可視化結點為:85,80,70;結點70 的可視化結點為:85,80,75,60,55,50,45,40;結點60的可視化結點為:85,80,75,70,55;結點55 的可視化結點為:85,80,75,70,60,50;結點50 的可視化結點為:85,80,75,70,60,55,45;結點45的可視化結點為:85,80,75,70,60,55,50,40;結點40 的可視化結點為85,80,75,70,60,55,50,45。將該序列部分結點之間的可視化關系使用網絡表示如圖1所示。圖1展示了序列中數值85,80,75,70 的連接關系,其中,結點0,1,2,…,8分別表示數值85,80,75,70,60,55,50,45,40。

圖1 部分結點的可視化網絡圖
步驟3 根據各個結點之間的連接關系用支持度函數計算出每個結點的支持度,與公式(6)中的庫倫定律類似,本文設定n=2,以數值75為例,計算得到數值75的支持度為:

依次計算每個結點的支持度。
步驟4 基于每個結點的支持根據公式(11)計算得到權重向量為:

步驟5 根據公式(10)計算得到可視化有序加權幾何平均算子為:

以某醫院的1 002 例闌尾炎病例數據為例[21],闌尾炎病例以其病理為標準診斷為慢性闌尾炎、急性闌尾炎、闌尾穿孔三種類型。現以醫院的一個實際病例為例[22],病情從上腹開始疼痛、伴以強烈的惡心與嘔吐、腹瀉、大于右下腹壓痛、肌緊張與反跳痛強烈、入院體溫39 ℃,脈搏120 次/s,白細胞數19.35×109/L。基于可視化多屬性決策方法為醫生提供治療方案。定義頻率為癥候的指標例數/該疾病的總例數×100%。例如急性闌尾炎總計有494例,上腹開始疼痛有143例,則其頻率為:143/494×100%=29%。闌尾炎病例統計表見文獻[22]。
對于該實際病例,將各癥候指標屬性取對應的頻率值,得到如表1的頻率矩陣。

表1 頻率矩陣
表1 中,方案集合X={x1,x2,x3},x1表示慢性闌尾炎,x2表示急性闌尾炎,x3表示闌尾穿孔,屬性集合Y= {y1,y2,…,y7}分別表示腹痛開始部位等癥候指標。基于可視化多屬性決策方法對方案集合中的病例進行分析,同時用最大熵OWA 算子進行對比分析,最大熵OWA 算子的參數α 分別取為0.2,0.5,0.6,通過實驗結果分析可視化有序加權幾何平均算子(VOWGA)與最大熵OWA算子兩種不同方法在該案例中所表現出的效果。分別使用VOWGA算子與最大熵OWA算子兩種不同方法計算得到的三種方案的評估數值曲線如圖2 所示。圖2中橫坐標分別表示三種不同的疾病,縱坐標分別表示計算得到的評估值。

圖2 兩種方法的方案評估值
從圖2 的實驗結果可以看出,本文提出的VOWGA算子計算得到的評估值與三種不同參數的最大熵OWA算子計算得到的結果,曲線趨勢上是一致的。不同α 取值的最大熵OWA 算子包含主觀因素的程度不同,而當α=0.5 時,包含主觀因素最少,VOWGA 算子與包含不同主觀因素最大熵OWA 算子計算得到的結果是相似的,這也說明了這兩種方法對方案的評估結果是一致的,驗證了本文提出方法的合理性。對于慢性闌尾炎x1,計算其可視化有序加權幾何平均算子,得到VOWGAx1(y1,y2,…,yn)=11.178 1,依次計算得到急性闌尾炎x2與闌尾穿孔x3的可視化有序加權幾何平均算子分別為:

明顯x3>x2>x1,由此可以判斷該病人是闌尾穿孔,而經過手術也確實證實了該病人是闌尾穿孔,由此可以看出本文提出的方法是有效的。
病因診斷同樣是醫學輔助診斷中的一個重要的應用。基于所提出的多屬性決策方法,本文以廣西醫科大學老年保健中心收集的2000年1月到2006年12月之間的7 085例60歲以上老年住院者的案例[21]來分析患者醫院感染的原因,醫院感染的影響因素包括:年齡段、疾病類別、是否使用廣譜抗生素等。醫院感染統計表見參考文獻[23]。設定比例的計算方法:例數/總人數×100%。
本文將影響老年患者醫院感染的影響因素分為年齡段、疾病類別、使用廣譜抗生素與泌尿道插管等,未使用廣譜抗生素與泌尿道插管等四種。設定方案集合X={x1,x2,…,xn},屬性集合Y={y1,y2}。對于年齡段,方案x1表示60~69 歲,方案x2表示70~79 歲,方案x3表示大于80 歲,屬性y1表示老年住院患者,屬性y2表示感染患者。對于疾病類別,方案x1表示呼吸系統疾病,方案x2表示消化系統疾病,依次類推,屬性表示含義不變。對于使用廣譜抗生素與泌尿道插管等,方案x1表示使用廣譜抗生素,方案x2表示使用泌尿道插管,方案x3表示使用動靜脈插管,方案x4使用呼吸機,屬性含義同上。對于未使用廣譜抗生素與泌尿道插管等,方案x1表示未使用廣譜抗生素,方案x2表示未使用泌尿道插管,方案x3表示未使用動靜脈插管,方案x4未使用呼吸機,屬性含義同上。四種病因的頻率矩陣如表2~表5所示。

表2 年齡段頻率矩陣

表3 疾病類別頻率矩陣

表4 使用廣譜抗生素與泌尿道插管等頻率矩陣

表5 未使用廣譜抗生素與泌尿道插管等
同時使用可視化有序加權幾何平均算子(VOWGA)與最大熵OWA 算子對該案例進行分析,設定最大熵OWA算子的參數α 取值分別為0.5,0.2,0.6。分別針對年齡段、疾病類別、使用廣譜抗生素與泌尿道插管等,未使用廣譜抗生素與泌尿道插管等四種不同的影響因素進行分析,計算得到的結果如圖3 所示。與圖2 表示含義類似,圖3 中橫坐標分別表示四種不同的決策方案,縱坐標表示計算得到的評估值。
從圖3所示的實驗結果可以看出,使用有序加權幾何平均算子(VOWGA)與參數不同的最大熵OWA算子分別針對這四種因素的分析結果曲線一致,驗證了本文提出方法的合理性。不同的算子計算得到的評估值是不同的,這是因為不同算子計算得到的權值不同,最大熵考慮數值本身大小對于權重的影響,但是這種方法沒有考慮到數據的位置以及數據之間的關系對于權重的影響,VOWGA算子綜合了數據的數值大小以及數值的位置對于權重的影響,在設置支持度函數的時候不僅考慮到了結點之間的距離對于結點的影響,同時考慮了結點的數值大小的影響。從圖3 的實驗分析得到,70~79歲之間的老人最容易醫院感染,消化系統疾病是造成老人醫院感染最主要的疾病因素,在所有醫院感染的老人中,使用廣譜抗生素導致感染的老人數量最多,因此,使用廣譜抗生素是老人醫院感染最主要的原因,圖3(d)所展示的實驗結果也驗證了這一結論。觀察表3 所得到的數據,其中,使用過呼吸機的老人患病幾率為19.25%(82/426×100%),使用過動靜脈插管的老人患病幾率為13.00(85/654×100%),幾率較高,因此,使用呼吸機與動靜脈插管最容易導致老人醫院感染。由此,醫院在對住院老人治療的過程中,應該慎用呼吸機與動靜脈插管,少用廣譜抗生素。

圖3 疾病影響因素分析
面向醫療輔助診斷問題,為了更加精準地分析醫學診斷結果以為醫護人員提供有效的決策支持,本文提出了一種可視化多屬性決策方法。首先,使用有序加權幾何算子將原始數據進行有序化處理,其次,提出了一種可視化有序加權幾何算子,使用可視圖理論建立有序序列中的數值與復雜網絡中結點之間的關系,通過復雜網絡中結點之間的連接關系展示了原始數據之間的潛在聯系,最后,借用庫倫定律設計了一種支持度函數,支持度函數描述了結點之間的支持度。本文提出的方法不僅考慮到數據自身數值的大小同時考慮到了數據的位置以及數據之間的可視化關系。最后,本文通過分析病情診斷與病因診斷兩個實際醫學活動中的案例驗證了本文提出的多屬性決策方法的有效性。本文在多屬性決策于醫學輔助診斷方面的工作較為基礎,旨在為醫學輔助診斷提供一種可視化多屬性決策方法的新思路。