郭富強
(陜西廣播電視大學 資源建設與現代教育技術中心,陜西 西安 710119)
基于LVQ網絡的心臟病智能診斷模型
郭富強
(陜西廣播電視大學 資源建設與現代教育技術中心,陜西 西安 710119)
充分挖掘大量歷史診斷數據中隱藏的規律、模式和專家知識,是建立心臟病智能診斷系統的重要環節。LVQ網絡具有很好的模式識別特性,適合數據挖掘。基于LVQ網絡建立一個心臟病智能診斷模型。設計了網絡結構,選取30個典型診斷案例作為樣本,對模型進行訓練和測試。結果表明,該模型可較好地反映診斷數據與診斷結果之間的因果關系,用于心臟病診斷具有較高的準確率。
LVQ網絡;數據挖掘;分類技術;心臟病;智能診斷
心臟病是世界上對人類生命威脅的第二號殺手。心臟病的快速和準確的診斷始終是醫學研究的重要課題。如果能夠及時、準確的判斷出人們是否患有心臟病,就可以盡快對病人進行治療,從而使其對人類的危害降到最低。因此有必要引入計算機智能診斷,充分挖掘和共享大量歷史診斷數據中隱藏的規律、模式和專家知識,為心臟病診斷提供智能支持,輔助醫生診斷。目前許多醫院開始使用PACS系統(Picture Archiving and Communication System),它們已收集了大量病人的確診病例,包括醫學影像(包括SPECT,X-CT,PET,MRI,HRCT 等)和其它的有關醫學參數,這些數據中包含著心臟病的發病規律和醫學專家的豐富經驗,為心臟病自動診斷系統的設計提供了重要的資料。充分利用這些以前的確診病例和專家的診斷經驗,加上當前病人的信息,幫助醫生快速有效地正確診斷是否患有心臟病,正是心臟病智能診斷系統的目標。
以往的許多醫學輔助診斷系統都是基于知識的專家系統,往往存在若干缺陷:知識獲取的瓶頸;知識脆弱性;推理單調性等。比如,開發基于規則和知識的專家系統大約60%到70%的時間花費在知識獲取上,采取的方法是由專家通過一系列的領域規則來表示它們的啟發式分類經驗,由于絕大多數專家在表達他們的領域知識方面存在困難,應用效果有時不甚理想,且專家在利用這類知識時,更多地是采用聯想等形象思維方法,簡言之,從專家那里獲取知識與表達困難,且帶有定性和主觀的特點,難于定量和客觀地表示[1]。
人工神經網絡是一種旨在模仿人腦結構及其功能的信息處理系統,具有高度的分布式存儲、并行處理、自組織、自學習和自適應的能力,擅長處理超高維、強非線性、知識不完備等復雜模式,因此被廣泛應用于非線性系統。目前診斷心臟病的參數由多項構成,且各項參數之間互相影響,呈現出復雜的非線性關系, 因此適合運用神經網絡這種強有力的工具進行處理。
文中將LVQ網絡引入心臟病診斷,建立心臟病智能診斷模型,并通過實際測試驗證它的有效性。
建立智能診斷模型的前提是模型能夠學習和吸收醫學專家的診斷經驗,在大量的歷史診斷記錄中提取診斷的知識。這就要用到數據挖掘技術。所謂數據挖掘就是從大型數據庫的數據中提取用戶感興趣的知識的技術。這些知識是隱含的、事先未知的、但潛在有用的信息;提取的知識可以表示為概念、規則、規律、模式等形式。數據挖掘把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,為人們的決策提供支持。
分類在數據挖掘中是一項非常重要的任務。分類的目的是學習一個分類函數或分類模型,該模型能把數據庫中的數據項映射到給定類別中的某一個。分類的輸出是離散的類別值。分類模型的構造方法通常有統計方法(如貝葉斯方法)、機器學習方法(如決策樹方法支撐向量機方法)、粗糙集方法和神經網絡方法等。其中,葉斯方法的基本思想是:假定對研究對象已有一定的認識,那么即可先用先驗概率分布來描述這種認識,然后用樣本來修正已有的認識,得后驗概率分布,最后通過后驗概率分布來建立分類函數[2]。決策樹方法是用樹形結構表示決策集合,這些決策集合是通過對數據集的分類來產生規則[3]。粗集方法基本思想是基于等價類的思想,而這種等價類中的元素在粗集中被視為不可區分的,其基本方法是首先用粗集近似的方法來將信息系統中的屬性值進行離散化,然后對每個屬性劃分等價類,再利用集合的等價關系來進行信息系統的約減,最后得到一個最小決策關系,從而便于獲得規則[4]。
神經網絡方法主要是從結構上模仿生物神經網絡,是一種通過訓練來學習的非線性預測模型。可以完成分類、聚類、特征挖掘等多種數據挖掘任務。與上述分類方法相比,具有知識的學習、擴展和升級簡便,模式提取迅捷,高維數據挖掘性能優良等特點。在數據挖掘中,較常用的人工神經網絡模型有反向傳播網模型BP、徑向基函數神經網絡RBF和自組織特征映射神經網絡SOM等。
LVQ 網絡是在有教師狀態下對競爭層進行訓練的一種學習算法。與上述神經網絡的模式識別和映射方式相比, 其優點在于網絡結構簡單, 只通過內部單元的相互作用, 就可以完成十分復雜的分類處理, 也很容易將設計域中的各種繁雜分散的設計條件收斂到結論上來,從而實現模式識別, 簡單易行。
需要注意的是,分類的效果一般和數據的特點有關,有的數據噪聲大,有的有缺值,有的分布稀疏,有的字段或屬性間相關性強,有的屬性是離散的,而有的數據是連續值或混合式的。目前普遍認為不存在某種方法能適合于各種特點的數據分類算法。
學習向量量化(learning vector quantization,LVQ)網絡是在競爭網絡結構的基礎上提出的,它將競爭學習思想和有監督學習算法相結合,在網絡學習過程中,通過教師信號對輸入樣本的分配類別進行規定,從而克服了自組織網絡SOM采用無監督學習算法帶來的缺乏分類信息的弱點[5]。
LVQ網絡結構如圖1所示,由輸入層、競爭層和輸出層組成。輸入層有N個神經元接受輸入向量,與競爭層之間完全連接;競爭層有M個神經元,分為若干組并呈一維線陣排列;輸出層每個神經元代表一個分類類別,只與競爭層中的一組神經元連接,連接權值固定為1。
圖1 LVQ網絡結構Fig. 1 LVQ network structure
LVQ 工作分兩步[6]: 首先,當一個樣本被送至LVQ網絡時,競爭層學習輸入向量的分類,對于輸入向量中存在的某個聚類中心,競爭層將與該中心最接近的神經元確定為獲勝神經元,使其輸出為1,其它的神經元輸出為0,那么輸出為1的神經元代表輸入的某個類,而常常幾個神經元被指定給同一類,稱為一個子類;然后輸出層將競爭層傳來的子類指定給輸出層的一個神經元,而輸出層每個神經元分別為使用者所定義的一個期望類別,稱為一個目標類。這樣,LVQ 就完成了對輸入向量的模式識別。
LVQ網絡必須先進行學習訓練,才能進行正確分類。所需的教師信號包括目標類別數、全體訓練樣本中每個類別所占比例,以及每個輸入向量所屬類別。學習算法如下[7]:
1)初始化。競爭層各神經元權值向量W1j(0),j=1,2,…,M賦小隨機數,確定初始學習速率η(0)和訓練次數K。
2)輸入樣本向量X。
3)尋找獲勝神經元j*:
4)根據分類是否確定按不同規則調整獲勝神經元的權值。當網絡分類結果與教師信號一致時,向輸入樣本方向調整權值:
否則,將逆輸入樣本方向調整權值:
其他非獲勝神經元的權值保持不變。
5)更新學習速率
當k<K時,k-k+1,轉到步驟2)輸入下一個樣本,重復各步驟直到k=K。
在上述學習中,必須保證η(k)為單調下降函數。
用LVQ網絡模型進行心臟病診斷,工作流程見圖2。其中,在學習訓練階段,將歷史病例數據樣本輸入LVQ網絡,網絡經過訓練學習并滿足要求后,挖掘出了樣本中的知識或模式,成功學習并記憶了眾多醫學專家的診斷經驗,按照指定要求對樣本進行了分類。在應用階段,輸入實際的診斷數據,網絡按照記憶的知識對其進行診斷,其輸出即為所對應的診斷結果。
圖2 診斷流程Fig. 2 The diagnosis process
心臟病診斷數據結構反映了判斷心臟病的依據參數,數據結構的優劣對診斷的正確與否有著重要影響,同時也影響LVQ網絡的結構。原則上,數據結構要能夠完整描述診斷模式,每個屬性應與心臟病密切相關,互相獨立,便于測量。根據目前實際,選13個屬性,其中的數據類型有離散型、連續型和二進制型。其屬性描述如表1。
以某大型醫院PACS系統中存儲的30個典型診斷案例為樣本,前20個作訓練樣本,后10個作測試樣本。
因為數據類型和取值范圍差異較大,為平衡各項數據在運算中所占的比重,使診斷結果更加準確,需要將心臟病樣本的所有屬性值的范圍歸一化到0-1。具體方法如下:
1)二進制數據的歸一化:把它們歸一化到0~1 之間,大于0.5的以1輸入到網絡,小于0.5的以0輸入到網絡。
2)連續數據的歸一化:
其中Y表示歸一化后的數據,Xmin表示最小X的值,Xmax標示最大X的值。輸入規則同(1)
3)離散數據的歸一化:用的公式(5)歸一化,方法同(2)。但取值不同,例如Attr13 中的3,6,7 把它們歸一化到0~1之間時,3轉換為0,7轉換為1,而6就轉換為3/4。規一化后的樣本如表2所示。
表中目標類型1表示未患心臟病,2表示患心臟病。
本模型LVQ網絡的輸入層有13個節點,用于接收13維輸入向量,輸出層設置2個神經元,尚待確定的是競爭層神經元個數。競爭層神經元個數太少容易導致網絡不收斂,太多又容易降低網絡收斂速度,根據以往構建網絡的經驗并經反復測試,選擇競爭層神經元個數為5個。
表1 心臟病診斷數據的屬性Tab.1 Attribute heart disease diagnosis data
在matlab中應用函數newlvq()函數構建和訓練LVQ網絡,主要需要預先設置以下參數:輸入向量的各變量的取值范圍構成13*2的矩陣,由minmax()函數自動求得;250個訓練樣本,患心臟病的占45%,未患心臟病的占55%;學習速率取默認值0.01;學習函數取默認的learnlv1()。經過80次訓練,網絡分類的誤差趨于穩定,降至0.1。網絡訓練的誤差性能曲線如圖3所示。經仿真,只有3號樣本分類不正確。
圖3 網絡訓練的誤差性能曲線Fig. 3 Error performance curve network training
表2 歸一化后的診斷數據樣本(部分)Tab.2 Gauge diagnostic data of sample
將10個測試樣本輸入網絡,其輸出的診斷結果與專家診斷結果比較全部正確。如表3所示。但這只是本測試樣本的測試結果,并不能得出模型診斷正確率100%的結論。但可以看出,該模型能夠較好地實現心臟病的智能診斷。
表3 模型測試結果Tab.3 Model test results
文中建立了基于LVQ的心臟病智能診斷模型,但還不完善。后續要做的工作,一是要把高水平的診斷案例添加到數據庫里邊,進一步提高系統的準確性和穩定性;二是本模式目前只限于診斷是否患有心臟病,今后應將功能擴展到診斷患病的程度;三是研究如何根據得到的特征形成診斷分析報告,使該模型運用到臨床上。
[1]張俊鵬, 賀建峰,馬磊.基于最優風險與預防模型的醫療數據挖掘算法[J].計算機工程,2011,37(22):38-40.
ZHANG Jun-peng,HE Jian-feng,MA Lei. Medical data mining algorithm based on optimal risk and prevention model[J].Computer Engineering,2011,37(22):38-40.
[2]Wolbrecht E,Ambrosio B D,Passch B.Monitoring and diagnosis of a multi-stage manufacturing process using bayesian networks[J].Artificial Intelligence for Engineering,Design and Manufacturing,2000,14(2):53-67.
[3]Maulik U,Bandyopadhyay S.Genetic alg o rithmbased clustering technique[J].Pattern Recog nition, 1997,30(7):50-60.
[4]Intan R,Mukaidono M.Generalized fuzzy rough sets by conditional probability relations[J].International Journal of Pattern Recognition and Artificial Intelligence,2002,16(7) : 865-881.
[5]蔣宇,李志雄,唐茗.LVQ神經網絡在滾動軸承故障診斷中的應用研究[J].機械科學與技術.2011,30(3):408-411.
JIANG Yu,LI Zhi-xiong,TANG Ming.A learning vector quantization neural network for faults diagnosis of rolling bearing and its application[J].Mechanical Science and Technology for Aerospace Engineering,2011,30(3):408-411.
[6]朱雅菊.基于LVQ神經網絡模型的房地產預警研究[J].陜西科技大學學報,2011,29(4):55-58.
ZHU Ya-ju.Research on the early warning system of real estate based on lvq neural network[J].Journal of Shaanxi University of Science & Technology,2011,29(4):55-58.
[7]李會英,曹凱,王曉原.道路線形特征自動分類方法[J].計算機應用,2011,31(6):1693-1695.
LI Hui-ying,CAO Kai,WANG Xiao-yuan.Automatic classification approach to road alignment features[J].Journal of Computer Appli cations,2011,31(6):1693-1695.
Intelligent heart disease diagnosis model based on LVQ network
GUO Fu-qiang
(Resource Construction and Modern Education Technology Center,Shaanxi Radio &TV University,Xi'an710119,China)
Fully tap the hidden historical diagnosis regularities in the data, models and expert knowledge, is an important part of the intelligent diagnosis system of heart disease. LVQ network has the characteristics of pattern recognition is very good, suitable for data mining. Establish an intelligent diagnosis model of LVQ network based on heart disease. Design of the network structure, selected 30 typical cases as samples, training and testing the model. The results show that, the causal relationship between the model can reflect the diagnosis data and diagnosis results, and has high accuracy for diagnosis of heart disease.
LVQ network; data mining; classification; heart disease; intelligent diagnosis
TN702
A
1674-6236(2014)07-0029-04
2013-08-17稿件編號201308109
郭富強(1962—),男,陜西韓城人,碩士,教授。研究方向:人工神經網絡和現代遠程教育。