摘 要:應用BP人工神經網絡原理,設計一種系統性紅斑狼瘡疾病診斷的方法。選用對系統性紅斑狼瘡敏感的四個指標(ANA,dsDAN-ab,C3,C4),作為BP人工神經網絡的輸入數據。通過對121例樣本的分析,其中訓練集的71例,訓練正確率為95.7%;預測集的50例,預測正確率為88.0%。由此可以得出,BP人工神經網絡能為系統性紅斑狼瘡作出較準確的診斷,能提高診斷的客觀性。
關鍵詞:人工神經網絡 系統性紅斑狼瘡 預測
中圖分類號:R593.241文獻標識碼:A文章編號:1674-098X(2012)07(b)-0246-02
系統性紅斑狼瘡(Systemic Lupus Erythematosus)是一種多器官、多系統受累的自身免疫性疾病。患者體液免疫失調,細胞免疫功能紊亂,而使患者體內產生一些特異性自身抗體[1]。由于系統性紅斑狼瘡早期診斷困難,致殘率與死亡率均高,給患者及家屬帶來許多的痛苦和遺憾,而本研究應用的人工神經網絡對系統性紅斑狼瘡的診斷,不僅能排除各種人為因素的干擾,而且也能得到較準確和客觀的結果。人工神經網絡是種理論化的數學模型,是模仿人腦神經的網絡結構及其功能而建立起來的一種信息處理系統,具有自適應性、自組織性、容錯性、聯想性等特點[2,3]。本文通過系統性紅斑狼瘡疾病的4個敏感的診斷指標(ANA,dsDAN-ab,C3,C4),應用人工神經網絡對疾病進行預測診斷,結果表明人工神經網絡可用于系統性紅斑狼瘡的疾病診斷。
1 人工神經網絡原理
1.1 人工神經元
人工神經網絡由多個層次組成,每一個層次包含若干個神元。如圖1顯示了一個具有n個輸入分量的人工神經元模型。
在神經網絡中,除了第一層次的其它神經元,都是由來自上層神經元的輸入變量(,,…,)和相對的連接權重(,,…,)的點乘積的和構成其總輸入。神經元總輸入值在函數f的作用下并同時給與適當的閾值θ刺激,就能夠產生信號輸出。圖中的連接權重表示的意義是上級神經元對下級神經元的影響程度,f是神經元的激活函數,一般采用S型函數。
1.2 人工神經網絡
人工神經網絡是一個以有向性拓撲結構的動態系統,通過連續或斷續方式的輸入狀態而進行處理[4]。目前根據各個層次神經元的連接方法不同,其中使用最多、具代表性的是誤差反向傳播的多層前饋式網絡,即BP(Back—Propagation)網絡。BP神經網絡是由大量“神經元”互連而成的網絡,通常由輸入層、隱含層和輸出層3個層次組成。神經網絡輸入層的神經元首先接受外界的信息,然后通過一個連接權重傳遞給下一隱含的神經元,其次隱含層神經元對數據進行分析處理,把得到的結果傳遞給輸出層神經元,最后輸出層神經元經過轉換把信號傳給外界。
1.3 人工神經網絡工作原理
人工神經網絡通過特定的學習算法得到了神經元之間的連接權,同時也獲得了病例樣本的各種信息,這一過程稱作訓練,人工神經網絡經過訓練就能得到疾病診斷的各種規則。人工神經網絡應用以上學到的診斷規則,就能在新的樣本病例中進行疾病預測。基于以上這點,本文首設定一個人工神經網絡的期望值,當這些期望值,提供給人工神經網絡學習后,神經元就能夠獲得網絡的輸入響應并產生相對應的連接權值。然后人工神經網絡按減小期望輸出與實際輸出誤差的方向,從輸出層經各中間層逐層修正各連接權值,最后回到輸入層。如果計算結果給出了錯誤的判斷,此時人工神經網絡通過下一步的學習,就可以減少犯同樣錯誤的可能性,這種過程將反復交替的進行,直至整個人工神經網絡的全局誤差趨向預期目標,此時人工神經網絡完成學習的過程。人工神經網絡通過這種訓練,提高了疾病判斷的準確率,這就表明人工神經網絡對疾病規則的學習已經獲得了成功,同時也能夠對疾病作出迅速、準確的判斷。
2 神經網絡診斷SLE實例
2.1 BP神經網絡的算法
首先將訓練和預測用的病例數據整理成易于MATLAB讀取的文本,其次設定人工神經網絡的期望值,將訓練病例數據導入其中進行訓練,訓練完成后,將預測數據導入到訓練好的神經網絡里面進行仿真,最后輸出仿真結果。
2.2 病例選取
試驗病例樣本來源為1996年至2008年期間哈爾濱醫科大學附屬醫院收治的門診或住院的系統性紅斑狼瘡患者。共計350例,其中女320例,占91.4%;男30例,占8.6%;男女之比為1:10.67,年齡1~79歲,平均年齡為40.53歲。所有患者均符合1982年美國風濕病協會(ARA)制定的SLE診斷標準[5]。SLE患者均進行各項免疫學指標檢查及結果記錄。病歷詢問及體檢均由有臨床經驗的醫生進行,所有患者均進行詳細的病史詢問和體格檢查。每例病歷包括了100多個計量、分級指標,包括該病人入院時的基本資料、體格檢查結果、實驗室化驗結果。其中,體格檢查99項,實驗室檢查34項,病人資料12項。本文將以上的指標進行因子分析取得目標數據。所謂的因子分析,是在為數眾多的因素中,不損失或很少損失原有信息的基礎上,把原來多個彼此相關的因素轉化為少數幾個彼此獨立的、能綜合反映原有信息的綜合指標的一種多元統計方法。通過求出每個公因子的方差貢獻,取累計方差貢獻率大于80%(可根據相關的專業知識,對此值進行調整)的前m個公因子,根據各影響因素在公因子中所起的作用,確定其是否為主要影響因素。其基本思想是根據相關性大小把原始變量分組,使得同組內的變量之間相關性較高,而不同組的變量間相關性則較低。按照前面所述的思想對數據進行篩選,最后得到權重比較大的4個指標,即ANA,dsDAN-ab,C3,C4,進行神經網絡的模擬分析。
隨機抽取臨床樣本26例,取19例作為神經網絡訓練樣本(7例正常,12例不正常),取剩余的7例數據進行預測(預測數據如表1所示),使用MATLAB作為算法的實現工具。
2.3 建立神經網絡
使用newff語句建立BP網絡,設置隱藏神經元數目為4,并且選擇各神經元的傳遞函數分別為tansig和purelin,設置反傳遞函數為:
2.4 設定網絡參數
使用函數train對人工神經網絡進行訓練之前,先要設置網絡訓練參數。本文設輸人工神經元個數為4,輸出神經元個數為1,期望目標輸出值用0表示正常,用1表示系統性紅斑狼瘡,隱含層用tansig函數,訓練時間為5000個單位時間,訓練目標為誤差小于0.01,顯示速度為50ms,學習速率為0.05,網絡連接權重初始值設為【-1,1】之間的隨機數,MATLAB程序編寫如下:
2.5 訓練及預測結果
將訓練病例的四個指標輸入到人工神經網絡的算法程序中,神經網絡訓練次數達到5000后,期望誤差值縮小到了0.0923,訓練完畢后,將訓練結果與實際值進行比較,見圖2。
將預測用的病例數據導入到訓練好的神經網絡中進行疾病預測,預測輸出以0.5為閾值,>0.5者為系統性紅斑狼瘡患者,<0.5為正常對照樣本,預測結果如下圖3所示。
將訓練與預測兩項結果作如下統計,結果見表1。
3 討論
本課題所采用的基于人工神經網絡的系統性紅斑狼瘡的診斷結果能較好地與病例數據相符合,具有較高的準確性,同時有利于疾病的早期發現和治療。然而在神經網絡的預測過程當中,神經網絡的建立是至關重要的。如果選取了不恰當的參數,或者輸入的訓練數據不夠典型(不具關聯性),這樣建立的網絡往往達到不到預期要求,其預測結果也就往往和實際有所偏差,而本文設定的網絡參數能較好的滿足實際情況的要求。
臨床上由于各種原因,試驗中有些病例數據不夠完整,這些缺失的數據會給臨床疾病的診斷造成一定的影響,但由于神經網絡具有較強的容錯性,所以輸入數據在某些項上的缺失或是錯誤對神經網絡最終運算的結果影響不大,同時由于神經網絡所具有的優點和特性使得它成為醫學診斷研究的有效工具。在神經網絡應用中,只要我們建立適當的網絡模型,確定完整的數據樣本,經過網絡模型訓練醫學專家的知識和經驗,就可以使操作智能化、自動化,并具有較高的可信度,將極大減輕醫務人員的工作負擔,所以神經網絡在醫學診斷領域具有很大的發展潛力。
參考文獻
[1]王國麗,胡鷺芳.671例系統性紅斑狼瘡臨床及自身抗體檢測結果分析[J].中國麻風皮膚病雜志,May2006,Vol.22No.5:430-430.
[2]毛政利,閆繼濤,賴健清.金屬礦山[J].2009,(07):66-68.
[3]卜憲敏,鄭智勇,玉英豪.神經網絡在病理學自動識別中的應用[J].中國體視學與圖像分析,2005,10(2):122-126.
[4]巫影,陳定方,唐小兵等.神經網絡綜述[J].科技進步與對策,2002,(6):133-134.