張雨濃 何良宇 劉迅 肖爭利 晏小剛



摘要:價格低廉與高準確率的矛盾是測量腎小球濾過率(glomerularfiltrationrate,GFR)中遇到的主要難題。采用徑向基函數(radialbasisfunction,RBF)神經網絡和權值與結構確定法(weightsandstructuredetermination,WASD)相結合的方法,并基于中山大學附屬第三醫院的患者數據進行神經網絡建模,對腎病患者進行腎小球濾過率估算。計算機數值實驗結果顯示該方法在50%符合率標準下能達到90%的準確率,而傳統方程中最優的準確率為68%。
關鍵詞:神經網絡;徑向基函數;權值與結構確定法;腎小球濾過率;估算;數值實驗
中圖分類號:TP183文獻標識碼:A
1引言
由于現代人巨大的工作壓力,不健康的生活方式等,慢性腎臟病(chronickidneydisease,CKD)的患病率表現出上升的趨勢。隨著診斷技術的進步以及相關檢查的普及,慢性腎臟病逐漸進入了人們的視野,成為了繼心血管疾病和糖尿病之后又一個引人關注的慢性疾病[1]。然而至今為止,人們對慢性腎臟病的知曉率、干預率和控制率均處于較低水平[2]。多數CKD患者是在出現臨床癥狀、腎功能受損或終末期腎病時才被發現,以致很多患者錯過了最佳治療時機,極大程度地加重了家庭經濟負擔。因此,慢性腎臟病已嚴重威脅到人們的身體健康和生活質量,防治慢性腎臟病已經成為保證人們生活質量的一項重要任務[3]。腎小球濾過率(glomerularfiltrationrate,GFR)是評價腎臟濾過功能的最佳指標及腎功能分期的主要依據。當前流行的檢測方法主要有兩種:一是標志物腎清除率測定方法,其中以菊粉作為標志物的方法臨床實現較為困難,而以同位素作為標志物的方法不能對孕婦等特定人群實施,且價格昂貴;二是利用基于血清肌酐的經驗方程來估算,但是其準確率仍處于相對較低的水平。所以,一個高效而準確判定腎小球濾過率的方法將能給腎病患者帶來巨大的福音[4]。
智能算法是人類受生物界的啟迪,通過模擬生物界規律來求解實際問題的一類算法,其中包括人工神經網絡、遺傳算法等。人工神經網絡以其自適應學習和高度泛化能力等特點而廣受關注,成為了智能算法研究的一個重要的方向[5-7]。徑向基函數(radialbasisfunction,RBF)神經網絡是其中一種性能良好的前向神經網絡,具有簡單的網絡結構、快速的學習算法和較好的泛化能力等優點,被廣泛應用于模式識別和函數逼近等領域[8-10]。值得一提的是,RBF神經網絡尤其適合于多變量函數逼近,且具有唯一最佳逼近點的優點。此外,RBF神經網絡還被廣泛應用在估算領域,其中就有應用RBF神經網絡估算青海省東南沙區的土壤蒸發的事例[11],還有將RBF神經網絡應用在網絡用戶興趣度的估計[12]。這充分說明RBF神經網絡在估算領域中得到了研究人員的重視,而本文則嘗試應用RBF神經網絡去估算GFR。
2.1RBF神經網絡
RBF神經網絡包括三層結構:輸入層、隱含層以及輸出層。具體而言,輸入層負責把網絡與外界環境連接起來,隱含層的作用是把輸入空間映射到隱層空間,而輸出層則是對隱含層的輸出信號進行線性組合[13]。圖1為單輸出RBF神經網絡的結構圖。其中x=[x1,x2,…,xl,…,xL]T為輸入向量,L表示輸入層神經元的數目,l表示第l個輸入層神經元。輸入層神經元與隱含層神經元之間的連接權值均設為1。而隱含層激勵函數為f(x)=[f1(x),f2(x),…,fm(x),…,fM(x)]T,其中m表示隱含層神經元的位置,M表示隱含層神經元的數目。而wm表示第m個隱含層神經元連接到輸出層神經元的權值,w=[w1,w2,…,wm,…wM]T表示隱含層到輸出層的權值向量。采用比較常見的高斯函數作為隱含層激勵函數:
fm(x)=exp‖x-μm‖222σ2,μm∈RM,σ>0(1)
其中‖·‖表示向量的2-范數,μm表示高斯徑向基函數的中心[14],與神經網絡的輸入向量x具有相同的維數,σ表示高斯激勵函數的方差,它決定了該函數圍繞中心的寬度。因此網絡輸出層的輸出為y=∑Mm=1fm(x)wm。
2.2RBF神經網絡
WASD神經網絡是一類特殊的前向神經網絡模型,其核心內容是權值與結構確定法,即權值直接確定法和網絡結構自確定法[13]。權值直接確定法以多項式逼近理論為基礎,首先利用BP算法的思想推導出標量形式和矩陣向量形式的權值迭代公式,最終通過求矩陣偽逆的方法直接計算出網絡的最優連接權值,從而避免了傳統BP算法冗長的迭代學習過程。在權值直接確定法的基礎上,網絡結構自確定算法能夠自動確定出神經網絡的最優結構。
2.2.1權值直接確定法
設網絡輸出層只有一個神經元,定義此網絡的輸出誤差為
E=1N∑Nn=1(δn-yn)2(2)
其中,N為樣本數,δn為第n個訓練樣本的目標/真實輸出值,樣本輸出向量則為δ=[δ1,δ2,…,δN]T。記fn,m表示fm(xn),將隱含層的受激勵輸出寫成矩陣形式為
F=f1,1f1,2f1,3…f1,M
f2,1f2,2f2,3…f2,M
····
fN,1fN,2fN,3…fN,M∈RN×M,(3)
可得
E=1N‖δ-Fw‖22(4)
依據最小二乘逼近原理和矩陣偽逆符號,令上式E等于零,便可直接求得最優權值向量
w=F+δ(5)
2.2.2網絡結構自確定法
在神經網絡結構的確定中,隱含層神經元數目的確定往往是個難題:過少的神經元會導致學習能力降低、誤差較大;過多的神經元會導致網絡的泛化能力變低[13]。通常而言,網絡學習誤差一開始會隨著神經元數目的增加而降低;當神經元數目增加到一定規模時,網絡學習誤差會出現振蕩,即在一個較小的范圍內波動,難以繼續下降。基于此現象,本文設定一個波動標準,當神經網絡的波動超過此標準時,便認為前一狀態的神經網絡已處于最優,此時神經網絡的數目為最佳。為實現此目的,本文采用邊增邊刪的結構自確定法,逐個增加隱含層神經元的數目并進行訓練,同時得到對應校驗誤差。當校驗誤差的波動超過制定標準時,便停止該算法。此算法的另一個特點是每當一個新隱含層神經元增加,若此時校驗誤差不降低,此神經元將會被自動刪除,這樣便有效地控制了神經元數目的快速上漲。endprint
舉例以高斯函數為隱含層激勵函數的多變量RBF神經網絡,針對其隱含層神經元數目的選取問題,首先在數據初始化的時候,以實際GFR值的大小作為標準對樣本進行排序;然后以中心樣本序號最大間距法的原則確定新的隱含層神經元中心(即,從樣本兩端出發,找尋相鄰兩中心樣本序號之間的最大間距,并選取中間的樣本作為新的中心)。圖2便為網絡結構自確定法的流程圖。
3建模與實驗
利用來自中山大學附屬第三醫院的醫療數據,建立起RBF神經網絡模型并對其進行訓練與測試,然后與傳統估算腎小球濾過率方法及相關的神經網絡進行比較。
3.1數據預處理與建模
國內外學者很早就發現人體內有幾項生理指標與腎小球濾過率密切相關,如體重、年齡、性別、體表面積、血清肌酐、白蛋白和尿素氮。普遍流傳的經驗方程CockcroftGault(CG)方程和K/DOQI推薦的簡化的MDRD方程(也稱中國方程)就利用了上述的生理指標[15]。因此,本文將使用這7個指標作為輸入變量對腎小球濾過率進行估算,其中體表面積由身高和體重計算得來。本文采用了2005年1月至2010年12月在中山大學附屬第三醫院就診的1180例就診病例,將其分為學習組、校驗組(或稱內部校驗組)和測試組(或稱外部校驗組)[4]。其中,測試組數據不參與神經網絡模型的建立過程,只用以評估模型的估算準確度。病例所收集并使用的項目包括患者的性別(S)、就診當日的年齡(A)(歲)、體重(W)(kg)、身高(H)(cm)、血清肌酐(Scr)(mg/dL)(采用酶法測定)、白蛋白(Alb)(g/L),尿素氮(Bun)(用日本HITACHI公司7180型全自動生化分析儀測定)和患者的GFR[ml/min/(1.73m2)](采用TcDTPA腎動態顯像法,使用美國GE公司雙探頭SPECT,配以低能通用準直器所測試)。
將學習組患者的7個生理指標作為7個輸入變量,患者對應的GFR值作為目標輸出,對RBF激勵WASD神經網絡進行訓練;同時利用校驗組的病人數據對神經網絡的性能進行分析,調整神經網絡的結構,構造出具有最優結構的RBF神經網絡。然后,用測試組的患者數據進行估算,得出神經網絡的腎小球濾過率的估算值(estimatedglomerularfiltrationrate,eGFR)。與上述構造WASD神經網絡的方法類似,根據平均影響值(meanimpactvalue,MIV)判定法[15],對7個輸入變量的重要性進行排序,排序結果為Scr>Bun>S>W>A>Alb>H。根據該順序,逐個刪除樣本中重要性較小的數據,然后對神經網絡進行訓練與估算,得出相應的實驗數據結果。
3.2實驗結果與分析
以符合率作為標準對實驗結果進行如下分析。
3.2.1實驗數據
對于醫學實驗,由于每個個體之間存在著一定的差異,不存在唯一的判定標準。因此,依據慣例,本實驗所設定的模型評價標準為15%符合率、30%符合率與50%符合率。其中15%符合率的定義表達式為
15%符合率=GFR與eGFR的相對誤差<15%的患者總數總患者數
而30%符合率和50%符合率可類似定義。表1為7輸入變量的RBF神經網絡的輸出結果與逐個刪除6個輸入變量(H,Alb,A,W,S和Bun)分別所得到的數值實驗結果。
從表1中可以看出,6輸入變量的神經網絡實驗數據綜合表現最好(該行已加粗),其中在測試組中15%符合率達到了48.71%,為相同標準下最好的實驗數據結果。在輸入變量數從5減到4時,測試組的15%符合率有著一個明顯的下降趨勢。這說明Age這個因素對GFR的估算起到一個明顯的作用。
表2是分別刪除其中一個變量所得到的6輸入RBF神經網絡的實驗結果。從表2可以看出,在校驗組和測試組中,刪除H(即身高)得到的6輸入RBF神經網絡的綜合表現最優。此外,從表2的第四行與第五行中可以看出,刪除A或者Scr后的估算準確率明顯降低,即A與Scr這兩個因素的缺失會給神經網絡的估算能力造成巨大的下降。
因此,本文保留A與Scr兩個輸入變量重新構建新的RBF神經網絡并進一步實驗,其實驗結果如表3所示。觀察表3中的內部校驗組,可以看出2輸入變量的神經網絡的15%符合率和50%符合率更高。觀察兩個網絡的外部校驗組可以得出,兩者的15%符合率與30%符合率一致,但是2輸入變量的神經網絡的50%符合率更高。綜上所述,2輸入變量(A&Scr)的神經網絡在所有測試的RBF神經網絡中性能最佳。
3.2.2對比實驗
至今,不少估算腎小球濾過率的方法已經出現,其中經驗方程的代表:CG方程和中國方程流傳最為廣泛。
CG方程:
GFR[ml/min/(1.73m2)]=[(140-年齡(歲))×體重(kg)×(0.85如是女性)]×體表面積(m2)÷1.73÷(72×Scr(mg/dL)),其中Scr單位換算為1μmol/L=0.0113mg/dL;體表面積用Dubois公式計算:體表面積(m2)=0.007184×體重(kg)×0.425×身高(cm)×0.725。
表32輸入(A&Scr)RBF神經網絡與6輸入(刪H)
如是女性)。
不僅存在經驗方程,更存在另外一些神經網絡[1,3],如3-WASD-6神經網絡,也曾被提出用來估算腎小球濾過率。
表4是進一步將2輸入(A&Scr)的RBF神經網絡、CG方程、中國方程和3-WASD-6神經網絡在測試組中對比得到的估算結果。從表4可以看出,2輸入變量(A&Scr)的RBF神經網絡在15%符合率和50%符合率中都有明顯優勢,在30%符合率中也具有較好的估算能力。從上述數值實驗結果可以得出如下結論:神經網絡相對傳統方程在腎小球濾過率的估算上更具有效性,而2輸入變量(A&Scr)的RBF神經網絡性能更優。endprint
4結束語
針對腎小球濾過率的檢測存在費用昂貴或者準確性低的局限性,本文應用RBF激勵WASD神經網絡去估算患者的腎小球濾過率。計算機數值實驗結果證實:以年齡(A)和血清肌酐(Scr)作為輸入變量的2輸入(A&Scr)的RBF神經網絡能很好地估算GFR。
參考文獻
[1]LIUX,PEIXH,LINS,ZHANGYN,etal.Improvedglomerularfiltrationrateestimationbyanartificialneuralnetwork[J].PlosOne,2013,8(3):e58242(1-9).
[2]陸晨,楊淑芬,岳華.慢性腎臟病的流行病學調查現狀[J].醫學綜述,2008,14(3):370-372.
[3]林佩儀.慢性腎臟病患者心血管疾病危險因素及其治療現狀研究[D].上海:復旦大學,2012.
[4]張雨濃,劉迅,何良宇,等.應用WASD神經網絡估算腎小球濾過率的研究[J].中國科技信息,2014,(8):212-216.
[5]武飛周,薛源.智能算法綜述[J].工程地質計算機應用,2005,(2):9-15.
[6]李季,樊慧津.低軌無拖曳衛星的自適應神經網絡控制器設計[J].計算技術與自動化,2014,33(2):1-6.
[7]周荔丹,童調生.基于RBF模糊神經網絡模型的廣義預測控制[J].計算技術與自動化,2001,20(3):5-7.
[8]林濤,葛玉敏,安玳寧.基于RBF神經網絡的鋼構件質量追溯系統研究[J].計算技術與自動化,2015,34(1):20-24.
[9]宋保強,付瓊,宋彤.改進的RBF神經網絡及其應用[J].計算技術與自動化,2001,20(3):66-69.
[10]張頂學,劉新芝,關治洪.RBF神經網絡算法及其應用[J].石油化工高等學校學報,2007,20(3):86-88.
[11]王學全,劉君梅,楊恒華,等.應用神經網絡RBF估算青海省東南沙區土壤蒸發[J].干旱區研究,2012,29(3):400-404.
[12]劉健,孫鵬,倪宏.基于神經網絡的用戶興趣度估計[J].計算機工程,2011,37(7):187-190.
[13]張雨濃,楊逸文,李巍.神經網絡權值直接確定法[M].廣州:中山大學出版社,2010.
[14]張雨濃,李克訥,譚寧.中心、方差及權值直接確定的RBF神經網絡分類器[J].計算技術與自動化,2009,28(3):5-9.
[15]MAYC,LIZi,CHENJH,etal.ModifiedglomerularfiltrationrateestimatingequationforChinesepatientswithchronickidneydisease[J].JournaloftheAmericanSocietyofNephrology,2006,17(10):2937-2944.
[16]劉迅.基于人工智能技術的慢性腎臟病分級預警模型研究[D].廣州:華南理工大學,2012.
第35卷第1期2016年3月計算技術與自動化ComputingTechnologyandAutomationVol35,No1Mar.2016第35卷第1期2016年3月計算技術與自動化ComputingTechnologyandAutomationVol35,No1Mar.2016endprint