陳恩宏 劉陳帥 賈學勇
摘要:研究影響糖尿病治療效果的特征向量與病人再次入院率之間的聯系,其中,特征變量通過主成分分析可得出有效評價指標為入院種類、藥物編號、體重、性別、出院配置。研究采用神經網絡的GRNN算法,首先將歸一化的458組導入輸入層,從模式層可輸出對應樣本的權值,接著經過不斷訓練,在光滑因子時輸出層的結果與實際再次入院率最相近,最后將其余100組數據帶入訓練模型得出再次入院率與指定特征變量間的函數關系。
關鍵詞:主成分分析;徑向基函數;神經網絡
1 提取影響再次入院率的特征變量
1.1 主成分提取
step1:模型準備
本文中根據醫院對于糖尿病的常見治療方案得出影響糖尿病治療效果的因素,從附件中預先選取八個影響指標,即糖尿病人的性別、年齡、體重、病人入院類型、入院來源、住院時間、使用藥物編號、出院配置、注射胰島素量,為進行主成分分析,得到可行建立評價體系的主要指標,需將附件指標進行預處理。本文中將糖尿病人的性別進行定量:男性為1、女性為0,病人每個階段的年齡、體重取平均值,病人胰島素用量規定:
step2:數據歸一化處理
為了避免指標變量量綱的影響,需要對于變量指標數據進行歸一化處理;本文去噪后數據涉及558個,指標數據9個,第j個數據的第i個指標值為Fij,數據進行標準化公式:
(1)
其中, ——指標i均值;
Si——指標i的標準差;
計算標準化數據的相關系數矩陣,求出該矩陣的特征值與特征向量。將第i個指標和相鄰的第i個指標的相關系數為rij,其計算公式:
(2)
則可得出兩個相鄰指標的相關系數矩陣為:
(3)
2基于主成分分析的指標提取
step1:提取相關指標
主成分提取出的主要指標仍具有較強的重復性和抽象性,此時,采用相關分析的方法對于主成分提取出的指標進行處理,建立與原始數據之間的直接關聯。便于后續預測算法的建立,極大程度上減少計算量。
根據原始指標對于已知的三種主成分的貢獻程度提取主要影響因子,將6個主成分利用SPSS進行分析,得出成分矩陣進行分析判斷:
提取方法:主成分分析法
a.提取了6個成分
根據成分矩陣,可以得到每個主成分中指標的貢獻率,主成分1中,入院種類與入院來源的貢獻率較高;主成分2中,住院時間和藥物編號的貢獻率較高;主成分3中,年齡和體重的貢獻率較高;主成分4中,性別和胰島素貢獻率較高;主成分5中,出院配置的貢獻率較高,成分6中,性別的貢獻率較高。
step2:根據相關系數確定最終指標
樣本容量為558,假設置信度水平為0.01,當樣本的指標相關系數超過0.01,即認為兩個指標存在顯著性相關關系。因此可以在主成分分析的基礎上,得出指標之間的相關性矩陣(見附錄)針對主成分1,入院種類與入院類型的相關系數為0.862,兩者顯著性相關,保留貢獻高的入院種類;同理,通過主成分分析可得出有效評價指標為入院種類、藥物編號、體重、性別、出院配置。
3.再次入院率與特征變量的關系求解
3.1數據預處理
數據預處理是指在主要的處理以前對數據進行的一些處理。主要是清理異常值、糾正錯誤數據。在附件中,有來自美國130家醫院的糖尿病患者的101766組治療數據,由于變量較多,數據量巨大,對指標體系的建立和模型的精度均有影響,所以首先需要進行數據的預處理,對初始數據進行篩選形成新的樣本集。
基于本問,我們利用Excel的篩選功能將信息殘缺數據和非糖尿病人的數據清洗掉,還剩下558組數據作為樣本集。
3.2廣義回歸神經網絡模型
通過上文的指標篩選的結果,確定入院種類、藥物編號、體重、性別、出院配置作為影響治療效果的關鍵性指標,顯然這幾個特征變量能夠給出對于再次入院率的影響關系。本文選取廣義回歸神經網絡模型,通過建立神經網絡訓練樣本,得出特征變量與再次入院率之間的網絡,即給出二者之間的關系。
4.結論
1.影響糖尿病治療效果的主要指標為入院種類、藥物編號、體重、性別、出院配置。
2.得出特征向量與再次入院率之間的關系,改變指標的參數可得出病人的治療效果改善情況。
3.通過敏感性分析,得出降低入院率從醫院的藥物編號和出院配置兩個方面進行考慮效果更好。
符號說明
R——指標間的相關系數矩陣;
Yi——第i個主成分;
Wi——主成分Yi的貢獻率;
hi——高斯徑向基函數;
σ——神經網絡訓練平滑因子;
參考文獻:
[1]劉宸.基于交互學習神經網路的仿真研究[J].電子世界,2013(04):133-134.
[2]郭欣欣.人工神經網絡在住宅類房地產評估中的應用[D].北京:首都經濟貿易大學,2012.
[3]司守奎,孫璽菁.《數學建模算法與應用》.北京:國防工業出版社,2011.
[4]張仕良.基于深度神經網絡的語音識別模型研究[D].中國科學技術大學,2017.
[5]G·葛蘭·亨利,泰瑞·派克斯.多運算神經網絡單元[P].上海:CN106503796A,2017-03-15.
[6]肖特特,茅佳源.目標檢測方法和裝置、神經網絡訓練方法和裝置[P].北京:CN106778867A,2017-05-31.