999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

SPSS Modeler在腦卒中患者預后建模中的應用

2018-10-22 00:25:02游佳李愛陽王森林魏嵐費曉璐陳卉
中國醫療設備 2018年10期
關鍵詞:模型

游佳,李愛陽 ,王森林 ,魏嵐,費曉璐,陳卉

1. 首都醫科大學 生物醫學工程學院,北京 100069;2. 北京市密云區醫院 a. 婦科;b. 內科,北京 101500;3. 首都醫科大學宣武醫院 信息中心,北京 100053

引言

腦血管病是我國居民死亡和成人致殘的首位病因[1],近年來發病人數持續增加。急性腦血管病(腦卒中)作為主要的致死、致殘性腦血管疾病,其危險因素流行趨勢明顯[2]。國內腦卒中患者發病率逐年上升且死亡率較高。據推算,2015年我國有腦卒中患者1300萬,病死率大約是急性心肌梗死的2倍[2],嚴重影響患者的生活質量,給社會、家庭和患者帶來沉重的經濟負擔和巨大痛苦[3]。因此,開展腦血管疾病的預后影響因素分析,將為腦卒中的治療及預防提供參考意見。

醫院的住院病案首頁是患者住院信息的濃縮,包括患者人口學數據、疾病診斷、手術和操作、臨床資源(重癥監護室、呼吸機等)使用、住院管理數據(住院天數、費用等),在醫院管理、醫療水平評估等方面具有重要的應用價值。國內外的很多研究表明,針對某一疾病,用住院病案首頁中的數據分析疾病院內死亡率的影響因素或預測患者結局,能為疾病的治療和預防提供具有一定價值的參考信息[4-6]。本文使用SPSS Modeler軟件,采用K近鄰算法對住院病案首頁的數據進行建模,分析腦卒中患者院內死亡的影響因素,并對腦卒中患者的預后進行預測,為腦卒中患者的治療提供數據支持。

1 SPSS Modeler簡介

IBM SPSS Modeler是一款以圖形化語法為用戶界面的數據挖掘軟件,擁有豐富的數據挖掘算法,操作簡單易用,分析結果直觀易懂,圖形功能強大,支持與多種數據庫之間的數據和模型交換,可以使用戶方便快捷的實現數據挖掘[7]。

SPSS Modeler的操作與數據分析的一般流程相吻合,將操作的各個環節表示成若干個節點,將數據分析過程看作是數據在各個節點之間的流動,并通過圖形化的數據流方式直觀表示整個數據挖掘的環節。在SPSS Modeler中建立數據流的一般思路是建立數據源、數據理解、數據準備、建立模型、模型評價。本研究利用SPSS Modeler 18.0根據上述流程進行腦卒中患者院內死亡預測模型的建立和驗證。

2 腦卒中患者預后建模

2.1 提取數據

本文數據來自2014~2016年北京市兩所醫院(三甲醫院和三乙醫院各一所)的住院病案首頁。根據住院病案首頁的主要疾病診斷ICD-10編碼字段,確定共有12952名腦卒中(ICD-10編碼為I60~I64、I66、I67.8)患者?;颊哳A后根據“離院方式”字段確定,共有254名患者死亡,12698名患者存活出院,院內死亡率為1.96%。

提取住院病案首頁中的部分變量用于本研究。其中結果變量為“是否死亡”,預測變量包括人口學特征(年齡和性別)、入院途徑(急診或門診)、是否第一次住院、腦卒中類型[出血性(ICD-10編碼為I60、I61、I62)或缺血性 (ICD-10編碼為I63、I66、I67.8)]。此外,很多臨床研究[8-11]顯示,高血壓、腎功能衰竭、肝病、糖尿病等是腦卒中患者預后的影響因素,故本研究在預測變量中加入了是否患有高血壓(ICD-10編碼為I10)、心力衰竭(ICD-10編碼為I50)、糖尿?。↖CD-10編碼為E10~E14)、慢性阻塞性肺疾?。↖CD-10編碼為J40~J44、J47)、慢性肝?。↖CD-10編碼為K70~K77)、慢性腎病(ICD-10編碼為N03、N05、N18、N19、N25)、惡性腫瘤(ICD-10編碼為C00~C97)等7類慢性病。因此,研究樣本共包含12952條記錄,每條記錄包括13個變量,除年齡(范圍18~93歲)外,其余變量均為二分類型變量。建立的數據文件以Excel文件格式保存。

2.2 構建完整的數據流

完整的建模和模型評價數據流,見圖1。可以將它分為以下幾個步驟分別實現。

圖1 完整的建模及評價數據流

2.2.1 建立數據源

在SPSS Modeler中創建Excel數據源節點,添加“過濾器”節點去掉不參加建模的字段(如患者編號),添加“類型”節點指定各字段(變量)的測量(measure)和角色(role),如圖2所示。其中“輸入”角色表示預測變量,“目標”角色表示結果變量。除年齡字段的測量為“連續”外,其余字段的測量均為“標記”,即二分類型變量。添加“數據審核”節點可以看出,目前參與建模的字段共13個。

圖2 指定樣本中各字段的類型

2.2.2 數據準備

SPSS Modeler具有自動數據準備功能,使用自動數據準備節點可以快速、方便地準備數據,以便后期進行數據挖掘,并能給出后期數據分析中使用哪些預測變量的建議。在指定字段類型的“類型”節點之后添加自動數據準備節點,按照默認設置進行數據準備,結果見圖3。

圖3 自動數據準備的結果

從圖3可見,在預測患者院內死亡風險時,是否合并高血壓、腦卒中類型、是否合并慢性腎病是排在前三位的重要變量(右圖),是否合并慢阻肺以及是否合并慢性肝病的重要性非常低,系統建議不適用這兩個預測變量(左圖)。因此,排除這兩個變量,利用剩余的10個預測變量和1個結果變量建模。添加“數據審核”節點可以看出,目前參與建模的字段共11個。

2.2.3 樣本平衡化

在直接提取的數據文件中,死亡患者與生存患者例數相差過大(254:12698),導致樣本中兩類患者數量嚴重不均衡,即出現了機器學習中的非平衡類問題[12]。這樣很容易導致建立的分類模型不能充分考慮到少數類樣本的特征,因而忽略甚至錯誤分類少數類樣本。為了使樣本中生存和死亡患者的人數盡量均衡,我們結合所研究數據的具體情況及數據分析方法,采用隨機欠采樣的方法進行樣本重采樣[13]。為此,在“自動數據準備”節點后添加“平衡”節點,將平衡指令設置為生存狀態為存活的記錄數減少到2%(圖4),即對12698名生存患者進行2%隨機欠采樣,隨機抽取大約254例生存患者,與254例死亡患者組成接近1:1的總樣本集合,從而達到樣本類別均衡。

圖4 進行2%隨機欠采樣

2.2.4 數據建模

K近鄰(K-Nearest Neighbor,KNN)分類算法是數據挖掘分類技術中最簡單的方法之一,是一種基于實例的、類比學習算法[14]。其基本思路是:給定一個待分類的樣本X,首先找出與樣本X最接近或最相似的K個已知類別的樣本,然后根據這K個樣本的類別確定樣本X的類別。計算樣本之間接近程度或相似程度的指標主要有歐幾里德距離和城市街區距離。確定樣本X的類別的方式包括取K個最接近樣本的類別號的平均值或類別號的眾數。K近鄰分類算法的優點是對樣本數據的分布沒有要求,無需訓練,易于實現,對異常值不敏感。因此,本文選擇K近鄰算法建立腦卒中患者預后預測模型。

在“平衡”節點之后添加K近鄰算法節點。節點中使用SPSS Modeler默認的參數設置,即利用歐幾里德距離衡量樣本之間的相似程度,利用10折交叉驗證方法在3~5之間自動選擇K值,最終待分類樣本的類別取決于K個最相近樣本的類別號的平均值。執行該數據流后,即可生成K近鄰分類模型節點。

2.2.5 模型評價

在分類模型節點后連接ROC曲線和評價分析節點,用于評價模型性能。最終的數據流如圖1所示。

執行分析節點后得到如圖5所示的評價矩陣。從圖中可以看出,分類器總的準確率為81.0%,敏感度為81.1%(206/254),特異度為80.9%(182/225),ROC曲線下面積AUC為0.892。由于ROC曲線下面積非常接近0.9,因此可以認為該模型具有很高的分類性能[15]。

圖5 K近鄰分類器的性能評價矩陣

由于在數據流中“平衡”節點對生存患者進行隨機采樣的樣本量和抽取的樣本均不同,因此我們將整個數據流執行10次,得到10個模型及其性能評價結果(表1)。從表中可以看出,僅僅對生存患者進行重采樣,不會對模型的敏感度產生影響,特異度也是在較小的范圍內波動。K近鄰模型的平均敏感度為81.1%,特異度為79.4%,總的準確率為80.2%,ROC曲線下面積為0.878,模型整體性能較高。

3 總結

本文利用住院病案首頁分析腦卒中患者院內死亡的影響因素,并建立死亡風險預測模型。由于住院病案首頁的大數據量、客觀性和小偏倚性,使得分析結果具有相當的可信度和真實性,所建模型對于了解腦卒中的疾病治療趨勢有重要的意義。通過分析性別、年齡、入院途徑、腦卒中類型、合并慢性病情況等因素對患者院內死亡風險的影響,可為之后腦卒中患者的疾病治療及防護提供參考意見[16]。

K近鄰算法是一種簡單、易于實施的分類器算法,通常具有較高的分類準確率。本研究中建立的K近鄰分類器的ROC曲線下面積非常接近0.9,表明模型具有較高的預測準確性。但是,分類器的敏感度和特異度均在80%左右,結果并不十分理想。這既有可能是住院病案首頁所能提供的信息在預測患者死亡風險時能力不足,也可能跟樣本的數量及質量有關。K近鄰分類算法的一個主要缺點就是當樣本類別不平衡時,容易將待分類樣本判為樣本量大的那一類。為此我們對生存樣本進行了隨機欠采樣,以便使生存樣本與死亡樣本數量達到均衡,但同時損失了相當多的生存樣本。在今后的研究中我們將進一步擴大樣本量,并且對多種不平衡樣本重采樣的方法進行研究,力爭建立穩定、可靠、準確的預測模型。

表1 多次隨機采樣后的建模結果

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久久久夜色精品波多野结衣| 亚洲人成色在线观看| 91娇喘视频| 不卡视频国产| 在线观看国产精品日本不卡网| 国产精品免费久久久久影院无码| 天天综合网站| 青青草一区二区免费精品| 精品视频福利| 国产精品私拍99pans大尺度| 国产成人AV综合久久| 视频一区视频二区中文精品| 亚洲国产日韩欧美在线| 亚洲欧美另类专区| 日韩欧美国产综合| 99久久精品国产精品亚洲| 国产导航在线| 国产高清在线精品一区二区三区| 99久久成人国产精品免费| 欧类av怡春院| 免费不卡在线观看av| 波多野结衣一区二区三区四区视频| 亚洲不卡av中文在线| 天天躁夜夜躁狠狠躁图片| 欧美人人干| 亚洲国产高清精品线久久| 久久综合成人| 国产免费久久精品44| 亚欧美国产综合| 久久久91人妻无码精品蜜桃HD| 久久人搡人人玩人妻精品一| 午夜一区二区三区| 永久在线精品免费视频观看| 日韩精品中文字幕一区三区| 最新国产午夜精品视频成人| 999精品色在线观看| 久久国产乱子伦视频无卡顿| 福利在线不卡| 亚洲视频免费在线| 国产人碰人摸人爱免费视频| 亚洲妓女综合网995久久| 日本午夜在线视频| 欧美亚洲第一页| 丁香综合在线| 国产福利拍拍拍| 超清无码熟妇人妻AV在线绿巨人| 国产日韩久久久久无码精品| 久久成人国产精品免费软件 | 国产网站一区二区三区| 亚洲永久色| 日韩麻豆小视频| 久久精品国产国语对白| 国产夜色视频| 欧美日韩专区| 国产成人高清精品免费| 婷婷色丁香综合激情| 国产手机在线小视频免费观看| 99在线视频精品| 热99精品视频| 国产一区免费在线观看| 中字无码av在线电影| 欧美国产综合视频| 四虎国产成人免费观看| 日韩欧美中文| 最新亚洲av女人的天堂| 欧美成人午夜视频免看| 国产精品理论片| 一本久道热中字伊人| 99久久精品国产自免费| 精品無碼一區在線觀看 | 一本色道久久88| 日韩精品无码免费一区二区三区 | 久久亚洲精少妇毛片午夜无码 | 欧美精品色视频| 日本不卡在线| 国产福利一区视频| 久久香蕉欧美精品| 亚洲欧洲天堂色AV| 日韩国产 在线| 欧美综合激情| 精品国产乱码久久久久久一区二区| 日日拍夜夜操|