999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

應用分類模型研究遲發性顱腦損傷的影響因素

2018-03-20 09:15:16史寶鵬孔廣黔
計算機技術與發展 2018年3期
關鍵詞:數據挖掘分類模型

史寶鵬,段 迅,孔廣黔,吳 云

(貴州大學 計算機科學與技術學院,貴州 貴陽 550025)

0 引 言

近年來,國內醫療信息化事業飛速發展。據統計,國內80%醫療機構采用HIS系統(醫療信息系統)辦公,每天對大量的醫療、財務、藥品及物資等信息進行管理,但對數據處理僅限于簡單的錄入及查詢,在醫療數據分析和輔助決策方面發展較為緩慢[1-3]。如何針對臨床診療信息、財務信息等海量數據進行有效模式的挖掘,通過信息的分類及分析,發現醫療業務和管理中的潛在問題,輔助醫生及行政人員做出正確決策,提高醫療機構的醫療及管理水平,是醫療機構急待解決的問題[4-5]。基于此,文中應用數據挖掘模型對遲發性顱腦損傷患者診療信息進行分析,找出引發遲發性顱腦損傷的主要影響因素,輔助醫生做出診療決策,減少患者的發病率。

1 背 景

1.1 數據挖掘概述

數據挖掘是從大量、不完整、有噪音、看似無關的實際應用數據中,挖掘出令人感興趣的、有價值的、隱含的、事前未知的模式或知識。模式或知識的發現過程一般包括數據清理、數據集成、數據轉換、數據挖掘、模式評估及知識表示[6-9]。數據挖掘技術能自動化地分析數據源中的數據,并做出歸納、推理。通過數據挖掘,有價值的模式或規則從數據源中被抽象并展示出來。數據挖掘是信息技術發展的必然結果,主要涉及數據庫、統計學及機器學習等學科。其主要有關聯分析、分類、聚類及預測四大功能。

在醫學領域中,數據挖掘技術有其自身的優勢。在醫學領域中收集的數據大多是真實可靠的遺漏數據和噪音數據比例較少的結構化數據,不但減輕了數據挖掘中數據清理、數據集成和數據轉換的工作量,并且使得醫療數據具有較強的穩定性,這些因素有益于數據挖掘模式和知識的維護和質量保證[10-13]。

1.2 分類模型在遲發性顱腦損傷研究中的意義

遲發性顱腦損傷是危害人類健康的常見疾病之一。由于車禍、高處墜落及暴力打擊等外界因素導致顱腦損傷,在初期并未發現顱內血腫等顱腦疾病,但經過一段時間后再次檢查時發現顱內血腫等腦部損傷,這種腦損傷往往會在人們疏忽時發病,導致較高的致殘率和死亡率。遲發性顱腦損傷的發病率正在逐年上升,這種病癥也日益受到醫學工作者的重視[14-15]。

文中根據某省醫院的腦外科醫生收集的該科室在3年間急救后治療的201例腦外傷病例,使用分類模型從中分析出導致急救后遲發性顱腦損傷的主要影響因素,確定是否發生遲發性顱腦損傷變量受到哪些影響因素的作用,以輔助醫生做出合理決策及診療方案,有效提高治愈率,降低患者的致殘率和死亡率。

2 關鍵技術

文中使用兩種分類模型對遲發性顱腦損傷的主要影響因素進行分析,屬于分類問題中因變量的影響因素的發現與確認。因變量(是否發生遲發性顱腦損傷)為二分類變量,候選變量不是單一變量,需要多因素建模,因此選用基于線性模型發展而來的邏輯回歸為主分析模型。邏輯回歸可以滿足對分類因變量進行多變量建模的需求,模型中也可以同時納入連續型自變量和分類的自變量。邏輯回歸無法做變量間的劣效性檢驗,在分類數據的多變量模型中確定變量間交互作用時工作十分繁瑣。因此以決策樹模型作為輔助模型,探索變量間的交互作用,使得實驗完整、實驗結果更加準確可信。

2.1 邏輯回歸模型

因變量Y為一個二值變量,即Y=0或Y=1;自變量為X1,X2,…,Xm;P表示在m個自變量的作用下Y發生的概率,由式(1)所示:

P=1/(1+e-z)

(1)

其中,P的取值范圍為(0,1)。

統計量Z為:

Z=β0+β1X1+…+βmXm

(2)

其中,β0為常數項,表示所有影響因素均為0時個體發生概率與不發生概率之比的自然對數的變化值;β1,β2,…,βm為回歸系數,表示某個因素Xi改變一個單位時個體發生概率與不發生概率之比的自然對數的變化值;Z的取值范圍為(-∞,+∞)。

邏輯回歸中最重要的兩步是參數估計和變量選擇。邏輯回歸采用最大似然估計的方法估計回歸系數β1,β2,…,βm,同時得到回歸系數的標準誤差Sb。所有樣本預測值與真實值一致的概率t(β)最大時的回歸系數即為所求。其中P(yi)為單個樣本預測值與真實值一致的概率:

(3)

所有樣本預測值與真實值一致的概率為:

t(β)=∏P(yi)

(4)

首先對式(4)兩邊取對數,然后對βi求偏導,最后利用牛頓迭代法求得回歸系數的值。

當影響因素過多時,需挑選出與事件發生確實有關系或是關系更密切的影響因素,建立更加穩固的回歸模型。篩選變量的方法有前進法、后退法、逐步法、似然比檢驗法和Wald檢驗法等,根據變量的統計量意義篩選或剔除變量。

邏輯回歸不但泛化能力強、精準度高,而且能精確控制用戶數量。但是邏輯回歸對數據要求較高,不能處理復雜的用戶特征及共線性的問題。醫療數據大多為完整的結構化數據,邏輯回歸在其上的應用有著獨特的優勢。

2.2 決策樹模型

決策樹從根節點開始,每一層節點依照某一屬性值向下分裂子節點,待分類的實例在每一節點處比較該實例各個屬性的信息增益,根據信息增益最大的屬性向相應的子節點擴展,這一過程在到達決策樹的葉子節點時結束。

劃分前信息量:設數據集D為類標記的元組訓練集,假設類標號屬性具有M個不同的值,定義m個不同的類Ci(i=1,2,…,m)。對D中的元組分類所需的期望信息量為:

Info(D)=-∑Pi*log2(Pi)

(5)

劃分后信息量:假設屬性A具有V個不同的離散屬性值,可使用屬性A把數據集D劃分為v個子集{D1,D2,…,Dv},設子集Dj中全部的記錄數在A上具有相同的值aj。基于按A劃分對D的元組分類所需要的期望信息量為:

InfoA(D)=-∑(Dj/D)*Info(Dj)

(6)

信息增益為原來的信息量(基于類比例)與新的信息量(對A劃分后)之間的差:

Gain(A)=Info(D)-InfoA(D)

(7)

決策樹模型可以生成易被理解的規則集,業務解釋性較好,具有較好的健壯性,能夠很好地處理非線性關系。但是當類別過多時誤判率會明顯增加,且泛化能力較差。

3 遲發性顱腦損傷信息的挖掘流程

3.1 原始變量

通過對收集到的遲發性顱腦損傷的醫療數據進行整理后,得到用于研究的變量主要有ID、性別、年齡、收縮壓、舒張壓、血小板、腦挫傷、手術、中線移位、腦腫脹、意識程度、止血藥、激素和脫水劑。

3.2 數據理解

(1)單變量描述/數據變換。

在變量描述時需要對連續型變量進行描述,其中年齡和血小板為連續變量,因此描述結果如表1所示。

表1 連續變量的描述

從表1可見,血小板極小值為51,極大值為423,范圍過大,可能有極端值或是偏態導致此問題的發生,需要對血小板進行進一步描述。

變量血小板為偏態分布,沒有發生遲發腦損傷的血小板水平明顯偏高,發生遲發腦損傷的血小板水平明顯偏低,可以看出血小板水平可能是遲發腦損傷的影響因素。由于血小板是偏態分布且是自變量,轉換后在臨床上解釋更為合理,因此需要將其轉換為變量:ln血小板(即血小板的自然對數值)。轉換后血小板分布較為對稱。

(2)單變量的分析及變量篩選。

這個過程主要用表一次性把分類和連續變量與因變量的聯系表示出來。對每個分類變量多做一個卡方檢驗,檢驗各變量與遲發性腦損傷是否有關聯,結果如表2所示。

表2 分類變量檢驗

對每個連續變量多做一個T檢驗,實驗結果如表3和表4所示。可見患者和非患者的收縮壓、舒張壓及血小板是有區別的,而患者和非患者的年齡是沒有區別的。

表3 變量分組均值

表4 列均值的比較

3.3 邏輯回歸建模

將遲發性腦損傷作為因變量,將所有經過預篩選后需要進一步分析的變量選為協變量。

模型中存在無效變量需要化簡模型,化簡模型,剔除P值最大的變量收縮壓和止血藥,同時要考慮變量間共線性的問題。對模型進行比較,比較似然比檢驗值,結果如表5所示。似然值表示模型對數據的解釋程度,最理想的情況是該值應無限接近于0,該值越大表示對數據的解釋性越差。剔除變量后該值的-2對數似然值為68.147,提出變量前該值的-2對數似然值為68.015。剔除變量后該值上升0.132,由此說明剔除變量為無關變量。

表5 似然值比較

接下來依次剔除腦腫脹、腦挫傷等變量,最終剩下舒張壓、激素及ln血小板三個變量。該模型似然值為72.987,較之前有明顯上升,說明該模型更優秀。

各變量的解釋說明:舒張壓每增加一個單位,相應的個體發生腦損傷的概率就降低29.8%,不打激素的患者發生腦損傷的概率是打激素的患者發生腦損傷的概率的21 772.131倍,ln血小板每增加一個單位發生腦損傷的概率就降低0.004。由此可見,激素是可控的重要因素,也是最核心的搶救措施。

該模型存在問題:實驗中被剔除的變量在主效應中無效但交互項有意義,需考慮被剔除的沒有統計學意義的變量間是否存在交互項需要保留。由于變量及其組合過多,構成的模型會發生混亂。對于連續型變量需對其做標準正態變換然后再添加至候選變量,還需手工構建代表相應交互作用的新變量。高階交互項需要劣效性檢驗,而邏輯回歸中并無劣效性檢驗。

3.4 決策樹模型

將總研究人群通過某些特征(自變量取值)分成數個相對同質的亞人群,使得每個亞人群內部的因變量取值高度一致,而不同亞人群間的因變量取值差異較大。樹模型結構可以解決交互項及影響因素的發現,可用于分類變量或連續變量的分類。樹模型會在所有候選變量進行篩選,按照重要性的大小依次挑選出自變量進入模型,在處理大量自變量的分析問題中性能較好。樹模型均為非參數方法,沒有太多的使用條件限制,應用范圍廣,適用于復雜的聯系分析。但不能對影響因素的作用大小進行精確的定量描述,對于因變量和自變量間是線性關聯、無交互作用時效果可能不是很理想。樣本量需要充足才能保證逐層細分后單元格內仍有充足的樣本數。

使用決策樹模型對樣本進行分類,可以看出血小板與舒張壓存在交互項。在邏輯回歸中添加血小板與舒張壓的交互項,用樹模型解決交互項的搜索和確認的問題,結果如表6所示。

表6 最終模型

對預防遲發性腦損傷作用最大的指標是激素,結果顯示使用激素會使遲發性腦損傷的發生風險降至原來的2萬分之一(即e-9.988);舒張壓和血小板對數值也有一定作用,但其作用明顯弱于激素;分析發現舒張壓和血小板對數值間存在協同的交互作用。

4 結束語

針對實際收集的腦外傷患者數據,應用數據挖掘中的模型聯合應用技術,以邏輯回歸為主模型,給出明確的回歸方程,清晰易懂的結果解釋,但是在進行交互項的查找和驗證方面效果欠缺。基于此,應用決策樹模型做擴展性的探索,發現變量間潛在的交互作用,用結果指導邏輯回歸的建模。最終確定舒張壓、激素、血小板及激素與血小板交互項為急救后遲發性顱腦損傷的主要影響因素。文中不足之處在于樣本量不充分,在輔助模型決策樹模型中葉子節點樣本不充足,后期會對大量樣本進行分析,不斷提高實驗結果的準確性。

[1] 沈 佳,楊渭林,裘申忠,等.重型顱腦損傷患者行開顱手術后發生遲發性顱內血腫的危險因素分析[J].中國全科醫學,2014,17(33):3997-3999.

[2] 張麗娟,李舟軍.分類方法的新發展:研究綜述[J].計算機科學,2006,33(10):11-15.

[3] 羅 可,林睦綱,郗東妹.數據挖掘中分類算法綜述[J].計算機工程,2005,31(1):3-5.

[4] ROBERT N,JOHN E,GARY M.Handbook of statistical analysis and data mining applications[M].[s.l.]:Academic Press,2009.

[5] 熊 平.數據挖掘算法與Clementine實踐[M].北京:清華大學出版社,2011:44-60.

[6] 徐 鵬,林 森.基于C4.5決策樹的流量分類方法[J].軟件學報,2009,20(10):2692-2704.

[7] CHAO C M,YU Y W,CHENG B W,et al.Construction the model on the breast cancer survival analysis use support vector machine,logistic regression and decision tree[J].Journal of Medical Systems,2014,38(10):106.

[8] KANTARDZIC M.數據挖掘:概念、模型、方法和算法[M].北京:清華大學出版社,2003.

[9] WANG Yaonan,YUAN Xiaofang.SVM approximate-based internal model control strategy[J].Acta Automatica Sinica,2008,34(2):172-179.

[10] 韓松來,張 輝,周華平.基于關聯度函數的決策樹分類算法[J].計算機應用,2005,25(11):2655-2657.

[11] 王光宏,蔣 平.數據挖掘綜述[J].同濟大學學報:自然科學版,2004,32(2):246-252.

[12] 馬秀紅,宋建社,董晟飛.數據挖掘中決策樹的探討[J].計算機工程與應用,2004,40(1):185.

[13] 孟曉東,袁道華,施惠豐.基于回歸模型的數據挖掘研究[J].計算機與現代化,2010(1):26-28.

[14] DELEN D,FULLER C,MCCANN C,et al.Analysis of healthcare coverage:a data mining approach[J].Expert Systems with Applications,2009,36(2):995-1003.

[15] SAMANEH S J,AMTRHASSAN M J,ZAHRA Z J J.A model for adoption of mobile banking services using classification and regression trees[J].Journal of US-China Public Administration,2010,7(11):66-73.

猜你喜歡
數據挖掘分類模型
一半模型
分類算一算
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
主站蜘蛛池模板: 中国国产高清免费AV片| 亚洲另类第一页| 欧美精品一二三区| 国产99视频精品免费视频7| 54pao国产成人免费视频| 国产白丝av| 国产人成在线视频| 91精品啪在线观看国产60岁| 拍国产真实乱人偷精品| 国产高清无码第一十页在线观看| 日韩美一区二区| 久久这里只精品国产99热8| 在线a视频免费观看| 国产亚洲一区二区三区在线| 国内精品视频| 国产jizz| 四虎影视8848永久精品| 亚洲成人www| 中文字幕 欧美日韩| 2020精品极品国产色在线观看| 欧美在线视频a| 国产精品美女自慰喷水| 亚洲欧美成人综合| 亚洲精品另类| 色婷婷色丁香| 国产成人啪视频一区二区三区| 99爱在线| 伊人天堂网| 亚洲综合久久一本伊一区| 久久国产精品无码hdav| 日日拍夜夜操| 少妇精品久久久一区二区三区| 国产精品开放后亚洲| 亚洲午夜18| 九色91在线视频| 999福利激情视频| 日韩A级毛片一区二区三区| a欧美在线| 日韩国产亚洲一区二区在线观看| 福利视频一区| 性色一区| 欧美区一区二区三| 在线观看网站国产| 色综合网址| 亚洲午夜久久久精品电影院| 国产一级毛片网站| 啪啪永久免费av| 东京热一区二区三区无码视频| 成人亚洲视频| 日本午夜影院| 欧类av怡春院| 黄色网址手机国内免费在线观看| 国产精品无码AV中文| 国产精品视频免费网站| 国产欧美日韩va| 暴力调教一区二区三区| 久精品色妇丰满人妻| 亚洲日韩精品无码专区| 天堂亚洲网| 欧美精品亚洲精品日韩专区va| 91亚洲精选| 亚洲精品视频免费观看| 日本草草视频在线观看| 国产福利微拍精品一区二区| 99视频在线免费看| 国产成熟女人性满足视频| 成人在线观看不卡| 国产爽爽视频| 99免费视频观看| 亚洲中文字幕精品| 九色在线观看视频| 日本一区二区三区精品国产| 中文字幕久久波多野结衣| 永久天堂网Av| 午夜精品久久久久久久无码软件| 一本一道波多野结衣一区二区| 国产精品女人呻吟在线观看| av色爱 天堂网| 欧美日韩亚洲国产| 在线色综合| 国产成人精品一区二区| 美女无遮挡拍拍拍免费视频|