999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于臨床信息系統的數據集市構建及挖掘應用*

2015-03-14 06:09:32楊曉妍王覓也師慶科
醫學信息學雜志 2015年12期
關鍵詞:數據挖掘特征信息

張 睿 楊曉妍 王覓也 李 楠 師慶科 黃 勇

(四川大學華西醫院 成都 610041)

?

?醫學信息研究?

基于臨床信息系統的數據集市構建及挖掘應用*

張 睿 楊曉妍 王覓也 李 楠 師慶科 黃 勇

(四川大學華西醫院 成都 610041)

基于臨床信息系統(Clinical Information System, CIS)構建臨床數據集市,介紹臨床數據的整合、數據集市結構設計及數據預處理,構建二維數據集并基于Weka軟件進行特征選擇,最后給出應用實例。

臨床數據集市; 數據挖掘; 特征選擇; 臨床信息系統

1 引言

數據集市(Data Mart)也稱數據市場。近年來,醫療市場競爭日趨激烈,醫院要在市場競爭中取得競爭的優勢,就必須考慮利用已經積累的診斷冶療等歷史數據,通過深層挖掘、分析,快速獲取有價值的信息,為醫院提供準確、方便的決策支持。臨床信息系統(Clinical Information System, CIS)的廣泛應用,使更多的日常醫療業務數據以信息化方式存儲下來。而依附于CIS構建的臨床數據集市(Clinical Data Mart)可持續地為數據分析及挖掘提供數據基礎[1-2]。但隨著臨床信息的進一步豐富,數據的實例數與維數(即特征變量或研究變量)急劇增加,由此帶來兩方面問題:一是“維數災難”,維數膨脹給高維數據中模式識別及知識發現帶來挑戰,許多經典的低維數據處理方法在處理高維數據時存在困難;二是“維數福音”,高維數據中蘊藏著豐富的信息,為問題解決帶來了新的可能性。因此,如何將高維數據在低維空間中表示,由此發現其可能的內在關聯是高維數據處理的一個關鍵問題。未來基因芯片數據的加入,特征數目將繼續膨脹,使大多數機器學習算法所需的訓練樣本數量也將急劇增加[3]。而醫院擁有的病例樣本始終有限,因此尋找好的特征集以代表原始數據集,不僅可以降低計算復雜度、提高預測精度,更有助于尋找精簡的、泛化能力更強的模型。本研究將基于CIS構建臨床數據集市(涉及的CIS及臨床數據集市均基于Caché數據庫構建),依據研究目的對其整合后的數據集(Data Set)進行特征選擇等數據挖掘分析(在醫學領域也稱為“變量篩選”)。

2 基于CIS的臨床數據集市建立

2.1 相關臨床數據的整合

臨床數據集市構建的難點在于不同操作類型信息系統中的信息整合[4]。本研究將整合下列信息:(1)病案首頁等基礎信息,包含年齡、性別、民族、入(出)院日期、科室、住院日等。為保護患者隱私,所有個人隱私信息均被排除。(2)臨床發現類術語(Clinical Finding)信息,其是SNOMED CT中最重要的頂層概念之一,包含癥狀、體征、既往患病等。依托既往研究成果,本研究從全院主訴及現病史中抽取癥狀、體征及疾病、病征等共61 861個臨床發現類術語信息,其中部分術語已與SNOMED CT成功映射。(3)實驗室檢驗信息,包含各類檢驗醫囑(如血細胞分析)及此醫囑下的各檢驗項名稱(如血紅蛋白)、結果、單位等,共1 312項。(4)病案相關信息整合,包括標準的入、出院診斷編碼(ICD-10)、手術編碼(ICD-9-CM)、腫瘤形態學編碼(ICD-O-3)等。(5)費用類相關信息,以3種粒度存儲于數據集市中:核算分類粒度如治療費、西藥費等,可進行費別分析;醫囑項粒度包含患者的醫囑明細清單;收費項粒度包含患者所有使用的收費項目明細。(6)其余電子病歷相關信息,如身高、體重以及病理及影像學中部分可結構化存儲的信息。

2.2 數據集市結構設計

數據集市以“住院就診表”為核心,其余事實表通過“病案號”字段與其進行關聯。研究共包含14個事實表及30余個維度表,見圖1。

圖1 數據集市事實表關系

2.3 數據預處理

數據集市原始數據來源于CIS中診療業務數據,由于存在噪聲、不完整及不一致等問題,原始數據不能直接使用。理論上所有的數據挖掘算法都是數據驅動,所以數據挖掘的結果極度依賴于數據集的質量[5]。本研究依據CIS中數據實際情況,進行了如下預處理工作:(1)錯誤數據處理。CIS中包含多種類型的數據異常或錯誤,如所填數值與量綱明顯不符,非法字符造成數據異常分隔、截取,非腫瘤病人出現腫瘤形態學編碼或腫瘤分期等。針對這類錯誤,需核查原始數據及取值來源,找出問題根源,或與相關業務人員或工程師溝通后調整。(2)計量與等級資料的統一。醫院不同時期的數據可能因各種原因(如檢驗方法或設備更替)造成存儲格式前后不一致,如某些檢驗類指標前期是定性數據(-、1+、2+、3+),其后因檢驗技術升級變為定量數據。這類數據需進行統一,向檢驗科求證以及查證相關專業文獻后進行轉換。(3)依據專業知識生產新的變量。如吸煙指數(包*年)及身高體重指數(BMI)。

3 二維數據集構建與應用

3.1 構建

3.1.1 需考慮的問題 臨床科研目的多種多樣,但較普遍的是臨床診斷、疾病預警以及病因及預后分析,如探索病例組與對照組間是否存在較好的疾病鑒別特征,或不同類型的預后究竟可能與哪些因素相關,其本質是兩組樣本間的分析。針對這類普遍的組間分析需求,二維數據集的構建需考慮如下幾點:(1)低粒度數據的匯聚。一次就診,同一藥物可能在住院期間多次使用,但應以患者就診粒度進行組織,將同一藥物多次用藥信息匯聚后存儲。(2)多時間點取值問題。考慮到患者在一次就診中可能多次進行相同的檢查項目,而二維表數據無法將所有同類項目完全納入。結合多數研究目的,選取患者入院后該項目的首次檢查結果以構成此數據項,以代表原始病情。(3)連續型變量是否進行離散化。如對數值型的實驗室檢查結果是否需離散化為“正常”、“過高”、“過低”等結果。從計算機角度,離散化后的數據在降維后可約減更多的屬性,但離散化后的數據會損失部分信息量,因此本研究僅將臨床上有明確等級劃分的指標進行離散化處理。(4)缺失值的處理。臨床業務數據中缺失值極其普遍,因為臨床往往依據患者病情選擇檢查項目,而未進行的檢查占絕大多數。但這些缺失數據其本身蘊含信息,而且部分缺失值較多的數據項(如EB病毒檢測)還可能是構建醫學分類器的關鍵指標,不可輕易忽略。Little等[6]研究也表明,醫學數據集的這類缺失是不可忽略、非隨機缺失的,不可進行數據補齊。

3.1.2 構建結果 最終本研究設計了如下二維科研數據集,見表1。此二維數據集擁有8萬余個特征變量,存儲于Caché數據庫的Global中,較難直接應用。而且,在分析具體臨床問題時,并非所有特征變量在此研究目的上均有體現,呈現出數據稀疏(Data Sparsity)問題。為此,研究設計如下方案對科研數據集進行動態優化,以減少特征變量的輸出:針對欲研究的樣本數據,遍歷數據集中每個特征變量的取值情況,如其只出現過n次以下的非空值,則移除此特征變量(n值可自行設定,有文獻報道n約為總實例數×2%為佳,本文為避免將潛在有意義的特征變量移除,將n值保守設置為3)。于是在輸出的數據中,那些無取值或取值極其稀少的特征變量被迅速移除,從而達到降低數據集維度的目的。

表1 二維科研數據集

3.2 基于Weka軟件的特征選擇

在進行數據挖掘之前,人們總希望選擇有代表性的特征,但卻并不知道哪些特征更富含信息量,而特征選擇可很好地解決此類問題。特征選擇[7]是模式識別及機器學習領域的重要研究方向,通過刪除無關及冗余的特征變量,為特定的應用在不失去數據原有價值的基礎上選擇盡可能小的特征子集。臨床上應用特征選擇算法處理高維數據集,可避免無關及冗余特征對預測性能的影響,從而提高機器學習效率,增強學習模型的泛化能力,更可通過此過程發現富含信息的、潛在的、與研究病種高度相關的特征。特征選擇主要分過濾式(Filter)及封裝式(Wrapper)方法[8]。與Wrapper方法不同,Filter方法不依賴后續具體的機器學習方法來進行特征評價,而是根據數據集內在性質評價每個特征對分類的預測能力,其通用性強、選擇速度快,適合較大規模的數據集。Filter方法進一步可分為單因素及多因素方法[9],前者忽略特征間的相互作用,獨立評估每個特征,按特征與類別的相關程度進行量化;后者則考慮多個特征間的相互作用,形成相應的特征子集。本研究主要以基于單因素的Filter方法進行特征選擇。為方便應用數據挖掘平臺Weka進行特征選擇,通過程序實現將Caché中數據直接轉換生成ARFF格式的文本文件。Weka集成多種特征選擇方法,其中,基于卡方統計量(X2Statistic)的特征選擇方法[10]依據研究分類對每個特征計算卡方值后進行評估,對分類資料進行卡方檢驗量計算,而對于連續型變量一般是先將其離散化后再進行計算。卡方統計中使用特征與類別間的卡方值作為量化標準,卡方值越高,該特征相應就越重要,越應該保留供后續分析使用。

3.3 應用案例

本研究以鼻咽癌與耳鼻喉科良性疾病對比為例,選擇不含醫囑信息的二維數據集進行研究。依據研究病種分類對數據集進行動態優化后,數據維度由原來的6萬余維減少到1 617維,數據降維效果明顯。將優化后的數據集導入Weka行特征選擇,應用基于卡方統計量的特征選擇后,不僅可以明確哪些特征與研究分類高度相關,還能給出量化結果。Weka軟件通過“特征權重算法+排序”方式,將相關特征按權重由高到低進行排列。經特征選擇后,患者年齡、淋巴細胞絕對值、血清氯離子、回吸性涕血、鼻咽部新生物等在兩組中分布差異有統計學意義,提示以上特征有助于兩組疾病的鑒別。其中大部分指標符合臨床預期及經驗,但部分特征如血清氯離子等尚不符合臨床預期。對這些不符合臨床預期的指標應進行數據核查,當數據核查無誤而臨床仍較難理解時應查閱相關文獻。如文獻報道較少但數據分析組間確有統計學差異時,那么其很可能導致新的見解產生,這也是對臨床數據集進行特征選擇的目的。

4 結語

特征選擇方法對機器學習準確率的影響比具體選擇哪種機器學習算法更重要,而且特征選擇算法可極大地提升醫學診斷分類的準確性[11-12]。基于CIS構建臨床數據集市,可使研究人員更便捷地獲取完整的科研數據;而系統只需依據研究目的簡單設置目標變量及相關納入、排除條件,即可靈活、定制化地從數據集市中獲取相應整合、降維后的數據,可通過Weka軟件篩選富含信息量的重要特征變量,從而幫助臨床醫生更有效地利用CIS中的信息資源。就方法學而言,這類組間分析適用于臨床診斷、疾病預警、病因及預后分析等多類型研究場景,具有較好的通用性。進一步而言,本研究基于臨床實際數據得到的“知識”不僅具有定性特征,而且具有重要性排序的量化特征,且適用性更好,是應用信息技術輔助臨床決策的有益嘗試。

1 石曉敬. 數據挖掘及其在醫學信息中的應用[J]. 醫學信息學雜志, 2013, 34(5):2-6.

2 孔琳. 數據挖掘在醫院信息系統中的應用[J]. 醫學信息學雜志, 2011, 32(10):37-39.

3 Jain A, Zongker D. Feature Selection: evaluation, application, and small sample performance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(2): 153-158.

4 Sheta O E, Eldeen A N. Building a Health Care Data Warehouse for Cancer Diseases [J]. International Journal of Database Management Systems, 2012, 4(5): 39-46.

5 Ting S L, Shum C C, Kwok S K, et al. Data Mining in Biomedicine: current applications and further directions for research [J]. Journal of Software Engineering, 2009, 2(3): 150-159.

6 Little R J A, Rubin D B. The Analysis of Social Science Data with Missing Values [J]. Sociological Methods & Research, 1989, 18(2/3): 292-326.

7 Guyon I, Elisseeff A. An Introduction to Variable and Feature Selection [J]. Journal of Machine Learning Research, 2003, (3): 1157-1182.

8 Sun Z, Bebis G, Miller R. Object Detection Using Feature Subset Selection [J]. Pattern Recognition, 2004, 37(11): 2165-2176.

9 Saeys Y, Inza I, Larraaga P. A Review of Feature Selection Techniques in Bioinformatics [J]. Bioinformatics, 2007, 23(19): 2507-2517.

10 Jin X, Xu A, Bie R, et al. Machine Learning Techniques and Chi-square Feature Selection for Cancer Classification Using SAGE Gene Expression Profiles [J]. Data Mining for Biomedical Applications, 2006, (3916):106-115.

11 Deisy C, Subbulakshmi B, Baskar S, et al. Efficient Dimensionality Reduction Approaches for Feature Selection [C]. Conference on Computational Intelligence and Multimedia Applications, 2007.

12 Karegowda A, Manjunath A, Jayaram M. Feature Subset Selection Problem Using Wrapper Approach in Supervised Learning [J]. International Journal of Computer Applications, 2010, 1(7): 13-17.

Construction of CIS-based Data Mart and Mining Applications

ZHANG Rui, YANG Xiao-yan, WANG Mi-ye, LI Nan, SHI Qing-ke, HUANG Yong,

West China Hospital of Sichuan University, Chengdu 610041, China

To construct the clinical data mart based on Clinical Information System(CIS), the paper presents the integration of clinical data, architecture design of data mart and data preprocessing, construction of two-dimensional dataset, feature selection based on the software Weka, and finally application examples are given.

Clinical data mart; Data mining; Feature selection; Clinical Information System(CIS)

2015-05-06

張睿,博士,發表論文7篇;通訊作者:黃勇。

863國家科技計劃項目“數字化醫療區域協同應用示范”(項目編號:2012AA02A615)。

R-056

A 〔DOI〕10.3969/j.issn.1673-6036.2015.12.011

猜你喜歡
數據挖掘特征信息
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 91成人精品视频| 欧美在线视频不卡| 中国一级毛片免费观看| 香蕉在线视频网站| 99这里只有精品6| 国产后式a一视频| 国产视频入口| 91久久夜色精品国产网站| 特级精品毛片免费观看| 久久国语对白| 天天操精品| 伊人欧美在线| 九九这里只有精品视频| 自偷自拍三级全三级视频| 亚洲精品麻豆| 手机在线国产精品| 88av在线| 国产成人综合亚洲欧洲色就色| 亚洲国产精品日韩欧美一区| 国模私拍一区二区| 国产精品永久久久久| 伊人AV天堂| 成人福利一区二区视频在线| AV不卡国产在线观看| 亚洲成A人V欧美综合天堂| 婷婷午夜天| 国产毛片一区| 97久久超碰极品视觉盛宴| www.91在线播放| 97久久超碰极品视觉盛宴| 欧洲在线免费视频| h视频在线播放| 亚洲国产精品国自产拍A| 无码在线激情片| 午夜精品一区二区蜜桃| 狠狠色香婷婷久久亚洲精品| 91精品视频在线播放| 国产精品无码AV中文| 真实国产乱子伦高清| 欧美天堂久久| 在线观看91精品国产剧情免费| 呦系列视频一区二区三区| 久久香蕉国产线看观看精品蕉| 极品尤物av美乳在线观看| 国产97视频在线| 2022国产无码在线| 天天色综网| 久久免费观看视频| 高清无码手机在线观看| 久久国产精品麻豆系列| 久热re国产手机在线观看| 午夜限制老子影院888| 91娇喘视频| 白浆视频在线观看| 欧美日韩v| 亚洲欧美日韩中文字幕一区二区三区 | 国产精品性| 国产主播在线观看| 新SSS无码手机在线观看| 成人国产精品一级毛片天堂| 日韩在线播放中文字幕| 国产精品无码作爱| 国产精品无码在线看| 国产精品无码一二三视频| 亚洲男人天堂久久| 成人亚洲视频| 国产福利观看| 99久久亚洲综合精品TS| 亚洲性视频网站| 黄色污网站在线观看| 亚洲色图欧美| 久久黄色一级片| 九九热精品视频在线| 亚洲国产欧洲精品路线久久| 日韩精品一区二区三区中文无码 | 伊人久久久久久久久久| 午夜福利在线观看入口| 五月婷婷亚洲综合| 日韩毛片在线视频| 国产原创第一页在线观看| 精品欧美日韩国产日漫一区不卡| 国产最爽的乱婬视频国语对白|