999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談醫學數據常見質量問題及其清洗方法

2016-05-14 12:57:21武瑞仙周紅
科技資訊 2016年6期
關鍵詞:數據質量

武瑞仙 周紅

【摘要】隨著社會經濟的發展和大數據時代的到來,各行業的數據量越來越大,醫療衛生領域尤為明顯。數據數量的增長同時,數據質量的控制也給廣大研究人員帶來一定的困擾。本文在充分文獻分析的基礎上,探討了常見的數據質量問題及其清洗方法,總結了數據清洗六個步驟,旨在為衛生研究人員提供參考。

【關鍵詞】醫學數據;數據質量;數據清洗

中圖分類號: R197.3 文獻標識碼:A 文章編號:1672-3791(2016)02(c)-0000-00

一、醫學研究數據

醫學研究數據指的是在醫學研究中觀測個體的某種特征或屬性的觀測值。更準確地講,是醫學研究中所有觀測個體的觀測值的集合。醫學研究數據作為醫學研究的核心對象,和整個研究的目的、設計和收集整理都密切相關,是醫學研究最重要的組成部分之一,醫學研究數據的質量也在很大程度上決定了醫學研究的質量。在實際研究中,搜集到的數據質量往往和預期目標存在較大差距,這些問題來源于醫學數據的整個產生過程。

二、常見質量問題

醫學測量過程包含三個核心要素:測量對象、測量規則和測量值。醫學研究數據質量問題多來源于兩個方面:一是測量錯誤,產生的原因一般是醫學測量過程中測量規則不當或是測量人員失誤。測量規則不當導致的誤差的大小和方向往往恒定不變或遵循著一定的規律變化,即通常屬于系統誤差。

二是輸入錯誤,是由數據錄入人員疏忽而造成的。在錄入流程不健全的情況下,尤其容易產生輸入錯誤。輸入錯誤導致的常見醫學數據質量問題有:

(1) 不完整數據:一些應該有的信息缺失,如機構名稱、區域信息缺失等。

(2) 錯誤數據:即錄入數據與原始測量數據存在不一致。

(3) 重復數據:即“相似重復記錄”,指同一個研究對象在原始數據集中用多條不完全相同的記錄來表示,由于它們在格式、拼寫上的差異,導致數據庫管理系統不能正確識別。

可以看出,醫學數據質量問題來源于整個醫學研究過程,而隨著醫學研究的規模日益擴大,研究設計和實施的復雜性逐漸提高,醫學數據的質量也往往難以保證。而對于醫學數據中一些常見的質量問題,可以通過醫學數據清理對重復數據進行探測和判定;對缺失數據進行填補;采用分箱、聚類、回歸等多種手段對異常記錄處理,消除異常值,最終提高醫學數據質量,滿足研究分析需求,更好地達到研究目的。

三、數據清洗的基本內容

數據清洗的對象主要有重復的數據、不完整的數據和錯誤的數據,在衛生領域中,這三類“臟數據”的處理是數據清洗的重要組成部分:相似重復記錄清洗是保證數據可用性的重要內容,在衛生領域,經常出現同一個病人有多個檢查表或病歷信息,對于冗余信息剔除及可用信息的合并是重復記錄數據清洗的核心;缺失數據清洗則有助于醫務工作者了解數據收集的完整性,及時對必填信息和關鍵信息的收集過程加以控制,提高數據可用性;而異常數據的探測和清理則是判別和控制數據邏輯錯誤的重要手段。

四、數據清洗的基本流程

1.數據分析:數據分析是數據清洗的前提與基礎,通過詳盡的數據分析確定數據檢測算法、清洗策略等,還可以使用分析程序來獲得關于數據屬性的元數據,從而發現數據集中存在的質量問題。

2.定義數據清洗規則與工作流:根據上一步數據分析得到的結果來定義數據清洗規則和工作流等,其中包據確定數據源的個數,存在質量問題的醫學研究數據的多少程度,選擇合適的檢測算法、清洗策略、評估方法,需要執行的數據轉換和清洗步驟。

3.數據檢測:根據確定的檢測算法檢測數據庫中的重復記錄和異常記錄。

4.數據清洗:執行預先定義好的并且己經得到驗證的清洗策略、轉換規則和工作流等。數據清洗一般的類型轉換主要包括:

4.1對自由格式的屬性字段進行屬性分解,自由格式的屬性字段一般包含著很多的信息,而這些信息有時候需要進一步分解成多個屬性字段。

4.2處理輸入和拼寫錯誤,并盡可能地使其自動化,基于字典查詢的拼寫檢查對于發現拼寫錯誤有很大幫助。

4.3標準化:為了使實例匹配和合并變得更方便,應該把屬性值轉換成一致的和統一的格式。

5.數據清理流程評估:對定義的檢測算法、清洗轉換規則和工作流的正確性和效率進行驗證和評估??梢栽跀祿吹臄祿颖旧线M行清洗驗證,當不滿足清洗要求時,要對檢測算法、轉換規則、工作流或系統參數進行調整和改進。

6.干凈數據回流:當數據被清洗后,干凈的數據應該替換數據源中原來存在質量問題的醫學數據,這樣不僅可以提高數據庫的數據質量,還可避免將來再次抽取數據后進行重復的清洗工作。

五、結束語

本文簡要的就醫學研究中數據常見質量問題、數據清洗內容及基本流程等幾個方面介紹了醫學數據常見質量問題的處理方式,揭示了數據質量問題的本質和標準化的清理流程,可操作性強。醫學領域數據事關人民的生命健康安全,其統計分析結果往往作為制定醫療措施的重要依據,因此,確保數據的真實可信十分必要。

參考文獻

[1]周奕辛.數據清洗算法的研究與應用[D].青島大學碩士畢業論文.2005.

[2]李鎰沖,姜勇,張梅,等.SAS軟件在中國慢性病及其危險因素監測數據清理中的應用.現代預防醫學[J].3835-3842.

[3]葉鷗璟,李俊懷. 中文數據清洗研究綜述.計算機工程與應用[J].2012.48(14):121-129.

猜你喜歡
數據質量
醫院衛生統計數據質量的影響因素及處理對策
電子商務平臺數據質量控制系統及仿真模型分析
現代情報(2016年11期)2016-12-21 23:41:05
基于大數據背景下提高供電局數據質量對策分析
強化統計執法提高數據質量
淺析統計數據質量
中國市場(2016年40期)2016-11-28 04:58:19
金融統計數據質量管理的國際借鑒與中國實踐
時代金融(2016年27期)2016-11-25 19:02:25
淺談統計數據質量控制
提高政府統計數據質量,增強政府公信力
企業統計工作之我見
統計學在質量管理中的應用研究
商(2016年13期)2016-05-20 09:28:35
主站蜘蛛池模板: 国产人人射| 亚洲热线99精品视频| 综合色在线| 欧美激情第一区| 国产拍在线| 亚洲欧美不卡中文字幕| 一级毛片在线免费看| 人妻少妇乱子伦精品无码专区毛片| 亚洲无码熟妇人妻AV在线| 国产亚洲视频在线观看| 久久亚洲国产视频| 欧美亚洲一区二区三区导航| 国产精品吹潮在线观看中文| 亚洲色图综合在线| 91久久国产成人免费观看| 亚洲三级色| 国产欧美日韩18| 国产精品真实对白精彩久久| 欧美一级视频免费| 视频国产精品丝袜第一页| JIZZ亚洲国产| 91精品国产自产91精品资源| 亚洲国产日韩欧美在线| 日韩成人在线网站| 国产白浆一区二区三区视频在线| 中文字幕 日韩 欧美| 亚洲午夜天堂| 亚洲综合天堂网| 欧美专区在线观看| 色噜噜狠狠色综合网图区| 久久窝窝国产精品午夜看片| 欧美翘臀一区二区三区| 国产女同自拍视频| 久久人与动人物A级毛片| 亚洲色图欧美一区| 亚洲天堂首页| 亚洲精品无码日韩国产不卡| 日韩无码精品人妻| 亚洲男人的天堂久久精品| 国产亚洲高清视频| 日韩精品中文字幕一区三区| 5388国产亚洲欧美在线观看| 午夜视频在线观看区二区| 亚洲精品制服丝袜二区| 国产成人久视频免费| 久久精品娱乐亚洲领先| 免费毛片视频| 一级做a爰片久久毛片毛片| 激情综合图区| 国产大片黄在线观看| 亚洲最猛黑人xxxx黑人猛交| 最新亚洲人成网站在线观看| 日本亚洲成高清一区二区三区| 一级毛片不卡片免费观看| 精品一区二区三区无码视频无码| 精品一区国产精品| 欧美成人综合视频| 99久久国产精品无码| 日韩 欧美 小说 综合网 另类| 亚洲国产精品成人久久综合影院| 中文字幕乱码中文乱码51精品| 丰满少妇αⅴ无码区| 国产亚洲欧美日韩在线观看一区二区| 无码免费的亚洲视频| 国产69精品久久久久妇女| 久久精品日日躁夜夜躁欧美| 久久久91人妻无码精品蜜桃HD| 国产精品极品美女自在线看免费一区二区 | 久99久热只有精品国产15| 亚洲精品自在线拍| 日韩不卡高清视频| 亚洲成在线观看 | 亚洲永久精品ww47国产| 日韩A级毛片一区二区三区| 综合久久五月天| 亚洲色欲色欲www在线观看| 亚洲综合片| 色香蕉网站| 亚洲乱码在线视频| 一区二区三区国产| 久久99久久无码毛片一区二区| 99热这里都是国产精品|