摘 要:隨著醫(yī)學健康檔案“電子化、信息化、數(shù)字化、智能化”的管理和醫(yī)學研究資料的不斷積累,醫(yī)學信息大數(shù)據(jù)時代悄然開啟。如何有效地利用這些海量信息為健康管理和健康決策提供支持,本文分析了大數(shù)據(jù)對統(tǒng)計學原理和方法提出的挑戰(zhàn),列出了在醫(yī)學統(tǒng)計學課程教學中應該思考的一些問題。
關鍵詞:大數(shù)據(jù);醫(yī)學統(tǒng)計學;教學
Suggestions on Medicostatistics Teaching in the Age of Biomedical Big Data
Li Shenghui "Xu Zhiwei "Zheng Zhijie
(School of Public Health affiliated with Shanghai Jiaotong University,Shanghai 200027,China)
Abstract:With the development of electronization, informatization, digitalization, and intelligentization in residents’ health records management system, along with the increasing accumulation of biomedical research data, a large amount of biomedical data (Big data) has been and will be generated. Consequently, there is an increasing need to better understand and mine the data to further knowledge on health management stratege and health policy making. This article discusses the challenges of big data on statistical theory and methods, furthermore, attempts to give some suggestions on how to adjust medicostatistics teaching strategy in the age of biomedical big data.
Key words:big data;medicostatistics;teaching
所謂大數(shù)據(jù)(Big Data),是指具有4V特征且用目前的管理、處理技術手段難以進行有效管理和分析的數(shù)據(jù)。4V的含義是數(shù)據(jù)量大(Volume Big),數(shù)據(jù)量級擴大至PB以及ZB級別;數(shù)據(jù)產(chǎn)生、輸入和處理快速化(Velocity Fast);數(shù)據(jù)結(jié)構和類型多樣化(Variable Type)及數(shù)據(jù)價值密度低(Value LowDensity)。大數(shù)據(jù)的目的是將數(shù)據(jù)轉(zhuǎn)化為知識,探索數(shù)據(jù)的產(chǎn)生機制和過程,進行預測和政策制定。隨著醫(yī)學健康檔案“電子化、信息化、數(shù)字化、智能化”的管理,隨著物聯(lián)網(wǎng)在醫(yī)學健康領域的應用,醫(yī)療、護理、康復、保健工作流程中產(chǎn)生的數(shù)據(jù)存儲量呈指數(shù)增長。如何有效地利用這些海量信息為健康管理、臨床治療、醫(yī)院決策及衛(wèi)生政策制定提供支持,是大數(shù)據(jù)時代醫(yī)學信息化帶來的挑戰(zhàn)。美國國家衛(wèi)生研究院(NIH)為此特設立生物醫(yī)學大數(shù)據(jù)研究中心及專項基金。在我國,科技部、國家自然科學基金委、國家社會科學基金委陸續(xù)醞釀和啟動了“大數(shù)據(jù)的處理與應用”系列重大研究項目。
統(tǒng)計是一門數(shù)據(jù)科學,醫(yī)學統(tǒng)計學是關于醫(yī)學健康數(shù)據(jù)的收集、整理、分析和解釋的方法論學科。“大數(shù)據(jù)”處理對統(tǒng)計學的發(fā)展提出了新的命題,如何將“醫(yī)學信息大數(shù)據(jù)”處理技術融入相關統(tǒng)計學課程教學以促進現(xiàn)代醫(yī)學信息分析技術的發(fā)展?本文做了相關的分析,并提出應該思考的一些問題。
一、大數(shù)據(jù)對統(tǒng)計學原理和方法提出的挑戰(zhàn)
1.統(tǒng)計數(shù)據(jù)產(chǎn)生由“問題導向”到“數(shù)據(jù)驅(qū)動”
目前,統(tǒng)計數(shù)據(jù)的產(chǎn)生主要是基于所要研究的問題而主動進行的“數(shù)據(jù)收集”,落腳點在于如何獲取數(shù)據(jù)。在大數(shù)據(jù)時代,海量數(shù)據(jù)隨處可得,由數(shù)據(jù)驅(qū)動而進行問題研究將非常普遍。那么,獲得數(shù)據(jù)的關鍵點不在于如何獲得,而在于如何識別與選擇。由“問題導向”產(chǎn)生的結(jié)構數(shù)據(jù)是經(jīng)過嚴格抽樣設計獲取的,具有系統(tǒng)誤差小、總體代表性好的優(yōu)勢,但是信息量有限,且數(shù)據(jù)獲取周期長。大數(shù)據(jù)流環(huán)境下,海量數(shù)據(jù)中有價值的數(shù)據(jù)可能并不多,即數(shù)據(jù)的價值密度低,且難以避免和判斷數(shù)據(jù)獲取的誤差和偏倚。在很多情況下,統(tǒng)計數(shù)據(jù)不需進行抽取,而是“數(shù)據(jù)樣本即總體”;同時,也要研究如何從源源不斷的數(shù)據(jù)中抽取足以滿足統(tǒng)計目的和精度的樣本,這需要研究新的序貫性和動態(tài)性的抽樣方法。
2.數(shù)據(jù)格式和結(jié)構復雜多樣化
目前統(tǒng)計數(shù)據(jù)都是結(jié)構化數(shù)據(jù),如疾病空間分布和時間序列數(shù)據(jù)等,可使用二維表格表示,可以方便地被常規(guī)統(tǒng)計軟件讀取和進行分析。在大數(shù)據(jù)背景下,除少量數(shù)據(jù)具有結(jié)構化特征外,更多的是半結(jié)構和非結(jié)構化數(shù)據(jù),如各種格式的文檔、圖片、網(wǎng)頁、圖像、音頻和視頻等。目前,這些半結(jié)構和非結(jié)構化的大數(shù)據(jù)僅能做到初步的實時業(yè)務應用。如在研究氣候變化與人類健康相關的命題時,需要處理龐大的氣象數(shù)據(jù),而80%以上的氣象數(shù)據(jù)均為非結(jié)構化的大數(shù)據(jù),如何將這些非結(jié)構化的大數(shù)據(jù)做到降維、分解和長時間序列儲存無疑是統(tǒng)計學面臨的新命題。
3.大數(shù)據(jù)的整合及跨庫分析方法亟待建立
傳統(tǒng)上,數(shù)據(jù)集的合并和拆分都是利用關系數(shù)據(jù)庫技術,如共同的編碼或關鍵字進行操作。在大數(shù)據(jù)環(huán)境,很多數(shù)據(jù)集不再有標識個體的關鍵字,關系數(shù)據(jù)庫鏈接方法不再適用,需要探討利用數(shù)據(jù)庫之間的重疊項目來結(jié)合不用的數(shù)據(jù)庫。此外,還可以改變分析思路,如直接利用局部數(shù)據(jù)進行推斷,然后整合這些數(shù)據(jù)集的統(tǒng)計結(jié)論。
4.大數(shù)據(jù)對于統(tǒng)計學核心理論的沖擊
一個新生事物的出現(xiàn)將必定導致傳統(tǒng)理論和技術的變革。大數(shù)據(jù)對傳統(tǒng)統(tǒng)計學原理和方法的沖擊是劃時代的。傳統(tǒng)的統(tǒng)計學方法和理論立足于應用抽樣技術在總體中抽取小樣本進行分析,通過樣本統(tǒng)計量推斷總體的參數(shù)和性質(zhì)。在大數(shù)據(jù)背景下,我們更關心的不是數(shù)據(jù)量的大小,而是數(shù)據(jù)所蘊含的信息量及信息的識別和選擇。因此,大數(shù)據(jù)的預處理如數(shù)據(jù)清洗、糾偏完全跳出了傳統(tǒng)小樣本研究的范疇。同時,大數(shù)據(jù)充滿了各種隨機的、非隨機的誤差和偏倚,很難滿足小樣本數(shù)據(jù)精度和分布的要求。在大數(shù)據(jù)時代,需要進一步拓展統(tǒng)計思維,豐富現(xiàn)有統(tǒng)計學的理論和方法,賦予統(tǒng)計學新的生命力。
二、在大數(shù)據(jù)時代對統(tǒng)計學教學的幾點思考
《“十二五”時期統(tǒng)計發(fā)展和改革規(guī)劃綱要》中明確提出,“建立現(xiàn)代統(tǒng)計體系就是建立以現(xiàn)代信息技術為支撐的統(tǒng)計系統(tǒng)”。根據(jù)這個綱要,計算機技術、互聯(lián)網(wǎng)系統(tǒng)、多媒體等現(xiàn)代信息技術在統(tǒng)計技術中將發(fā)揮更重要的作用。在醫(yī)學信息大數(shù)據(jù)時代背景下,醫(yī)學統(tǒng)計學教育是否能夠與時俱進,迎接大數(shù)據(jù)帶來的機遇與挑戰(zhàn)?為此,筆者談幾點思考:
1.補充和加強數(shù)學基礎和計算機應用課程
在大數(shù)據(jù)背景的沖擊下,統(tǒng)計學教育首先要面臨兩大沖擊。一是大數(shù)據(jù)背景下的統(tǒng)計模型將會跳出原有的傳統(tǒng)統(tǒng)計模型框架,需要更廣泛的學習一些數(shù)學概念,如拓撲、幾何和隨機場,這些數(shù)學知識將會在龐大數(shù)據(jù)分析的背景下扮演重要的角色。二是算法和計算機上的實現(xiàn)是傳統(tǒng)教育面對的更大挑戰(zhàn),大數(shù)據(jù)環(huán)境下的數(shù)據(jù)是海量的,同時又是結(jié)構化、半結(jié)構化、非結(jié)構化的混合數(shù)據(jù),處理這些技術需要先進的計算機技術平臺。在大數(shù)據(jù)和信息化的時代背景下,在目前醫(yī)學生的通識教育中,是否應該加強數(shù)學基礎及計算機應用等相關課程的教育?值得思考。
2.滲透大數(shù)據(jù)基本知識和統(tǒng)計思維
統(tǒng)計思維的培養(yǎng),是提高學生處理數(shù)據(jù)和運用數(shù)據(jù)分析實際問題能力的重要一環(huán)。在大數(shù)據(jù)時代,并非所有的醫(yī)學健康問題都通過大數(shù)據(jù)方式去處理,基于小樣本的分析仍然是最基本和最有效的實現(xiàn)方式。因此,傳統(tǒng)統(tǒng)計學基礎和原理仍然為醫(yī)學統(tǒng)計學教育的核心和重點。與此同時,結(jié)合大數(shù)據(jù)技術的特點,對統(tǒng)計學的基本知識進行拓展教育,有計劃地將大數(shù)據(jù)的統(tǒng)計分析思維滲透在教學工作中。將大數(shù)據(jù)的基礎知識,如數(shù)據(jù)來源、數(shù)據(jù)結(jié)構和格式、收集和篩選,在教學中進行適當補充。引導學生將已有的統(tǒng)計學基本原理和方法運用到大數(shù)據(jù)處理中。
3.擴充實驗教學內(nèi)容,夯實基本軟件操作
統(tǒng)計學是一門處理數(shù)據(jù)的方法學科,重在應用。因此,在系統(tǒng)統(tǒng)計原理教學的基礎上,更加側(cè)重實踐性和應用性的訓練。在目前的統(tǒng)計學教學中,學生普遍比較缺乏的不能將醫(yī)學實際問題正確的轉(zhuǎn)化為統(tǒng)計學問題,不能根據(jù)資料根據(jù)資料的設計類型、性質(zhì)和分析目的靈活選用合適的統(tǒng)計分析方法。通過綜合性的實際案例,將醫(yī)學科研中的實際問題納入教學,使學生虛擬的置身于科研一線,去感受和完成科學研究中的統(tǒng)計學應用。大數(shù)據(jù)時代,數(shù)據(jù)、資料的產(chǎn)生方式發(fā)生了很大變化,因此,需要增加部分大數(shù)據(jù)方面的數(shù)據(jù)、資料收集和整理方法的訓練內(nèi)容。大數(shù)據(jù)背景下,數(shù)據(jù)中除了一些結(jié)構性數(shù)據(jù)外,更多的是半結(jié)構和非結(jié)構化數(shù)據(jù),很難用傳統(tǒng)的二維數(shù)據(jù)表顯示方式予以直觀化。因此,除了目前常用的統(tǒng)計圖、統(tǒng)計表外,還應該逐步補充一些比較復雜的數(shù)據(jù)透視化技術方面的教學,如探索性可視化描述工具、Tableau、TIBCO和QlinkView以及敘事可視化工具等。
在大數(shù)據(jù)時代,在統(tǒng)計學的教與學中,不應要求死記有關概念、定理和計算公式,而應加強統(tǒng)計學基礎性原理與知識的教學,凸出統(tǒng)計學理論與方法的應用性,建立起大數(shù)據(jù)統(tǒng)計思維。學習統(tǒng)計學是為了應用和解決實際問題。對教師來說,教好醫(yī)學統(tǒng)計學的標志是教會學生運用統(tǒng)計思維思考問題和選擇合適的統(tǒng)計方法解決實際健康決策及健康管理問題。對學生來說,學好統(tǒng)計學的標志是建立統(tǒng)計思維,能夠以問題為導向,在統(tǒng)計思想的引導下,選擇合適或最優(yōu)的統(tǒng)計方法,或者通過創(chuàng)新統(tǒng)計方法,有效地解決實際問題。
參考文獻:
[1]Fan J,Han F,Liu H.Challenges of Big DataAnalysis[J].Natl Sci Rev,2014 Jun,1(2):293-314.
[2]Ohno-Machado L.NIH'sBig Data to Knowledge initiative and the advancement of biomedical informatics[J]. J Am Med Inform Assoc,2014 Mar-Apr,21(2):193.
[3]Margolis R,Derr L,Dunn M,Huerta M,Larkin J,Sheehan J,Guyer M,Green ED.The National Institutes of Health's Big Data to Knowledge(BD2K)initiative:capitalizing on biomedical big data[J].J Am Med Inform Assoc,2014 Nov,21(6):957-8.
[4]Zhang Z.Big data and clinical research:focusing on the area of critical care medicine in mainland China[J].Quant Imaging Med Surg,2014 Oct,4(5):426-9.
[5]耿直.大數(shù)據(jù)時代統(tǒng)計學面臨的機遇與挑戰(zhàn)[J].統(tǒng)計研究,2014,31(1):1-9.
[6]Kaplan RM,Chambers DA,Glasgow RE.Big data and large sample size:a cautionary note on the potential for bias [J]. Clin Transl Sci.2014 Aug,7(4):342-6.
[7]沈文海.氣象數(shù)據(jù)的“大數(shù)據(jù)應用”淺析——lt;大數(shù)據(jù)時代gt;思維變革的適用性探討[J].中國信息化,2014,6(235):20-31.
[8]張學敏.大數(shù)據(jù)時代的數(shù)據(jù)分析[J].探索與觀察,2014,8(16):5.
基金項目:上海市高校一流學科建設(公共衛(wèi)生與預防醫(yī)學);上海市公共衛(wèi)生優(yōu)秀學科帶頭人培養(yǎng)計劃(編號:GWDTR2012
22)
作者簡介:李生慧(1973- ),女,博士,副教授,碩士研究生導師;鄭志杰,男,教授,博士生導師。