◆王吉善 陳曉紅 馬謝民 李紹剛 馬 雯 宋景晨
責任編輯:劉蘭輝
“大數據”的概念來源于互聯網,其要求的數據分析已經遠非目前的統計技術能夠實現。有研究認為[1],在大數據時代到來之時,傳統的社會學、統計學從業者面對半道殺出來的計算機背景的互聯網數據挖掘者,就好比波蘭騎兵面對德國坦克一樣脆弱。
大數據時代的統計特點對傳統的抽樣分析提出挑戰,對抽樣分析結果的代表性及可靠性提出質疑。讓我們簡單剖析近期發表在《健康報》的案例,以便引起大家對大數據時代統計分析新特點的思考。
《健康報》2014年8月13日頭版刊登了一篇題為《急性心梗治療效果10年無改善》的文章[2]。我國權威的專家指出:2001年~2011年,我國急性心梗住院患者人數增長了4倍,但住院病死率及主要并發癥發生率等并無明顯下降。這個結論值得商榷。
首先,是抽樣數據的量可能還不夠大。因為文章中沒有介紹樣本的總體規模。根據調查研究的需要,確定樣本量的總體規模,是整個抽樣的前提。總體規模涵蓋不全面,可導致抽樣誤差和結果的無效。本組案例隨機抽取的18 631病例來自162家醫院,分別抽取2001年、2006年、2011年 3年的數據,平均每家醫院3年僅抽取了115個案例。這里僅包括63家城市大醫院。一般情況下,大醫院每年收治的急性心梗病人均在數百例乃至幾千例。因此,我們認為抽取的樣本量太少,不符合統計學要求。因此,由于樣本量不足,可能存在抽樣誤差。
其次,把63家城市大醫院和99家縣級醫院的數據放在一起統計也顯得不夠合理。我們做過調查,我國二級醫院在技術與規模方面差距非常大。較大的二級醫院床位可達1 000余張,較小的二級醫院床位僅在一兩百張,且不具備開展救治急性心梗的條件。許多省市的醫政部門明確規定二級縣醫院不準開展急性心梗的再灌注治療與冠脈支架成型手術治療。因此,把這樣兩組樣本放在一起籠統的下結論,方法不當且顯得不夠合理。
2013年,受原衛生部醫管司的委托,衛生部醫院管理研究所與北京大學醫學部合作,調查了43家大型綜合醫院的相關數據。43家醫院3年急性心梗的全部病例為54 271例。急性心梗全樣本分析的結果是住院死亡率呈逐年下降趨勢,2010年 6.46%,2011年5.96%,2012 年 5.33%。2011 年與2012年的結果略低于美國2013年公布的急性心梗平均死亡率6.03%的水平。且我國 PCI的住院死亡率也是呈逐年下降的趨勢,許多大型綜合醫院的死亡率都低于美國1.75%的平均水平。
從上述結果可以看出,急性心梗死亡率是逐年下降的,救治的質量是緩慢提升的。這與救治質量的持續改進密切相關。近年來,在急性心梗救治方面出臺了一系列的制度和規范。比如建立CCU、急診的綠色通道,實施 PCI技術,制定急性心梗新的救治規范,開展急性心梗的單病種質量評價等,這些都對成功救治起到了積極作用。
急性心梗是威脅老百姓生命健康的常見、多發重大疾病,是縣級醫院每天都要面對的救治任務,縣醫院又是基層醫療網的龍頭。我國大型綜合醫院如北京協和醫院、中國醫學科學院阜外心血管醫院等都為基層醫院開展急性心梗的救治做了大量的幫扶工作。由于該病的突發性與急、危、重等特點,對于偏遠的、交通不便的縣醫院應從政策上、設備設施、人才培養與技術幫扶上給予更大的支持,使急性心梗的救治技術能更普遍的開展,使更多的病人得到有效治療。
大數據時代統計分析應轉變思路,統計方法應與時俱進。在計算機技術飛速發展的今天,我們如何使用已經儲備的大量資料進行全樣本分析,應該是大數據時代統計分析的新特征。
目前,我國醫院HIS系統建設在逐漸完善,各醫院的HIS系統儲存了大量的數據,就像一個大的數據倉庫。做好數據的挖掘與利用,是當前研究工作的重要任務。2012年3月29日,美國奧巴馬政府推出“大數據研究與開發計劃”,提出“通過收集、處理龐大而復雜的數據信息,從中獲得知識和洞見,提升能力,加快科學、工程領域的創新步伐,強化美國國土安全,轉變教育和學習模式”。
美國福克斯新聞網1月8日《中國墮胎率上升,年輕女性成為目標人群》一文報道:政府統計,2008年有920萬例墮胎手術,而2007年是760萬例。目前高達1 300萬。這一數字是整體數據,而不是抽樣數據。
隨著大數據在醫療與生命科學研究過程中的廣泛應用,其數量和種類也在增大。比如,一個 CT圖像含有大約150MB的數據,而一個基因組序列文件大小約為750MB,一個標準的病理圖則大得多,接近5 GB。
但是,這一切隨著醫院信息化的發展,今后都不會成為問題。在醫院信息化1.0時代,IT系統都是圍繞應用構建的,一個業務系統通常要配置一套獨立的硬件和軟件,因此形成了大量信息孤島。醫院信息化 1.0時代,為 PACS、RIS和HIS等業務系統提供數據支撐是醫院信息化工作的核心。
進入醫院信息化2.0時代,醫院信息化的建設重點逐漸轉移到電子病例的建立和普及上,而構建電子病例系統的前提是實現RIS、PACS及HIS等系統的無縫鏈接和信息共享,同時實現一體化的訪問和控制。
醫院信息化3.0的目標是構建完善的區域醫療體系,這在很大程度上還要依賴云計算技術。醫院信息化的發展與計算方法的進步,為科學改進信息統計提供良好的平臺。
2010年,國家公布的“十二五”規劃中指出要重點建設國家級、省級和地市級三級衛生信息平臺,建設電子檔案和電子病歷兩個基礎數據庫等,也就是推進醫療信息化的“3521”工程。
在大數據時代,海量數據和良好的機器計算能力,為人們提供了新的視野,利用數據間的相互聯系能夠解決日常很多需要。傳統的數據分析技術已很難滿足人們對數據蘊涵知識的需求。還應該看到,在一個數據和信息量“爆炸”的知識經濟時代即大數據時代,超大型數據庫已遍及社會與生命科學、醫學等諸多領域。因此有人提出,今后社會的競爭不是勞動生產率的競爭,而是知識生產率的競爭。數據是信息的基礎,是知識的源泉,能夠創造極大的價值。因此,未來基于知識的競爭將集中表現于數據競爭,而未來的數據競爭又將是大數據的競爭,大數據的收集、整理、分析和發布能力將成為關鍵之所在。
大數據分析的經濟價值,已經開始撼動社會的方方面面。同時,大數據時代也向包括統計在內的傳統領域提出了挑戰,醫院管理者、臨床專家需要做好充足的準備,以迎接大數據時代所帶來的變化與挑戰。
[1]耿 直.大數據時代統計學面臨的機遇與挑戰[J].統計研究,2014,31(1):5-9.
[2]譚 嘉,王 丹.急性心梗治療效果10年無改善[N].健康報,2014-08-13(1).
[3]姜奇平.大教據時代到來[J].互聯網周刊,20l2(11):18-20.
[4]涂子沛.大數據:正在到來的數據革命[M].南寧:廣西師范大學出版社,2012.
[5]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[6]鄭京平,王全眾.官方統計應如何面對 Big Data的挑戰[J].統計研究,2012(12):3-7.