汪陳應,李佳,鄔小軍
(中國人民解放軍后勤學院衛勤教研室,北京市 100858)
?
大數據時代生物醫學決策支持模型的創新
汪陳應,李佳,鄔小軍*
(中國人民解放軍后勤學院衛勤教研室,北京市 100858)
大數據已成為生物醫學行業研究的熱點。筆者以生物醫學中的大數據為切入點,提出并對比分析了大數據背景下三類生物醫學決策支持模型,最后闡述了生物醫學決策支持面臨的三大挑戰,即生物醫學數據隱私保護與大數據共享要求高的矛盾,生物醫學數據的特殊性與大數據處理能力不足的矛盾,醫療機構狹隘的數據保護與大數據平臺要求的矛盾。
大數據;生物醫學;決策支持
【DOI編碼】10.3969/j.issn.1672-4232.2015.04.006
大數據已經成為當前各界關注的焦點[1]。通常,大數據是指無法在可容忍的時間內,用現有信息技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合。近年來,隨著基因的一代測序、二代測序、各種醫學成像技術等的發展,大大加速了生物醫學領域數據的產生,給生物醫學領域的決策支持模型帶來了新的挑戰。
1.1第二代DNA測序技術產生了堿基序列大數據
第二代DNA測序技術也叫新一代測序、高通量測序,可以一次對幾十萬到幾百萬條DNA分子進行序列測定,每小時能夠完成數以億計的DNA堿基序列的測序,產生約10TB(1TB=1012B)的數據。而目前亟待解決的問題在于,測序儀產生的海量數據沒有與之相適應的有效的二代測序結果分析工具和數據管理系統,這給科研人員和二代測序技術的普及造成了障礙。
1.2醫學成像技術產生了醫學影像大數據
隨著CT成像、磁共振成像、超聲成像、核醫學成像等技術的發展,醫院診療工作越來越依賴于現代化的檢查檢驗結果,隨之而來的是醫學影像數據的海量增長。尤其是醫學影像存儲于傳輸系統(PACS)的發展與廣泛應用,各大醫院的各類醫學影像數據已經向PB(1PB=1015B)級邁進。另外,醫學影像數據的復雜性、異構性和保存周期長等特點,對當前的數據管理和分析系統都提出了巨大的挑戰。
1.3健康管理系統產生了電子健康檔案大數據
健康管理從服務對象的層次分為:面向社區的健康管理和面向個人的健康管理。與之相對應,電子健康檔案也區分為社區電子健康檔案和個人電子健康檔案。兩者的關系是:個人電子健康檔案是基礎,包含個人所有的健康信息;社區電子健康檔案是匯總,是與區域疾病防控、區域醫療服務等相關的健康信息。首先,電子健康檔案記錄的是人或者一個區域長時期的健康數據,具有持續時間長、大量增長的特點;其次,由于電子健康檔案采集的衛生機構和健康狀況檢測設備的差異,導致檔案數據格式復雜,很難集成融合;第三,隨著時間的推移和醫學的發展,導致常規檢測指標和參考標準發生變化,從而造成健康檔案數據模式也不斷更新完善。電子健康檔案的特點對數據存儲、共享、查詢和分析效率都提出了更高的要求。
1.4生物醫學事業快速發展產生了生物醫學文獻大數據
生物醫學事業發展的標志是生物醫學涉及的學科增多,分支也越來越多,生物醫學知識也隨之劇增。據統計,互聯網中的信息資源超過30%是生物醫學信息;全球生物醫學類刊物近3萬種,每年發表論文200多萬篇,并以7%的速度遞增。另外,生物醫學信息是醫學界知識更新的主要來源和重要工具。這就對生物醫學信息存儲和檢索效率提出了較高的要求。
在總結現有理論和方法的基礎上,充分考慮大數據環境所帶來的管理方法創新,提出生物醫學領域三類研究方法的決策支持模型,如圖1。
傳統的衛生統計方法是將數理統計的原理和方法應用到衛生領域,通過設計、收集、整理和分析,獲得可靠結果的過程;數據挖掘方法是對大量觀察到的數據進行分析,以便從中發現事先未知的聯系和規律的過程;大數據研究方法旨在從海量復雜數據中抽取知識和觀點。
衛生統計決策支持模型與其他兩類模型的顯著差異:一是數據尺度的差異。衛生統計是依據決策的精度決定樣本含量,通常是幾十到幾百個體;而數據挖掘經常會面對MB至GB級的數據庫,大數據方法處理的數據量更大,會達到TB至PB級。二是數據獲取的差異。衛生統計處理的數據往往是針對特定的問題而采集的數據,在采集數據之前一般有嚴謹的設計,然后分析數據解決特定的問題,屬于本位分析;而數據挖掘和大數據所使用的數據原本就存在的,可能是為了其他目的而采集的,是屬于數據分析的次級過程。三是數據形態的差異。衛生統計處理的數據是完全結構化的數據,而數據挖掘可以處理結構化和半結構化數據,基于HL7標準的醫療文書數據挖掘就是半結構化數據;大數據方法處理的數據更是多態而且更新迅速,有結構化的表,半結構化的網頁,非結構化的文字、圖片、音視頻等。四是數據分析的理論、方法及工具不盡相同。衛生統計基于的理論和方法是假設檢驗、關聯性分析、回歸分析等統計學方法,數據處理工具是成熟的也較為簡單的電子表格、SAS、SPSS等工具;數據挖掘基于的理論和方法是聚類分析、分類分析、關聯規則分析等數據挖掘與知識發現理論和方法,數據處理工具是數據庫管理系統等大型數據處理軟件;而大數據處理的理論和方法是自然語言處理、離群點分析、知識推理等理論和方法,數據處理的技術是云存儲和云計算等新興技術[2]。

圖1 三類生物醫學決策支持模型對比
除了上述差異外,大數據決策支持模型與其他兩類模型還有一個顯著的差異,即大數據方法通常是數據驅動型決策,而其他兩類方法通常是目標驅動型決策。所謂目標驅動型決策是指決策者首先要明確決策支持的目標,即先明確“干什么”,然后研究“怎么干”,一般是通過數據采集加工與分析計算等步驟,對數據中的有效信息進行提取和分析,從而達到對態勢評估,趨勢預測等目的。所謂數據驅動型決策是側重于訓練機器的組織和學習能力,能夠響應數據的動態變化,發現海量數據中的“離群點”,并深入推演分析“離群點”形成的背景和原因,從而最終達到監測、預警并積極處理突發事件的目標。
3.1生物醫學數據隱私保護與大數據共享要求高矛盾突出
一方面,開源和高度數據共享是生物醫學大數據研究的基本要求。大數據研究課題是否能夠取得成功與患者參與程度有密切關系,然而隨著生物醫學數據的采集、加工和應用,數據泄露時有發生,進而帶來醫學數據隱私的泄露;另一方面,隨著患者對個人隱私保護意識增強,科研人員必須告知患者大數據研究可能給他們及其后代帶來的利益與風險,并盡可能找到保護患者隱私的辦法,以獲得患者的信任與參與。
3.2生物醫學數據的特殊性與大數據處理能力不足矛盾突出
除了大數據海量、異變、多態的基本特征外,生物醫學大數據還具有:一是時序性,數據會隨著時間推移而不斷演繹;二是異構性,由于研究對象復雜、試驗人員差異、儀器設備差異,造成生物醫學數據異構性非常大;三是要求高,對于作為判斷患者病情發生發展重要依據的生物醫學數據處理,準確性、保存周期、更新頻率都提出了很高的要求。生物醫學的這些特性,對大數據的收集、存儲、傳輸、分析等處理能力都提出了挑戰。
3.3醫療機構狹隘的數據保護與大數據平臺要求矛盾突出
一方面,在大數據時代下,尤其是數據驅動型的生物醫學決策,根本在于數據的擁有,可以說誰擁有大數據,誰就有制勝的砝碼,誰就能成為大贏家[3];而另一方面,由于利益及風險等原因,生物醫學科研部門及醫療機構對于各自擁有的生物醫學數據都持保護態度,不愿意向社會和同行提供數據服務,各機構所積累的海量數據基本還處于“孤島”狀態,這對于形成生物醫學大數據平臺,提高研究效率都造成了極大的障礙。
[1]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域:大數據的研究現狀及思考[J].中國科學院院刊,2012,27(6):647-657.
[2]楊帥,胡宗倩,伯曉晨,等.云計算在生物醫學中的應用[J].中國科學:生命科學,2013,43(7):569-578.
[3]甘麗新,涂偉.大數據時代電子商務的機遇與挑戰探討[J].科技廣場,2013,(3):137-140.
(編輯馬蘭)
2015-05-04
R197
B
1672-4232(2015)04-0020-03
鄔小軍(1967-),男,博士,副教授;研究方向:衛生勤務。