鄒北驥



摘要:互聯網和物聯網技術的快速發展給數據的上傳與下載帶來了前所未有的便利,使得互聯網上的數據量急劇增長,由此產生了針對大數據的存儲、計算、分析、處理等新問題,尤其是對大數據的挖掘。文章分析當前大數據產生的背景,闡述大數據的基本特征及其應用,結合醫療領域,論述醫療大數據分析的目的、意義和主要方法。
關鍵詞:大數據;物聯網;醫療;大數據挖掘
1 大數據早已存在,為何現在稱之為大數據時代
計算與數據是一對孿生姐妹,計算需要數據,數據通過計算產生新的價值。數據是客觀事物的定量表達,來自于客觀世界并早已存在。例如,半個世紀前,全球的人口數量就有數十億,與之相關的數據就是大數據;但是在那個時代,由于技術的局限性,大數據的采集、存儲和處理還難以實現。
互聯網時代之前,采集世界各地的數據并讓它們快速地進入計算系統幾乎是一件不可想象的事情。20世紀80年代興起的互聯網技術在近30年里發生了翻天覆地的變化,徹底地改變了人們的工作和生活方式。通過互聯網人們不僅可以下載到新聞、小說、論文等各類文字數據,而且可以輕而易舉地下載到音樂、圖像和視頻等多媒體數據,這使得互聯網上的數據流量急劇增長。據統計,現在互聯網上每分鐘流入流出的數據量達到1000 PB,即10億GB。
推動大數據產生的另一個重要因素是物聯網技術。近幾年發展起來的物聯網技術通過給每個物品貼上標簽并應用RFID等技術實現了各類物品信息的快速采集。如新研發的各種穿戴式設備可實時在線獲取人體運動過程中的各種數據,各類帶有USB接口或網絡接口的電子儀器可迅速地將儀器中的數據上傳到互聯網并進入計算系統,智能化生產過程中產生的各種數據、GPS導航系統和飛機汽車等現代交通工具在行進中產生的數據均可通過移動互聯網上傳。所有這一切表明,由于互聯網技術的發展和物聯網技術的推動,使得原本存在的大數據可快速地進入到計算系統,大數據時代到來了。
大數據的產生也與其他領域的技術發展密不可分。如生物遺傳學領域近幾年開展的一項巨大工程——人類基因組計劃,要對人類23對染色體基因中30億個堿基對進行測序,其數據量之巨大,以至于當前高性能計算機系統都難以在可接受的時間內完成。高能物理實驗一天產生的數據高達幾個TB,這些數據都在排隊等待處理,當前的計算系統已難以滿足它們的處理要求了。
人們關注大數據的最重要原因是因為大數據中隱藏著具有豐富價值的信息。互聯網上傳遞的商品訂購信息反映了消費者的意向、對商品質量的評價等,于是不斷地收集互聯網上的這些信息并進行挖掘分析將有助于企業分析其產品前景,從而不斷改進以獲得更多利潤。分布在全球各地的氣象設備采集的氣象數據通過互聯網匯集并通過挖掘分析后可用于預測天氣情況,來自世界各地的地震監控儀采集的大量地下數據通過互聯網收集形成大數據,采用數據挖掘方法分析并預測地震。大數據最早應用于電子商務領域,美國亞馬遜公司的電子商務平臺每天獲得大量的客戶訂單和消費數據,應用機器學習和數據挖掘方法分析這些數據,發現了商品銷售中的關聯性,如商品A和商品B經常被客戶同時購買,于是有意識地將這兩種商品(也許它們是毫不相干的兩類商品)擺在同一個貨架上,使得商品的銷售量大增。這就是典型的大數據分析的結果。因此大數據時代我們所要做的事情就是對隱藏于大數據中有價值的信息進行分析與挖掘,以便利用它們為人類服務。
2 大數據的特征與計算系統面臨的新問題
來自于各個領域的大數據盡管代表著不同的事物,隱藏著不同的價值信息,但都具備4個重要特征,稱為4V特征,即Volume(大容量)、Velocity(快速更新)、Variety(多類型)和Value(高價值)。所謂Volume是指數據量極大,雖然沒有一個絕對的容量標準,但一般都在數十個TB以上。Velocity是指數據產生和更新的速度很快,大數據的產生是一個快速的動態過程。Variety是指數據的種類多,除了文字數據外,還包括圖像、圖形、視頻以及聲音等多媒體數據。Value是指大數據中隱藏了具有高價值的信息,這些信息需要通過機器學習與數據挖掘方法才可能提取到。以醫院電子病歷數據為例,它是典型的大數據。首先,電子病歷的數據量大。以一個小規模城市的數家醫院形成的區域醫療系統為例,每大門診量和住院病人人數都在數萬人以上,每人每次的病歷、檢驗數據可達到幾個GB,因此每天的數據都在幾個TB甚至數十個TB以上。其次,數據的更新速度快。每天在線檢查化驗的人數快速增加,其數據也在快速更新。第三,電子病歷的數據類型包括了文本、圖像、圖形和視頻等多類型數據。最重要的是電子病歷數據中隱藏著極有價值的醫療和醫學信息。通過數據挖掘方法可以挖掘出這些信息以便醫生進一步分析患者的病因,形成更好的治療方案。
大數據給計算機科學與技術領域帶來了以下的新問題和挑戰。
(1)大數據的存儲。大數據一般來自互聯網,是動態的多類型數據。盡管當前的存儲器容量在不斷增加,但選擇一種什么樣的結構來存儲大數據以便能更好地存取是一個需要解決的問題。以電子病歷數據為例,多家醫院產生的電子病歷數據是集中存儲于某一個醫院還是分布式存儲于各家醫院,這里不僅有一個管理、隱私和醫院利益的問題,也有技術上實現的問題,有待進一步研究。近幾年發展起來的云存儲或許是一種很好的選擇。借助于第三方提供的云存儲服務,在保證數據安全和各個醫院權益的條件下,各家醫院可以將自己的電子病歷數據存儲到云服務器上,實現數據共享。
(2)計算系統的結構和計算模式。傳統的單機系統和分布式系統難以處理這些動態實時更新的大數據,于是以集群方式構建的多機系統再加上以互聯網相連的云計算平臺將成為大數據的有效計算平臺。分布在各地的數據需要由當地的集群式計算平臺對數據做預處理,然后通過互聯網將數據傳輸到數據處理中心,以更高性能的集群式系統進行處理并將結果反饋到各個分布式系統中。近幾年美國Google、IBM公司還有中國的曙光、聯想等大公司相繼推出了用于處理大數據的各種集群式計算機系統,它們可為大數據的處理提供更好的服務。endprint