饒啟聰 許丹 蔣海洪

摘要:健康大數據智能采集與挖掘系統平臺即能滿足醫學院校實訓室建設需求,又能滿足未來的社會化需求,為學生提供一個創新創業平臺?文中從平臺功能需求出發,利用先進的大數據云計算技術,采用合理的層次理論將平臺分割成多層,本文主要介紹了該平臺架構層次。
關鍵詞:大數據;云計算;分析挖掘;創新創業;實訓
中圖分類號:TP391 文獻標識碼:A DOI:10.3969/j.issn.l003-6970.2017.08.040
引言
指導我國未來大數據發展方向的綱領性文件《國務院關于印發促進大數據發展行動綱要的通知》(國發〔2015〕50號)的發布,在全社會引起廣泛影響。文件重點體現了在全球范圍內,運用大數據推動經濟發展、完善社會治理、提升政府服務和監管能力正成為趨勢的核心思想。國務院辦公廳《關于促進和規范健康醫療大數據應用發展的指導意見》(國辦發〔2016〕47號)則將健康醫療大數據應用發展納入國家大數據戰略布局,并從夯實應用基礎、全面深化應用、規范和推動“互聯網+健康醫療”服務、加強保障體系建設等四個方面部署了14項重點任務和重大工程。
基于此,上海健康醫學院從2016年開始籌建健康大數據智能采集與挖掘系統平臺(以下簡稱平臺),以滿足健康數據采集、清洗、存儲、數據挖掘、數據展示的需要,并結合健康管理課程實驗的要求,滿足應用場景實驗實訓的目標,以讓學生在實訓室可以體驗健康管理的完整流程、操作方式等,并進行科學實驗,同時結合我校健康管理課程教學和科研需要,充分利用前沿的大數據、云計算技術,滿足各種教學、科研場景的技術支撐需求。長遠來看,平臺還可以實現社會化,與市場各種健康管理系統實現很好的對接,并可以把平臺系統功能應用走出圍墻,走向社會,結合“互聯網+”技術,把平臺的功能和作用發揮到更大的空間和領域,更多的應用場景,能給健康管理概率的普及及應用提供支撐,為學生的未來就業和創業提供創新創業平臺。
1 整體架構
平臺由基礎存儲、能力服務、創新應用四大層組成,分別實現平臺的數據采集、清洗、存儲、挖掘與展示以及功能擴展,如下圖1所示:
2 基礎設施
2.1 健康大數據基礎設施云計算平臺
云計算平臺基于互聯網的計算方式,通過這種方式,共享的軟硬件資源和信息按照需求提供給計算機和其他設備。像使用“水”、“電”、“煤氣”一樣,將資源集中起來,按需供給,從而降低成本,提高利用率。云計算一般被定義為在網絡環境下計算資源的交付和使用方式,用戶通過網絡按需、易擴展的方式獲得所需服務。它的目的是實現計算資源能夠像自來水和電一樣按需供應,從這個意義上,云計算也可以稱為“自來計算”。云計算以新的計算資源交付和使用方式作為出發點,將從根本上顛覆傳統信息技術。
云計算的核心思想是將大量用網絡連接的IT資源統一管理和調度,構成一個資源池向用戶按需服務。而實現將資源池化的核心技術,也就是虛擬化。
大家對云計算的特殊的需求和其本身的技術手段決定了云計算具有可自動部署、透明、安全,可面向服務、可混合交付,按需角度,彈性擴展等特點。健康大數據專有云建設,理由難過有限的硬件資源可提供至少100臺虛擬服務器,根據數據采集、清洗、存儲及挖掘分析、可視化展示以及擴展等需要提供動態分配和調用,初步形成“基礎設施即服務”的云服務模式。目前已將相關應用遷移到健康大數據云平臺,提升了設備資源利用率,增強了系統的穩定性和安全性,同時大大節約物理服務器和存儲服務器。
2.2 安全體系
大數據以淺顯易懂的概念、廣泛潛在的應用需求和可展望的巨大經濟效益,成為繼移動互聯網、云計算、物聯網之后信息技術領域的又一熱點。但是,隨之而來的數據安全和隱私保護問題給大數據發展帶來相應的挑。
平臺通過梳理健康領域大數據安全需求,分析健康大數據環境下的安全特性,建成了雙活數據中心,統一配置了鏈路負載均衡、數據庫安全審計和下一臺防火墻、安全認證網關等安全設備。
2.3 通訊基礎設施
通訊基礎設施包括骨干容量達百G的光纖有線網絡,以及覆蓋面廣的移動4G網絡,用于健康據的快速有效傳輸。
3 數據處理及存儲
數據的采集、清洗融合和存儲是數據處理及存儲層要實現的主要功能目標。
3.1 數據交換平臺
健康大數據共享交換平臺,可以打通校內以及校內與校外各健康數據來源系統之間的數據鏈路,打破行業組織間的數據壁壘,通過對數據的授權使用,從而實現數據之間的共享和交換,取代之前的紙張打印、光盤、U盤、硬盤拷貝等傳統的獲取數據的方式,可以顯著提升各系統間的信息化工作效率。健康大數據智能采集與挖掘系統平臺目前已建設完成的健康信息交換平臺和健康信息資源目錄體系,可以作為健康醫療大數據的一部分,融入到更大級別的健康醫療大數據共享交換能力建設中數據共享交換平臺可以按照項目實際建設需求,通過接口的適配,采集到各來源系統不同種類、不同格式的數據。采集后的數據保存在數據共享交換中心,通過集中的數據清洗整合,建成健康大數據基礎庫。通過一定的數據授權,各數據需求方可通過數據共享交換平臺訪問健康大數據基礎庫內容。同時,各系統之間,也可以獨立地對自身數據進行授權,實現系統之間的數據共享傳輸。
3.2 數據清洗融合平臺
各個數據來源系統通過數據共享交換平臺共享出來的數據,是一些支離破碎的某一個支域的數據,互相沒有關聯起來,并且可能互相矛盾,還無法形成基礎數據庫和數據資產。數據清洗融合平臺承接數據共享交換平臺共享出來的數據,識別出這些數據所對應的基礎實體,將關于同一個實體的數據關聯起來,并對同一實體的數據屬性進行值比對和邏輯關系的比對,發現不同來源數據中互相印證(好數據)和互相矛盾(壞數據)的部分,通過數據管控流程將不一致的數據發給數據源單位修復,從而將同一個實體的不同來源互相重疊的可能不一致的數據屬性融合起來。建立基礎數據庫的模型,將融合后的數據裝入基礎數據庫。這個關聯、比對、清洗、融合、建模、裝人的過程是由數據清洗融合平臺完成的。其核心是數據的清洗和數據模型的重構,將數據由面向業務的應用數據模型重構為面向數據資產的基礎數據模型。
4 能力服務
本層主要實現數據的價值,通過數據挖掘分析體現數據基本價值,并通過能力中間件平臺,給其它方應用提供接口,更大程度釋放數據價值。
4.1 數據挖掘分析平臺
建設健康數據挖掘分析平臺,可以對平臺運行過程中產生、積累的各類數據(基礎數據、行業數據、主題數據等)通過各種挖掘算法、分析工具來發現數據背后的價值,提供更加豐富和精確的統計分析結果,更好地服務健康管理和實訓教學。
數據挖掘分析平臺可提供OLAP分析、分布式圖挖掘、多媒體智能分析、報表、搜索引擎等各種數據挖掘和分析工具,支持復雜多樣的應用需求和靈活動態的擴展能力,為各種上層應用提供完善的支撐。
4.2 能力中間件平臺
能力中間件平臺,可以將健康大數據平臺中的各種數據和能力,以服務的方式進行封裝,在確保安全的前提下,給其它各種應用開放接口,使這些應用能夠高效地獲取到健康大數據統一平臺的多種數據和能力,從而豐富和增強了各類應用的功能,實現了能力互補。通過能力中間件平臺的建設,可以將健康大數據統一平臺和各種應用打造成一個擴展性強、可持續生長的健康大數據生態圈系統。
能力中間件平臺包含業務協同和能力開放。業務協同既可實現各種跨系統、跨機構的復雜政務流程的無縫對接,又可實現各類政務應用系統的快速實施和部署;能力開放將數據交換、分析挖掘等各類能力進行封裝開放,為第三方應用提供基礎能力支撐。
5 創新應用
平臺的適用范圍不只局限于當前實訓室建設的需要,最終目標是可以實現社會化,結合市場各種健康管理的系統應用,可以很好的與之對接,并可以把系統功能應用走出圍墻,走向社區,走向社會,結合“互聯網+”技術,把平臺的功能和作用發揮到更大的空間和領域,更多的應用場景,能給健康管理概率的普及及應用提供支撐,為學生的未來就業和創業提供創新創業平臺。
6 結束語
通過基于大數據云計算技術搭建一個性能卓越、技術先進、安全可靠、易于擴展,并具備創新應用的健康大數據智能采集與挖掘系統平臺,即能滿足醫學院校實訓室建設需求,服務于參與健康管理教學過程的教師、學生及醫務工作者,又能滿足未來的社會化需求,結合市場各種健康管理的系統應用,并實現相互之間的完美對接,讓平臺系統功能應用走出圍墻,走向社區、邁向社會,結合“互聯網+”技術,把平臺功能發揮到更大的空間和領域,給醫學院校甚至其它行業的學生提供一個創新創業平臺。
平臺的架構實現借鑒了不少網上公開的方案和開源技術,由于時間有限、以及項目參與人員的學識局限性,不足之處在所難免,期待在實訓教學過程中不斷完善與提局。