陸婷娟,戚小平
解放軍第一一七醫院信息科,杭州 310004
*論著——移動健康*
基于Hadoop的醫學影像數據平臺應用研究
陸婷娟,戚小平
解放軍第一一七醫院信息科,杭州 310004
基于醫學影像數據的特點和目前醫學影像數據管理存在的問題,我們設計了醫學影像數據平臺的架構,并對關系數據和非關系數據的存儲和管理進行了設計。尤其是對影像數據的分布式存儲進行了研究,我們利用Hadoop技術、結合分布式文件系統(HDFS)和集中存儲(FCSAN)兩者的優點和醫學影像的特點設計了一套兩者相結合的醫學影像“在線一歸檔”二級存儲架構,解決了PACS系統的擴展性和可用性問題。最后,基于上述的研究內容,設計了實驗,驗證了本文所提方法的醫學影像數據平臺具有的諸多優勢。
Hadoop;醫療大數據;分布式存儲;海量影像數據
隨著醫院信息化的建設,醫院影像管理系統(PACS)的應用,醫療影像數據正在以驚人的速度增長[1]。對于醫療機構而言,要實現最高數據經濟效益,關鍵是能夠對包括結構性和非結構性數據在內的所有影像大數據進行集成[2],實現集中管理和更好的資源配置。在文中我重點研究基于Hadoop技術的醫學影像數據平臺架構,結合醫院信息化發展的現狀,設計了醫學影像數據平臺的架構,并對關系數據和非關系數據的存儲和管理進行了設計。
根據對醫院影像系統的分析,可以總結出其核心應用系統的數據特點[3]:
數據類型:文件(以靜態醫學影像圖像和動態醫學影像為主);
性能要求:同時訪問人數少,但傳輸數據量大,帶寬要求高;
數據量:很大且增長很快,從幾TB到幾百TB;
數據安全性:要求長期保存。
醫學影像數據地長期積累,必然給運行維護方面帶來各種問題,因此需要從長遠的角度考慮運行維護方面的問題,主要包括以下幾個方面[3]:
交互性:要與醫院現有的信息系統實現信息傳遞;
實用性:從醫院的實際情況出發,滿足醫院管理者,醫生,病患以及研究人員的需求;
可擴展性:根據實際使用情況,能夠增加相應的功能模塊;
穩定性和可恢復性:數據平臺要具有很高的穩定性,并且在容災數據備份,在出現問題時能夠及時地恢復數據;
保持數據的一致性:不同的系統之間采用相同的字段,為系統之間保持互聯提供保障;
成本合理性:影像數據的激增,造成醫院信息部門的存儲擴容壓力,如果一味地購買服務器只會不斷增加存儲成本。
根據以上所分析的醫學影像數據的特點和管理問題,我結合Hadoop技術,設計了醫學影像數據平臺,結合分布式文件系統(HDFS)和集中存儲(FCSAN)兩者的優點和醫學影像的特點設計了一套兩者相結合的醫學影像“在線一歸檔”二級存儲架構。
Hadoop 是Apache 開源組織的一個分布式計算框架,也是最知名的開源云計算系統,可以在大量廉價的硬件設備組成的集群上運行應用程序,并為應用程序提供一組穩定可靠的接口,可以構建一個具有高可靠性和良好擴展性的分布式系統。分布式存儲構架上,Hadoop基于每個從節點上的本地文件系統[4],構建一個邏輯上整體化的分布式文件系統,以此提供大規??蓴U展的分布式數據存儲功能。
3.1 整體架構
在系統架構方面,醫學影像數據服務平臺采用了混合式架構,即分布式架構和集中式架構相結合的影像數據共享交換模式。分布式架構是指醫院的各類影像資料保存在各系統的服務器中,影像中心只保存影像資料的索引信息。需要調閱影像資料時再到各系統中調閱。這種結構要實現全面的數據整合是非常困難的。集中式架構是指對醫院所有的醫學影像(圖像和結構化報告等)數據、索引信息都采用集中式存儲。但是,這種做法對網絡帶寬要求高,存儲空間要求大。
醫學影像平臺采用了“1:2:N”的系統設計方案,如圖1所示。

圖 1 醫學影像平臺系統設計
“1”是指一個中心,是指設立于醫院信息部門的醫學影像數據服務中心。為醫院的各部門和病患提供影像數據存儲、應用協同和運營管理等服務。
“2”是指兩個平臺,是指虛擬化硬件平臺和SaaS模式的軟件平臺。醫學影像協同應用涉及的用戶數量龐大,應用類型復雜,對服務器的處理能力有很高的要求。服務器虛擬化技術目前已比較成熟,通過虛擬化技術將不同的應用分散到不同的虛擬服務器上運行,服務器的CPU利用相率將得到大大的提高。同時,服務器虛擬化可以方便得實現動態遷移、HA(高可用)和負載均衡,大大提高系統的可用性。
“N”是指基于中心和平臺的多種服務,為各部門和人員提供管理、醫療、教學和科研等應用服務,包括基礎、系統決策、影像會診、影像轉診、影像教學、視頻示教和病案調閱等服務,可以根據用戶的需求,不斷增加服務,成熟一個推出一個。
a.基礎服務
基礎服務是其他各種服務的基礎。包括用戶授權、認證管理、流程管理、病人ID管理和圖像索引管理。
b.醫療服務
為醫生、病患提供與醫療業務相關的服務,包括遠程影像轉診、會診、影像資料的檢索與調閱,影像歸檔存貯、遠程備災等服務。
c.系統決策
主要為院領導和醫院衛生管理機構提供分析數據、醫院運行情況實時監控和管理等服務。
d.科研服務
為醫學研究人員提供與醫學影像相關的科研服務,包括圖像內容檢索、典型病例查詢、數據挖掘等服務。
e.教學服務
為醫院的醫學導師、學生、進修生等相關人員提供醫學影像資料,視頻示教等服務。
在應用模式方面,采用最常見的前置服務器方式接入云服務平臺,以減少對醫院現有架構的改動,實現系統平滑升級,快速部署和實施醫院影像的應用。降低了硬軟件系統安裝和維護的難度,降低對信息人員的技術要求。
3.2 核心影像數據的存儲與處理
單純的HDFS分布式文件系統不適合實時應用,但是具備低成本、易擴展、高性能、高可靠的特點[5]。而傳統的集中存儲((FCSAN)雖然成本、擴展性和傳輸帶寬受到限制,但是非常適合需要低時延快速讀寫大量小文件的實時應用。因此,結合兩者的優點和醫學影像的特點設計了一套HDFS和FCSAN相結合的醫學影像“在線一歸檔”二級存儲架構。整個架構分成兩個層次:底層是數據文件存儲層,上層是文件訪問組件層。系統架構如圖2所示。

圖2 系統架構圖
數據存儲層是醫學影像資料的實際存儲位置,它包含兩個部分:基于FCSAN的一級“在線庫”和基于HDFS的二級“歸檔庫”。
a.一級“在線庫”
醫學影像數據中心保留一年內的原始DICOM圖像文件,存儲在高性能的FC SAN中。超過一年的圖像則轉換成S-DICOM文件轉存到由HDFS集群構成的二級“歸檔庫”中[6]。同時需要長期保存的可調用的數據以及遠程災備的數據也轉換成S-DICOM文件,轉存到HDFS分布式存儲集群中。SAN(Storage Area Network,存儲局域網絡),主要目的是在計算機和存儲元素之間傳輸數據[7]。
b.二級“歸檔庫”
“歸檔庫”的影像資料按照“以病人為中心”的原則存儲,將病人生命周期內的全部醫學影像S-DICOM文件[8]按照Modality(成像設備)、檢查標識(Study UID)分類存儲在同一個PatientID目錄結構下,便于病人相關圖像的分類檢索和預讀緩存,提高圖像的訪問速度。
c.SDFO
數據存儲層之上是文件訪問組件層。其核心是SDFO(S-DICOM File Operator)組件[9],主要用于屏蔽底層DICOM圖像文件的操作細節,為上層的SaaS模式醫學影像應用系統和DICOM應用組件提供統一的圖像查詢、讀取和寫入接口。SDFO的核心主要由SDFO Locator, SDFO Reader, SDFO Writer,SDFOConverter, SDFO Client五個部分組成:
· SDFO Client:提供HDFS和本地文件系統訪問的客戶端接口;
· SDFO Locator:用于檢索DICOM文件的存儲位置;
· SDFO Reader:用于讀取DICOM文件;
· SDFO Writer:負責將從影像設備獲取的圖像寫入集中存儲((FCSAN);
· SDFO Converter:負責定時將FC SAN中的DICOM圖像轉換為S-DICOM格式,合并后存儲到HDFS中。
根據醫院數據特點,設計了一個9.8G的文件數據包,包括:數據文件0.31G;視頻文件2.70G;影像圖片6.82G。運行環境,如表1所示。

表1 實驗環境配置表
實驗步驟:
數據入庫:文件包上傳到平臺,并導入HDFS;
文件通過百兆以太網上傳到平臺并導入HDFS中共用時4分鐘38秒

圖 3 數據包導入HDFS時序
數據處理:對影像圖片數據進行轉換處理并再次存儲到HDFS,對關系數據進行插入;
影像圖片數據處理用時14秒,如圖4所示:

圖 4 影像圖片處理時間
關系數據插入HBASE用時26.5秒,如圖5所示:

圖5 關系數據導入時間
數據讀?。鹤x取“二級歸檔庫”的S-DICOM圖像以及將DICOM圖像合并轉換成S-DICOM圖像。
根據測試情況來看,客戶端同時讀取和轉換一個病人一次檢查的S-DICOM文件時間約為1-2s左右,這樣的延時對PACS系統的操作是可以忽略的。
測試結果表明MapReduce集群可以有效利用各存儲節點的計算能力,通過提高水平擴展的方式提高醫學影像海量數據處理的性能。實驗表明,與傳統的數據平臺技術相比,基于Hadoop技術的醫學影像數據平臺具有諸多優勢:分布式存儲,沒有單點服務器瓶頸,由系統中所有服務器一起提供數據服務;分布式數據,支持每秒萬次以上讀寫;分布式數據庫支持結構化和非結構化數據并存,保證高度數據一致;支持不停機擴容,同步增加存儲能力和計算能力。該系統經過測試使用,取得了比較滿意的效果,能夠滿足大型醫院影像中心的功能和性能要求。
通過模擬醫院數據特性,在實驗平臺環境下,驗證了平臺將數據從數據庫導入Hadoop大數據平臺的能力,驗證了HDFS對非結構化數據的存儲和管理能力、驗證了復雜結構醫療數據包基于Hadoop大數據[10]平臺從導入到檢索、分析、交換的性能。因此,將Hadoop技術應用到醫院信息化中可以幫助醫院解決諸多的現實問題,日后還可以進一步將Hadoop技術應用到發展區域醫療平臺中[11]。
(References)
[1] 李志強,康立軍,王文翠.面向醫療信息的大數據安全管理策略探究[J].計算機安全,2014,04(2):84-86.
[2] 黃楓.醫療健康大數據 - 萬億行業[C]. 大數據全球技術峰會,北京:IT168文庫,2013 .
[3] 柏志安,朱立峰,孫輔,等.醫院集團內醫學影像檢查協同服務模式和實現[J].中國數字醫學,2010,5(6):27-29.
[4] Wildani, Avani. The Promise Of Data Grouping In Large Scale Storage Systems[J].Computer Science,2013,36(8):72-75.
[5] 張迪,霍妍.云計算技術在醫院信息化中的應用[J].信息技術, 2011(5):171-173.
[6] 黃曉云.基于HDFS的云存儲服務系統研究[D].大連:大連海事大學管理科學與工程系,2010.
[7] 張洪娜.云計算平臺中數據存儲與文件管理的研究[D].廣州: 廣東工業大學計算機應用技術系,2011.
[8] Cashcow.麥肯錫:醫療行業的大數據革命[EB/ OL].2014-11. http://www.ctocio.com/reports/12037.html.
[9] 鄭西川.區域醫療醫學影像信息共享方案進展與面臨的挑戰[J].中國醫療器械信息,2009,15(10):57-61.
[10] 俞夢孫,曹征濤,楊軍,等.關于盡快創立中國健康醫學模式的思考與解讀[J].世界復合醫學,2015,1(2):99-102.
[11] 馬光志,張曉祥,周彬.大數據時代的詢證醫學[J].世界復合醫學,2015,1(2):120-124.
Medical image data with hadoop
LU Tingjuan, QI Xiaoping
Information Technology Office, No.117 Hospital of PLA, Hangzhou 310004
Based on the characteristics of medical image data and problems of management, We designed a novel framework for medical image data process, designed the architecture of medical imaging data platform include managements of relational data and non-relational data., and especially studied on the solution for distributed storage of image data. A medical image oriented ‘online -archive' two-level hierarchical architecture was developed based on Hadoop, HDFS and FCSAN technology. It addressed 2 issues:the scalability and the availability of PACS. Finally, based on the research above I built a pilot system to verify the advantages of the proposed method in this paper.
Hadoop; medical big data; distributed storage; massive image data
TP3
A
10.11966/j.issn.2095-994X.2015.01.03.06
2015-07-26;
2015-08-10
國家自然科學基金(81472861)
陸婷娟,工程師,研究方向為醫院信息化管理,電子信箱:ltj.1212@163.com
引用格式:陸婷娟,戚小平.基于Hadoop的醫學影像數據平臺應用研究[J].世界復合醫學,2015,1(3):223-226