基于自定義的LIRe和HBase的海量醫學圖像檢索

2016-06-20 07:54:56呂曉琪任國印

電視技術 2016年5期

郝　娟，呂曉琪，趙　瑛，任國印，張　明

(內蒙古科技大學信息工程學院，內蒙古包頭　014010)

郝娟，呂曉琪，趙瑛，任國印，張明

(內蒙古科技大學信息工程學院，內蒙古包頭014010)

摘要:為了解決海量醫學圖像檢索效率低的問題，提出一種自定義的LIRe和HBase相結合的方案。首先，將醫學圖像上傳到HDFS；然后，通過自定義LIRe框架分別提取海量醫學圖像的形狀以及紋理特征并將特征向量及圖像的絕對路徑存儲到HBase中。最后，利用MapReduce模型以及圖像特征索引工具LIRe方便地對醫學圖像特征建立索引進行特征匹配實現檢索。實驗結果證明，自定義的LIRe提高了檢索準確性，相比將醫學圖像以及特征向量均存儲在HDFS中，也提高了檢索效率。

關鍵詞:LIRe;HDFS;MapReduce;HBase;醫學圖像檢索

近年來，醫學影像技術迅速發展，大量醫學影像數據隨之產生，這些數據為醫生臨床診斷以及治療方案的制定提供了客觀依據，在科研活動中也有十分重要的地位。然而，如何在與日俱增的醫學圖像數據中進行快速且準確的檢索，是醫學工作者們必須面臨和解決的一個重要問題。目前國內外關于基于內容的醫學圖像檢索技術(Content-based Medical Image Retrieval，CBMIR)[1]的研究基本都是在單機環境下進行，當今大規模醫學影像數據使得該串行模式的醫學圖像檢索技術已出現進程瓶頸，不能滿足客觀需求。

Hadoop[2]平臺的出現為解決這一問題提供了全新思路，隨后學者們也開始在Hadoop平臺下進行了醫學圖像檢索技術的相關研究。其中有基于Hadoop的海量醫學圖像檢索系統[3]，將醫學圖像以及圖像特征均存儲于分布式文件系統HDFS (Hadoop Distributed File System)[4]，然后采用MapReduce[5]模型進行匹配，縮短了檢索時間，提高圖像檢索速度。隨后，也有學者提出基于海量醫學影像數據處理過程中的優化方法[6]，文中分析了Hadoop處理海量小文件的不足，研究了醫學圖像DICOM文件格式。提出了對DICOM小文件合并方案，設計形成了一種SF-DICOM新文件格式，實驗驗證了該方法的有效性。然而，HDFS只能提供一種快速訪問特定數據條目的機制，不能隨著數量集的增長有很好的擴展，而HBase[7]的主要優勢就是快速隨機訪問。

為提高檢索效率，本文結合HDFS和HBase的最優功能，提出將DICOM圖像上傳到HDFS后，利用HBase存儲其特征向量以及圖像在HDFS中的存儲路徑從而保證快速檢索；另外，在特征提取以及建立索引實現檢索的過程中運用基于Lucene[8]的圖像特征索引工具LIRe(Lucene Image Retrieval)[9]并結合MaReduce并行模型，設計實現了結合自定義的LIRe和Hadoop的基于內容的海量醫學圖像檢索。實驗結果證明，有效提高了海量醫學圖像檢索的準確性與時效性。

1背景知識

1.1Hadoop技術

Hadoop是Apache軟件基金會下的一個用Java語言實現的開源軟件框架，并且作為一個能夠開發和運行處理大規模數據的軟件平臺，為大數據集處理的應用開發提供便捷。Hadoop開源框架中最核心的設計是分布式文件系統HDFS和并行式編程模型MapReduce。

1.1.1HDFS分布式文件系統

HDFS分布式文件系統具有高容錯性[10]，其體系結構由一個NameNode主節點和若干個DataNode子節點組成。其中NameNode主節點的主要作用有： 1)管理文件系統的命名空間(NameSpace)，維護整個文件系統的目錄樹及文件的索引目錄；2)記錄文件中各個塊的DataNode信息，記錄在每次系統重啟通過NameNode主節點獲取元數據信息，并通過與DataNode的交互實現訪問整個文件系統。DataNode子節點的作用有： 1)存儲并檢索數據塊，受客戶端或NameNode調度；2)定期向NameNode發送所存儲的文件塊(Block)信息。

1.1.2MapReduce并行編程模型

MapReduce[11]是Google公司于2004年提出的一種用于大規模數據處理的并行編程模型。它提供了一個簡單且具有強大功能的接口，通過這個接口，大量數據的計算任務可以自動地進行并發和分布執行。編寫MapReduce程序，其編寫過程要實現兩個函數：Map函數和Reduce函數。其中Map函數中面對的是互不相關的數據并且要對每個數據進行分析，從中提取出key和value的值，然后分配給各個節點，實現并行模式的處理，Map經過Shuffle階段之后，在Reduce階段得出歸納好的數據。最后，通過Reduce程序匯總處理后的結果。在此基礎上可以做進一步的數據處理以得到理想結果。HDFS的體系結構如圖1所示。

圖1　HDFS體系結構

1.2HBase分布式數據庫

HBase是一個分布式的、面向列的開源數據庫，HBase能夠利用HDFS的分布式處理模式，并從Hadoop的MapReduce程序模型中獲益[12]，能融合key/value存儲模式所具有的實時查詢能力，以及通過MapReduce進行批處理的能力。Hbase在海量數據查詢中表現出強大優勢，且HBase更適合存儲非結構化數據。

1.3LIRe

Lucene平臺是一個全文檢索的開源的Java庫，LIRe (Lucene Image Retrieval)是在Lucene基礎上開發的。提供了用于基于內容的圖像檢索的API，可以實現對圖像的特征提取和建立索引[13]。LIRe一方面實現了對圖像的特征提取，另一方面克服了傳統基于數據庫線性查找不方便的問題。LIRe中封裝實現的圖像特征有：1)RGB和HSV空間的顏色直方圖；2)MPEG-7的顏色特征；3)Tamura紋理特征；4)顏色和邊緣的方向性描述符；5)模糊顏色和紋理直方圖；6)顏色關聯圖；7)尺度不變特征變換。LIRe在實現特征提取和建立索引的同時還具有高度的擴展性，用戶可以根據圖像類型自定義特征提取方法。

2結合LIRe和Hadoop實現醫學圖像檢索

Lucene封裝了索引和查詢的底層細節，用戶只需使用Lucene提供的API方便靈活地構建檢索系統。Hadoop平臺下的醫學圖像檢索技術打破了圖像數據存儲空間受單一服務器容量限制的瓶頸，醫生可以在具有更大存儲能力的Hadoop平臺下檢索所需要的影像數據。所以本文通過LIRe提取特征建立索引并利用HBase存儲醫學圖像特征向量，運用MapReduce快速完成檢索任務。

本文結合LIRe和Hadoop實現的醫學圖像檢索系統框架如圖2所示。

圖2　系統框架圖

2.1醫學圖像特征提取及存儲

本課題根據醫學圖像特征對LIRe進行了自定義封裝，選擇了基于區域的形狀特征——Hu不變矩[14]進行醫學圖像特征的提取，因為用不變矩表達圖像的形狀特征可以不受圖像的縮放、平移和旋轉的影響，對噪聲也不敏感。在紋理特征提取過程中采用灰度共生矩和tamura紋理特征融合的方法[15]，提取了灰度共生矩陣的5個特征向量(能量、墑、相關、慣性矩、局部平穩)以及tamura的兩個特征向量 (粗糙度、對比度)共同構成擁有7個特征向量以增強區分度。

Hadoop中HDFS默認處理的數據塊大小為64 Mbyte，而常見的DICOM醫學影像大小約為512 kbyte左右，為了處理海量圖像數據，每次都要合并成一個序列化文件，這樣會影響系統的性能。因此，本文利用分布式數據庫(HBase)對超大規模數據集進行隨機讀寫操作，將提取的醫學圖像的形狀和紋理特征向量以及圖像在HDFS的存儲路徑ID存儲在HBase中。

由于圖像數量較多時，圖像特征的提取時間會比較長，本文需要調用一個MapReduceJob來實現，其特征提取以及存儲過程如下：

1) 將醫學圖像上傳到分布式文件系統HDFS中；

2) 讀取HDFS中的1幅圖像作為Map函數的輸入；

3) 用自定義的LIRe框架，提取圖像的形狀特征以及紋理特征并建立索引；

4) 將圖像在HDFS中的存儲路徑ID以及特征向量存儲到分布式數據庫HBase中；

5) 將不符合檢索要求的醫學圖像作為Reduce函數的輸入，收集其ID后輸出到分布式文件系統HDFS中。

2.2醫學圖像檢索

由于數據量比較大，為了減少檢索圖像的時間并提高檢索效率，本文采用MapReduce模型來對圖像的檢索進行并行計算。在MapReduce的整個過程當中，其基本流程如下：

1) 用戶提交醫學圖像檢索請求，并提取待檢索圖像的紋理特征以及形狀特征將其存儲到分布式數據庫HBase中；

2) 系統響應檢索請求上傳至Hadoop平臺為Map分配任務，發送至各個節點并行工作；

3) 采用加權歐氏距離的方法對圖像特征進行相似度測量，為Map函數中的key/value鍵值對賦值為<相似度，圖像ID>，并輸出鍵值對；

4) 根據相似度的大小進行排序，按照鍵值對的形式輸入給Reduce；

5) Reduce函數收集所有鍵值對，進行排序，并把前12個鍵值對存儲到HBase中；

6) 最后將結果進行歸納將檢索到的相似圖像按照相似度大小反饋給用戶，得到最終結果。

其中Map函數以及Reduce函數的定義如圖3所示。

圖3　Map函數及Reduce函數設計

3實驗結果及分析

3.1實驗環境

本實驗操作系統為ubuntu 14.04 64 bit操作系統下，配置了Hadoop-0.20.0平臺，開發環境為eclipse，搭建了有5個節點組成的偽分布式系統。計算機處理器為Inter(R) Core(TM) i7-3770 CPU @ 3.40 GHz，內存為8 Gbyte，硬盤為1 Tbyte。

3.2實驗分析

本文實驗數據均來自內蒙古包頭市第一附屬醫院，通過自定義LIRe框架實現提取醫學圖像特征以及建立索引，設計HBase數據庫并實現圖像特征向量以及圖像ID的存儲，用MapReduce實現醫學圖像檢索。通過與未自定義LIRe與單機以及存儲HDFS進行對比，部分實驗運行結果如圖4～圖7所示。

圖4　未自定義LIRe的單機環境下的醫學圖像檢索結果(截圖)

圖5　自定義LIRe的單機環境下的醫學圖像檢索結果(截圖)

圖6　基于HDFS存儲與LIRe結合的醫學圖像檢索結果(截圖)

圖7　基于HBase存儲與LIRe結合的醫學圖像檢索結果(截圖)

經過多次檢索實驗，選取最能代表平均檢索時間的4次檢索結果進行顯示與討論，本組實驗選取的圖像集大小是1 Tbyte，由以上4幅圖可以看出以下幾點：1)由圖4與圖5、圖6、圖7相比，檢索結果不同，未自定義LIRe中在紋理特征中只選擇了Tamura紋理特征，包括粗糙度(Coarseness)，對比度(Contrast)和方向度(Directionality)3個向量。形狀特征選取了尺度不變特征變換(Scale-invariant feature transform , SIFT)。顯然本文自定義LIRe后的檢索結果更符合客觀需求。 2)圖4與圖5均是在單機環境下進行，檢索時間基本相同。3)圖5、圖6、圖7因為選用了自定義的LIRe，其檢索結果相同且符合客觀需求，但是很明顯檢索時間從21.849 s到10.363 s再到本文4.867 s，提高了檢索效率。

另外，本文還做了不同數量級的醫學圖像檢索實驗，主要分析對比了基于自定義的LIRe，在單機環境以及醫學圖像特征和圖像ID存儲位置不同的檢索效率對比如圖8所示，檢測結果與待檢測圖像之間的距離如表1所示。

圖8　檢索效率對比

圖像名稱NO7541NO3518NO2146NO1457距離00.2330.3280.388圖像名稱NO354NO11NO5428NO2145距離0.4050.4820.5440.563圖像名稱NO256NO8463NO5NO75距離0.5890.6900.7050.721

表1中，圖像庫中圖像與待檢測圖像之間的距離由小到大排列，距離越小表示相似度越高。從檢索結果可以看出，本試驗系統檢索準確性較高、實效性較強，能夠滿足臨床診斷的客觀需求。

4結束語

本文結合自定義的LIRe以及Hadoop平臺實現了海量醫學圖像檢索，利用Hadoop的核心框架分布式文件系統HDFS先將圖像上傳，并將圖像在HDFS中的路徑以及圖像特征向量存儲到HBase中，運用MapReduce編程模式進行并行式檢索，各個節點之間相互配合。設計實現了Hadoop平臺下更高效的基于內容的醫學圖像檢索系統。最終實驗結果證明，本系統均有效提高了海量醫學圖像檢索的準確性以及檢索效率，能滿足臨床需求。

參考文獻：

[1]MüLLER H, MICHOUX N, BANDON D, et al. A review of content-based image retrieval systems in medical applications—clinical benefits and future directions[J]. International journal of medical informatics, 2004, 73(1): 1-23.

[2]懷特. Hadoop權威指南[M]. 北京: 清華大學出版社, 2015.

[3]范敏，徐勝才．基Hadoop的海量醫學圖像檢索系統[J]．計算機應用，2013，33(12)：3345-3349.

[4]BORTHAKUR D. The hadoop distributed file system: Architecture and design[J]. Hadoop project website, 2007, (11):1 - 10.

[5]劉剛. Hadoop應用開發技術詳解[M].北京：機械工業出版社, 2014.

[6]王燕楠. 基于Hadoop的海量醫學影像數據處理過程中的優化方法研究 [D].北京：首都師范大學.2014.

[7]CARSTOIU D, CERNIAN A, OLTEANU A. Hadoop Hbase-0.20.2 performance evaluation[C]// Proc. 2010 4th International Conference on New Trends in Information Science and Service Science (NISS).[S.l.]：IEEE， 2010:84-87.

[8]PEIN R P, LU J, WOLFGANG R. An extensible query language for content based image retrieval based on Lucene[C]// Proc. the 8th IEEE International Conference on Computer and Information Technology. [S.l.]：IEEE, 2008: 179-184.

[9]LUX M, CHATZICHRISTOFIS S A. Lire: lucene image retrieval: an extensible java CBIR library[C]// Proc. the 16th ACM international conference on Multimedia. [S.l.]：ACM, 2008:1085-1088.

[10]LI P J, CHEN G J, GUO W M. A distributed storage architecture for regional medical image sharing and cooperation based on HDFS [J].Journal of southern medical university, 2011, 31(3): 495-498.

[11]LEE H, KIM M, HER J, et al. Implementation of MapReduce-based image conversion module in cloud computing environment[C]//2012 International Conference on Information Networking (ICOIN) . [S.l.]：IEEE, 2012: 234-238.

[12]楊曼, 何鵬, 齊懷琴，等. 基于Map/Reduce的海量視頻圖像檢索系統設計[J]. 電視技術, 2015, 39(4):33-36.

[13]DONG F L, WEI C, GEN P C. Research and application of the image search algorithm based on LIRE[C]// 2012 2nd International Conference on Computer Science and Network Technology (ICCSNT).[S.l.]：IEEE,2012: 811-815.

[14]呂曉琪, 王新剛, 賈東征. 基于醫學圖像多特征的蟻群聚類檢索技術研究[J]. 計算機工程與設計, 2014, 35(6): 2078-2083.

[15]WANG Z Z, YONG J. Texture analysis and classification with linear regression model based on wavelet transform.[J]. IEEE transactions on image processing, 2008, 17(8):1421-1430.

郝娟(1989— )，女，碩士，主要研究方向為醫學圖像處理和云計算；

呂曉琪(1963— )，教授，博導，本文通信作者，主要研究方向為醫學圖像處理和云計算；

趙瑛，女，博士后，講師，碩士生導師，主要研究方向視覺功能修復、智能信息處理、圖像處理與應用；

任國印(1985— )，碩士，講師，主要研究方向為醫學圖像處理；

張明(1985— )，碩士，講師，主要研究方向為醫學圖像處理。

責任編輯：閆雯雯

Massive medical image retrieval based on customized LIRe and HBase

HAO Juan，Lü Xiaoqi，ZHAO Ying，REN Guoyin，ZHANG Ming

(SchoolofInformationEngineering，InnerMongoliaUniversityofScienceandTechnology，InnerMongoliaBaotou014010，China)

Abstract:In order to solve the problem of the low retrieval efficiency of massive medical images, a method combining customized LIRe and HBase is proposed. Firstly, upload the medical images to the Hadoop distributed file system. Afterwards, extract images' shape and texture features by customized LIRe framework then store the feature vectors and the absolute path of image in HBase. Finally, use MapReduce parallel programming model and image feature index tools LIRe to bulid index and implement retrieval. The experimental results show that customized LIRe improve the retrieval accuracy and the massive medical image retrieval efficiency is higher than that medical images and feature vectors stored in HDFS.

Key words:LIRe; HDFS; MapReduce; HBase; medical image retrieval

中圖分類號：TP391

文獻標志碼：A

DOI：10.16280/j.videoe.2016.05.025

基金項目：國家自然科學基金項目(61179019;61261028);內蒙古自治區自然基金項目(2014MS0828);內蒙古科技大學創新基金項目(2014QDL045)

作者簡介：

收稿日期：2015-07-28

文獻引用格式：郝娟，呂曉琪，趙瑛，等. 基于自定義的LIRe和HBase的海量醫學圖像檢索[J].電視技術，2016，40(5)：116-120.

HAO J，Lü X Q，ZHAO Y，et al. Massive medical image retrieval based on customized LIRe and HBase [J].Video engineering，2016，40(5)：116-120.

電視技術2016年5期

電視技術的其它文章: 索貝HIVE亮相NAB2016，摘取IABM Game Changer大獎; 關于數字版權管理系統的測試與評估; 數字電視監測監管設備測試方法研究; 基于BBT的鄰域嵌入單幀圖像超分辨率算法; 基于數據流和精確定位的多線程行人探測系統; 基于圖像匹配的放射性區域定位方法