吳堅(jiān)




摘 要:隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,涉及到的圖像數(shù)據(jù)信息越來(lái)越大,范圍越來(lái)越廣,研究者對(duì)圖像檢索技術(shù)有了新想法。針對(duì)檢索效率問(wèn)題,提出了一種基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng)設(shè)計(jì),使用并行處理能力云技術(shù),將任務(wù)分解到不同的工作節(jié)點(diǎn)中,從而完成醫(yī)學(xué)圖像的檢索。通過(guò)仿真實(shí)驗(yàn)得出,使用云技術(shù)進(jìn)行醫(yī)學(xué)圖像檢索,可以極大地提高圖像檢索的效率,對(duì)于醫(yī)學(xué)圖像的發(fā)展具有重要幫助。
關(guān)鍵詞:醫(yī)學(xué)圖像;檢索;云技術(shù);索引機(jī)制
中圖分類號(hào):TP181;TP 391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1001-5922(2022)04-0138-04
Abstract: With the rapid development of network technology, the image data information involved is becoming larger and wider. Researchers have new ideas on image retrieval technology. Aiming at the problem of retrieval efficiency, a design of medical image retrieval system based on cloud technology is proposed. The parallel processing capability cloud technology is used to decompose the tasks into different work nodes, so as to complete the medical image retrieval. The simulation results show that using cloud technology for medical image retrieval can greatly improve the efficiency of image retrieval and is of great help to the development of medical images.
Key words:? medical image; retrieval; cloud technology; index mechanism
隨著信息技術(shù)的飛速發(fā)展,醫(yī)學(xué)領(lǐng)域的數(shù)字化影像技術(shù)也得到了很大的提升,醫(yī)學(xué)圖像的使用和管理對(duì)于醫(yī)學(xué)方面的研究十分重要。現(xiàn)有的圖像檢索技術(shù),主要通過(guò)關(guān)鍵字進(jìn)行檢索,存在一定的檢索缺陷,無(wú)法準(zhǔn)確的反映圖像的信息。隨著信息技術(shù)的發(fā)展,圖像檢索技術(shù)在醫(yī)學(xué)領(lǐng)域也得到了有效應(yīng)用,如醫(yī)學(xué)教學(xué)、輔助醫(yī)學(xué)斷診以及醫(yī)學(xué)資料管理等領(lǐng)域應(yīng)用到檢索技術(shù)。基于B/S的醫(yī)學(xué)圖像檢索,在實(shí)際的應(yīng)用中無(wú)法更好的滿足圖像實(shí)時(shí)要求[1]。因此,為了提高醫(yī)學(xué)圖像的檢索效率,提出一種基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng),采用不同的算法提取醫(yī)學(xué)示例,使用函數(shù)提取醫(yī)學(xué)圖像特征,并在圖像特征庫(kù)中進(jìn)行匹配,得到最優(yōu)的檢索結(jié)果。基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng)具有較強(qiáng)的并行處理能力,可以將復(fù)雜的任務(wù)進(jìn)行分解,通過(guò)分配子任務(wù)完成工作節(jié)點(diǎn),為醫(yī)學(xué)圖像檢索提供新的發(fā)展方向。
1 傳統(tǒng)圖像檢索類型
很早之前,醫(yī)學(xué)圖像檢索的研究就有,當(dāng)時(shí)的科技并不發(fā)達(dá),研究出根據(jù)文本信息圖像檢索技術(shù),利用文本信息描述圖像的特征。20世紀(jì)90年代,出現(xiàn)了新的檢索技術(shù),新的檢索技術(shù)是根據(jù)對(duì)圖像的內(nèi)容語(yǔ)義,比如顏色,紋理,布局等信息進(jìn)行檢索和分析的圖像檢索技術(shù)。因此我們也可以知道關(guān)于圖像信息的檢索技術(shù)經(jīng)歷了從圖像特征文本描述到圖像視覺(jué)特征再到圖像語(yǔ)義特征3個(gè)階段[2]。
1.1 根據(jù)文本的圖像檢索技術(shù)
根據(jù)文本的檢索方式是最早期圖像檢索的方式,就是通過(guò)在百度或其他的搜索引擎中把圖像的特征描述的關(guān)鍵字來(lái)輸入進(jìn)去,檢索出相關(guān)的圖像,這就是根據(jù)文本的圖像檢索。這個(gè)最簡(jiǎn)單的方式現(xiàn)在還在使用,但是隨著圖像數(shù)據(jù)的數(shù)量越來(lái)越多,缺點(diǎn)也暴露出來(lái)了,因以前的計(jì)算機(jī)技術(shù)和人工智能技術(shù)都不發(fā)達(dá),沒(méi)辦法自動(dòng)對(duì)圖像進(jìn)行標(biāo)注,需要人工標(biāo)注,這樣一來(lái),工作量就太大,需要的人手也超多,而且這種人工標(biāo)注這種方式帶有人的主觀性,有偏差,每個(gè)人的眼光和理解都不同,看到相同的圖像會(huì)有不一樣的見(jiàn)解,因此用標(biāo)注的關(guān)鍵字來(lái)檢索就容易產(chǎn)生錯(cuò)誤匹配,還有很多顏色和特征是人無(wú)法用文本客觀描述出來(lái)的,所以人們就開(kāi)始進(jìn)一步研究更方便的圖像檢索技術(shù)[3]。
1.2 根據(jù)內(nèi)容的圖像檢索技術(shù)
20世紀(jì)90年代時(shí),學(xué)者就想到了既然可以用根據(jù)文本來(lái)進(jìn)行圖像檢索技術(shù),那為什么不能直接用圖像內(nèi)容來(lái)進(jìn)行圖像的檢索工作,經(jīng)過(guò)深入研究探討,最終研究出根據(jù)內(nèi)容進(jìn)行圖像檢索的技術(shù)。
根據(jù)內(nèi)容的圖像檢索技術(shù)和根據(jù)文本的圖像檢索技術(shù)不同,文本的檢索是一種準(zhǔn)確的檢索方式,而根據(jù)內(nèi)容的檢索是近似匹配的檢索,這種方式比文本好,有效的避免了人工標(biāo)注的主觀因素,也避免了大量人工的工作,檢索特征都是在線上自動(dòng)進(jìn)行的。
根據(jù)圖像的內(nèi)容直接提取出圖像內(nèi)容的眼睛能看到特征,根據(jù)這些提取出來(lái)的特征進(jìn)行檢索,在圖像數(shù)據(jù)庫(kù)中搜索到和之相對(duì)應(yīng)的圖像。提出的特征也有不同,分為根據(jù)顏色特征的檢索,根據(jù)紋理特征的檢索、根據(jù)形狀的檢索和根據(jù)空間關(guān)系的檢索等。根據(jù)這些視覺(jué)特征獲得所依據(jù)的圖像內(nèi)容又可以分為局部特征圖像檢索和全部特征圖像檢索。這種檢索技術(shù)也在廣泛的應(yīng)用在電腦技術(shù)上,很多搜索引擎軟件上都使用了該技術(shù)[4]。但是根據(jù)內(nèi)容的圖像檢索技術(shù)也存在著一些問(wèn)題,這種圖像檢索技術(shù)也是提取到的特征是底層特征,無(wú)法和人們的高層語(yǔ)義所對(duì)應(yīng),不能準(zhǔn)確反映圖像的具體,后因?yàn)檫@些問(wèn)題,研究人員在搜索方案中增加了人工檢查,進(jìn)一步的調(diào)整檢索過(guò)程,以求的最好的檢索效果。但是這種方式也很是繁瑣,難以取得更大的進(jìn)步,所以醫(yī)學(xué)學(xué)者們也一直根據(jù)這些問(wèn)題進(jìn)行深入研究。
1.3 根據(jù)語(yǔ)義的圖像檢索技術(shù)
醫(yī)學(xué)學(xué)者們?yōu)榱丝朔鶕?jù)簡(jiǎn)單視覺(jué)特征的圖像檢索方式的不足,研究出來(lái)了一種優(yōu)于之前的檢索技術(shù)的新技術(shù),此為根據(jù)語(yǔ)義圖像檢索技術(shù),這種檢索方式內(nèi)含了傳統(tǒng)的圖像檢索技術(shù)和自然語(yǔ)言處理技術(shù)。在之前的檢索系統(tǒng)中添加了底層特征轉(zhuǎn)化為高層語(yǔ)義的技術(shù),高層語(yǔ)義就是在底層語(yǔ)義的基礎(chǔ)上更深?yuàn)W,涉及知識(shí)領(lǐng)域更多的語(yǔ)義,這樣就能在不改變匹配方式和現(xiàn)有的圖像特征庫(kù)的情況下,實(shí)現(xiàn)根據(jù)語(yǔ)義的圖像檢索新技術(shù)。這種新技術(shù)就達(dá)到了最大限度減少高層豐富語(yǔ)義和圖像簡(jiǎn)單的視覺(jué)特征之間的語(yǔ)義鴻溝的目的。
2 云技術(shù)概念
云技術(shù)是一種新型的技術(shù),是由于之前的圖像檢索技術(shù)總是有各種各樣的問(wèn)題,而現(xiàn)在的社會(huì)一直在進(jìn)步,科技也在進(jìn)步,人的要求也隨著越來(lái)越高,圖像庫(kù)信息也越來(lái)越多,現(xiàn)有的技術(shù)很難簡(jiǎn)單完美的解決問(wèn)題,所以研究出來(lái)了基于云技術(shù)的圖像檢索技術(shù)。云技術(shù)作為一種計(jì)算形式,是將共享的軟硬件資源按照特定的形式提供給計(jì)算機(jī)中相關(guān)的設(shè)備,其運(yùn)作方式獨(dú)特,云技術(shù)作為一種新型的IT服務(wù)模式,通過(guò)互聯(lián)網(wǎng)虛擬化資源,采用Hadoop框架,進(jìn)行大規(guī)模的數(shù)據(jù)分布式計(jì)算,使用JAVA進(jìn)行程序開(kāi)發(fā)。分布式并行程序的運(yùn)行,需要依靠大量節(jié)點(diǎn)完成海量數(shù)據(jù)的計(jì)算,不會(huì)出現(xiàn)容錯(cuò)處理以及平衡負(fù)載的問(wèn)題。Hadoop的組成框架圖如圖1所示。
2.1 HDFS
HDFS即分布式系統(tǒng),HDFS分布式系統(tǒng)是數(shù)據(jù)集中群存儲(chǔ)的關(guān)鍵,可以滿足硬件的使用需求,保證硬件的良好運(yùn)行。分布式系統(tǒng)通過(guò)分割文件,將其存儲(chǔ)在不同的DataNode上,還可以復(fù)制很多份存儲(chǔ)于不同的DataNode上,都是設(shè)計(jì)用來(lái)安署在廉價(jià)的硬件上,有著很高容錯(cuò)性的特點(diǎn),它提供高存量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合有著特大數(shù)據(jù)集的應(yīng)用程序[5]。
2.2 MapReduce
MapReduce并行模型是谷歌公司在2004年公布的一種大規(guī)模數(shù)據(jù)處理模型。這種模型提供了一個(gè)有著強(qiáng)大功能但是使用簡(jiǎn)單的接口,大量數(shù)據(jù)的計(jì)算任務(wù)都可以通過(guò)這個(gè)接口自動(dòng)進(jìn)行分布執(zhí)行和并發(fā)。隨著研發(fā)深入,開(kāi)發(fā)出了許多數(shù)據(jù)計(jì)算模式,這些計(jì)算模式都可以滿足快速處理大量數(shù)據(jù)的要求,主要含蓋倒排索引,web文本,web請(qǐng)求日志,文檔抓取,的圖結(jié)構(gòu)的各種表達(dá)形式等,但是這種模式只能在單機(jī)環(huán)境下處理,不能在理想的時(shí)間處理完成,所以才有了這個(gè)MapReduce模型的出現(xiàn),帶來(lái)了新的契機(jī)。編寫(xiě)MapReduce這個(gè)程序主要是通過(guò)兩個(gè)函數(shù),Map和Reduce函數(shù),Map函數(shù)要面臨的是沒(méi)有相關(guān)關(guān)系的數(shù)據(jù),分別對(duì)每個(gè)數(shù)據(jù)進(jìn)行分析處理,提取到鍵值,分配給每個(gè)節(jié)點(diǎn),實(shí)行并行模式的處理,經(jīng)過(guò)Shuffle階段后,在Reduce階段可以得出整理好的數(shù)據(jù)。最后通過(guò)Reduce程序把處理的結(jié)果匯總,在這些基礎(chǔ)上可以在進(jìn)一步數(shù)據(jù)處理得到想要的結(jié)果。
2.3 HBase
HBase系統(tǒng)作為一個(gè)分布式數(shù)據(jù)庫(kù)系統(tǒng),HBase與平常接觸到的數(shù)據(jù)庫(kù)都有明顯的差異,不同在于HBase可以應(yīng)用在非結(jié)構(gòu)化數(shù)據(jù)庫(kù)存儲(chǔ)中,這和基于行的模式有明顯不同,是基于列的模式之上,HBase與谷歌設(shè)計(jì)非分布式數(shù)據(jù)庫(kù)Bigtable有很多相似的數(shù)據(jù)模型。這個(gè)數(shù)據(jù)模型中用戶的數(shù)據(jù)行存儲(chǔ)在一個(gè)具有稀疏性的表里,每個(gè)數(shù)據(jù)行都有很多不一樣的功能鍵,可以根據(jù)自定義相應(yīng)所需要的列,HBase就可以滿足用戶的隨機(jī)訪問(wèn),并實(shí)現(xiàn)實(shí)時(shí)讀寫(xiě)大數(shù)據(jù)的功能。
(1)Hbaseclient。HBaseclient是通過(guò)HBase RPC遠(yuǎn)程操作的,調(diào)用協(xié)議機(jī)制分別進(jìn)行管理類;
(2)Zookeeper。zookeeper中的Quorum存儲(chǔ)著root表和hmaster的地址,同時(shí),為了方便讓hmaster實(shí)時(shí)了解到HRegion Server的狀態(tài)是否良好,HRegion Server將注冊(cè)到zookeeper中,使用Ephemeral的方式注冊(cè);
(3)Hmaster。hmaster主要的任務(wù)是管理region和table。為了保證至少有一個(gè)master任務(wù)在運(yùn)作,多個(gè)hmaster可以同時(shí)啟動(dòng),需要調(diào)用zookeeper的master機(jī)制;
(4)HRegion Server。HRegion Server是最核心的部分,主要負(fù)責(zé)響應(yīng)用戶請(qǐng)求,向HDFS文件系統(tǒng)中讀寫(xiě)數(shù)據(jù),是最核心模塊,每個(gè)HStore對(duì)應(yīng)了table中的一個(gè)Column Family的存儲(chǔ)[6]。
3 基于云技術(shù)的圖像檢索系統(tǒng)設(shè)計(jì)
根據(jù)云技術(shù)與的圖像檢索系統(tǒng)設(shè)計(jì)主要是為了對(duì)Hadoop平臺(tái)上的大量醫(yī)學(xué)圖像數(shù)據(jù)進(jìn)行準(zhǔn)確且快速的檢索,但是經(jīng)過(guò)調(diào)查和分析國(guó)內(nèi)外醫(yī)學(xué)文獻(xiàn),發(fā)現(xiàn)現(xiàn)今社會(huì)的研究依然還是存在許多問(wèn)題,一是,由于硬件條件的約束,傳統(tǒng)數(shù)據(jù)庫(kù)存儲(chǔ)大量數(shù)據(jù)還是有很大的成本問(wèn)題,并且隨著大量的數(shù)據(jù)圖像存入,還有可能造成崩潰;二是,單機(jī)的檢索環(huán)境速度都不能達(dá)到用戶的實(shí)時(shí)使用需求;三是用戶的各種各樣的需求在當(dāng)前的系統(tǒng)中每次單個(gè)特征檢索的算法中很難滿足;四是,傳統(tǒng)根據(jù)內(nèi)容的醫(yī)學(xué)圖像檢索系統(tǒng)都是按順對(duì)圖像庫(kù)的圖像進(jìn)行遍歷,分別運(yùn)算每個(gè)圖像之間的相似度,沒(méi)有適合的索引,就使得系統(tǒng)檢索性能很低。針對(duì)以上等問(wèn)題,大多數(shù)醫(yī)學(xué)者的需求,我們來(lái)做這個(gè)新技術(shù)的研發(fā)與實(shí)現(xiàn)。
當(dāng)分布式存儲(chǔ)系統(tǒng)的數(shù)據(jù)集特別大時(shí),掃描檢索就非常的耗時(shí),消耗時(shí)間長(zhǎng)。因此,為了減少檢索時(shí)間,提高檢索效率,可以使用MapReduce計(jì)算模型對(duì)醫(yī)學(xué)圖像檢索進(jìn)行計(jì)算,構(gòu)架圖如圖2所示。
檢索步驟分為6個(gè)步驟,分別如下:
(1)收集醫(yī)學(xué)圖像,提取圖像特征;
(2)上交檢索記錄,提取檢索圖像中的LBP特征與Brushlet特征;
(3)匹配醫(yī)學(xué)圖像,并輸出鍵值;
(4)根據(jù)相似度,將鍵值輸入到map中進(jìn)行排序;
(5)將收集的鍵值進(jìn)行整理,并寫(xiě)入HDFS中;
(6)輸出結(jié)果,得到最終醫(yī)學(xué)檢索結(jié)果。
基于云技術(shù)的醫(yī)學(xué)圖像檢索工作流程圖如圖3所示。
4 基于云技術(shù)的圖像檢索系統(tǒng)實(shí)現(xiàn)
4.1 實(shí)驗(yàn)環(huán)境
使用的是Linux操作系統(tǒng),Hadoop官方軟件,windo server2013鏡像作為DNS服務(wù)器和FTP服務(wù)器,安裝iava程序運(yùn)行環(huán)境[7]。
4.2 系統(tǒng)測(cè)試
本測(cè)試中設(shè)計(jì)了30個(gè)測(cè)試案例,每個(gè)測(cè)試者都必須要完成這30個(gè)測(cè)試,測(cè)試案例包括了系統(tǒng)的各種基本功能,其中10個(gè)案例為兩圖關(guān)系的檢索,7個(gè)案例為3圖關(guān)系的檢索,剩下的案例都是單圖檢索,圖與圖之間都是可以選擇并、交、差或位置關(guān)系。通常為了簡(jiǎn)單方便,都是使用系統(tǒng)默認(rèn)算法,聚類使用FCM算法。實(shí)驗(yàn)所要檢索的目標(biāo)大概有3個(gè)類別的圖片,卡通人物,加菲貓、史努比、美猴王,真實(shí)物體,氣球、花瓶、建筑;標(biāo)志性建筑,金字塔、故宮、長(zhǎng)城,場(chǎng)景:草原、大海、沙漠。這些案例都是選取的不同年齡段,不同專業(yè)的10名學(xué)生來(lái)測(cè)試的。
MRR功能是關(guān)注搜索引擎檢索到的有關(guān)圖片是不是排在最終結(jié)果的列表前面,簡(jiǎn)稱就是平均排序倒數(shù)。這個(gè)方法是計(jì)算每一個(gè)查詢的第一個(gè)有關(guān)圖片位置的倒數(shù),后將求出所有倒數(shù)值得平均值。
MAP則是求每個(gè)有關(guān)圖片檢索出的準(zhǔn)確率的平均值,這是對(duì)準(zhǔn)確率求了兩次平均,是MAP把系統(tǒng)在全部相關(guān)結(jié)果上單值指標(biāo)。系統(tǒng)檢索出來(lái)的有關(guān)圖片靠前,MAP就越高,沒(méi)有返回則準(zhǔn)確率為0%。
本系統(tǒng)在搜索結(jié)果中,把用戶所要的圖片都是能排在前列,準(zhǔn)確率也很高,都是高效準(zhǔn)確的索引分不開(kāi)的,從圖4就可以看出這MAP、MRR指數(shù)的比較:
通過(guò)對(duì)單機(jī)環(huán)境和云平臺(tái)的對(duì)比,證明了實(shí)驗(yàn)的有效性,用戶可以根據(jù)不同的測(cè)試方法滿足自身不同的需求,從而達(dá)到自由查詢的目的[8]。
5 結(jié)語(yǔ)
本研究雖然取得了一定的研究結(jié)果,但是此系統(tǒng)依然還有很多地方需要完善,需要大量的測(cè)試,另外在設(shè)計(jì)MapReduce對(duì)圖像進(jìn)行處理時(shí),缺乏了對(duì)于架構(gòu)性能的分析。MapReduce如果是對(duì)于一般的小圖像文件會(huì)增加運(yùn)行作業(yè)必要的尋址次數(shù),會(huì)對(duì)整個(gè)系統(tǒng)性能造成影響,所以它處理數(shù)據(jù)的速度要和云平臺(tái)的傳輸速度達(dá)到同步。根據(jù)以上的問(wèn)題和研究現(xiàn)狀,還需進(jìn)一步研究,學(xué)習(xí)醫(yī)學(xué)圖像檢索算法,但是本文沒(méi)有對(duì)醫(yī)學(xué)圖像的提取圖像特征方法進(jìn)行深入研究,可以在提取特征方法上多加研究以求提高檢索準(zhǔn)確度和效率,深入研究醫(yī)學(xué)圖像的各種索引機(jī)制,優(yōu)化索引機(jī)制,準(zhǔn)確開(kāi)展云技術(shù)圖像檢索系統(tǒng)索引機(jī)制的研究,改進(jìn)系統(tǒng)設(shè)計(jì),使得基于云技術(shù)的醫(yī)學(xué)圖像檢索系統(tǒng)性能更加突出。
【參考文獻(xiàn)】
[1] 郝娟.Hadoop云平臺(tái)下基于內(nèi)容的醫(yī)學(xué)圖像檢索技術(shù)研究[D].包頭:內(nèi)蒙古科技大學(xué),2016.
[2] 孫書(shū).醫(yī)學(xué)圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].沈陽(yáng):東北大學(xué),2013.
[3] 范敏,徐勝才.基于云計(jì)算的醫(yī)學(xué)圖像檢索系統(tǒng)[J].計(jì)算機(jī)工程與應(yīng)用,2013(21):123-127.
[4] 何芳.云計(jì)算平臺(tái)下海量圖像索引系統(tǒng)的研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2012.
[5] 曹生才.基于內(nèi)容的醫(yī)學(xué)圖像檢索技術(shù)研究與應(yīng)用[D].成都:電子科技大學(xué),2016.
[6] 李封,趙薇.基于內(nèi)容的醫(yī)學(xué)圖像檢索技術(shù)的研究[J].機(jī)械設(shè)計(jì)與制造,2009(12):28-30.
[7] 何靜.解析建筑工程中絕熱節(jié)能環(huán)保材料的應(yīng)用及發(fā)展前景[J].粘接,2019,40(7):53-55.
[8] 吳佳.墻體修復(fù)綠色建筑材料粘接加固性能成本控制[J].粘接,2020,41(1):120-124.