盛建強,陳驍,鄭洪英
(深圳信息職業(yè)技術(shù)學院,廣東 深圳 518172)
伴隨著互聯(lián)網(wǎng)的高度發(fā)展和普及,出現(xiàn)在網(wǎng)絡(luò)環(huán)境下的圖片數(shù)量呈幾何級增長,如何有效的在海量的圖片數(shù)據(jù)中搜索、瀏覽和查找到用戶關(guān)心的數(shù)據(jù),成為很多研究者關(guān)心的一個熱點問題。面對上述問題,本文設(shè)計和實現(xiàn)了一個生物醫(yī)學流程圖的檢索系統(tǒng)。該系統(tǒng)運用生物醫(yī)學的特征提取,及圖像分類算法,流程圖的相似性估計算法等構(gòu)建了一個基于內(nèi)容的圖像搜索引擎。
生物醫(yī)學信息系統(tǒng)設(shè)計的主要目標是在合適的時間、合適的地點對合適的人群提供所需要的信息。所以,本系統(tǒng)的研究對象和目標人群也非常的明確,研究對象為生物醫(yī)圖像中非常重要的一類圖片——流程圖,并且研究該類圖像的人員非常少,在學界還沒引起足夠的重視;該系統(tǒng)的使用對象主要是生物圖像研究著或?qū)︶t(yī)學圖像感興趣的科研人員和臨床醫(yī)生[1-2]。就整體設(shè)計架構(gòu)而言,本系統(tǒng)的設(shè)計與傳統(tǒng)的基于內(nèi)容的生物醫(yī)學圖像搜索引擎的設(shè)計基本類似,本系統(tǒng)設(shè)計的另外一個目的,就是為本文對生物醫(yī)學圖像的研究成果提供一個驗證和測試的環(huán)境,盡可能遵循系統(tǒng)設(shè)計的一般原則:高內(nèi)聚、低耦合、模塊可重用。下面分別從系統(tǒng)的設(shè)計目標、技術(shù)架構(gòu)、數(shù)據(jù)流模型等方面對基于生物醫(yī)學領(lǐng)域流程圖檢索系統(tǒng)進行詳細描述。
基于現(xiàn)有的CBIR生物醫(yī)學圖像檢索系統(tǒng)的設(shè)計框架,結(jié)和我們系統(tǒng)的應用需求和特點,提出了如下幾個方面的設(shè)計目標:
1.1.1 良好的界面設(shè)計
系統(tǒng)設(shè)計的最終目的是提供使用者一個高效的、便捷的系統(tǒng),良好的界面風格設(shè)計(GUI)就顯得至關(guān)重要。
1.1.2 專門性
由于本系統(tǒng)是專門用于生物醫(yī)學圖像領(lǐng)域、而且是針對生物醫(yī)學流程圖進行檢索。所以,在具體的設(shè)計和實現(xiàn)中,需要考慮到這一實際情況。
1.1.3 實時性眾所周知,許多圖像處理的算法的復雜度是比較高的,尤其是圖像特征提取算法[3-4]。
從系統(tǒng)角度分析,本搜索引擎主要由GUI接口、圖像的特征的提取以及流程圖相似性度量三個模塊組成。GUI接口模塊是用戶與系統(tǒng)之間進行信息交互的途徑,是用戶提交查詢請求的窗口。圖像特征提取模塊主要包括圖像的預處理過程,以及圖像特征提取過程,在以圖搜圖的環(huán)節(jié)中,本文用基于概率圖模型的相似性度量方法來計算相似性,而對于手繪方式搜索環(huán)節(jié),其方法是基于ccLDA模型的流程圖相似度量方法。
整個系統(tǒng)的信息處理流程就像一個標準的工作流程序,從特征提取開始,到圖像的分類,到數(shù)據(jù)索引、圖像檢索,最后經(jīng)相似性計算得到最終的檢索結(jié)果。在本系統(tǒng)設(shè)計過程中,每個關(guān)鍵算法(如特征提取、圖像分類、相似度計算等)分別被抽象成一個處理器(Processor),該處理器都有一個輸入和一個輸出,且輸入與輸出均采用數(shù)據(jù)對象(Data)來表示。
搜索引擎的關(guān)鍵技術(shù)的實現(xiàn)需要借助Lucene工具。Lucene提供了一個全文檢索引擎的架構(gòu),并且為用戶提供了完整的查詢引擎和索引引擎,部分文本分析引擎。其目的是為開發(fā)者提供一個易用、簡單的工具包、方便軟件開發(fā)者在系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎[5]。具體流程為:
構(gòu)建了3張數(shù)據(jù)庫表:DIR INFORM, FIGURE INFORM, FC INFORM。對于表DIR INFORM,它存儲的信息主要是流程圖所在的源文檔信息,包括:文檔的題目、文檔的作者信息、摘要、關(guān)鍵詞、以及文檔的鏈接地址;對于表FIGURE INFORM,它存儲的信息主要的流程圖本身的信息,如流程圖的主題等;對于FC INFORM,主要有關(guān)于流程圖的所檢測出來的元素和嵌入在流程圖中的文本信息。接著,我們開始創(chuàng)建索引:①指定索引文件的存儲路徑;②生成一個IndexWriter對象,用于創(chuàng)建索引文件;③生成一個Document對象,它包含多個屬性,這些屬性可供查詢和索引;④把Document對象加入到IndexWriter對象中;⑤優(yōu)化IndexWriter對象。Lucene索引文件構(gòu)建成功。
索引文件構(gòu)建成功后,我們可以利用Lucece對每一次查詢進行檢索,但僅僅是根據(jù)流程圖里面本身的本文信息來進行,所以這個查詢結(jié)果相對而言,精度和相關(guān)度不一定很穩(wěn)定,關(guān)于這一點,我們在第3,4章做對比試驗的時候,就對用Lucene工具檢索的結(jié)果做過比對試驗。所以還有進一步求精的必要。
在第(1)步驟的檢索結(jié)果基礎(chǔ)上,進一步引入本文第4章的流程圖相似性度量算法,重新對索引結(jié)果進行相似性度量排序,得到最終的查詢結(jié)果。
生物醫(yī)學流程圖檢索系統(tǒng)的主界面如圖1所示。本系統(tǒng)的檢索方式有兩種:一種是采用以圖搜圖的方式,也就是給定一副流程圖,點擊”Search”按鈕直接檢索;另外一種就是基于sketch的方式,即用戶手繪一副流程圖,不需要多么完整和復雜,但這個sketch需要體現(xiàn)用戶本人最想要表達的關(guān)鍵信息,或者關(guān)鍵結(jié)構(gòu)信息,如關(guān)鍵節(jié)點及內(nèi)容,與節(jié)點相連的邊的信息等等。后面的過程就以第二種情況為例進行說明和展示。生物醫(yī)學流程圖檢索系統(tǒng)的檢索流程如下:

圖1 搜索引擎的主界面,并且簡單地手繪了以“pharmacist care”為主題的查詢示例
用戶通過網(wǎng)頁內(nèi)嵌的繪圖板的菜單欄,選擇相應的形狀,并連接和添加文本,繪制用于檢索的流程圖。
繪制流程圖完畢后,用戶點擊”Search”按鍵,系統(tǒng)將返回檢索結(jié)果,且相似的圖像以縮略圖形式展示。
用戶選取感興趣的圖像,通過點擊系統(tǒng)提供的超鏈接,可以訪問該圖像的詳細信息,如流程圖所對應的論文的題目、摘要、作者,論文的出處,以及上下信息等。
好的評價標準對于任何一項技術(shù)地推動具有非常重要而積極的意義,比如信噪比(signal noise ratio, SNR)是數(shù)據(jù)壓縮領(lǐng)域的評價標準;而在信息檢索領(lǐng)域,查準率(precision)和查全率(recall)是兩個重要的評價指標。一個檢索系統(tǒng)的性能評估準則包括:效率(efficiency)、有效性(effectiveness)以及靈活性(flexibility)。它們分別代表檢索的速度、檢索與查詢圖像相似的圖像的成功率、及對不同應用的適應性。目前對檢索系統(tǒng)的性能的評價則更多地放在檢索的有效性上,即檢索系統(tǒng)結(jié)果的正確與否上。下面,主要從效率及有效性兩方面來對這個搜索引擎進行評價。本文選擇了共計8組查詢主題,分別是:乳腺癌、胃癌、非霍奇金淋巴瘤、多發(fā)性骨髓瘤、HIV、慢性腎臟炎、心臟病、瘧疾。每一組查詢主題我們分別進行6次隨機的查詢,具體作法是:在系統(tǒng)中用手繪的方式,在手繪的第一個文本框里輸入主題,其他的文本框的內(nèi)容隨機,重復進行6次。系統(tǒng)能自動統(tǒng)計每次查詢所需的時間。本文系統(tǒng)的檢索過程所需的時間均在毫秒級。
本文實現(xiàn)了一個生物醫(yī)學流程圖的檢索系統(tǒng)。該系統(tǒng)運用了一些成熟的關(guān)鍵算法和技術(shù),如生物醫(yī)學的特征提取,及圖像的分類算法,流程圖的相似性估計算法等,基于這些方法和模型,本文構(gòu)建了一個基于內(nèi)容的圖像搜索引擎,本系統(tǒng)提供用戶兩種查詢方法:用戶輸入一張流程圖,查詢與之相似的圖像;另外一種方式就是由用戶根據(jù)自己的查詢意圖,手繪草圖進行搜索。實驗表明,本文提出的系統(tǒng)在實時性、結(jié)果相關(guān)度等方面有不錯的性能。