趙潔 涂泳秋 周蘇娟 曾海鷗



摘要:使用計算機輔助進行中草藥尤其是植物鮮藥的檢索和鑒定有著極其重要的現實意義。本文通過研究圖像庫分類檢索和反饋機制,設計出基于聚類-反饋的植物鮮藥圖像檢索系統。系統采用K-means算法,利用小波特征對圖像庫中的圖像進行聚類,并引入人工反饋機制,使聚類更加精確,檢索效率和準確率進一步提高。
關鍵詞:中草藥;圖像檢索;小波特征;K-means聚類;人工反饋
DOI:10.3969/j.issn.1005-5304.2016.08.004
中圖分類號:R281-05 文獻標識碼:A 文章編號:1005-5304(2016)08-0010-03
我國有關中草藥植物的記載有悠久歷史,但在信息時代,僅憑文字和圖片的記錄已無法滿足需要,而相關的技術發展又比較緩慢[1],因此迫切需要使用計算機輔助技術進行中草藥的檢索和鑒定工作。茲就基于聚類-反饋機制的植物鮮藥圖像檢索系統設計介紹如下。
1 圖像檢索技術現狀
目前對圖像的檢索方式主要有2種,即基于文本的圖像檢索和基于內容的圖像檢索。文本圖像檢索通過匹配關鍵字來檢索出圖像和其他信息。中國科學院植物研究所研制了中國植物數據庫,用戶通過輸入植物名、產地、用途等檢索出植物的圖像。澳大利亞Queensland大學開發了Lucid系統,通過輸入關鍵字可以檢索出結果[2]。但是,圖像信息難以用語言進行定量描述,因此,基于文本的圖像檢索受到制約。
基于內容的圖像檢索直接對圖像進行分析、提取相應的特征,然后根據這些描述圖像的特征對圖像庫中的圖像進行檢索。當輸入一個待檢索圖像時,系統
會將該圖像與圖像庫中的圖像進行相似性匹配,然后根據相似性大小建立相應的索引,系統會相應輸出與待檢索圖像特征相同或相近的圖像,供用戶查看。有研究基于內容的中草藥植物圖像檢索關鍵技術,使圖像檢索速度及準確率有所提高[3]。但目前尚未見通用的植物鮮藥檢索軟件問世,因此,中草藥檢索依然是一個研究的熱點與難點。
2 基于內容的植物鮮藥圖像檢索關鍵技術
2.1 小波特征
小波變換是一種新的變換分析方法,它繼承和發展了傅立葉變換局部化的思想,同時又克服了窗口大小不隨頻率變化等缺點,能夠提供一個隨頻率改變的窗口,是進行信號時頻分析和處理的理想工具。對小波特征提取的算法步驟如下。
步驟1:對R、G、B的3個顏色通道賦予不同權重,對R、G、B分別賦予的權重為0.299、0.587、0.114,這種比例權重比較符合要求;
步驟2:對圖像進行偽彩矩陣壓縮,目的是減小計算量,使系統運行速度加快;
步驟3:進行二維小波分解;
步驟4:提取小波分解細節系數;
步驟5:提取小波分解概貌系數;
步驟6:求分解后每個圖像的均值和方差。
最后構成的小波特征是一個26維特征向量。在本文設計的系統中,利用小波特征對圖像庫進行聚類,大大縮小了范圍,同時為系統進行人工反饋提供了基礎。
2.2 K-means聚類
K-means聚類的中心思想是最小化類內距離,將樣本數據劃分為預定的k類,找到一個劃分C={C1,C2,……,Ck},使類內距離如公式⑴所示,達到最小[4]:
⑴
系統首先對圖片庫中所有圖片進行K-means聚類,即提取出小波特征,然后對小波特征進行聚類,將圖片聚類成N類。檢索時只要檢索該圖像所屬類中的圖片即可,這樣就能大大提高檢索效率和準確率[4-5]。
2.3 基于特征的相似度匹配
本文設計的系統通過對圖像特征進行相似性匹配來判斷2幅圖像是否相似。先將提取出的圖像特征表示成向量形式,然后通過歐氏距離計算圖像特征之間的相似度,如公式⑵所示。其設計的思路是:2個圖像特征之間,歐氏距離越小,圖像相似度越大。
⑵
2.4 反饋
因圖像底層特征與高級語義之間存在“鴻溝”問題,我們目前還不能利用已有計算機視覺和人工智能技術獲得二者之間滿意的映射關系,因此,通過特征提取進行檢索在效果上往往不能滿足用戶需求。為解決該技術問題,本檢索系統引入人工反饋技術輔助以獲得更好的檢索效果。
在第一輪系統根據固定的相似性度量方法按相似度大小輸出檢索結果,然后用戶對檢索結果進行評價和標記,指出結果中哪些與查詢圖像“相似”,哪些“不相似”,然后將用戶標記的相關信息反饋給系統,進行學習,以指導下一輪檢索,從而使檢索結果更加符合用戶的需求。
通過上述反饋機制,可以很容易將圖像庫中的圖像進行再“聚類”,這樣經過數次檢索之后,系統對圖像庫里的圖像聚類將會越來越接近所需要求,形成一個良性循環。
本文設計的系統將圖片分成15類,加上“未分類”圖像,共16類圖像,第1~15類圖像分別用1、2、3、4、5、6、7、8、9、10、11、12、13、14、15標記,未分類圖像用0標記。
3 系統設計及結果
本系統基于matlab軟件開發,采用機器識別和人工反饋相結合的圖像檢索方法。在檢索過程中,首先讀入待檢索圖像,識別該圖像在圖像庫中屬于第幾類,然后獲得檢索范圍索引,最后根據圖像顏色、紋理、形狀的綜合特征進行相似度匹配,相似度由大到小依次顯示在界面中。相似度低于30%的圖像將不會顯示在界面中[6]。系統流程圖見圖1。
如未采用聚類-反饋的系統,則輸入一張待檢索的玫瑰花圖片,用顏色特征進行檢索,其檢索結果見圖2??梢钥吹降?號圖片(菊花)與第6號圖片(荷花)并不非所需圖片,即該2張圖片為無效圖片。
使用聚類-反饋機制后,檢索效果如圖3所示,檢索的首頁并未出現不相關的圖像,而且圖2檢索出12頁結果,圖3中只有3頁檢索結果。說明聚類-反饋系統在篩選過程中去除了大量不相關圖像,只剩下對用戶有用的相關圖像,提高了檢索效率。
對比使用和未使用聚類-反饋機制的系統檢索結果,可以發現未使用聚類-反饋的系統檢索準確率約為70%,而使用聚類-反饋的系統,經數輪反饋訓練之后,其檢索準確率達到90%以上。
4 小結
本研究設計了一個基于聚類-反饋機制的植物鮮藥圖像檢索系統,其優勢包括:①考慮到未來實用的大型圖像庫存在大量圖像,為縮小檢索范圍,系統引入了K-means聚類算法對圖像庫進行聚類,大大提高了檢索效率。②考慮到底層特征與用戶高級語義理解之間存在的“鴻溝”,系統采用了人工反饋算法,結合K-means聚類算法,利用用戶的反饋信息對圖像庫進行“再聚類”操作,使檢索結果更符合用戶需求。
總之,隨著數字圖像處理技術的發展,越來越多的新技術可以被應用到中醫藥的信息化中,為中醫藥事業的發展起到推動作用[7]。
參考文獻:
[1] 溫先榮.“中醫藥在線”網站多庫檢索系統的改造與實現[J].中國中醫藥信息雜志,2008,15(5):153-154.
[2] 馮伍,張俊蘭,白樹芳.基于內容的圖像檢索技術在醫學領域中的應用[J].醫療衛生裝備,2012,33(11):98-99.
[3] 吳青峰.基于內容的中草藥植物圖像檢索關鍵技術研究[D].廈門:廈門大學,2007.
[4] ZHAO J, JIANG S Z, YI F L, et al. Segmentation of medical serial images based on k-means and GVF model[J]. The Open Automation & Control Systems Journal,2013,5:181-186.
[5] 黃振侃,王晶,焦亞波,等.中國中草藥數據庫(名鑒)系統檢索信息處理方法的研究——關于中草藥常用藥的模糊聚類方法試探[J].中國中醫藥信息雜志,2001,8(11):92-93.
[6] 凌俊斌.基于聚類的相關反饋圖像檢索研究[D].南京:河海大學, 2006.
[7] 周蘇娟,涂泳秋,黃展鵬,等.數字圖像處理技術在中醫藥信息化中應用研究概況[J].中國中醫藥信息雜志,2012,19(5):103-105.