一種新穎的低層視覺特征到高層語義的映射方法

2007-01-01 00:00:00莫浩瀾石躍祥立

計算機應用研究 2007年6期

摘要：通過在低層視覺特征上提取圖像的局部顏色和紋理特征，再利用模糊神經網絡建立低層視覺特征和高層語義特征之間的映射，實現了圖像屬性信息的有效傳遞和可靠檢索。最后，為了提高檢索效率，把相關反饋引進到圖像檢索系統中。實驗證明，該方法取得了較好的檢索查全率和準確率。

關鍵詞：語義圖像檢索;局部顏色和紋理特征;模糊神經網絡；相關反饋

中圖分類號：TP391文獻標志碼：A

文章編號：1001-3695(2007)06-0173-03

如何跨越低層視覺特征和高層語義特征的鴻溝是語義圖像檢索中一個難點。許多學者為此做了不少的研究和貢獻［1－15］。其中Chang等人［7］提出語義模板的概念用于建立低層視覺特征與高層語義之間的聯系。Zhao等人［8］提出LSI(Latent Semantics Indexing)用于建立低層視覺特征與高層語義之間的聯系。鮑永生等人［13］提出語義網絡用于建立低層視覺特征與高層語義之間的聯系。孫志杰等人［15］提出支持向量機（Support Vector Machine）用于建立低層視覺特征與高層語義之間的聯系。該方法把一幅圖像歸于一類語義圖像。但當一幅圖像歸類不是很明顯，如一幅包括山、水、藍天的圖像分別以某種隸屬度歸入幾類語義圖像。為解決這一問題，文中引入模糊神經網絡用于建立低層視覺特征與高層語義之間的聯系。

1 相關知識

1965年，Zadeh提出了著名的模糊集理論［16］。它是對傳統集合理論的推廣。在模糊集中，每一個元素均是以一定的程度屬于某個集合，也可以同時以不同的程度屬于幾個集合。將模糊理論與人工神經網絡相結合就產生了模糊神經網絡。

神經網絡的模型由網絡拓撲結構、神經元特性函數和學習規則三要素組成。而模糊理論中一個最重要最基本的概念是隸屬度。隸屬度可以將人腦中的模糊概念比較合理地量化給計算機，架起了人腦與計算機的橋梁。1974年，S.C.Lee和E.T.Lee在Cybernetics雜志上發表了“Fuzzy sets and neural networks”一文，首次把模糊集與神經網絡聯系在一起； 1992年開始，J．J．Backley發表了多篇關于模糊神經網絡的文章，反映了人們近年來的興趣點。模糊神經網絡擯棄傳統神經網絡0、1二值邏輯，代之以隸屬度，可以實現從一個模糊集合到另一個模糊集合的映射［17］。根據確定集可以看做模糊集的特例，文中利用模糊神經網絡建立低層視覺特征與高層語義之間的聯系，把一幅圖像以某種隸屬度歸于一類或幾類語義圖像。

2 底層視覺特征到高層語義的映射

2.1 圖像底層特征的提取

圖像底層特征的提取是圖像檢索的主要問題之一，而語義檢索是基于人感知的，帶有人的主觀性，所以選取的圖像特征本身要具有較為直觀的視覺意義，即較強的視覺表達能力。文中采用提取圖像局部特征，將一幅圖像分成五個區域，在五個區域上分別提取顏色和紋理特征。

2.1.1 顏色特征的提取

顏色是彩色圖像最顯著的特征，相對于其他特征顏色特征具有相當的穩定性，對于旋轉、平移、尺度變化均不敏感，表現出很強的魯棒性。在圖像分析和識別領域應用最多的是HSV和HIS顏色空間，因為該空間使用顏色的三個特性(色調、飽和度和亮度)作為定義顏色的組成部分，接近于人類解釋和觀察顏色的方法。因此首先需要將RGB顏色空間轉換到HSV顏色空間，然后再分別計算H、S、V顏色直方圖。

2.1.2 紋理特征的提取

圖像紋理反映的是圖像的一種局部結構化特征，具體表現為圖像像素點某鄰域內像素點灰度級或者顏色的某種變化。本文使用Gabor小波變換［3］提取紋理特征。一個2D的Gabor函數可定義為

2.2 底層視覺特征到高層語義的映射

文中將圖像分成五個區域，每個區域將提取到RGB和HSV模型下的三階顏色矩特征向量和紋理特征向量。再采用模糊隸屬度函數對特征向量進行模糊化形成模糊神經網絡的輸入特征向量。本文采用的模糊神經網絡模型結構如圖1所示。

模糊神經網絡的學習算法采用改進的BP學習算法——加入動量項，詳細內容見文獻[19]。文中為了提高檢索效率，把相關反饋［3］引進到圖像檢索系統中。相關反饋的主要特點是由用戶來引導搜索，因而反饋的結果會朝有利于用戶要求的方向發展。大部分相關反饋的研究集中在兩個方向上，即移動查詢點和再加權/調整權重。前者改進對理想查詢點的估計，具體是將該查詢點移向好的范例點而遠離壞的范例點。實現這種調整的一個典型迭代公式為

3 實驗分析

文中采用的圖像庫大約為800幅圖像，分成日落、青山、綠水、樹木、花卉等六類語義圖像類。在每一類語義圖像類中選出40幅圖像作為訓練樣本訓練網絡。每一幅圖像分成五個大小相同的區域，如圖2所示。

每個區域將提取到RGB和HSV模型下的三階顏色矩特征向量18維和紋理特征向量16維；再采用模糊隸屬度函數對特征向量進行模糊化形成模糊神經網絡的輸入特征向量。隱含層節點個數為五。其中三個節點與輸入層的顏色特征向量相連；兩個節點與輸入層的紋理特征向量相連。輸出層為六個節點，分別對應圖像庫中的六類語義。

在訓練好的網絡中對每一幅圖像進行語義分類，并根據式(9)、(10)所得結果對每一幅圖像進行語義標注。如圖3所示，一幅圖像分別以隸屬度屬于兩類語義圖像。

對語義日落類檢索結果如圖4所示。

實驗方法日落青山綠水樹木花卉藍天

SVM方法80.5%66.2%67.4%70.5%83.8%81.3%

本文方法87.8%72.5%76.2%80.6%90.4%88.6%

實驗結果分析：模糊神經分類需要大量的訓練樣本才能達到較好的分類效果和很好的泛化能力。本文為了解決訓練樣本不足，采用了留一法［16］來訓練網絡。并在訓練時將訓練與測試交替進行來獲得好的網絡泛化能力。但該方法將花費大量的網絡訓練時間。

4 結束語

文中建立了一個語義圖像檢索模型，利用模糊神經網絡完成圖像的局部低層視覺特征與高層語義特征之間的映射并對圖像進行語義標注。實驗證明，該方法在小型的圖像庫中實驗取得了較好的效果。下一步工作將研究在大型圖像庫上進行語義檢索并提高檢索性能，并希望在低層視覺特征上提取上能結合圖像的形狀特征便于擴充圖像語義的類別數，從而使該語義圖像檢索系統更完善。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

計算機應用研究2007年6期

計算機應用研究的其它文章: 具有變結構控制器的無定標視覺伺服; 粗糙集理論在網絡攻擊效果評估中的應用研究; ＷＲＦ數值氣象預報模式系統在深騰６８００上的移植與測試; 地質結構三維建模及其可視化方法研究; 基于ＸＡＣＭＬ的Ｗｅｂ服務訪問控制模型; 網絡視頻監控系統管理平臺的設計