利用Ontology改進的自動化圖像標注方法

2012-07-27 03:22:04周運，劉棟

計算機工程與設計 2012年7期

關鍵詞：利用

周運，劉棟

（河南師范大學計算機與信息技術學院，河南新鄉453007）

0 引言

由系統自動處理、分析、分類和解釋圖像的方法研究已成為目前研究的熱點。目前國內外利用本體對圖像進行標注主要是把圖像作為基本單位進行標注［1－5］，很少以圖像中的對象為基本單位進行區塊分析和標注。這篇論文提出一個新的方法，以圖像底層特征為基礎，利用建構于系統中的本體將知識，當系統用底層特征分析、理解圖像時，結合知識本體去判斷圖像中對象與對象間的相互關系，能更準確的理解圖像中所包含的對象及其深層語義，推導出對象與對象在現實世界中的相關性，更準確地對圖像內容做出標注。

1 基于特征值的圖像標注

1.1 基本特征數據預處理

預處理搜集大量主題鮮明的圖片以便進行精確的學習，首先將圖像中有意義的實體對象手動勾勒出其輪廓，這里所取的實體對象如有天空、草原、大象、海豚……等，如圖1所示。

然后作特征參數提取，得到對象的24維特征向量。維度的取法包括對象的三基色RGB及其標準差，線性變換后得到的色調、飽和度、亮度值及其標準差，利用傅里葉變換得到的頻率域數值信息，包括實、虛部直流頻率和實、虛部交流低、中、高頻率值。

圖1 原始圖像經分割后的區塊

每個特征屬性向量均有24維，第25維為所屬類別，最后將同樣類別的特征向量歸類，得到對象類別的編碼向量，將其集合而成為編碼書。

1.2 對象的主成分分析

主成分分析［6］是圖像識別中常用的方法。其基本思想是對原始數據空間通過線性變換，找出一個具有代表性的子空間。原始數據投影到此子空間后，依然保持其主要的分布情況，但同時能大大降低原始數據的維度，這樣對數據的運算與比對就變得簡單了。主成分分析法的算法如下：

（1）搜集M個數據，并考慮有N個維度，即代表每個數據有N個變量；

（2）標準化，即算出各維度數據的平均值，將每個變量值減去所對應維度的平均值；

（4）計算此協方差矩陣的特征值和特征向量；

（5）以特征向量為基礎將原始數據作線性變換；

（6）找出要考慮的特征值及其對應的特征向量，即為主成分；

（7）將原始數據投影到以主成分為基礎的子空間上，得到降低維度的新數據。

這里將原先24維度的數據降低成8維度，此8維度就是主成分。在24維度中因為直流頻率為實數，因此虛部直流頻率皆為0，不列入主成分分析考慮范圍內。最后根據這些主成分對屬性向量進行轉換。雖然有少許的失真，但計算量也從24維降低為8維。原始數據以此8個主成分為基底投影到較低維度的空間。

1.3 學習式向量量化

學習式向量量化（LVQ）［7－8］方法是通過自動學習的演進過程，進行即時的微調，使各個類別的代表點趨近最佳值。現在常用改進的學習式向量量化算法LVQ3，在利用LVQ3算法前，要有一個初始的聚類，利用“K－means”聚類法可得到初始的聚類。另外，定義任意兩個已確定所屬類別向量點的重疊中心地帶為窗口，窗口的寬度主要依據向量的個數來決定。LVQ3算法如下：

（1）利用一個適當的聚類算法建立一個初始的聚類，其中每一類別均有一些特征向量點代表該類別；

（2）挑選一個向量點X，并判斷它是否落于容易被分錯地帶的窗口中，若是，則執行第（3）步驟，否則，跳到第（4）步驟；

（3）尋找最接近向量X的兩個已知類別向量Ci和Cj，若X與Cj屬于同一類但與Ci屬于不同類，則執行以下的調整

若X、Ci和Cj均屬于同一類，則執行以下的調整

其中k∈（i，j），ε值主要依據窗口的大小來決定，α是一個很小的常數，并隨著重復的步驟遞減。

若X、Ci和Cj均為不同類，則不作任何調整；

（4）若已經達到合理的重復次數，則結束。否則，回到第（2）步驟繼續調整向量點。

把經過降維的學習數據，利用學習式向量量化算法，進行監督式學習。由于要知道分類的個數，可利用K－means算法制作出初始的編碼書，然后運用學習式向量量化，形成對象的編碼書。

1.4 數據比對與自動標注

（1）顏色為主的影像分割：顏色為主的圖像分割是將圖像中不同顏色的區域分割出來，大多是將圖像中對象的邊緣找出來，然后把具有連續性的區域結合起來。利用“Mean shift”［3］分割算法進行圖像分割效果不錯。方法是先把圖像的色彩轉換到特征域的顏色模型，再對特征域的顏色模型做群聚來達到分割的效果。首先將RGB值變換成線性的HSV模型來做圖像分割。將圖像變換到HSV的色彩特征域中，會依據不同的色彩表現產生出不同密度的區域，在密度高與密度低的區域之間，即為區域的邊界。而區域中密度最高的點稱為此區域的中心點。若圖像中的每個點對應到同一族群的范圍，將被歸類為同一類。如此反復進行，將圖像分割為數個區塊。

（2）預測對象區塊所屬類別：從所分割出來的對象區塊提取其顏色、紋理等特征，同樣，通過降維投影到學習數據編碼書的子空間，再利用歐氏距離公式［9］來判斷對象所屬類別。對象Oi與對象Oj之間的距離為：dij＝，其中p為對象向量維度，這里取p＝8，xj為類別代表點的值。

2 利用本體論輔助圖像分類與標注

利用本體論所訂立的規格、限制與推理機制［3，10－14］來檢驗及修正上面所提的初始標注結果。建構了3個本體，分別是對象本體、位置本體和對象與對象間關系本體，來增加判斷對象的準確率。對象本體用來定義對象的特征與屬性描述，包含顏色、紋理、形狀、位置和大小。顏色包含了基本的像素的三基色；紋理包含了利用離散傅利葉轉換所表示的頻率值；位置描述對象邊界矩形的最小與最大X坐標和最小與最大的Y坐標。如圖2所示。

圖2 對象本體

位置本體主要是描述空間方位的規格定義。要考慮絕對位置和相對位置關系。

絕對位置：對象在圖片中的絕對位置是將一個圖片分成九等分，依左至右、由上到下，分別為左上角、上方位置、右上角、左手邊、中間位置、右手邊、左下角、下方位置、右下角，對象最大比例所落的位置，即為該對象的絕對位置。如圖3所示。

圖3 絕對位置本體

相對位置關系：相對位置關系主要考慮在兩個對象間相對空間關系的比較，有：在上方、在下方、在左方、在右方、在附近、在遠方、在內部。這些相對位置關系中，兩兩之間有些還具有反向關系、傳遞關系或對稱關系。這些互相之間的關系可以利用本體來詳細定義與表示。如圖4所示。

對象與對象間關系本體描述對象之間相互存在合理性，現實環境中對象之間所具有的位置特征是有一些規則的，如：鯨魚是生存在海洋中的動物，因此鯨魚與海洋的位置關系，通常為鯨魚在海里面，或者鯨魚在海洋上面。

圖4 相對位置關系本體

對象與對象關系本體結合了對象本體與位置本體來建立依存關系。圖5為建構的對象與對象關系本體。

圖5 對象與對象關系本體

要確立對象位置，需框出能包含對象區塊的最小矩形，稱之為邊界矩形，運用邊界矩形來作為對象彼此位置關系判定的單位。邊界矩形是由該對象所在的圖像平行于x軸自最上方與最下方最先碰到對象輪廓的這兩條直線與平行于y軸自最左方與最右方最先碰到對象輪廓的兩直線，由此四直線所圍成的矩形，即為對象的邊界矩形，令對象i的邊界矩形分別的寬與高為2wi，2hi，矩形中心坐標為。接下來對相對位置關系作精確的定義：

首先，經過預測對象區塊所屬類別，從中可得知待測對象對于系統所認識的每一類別可能性的比率，而且根據對象本體論，系統會確立對象的位置。接著，將預測比率高的對象，開始進行其關系與基本限制的檢驗。如：把猜測為天空的對象作檢驗，對象天空將增加絕對位置的限制條件，若天空的絕對位置若只占有圖片的下半部是不合理的，則此對象的猜測可能有誤，將被修正推測為第二個高比率相似的類別，同樣作高層次語意關系的檢驗直到合理為止，最后才能拿此確定對象與其它對象作比較，輔助其它對象的推測。前面所提及3個本體的規格定義，將為對象間建立一些限制規則，以下是定義的部分條件限制示例，共有5類規則：

規則1，如：天空不會在海洋下方。

規則2，如：大象為陸上動物，因此大象在陸地上。

利用本體的推理能力，與反向性關系推論出下列衍生出來的事實：

規則3，如：若大象在地面上，則地面在大象下方。

利用本體的推理能力，與傳遞性關系推論出下列衍生出來的事實：

規則4，如：若天空在大象上方且大象在地面上，則天空在地面上方。

利用本體的推理能力，與對稱性關系推論出下列衍生出來的事實：

規則5，如：若大象附近有樹林，則樹林附近有大象。

可以利用諸如此類的規則，作為輔助判斷僅以特征為基礎的圖像識別結果的正確性，找出最合理的答案。還有利用這些相對位置關系去提供更深層的對象語意關系。

定義好本體中對象與對象之間的條件限制后，經過學習式向量量化后所預測出來的結果與本體論配合，利用以下步驟重新確認出圖片中的對象：

（1）首先檢查是否有被預測出天空這個對象，如果有則利用絕對位置來判定是否為正確的位置，沒有符合天空絕對位置的限制條件，則選擇下一個比率的對象。如果圖像中沒有被預測出天空，則跳過此步驟。

（2）查詢其它背景對象（如天空、草原），將比率高于一定值的背景對象認知為已知的確定對象。

（3）利用已知的確定對象，與其它對象做相對位置的分析，若不違反相對位置的條件限制，則加入已確立的對象中；反之，則尋找下一個比率的對象，繼續比對相對位置的限制條件，直到比率為0則停止比對。

3 實驗結果與分析

使用WEKA軟件來做數據分析。WEKA是一套用于解決海量數據中數據挖掘與數據分析的軟件，具有開放性的程序代碼以供使用者依據其需求作修正。這里利用查準率與查全率來進行評估。

評估參數選取了運用主成分分析降維處理的學習對象共732個，分9類，分別為天空、海洋、草原、地面、沙灘、樹林、大象、棕馬與海豚。利用K－means聚類法制作一個初始編碼書，再利用學習式向量量化學習。其中，設定學習速率為0.3，訓練終止次數為2000次，中心地帶窗口的大小為0.2，調整出更好的編碼書，進行學習。然后進行測試的337張圖像中共含有1126個對象，加入本體輔助前后查準率和查全率的變化情況，如圖6所示。

由圖6可以看出，加入本體輔助后查準率與查全率的確均比前者各個類別有所提升，所以本體論的確是有助于理解圖像。

4 結束語

提出以本體論建構的知識概念與關系，幫助系統來識別圖片對象的方法靈感來自于人們如何學習、辨認與了解一個實體對象的過程。利用圖像的高階語意和對象與對象間相似性與關聯性來做判斷圖像。結果顯示本體論的確能修正僅以底層特征識別圖像產生錯誤識別的問題。但這里也存在一些局限性，研究的重心放在了對所有已學習過的對象做到精確地識別。在學習數據的處理中，利用手動圈選對象輪廓，是為了在機器學習階段，能盡量不受到噪聲影響而得到最準確的可運用的學習結果，因為學習結果的查準率與查全率是一個基準數據，運用此學習結果來預測數據，準確度最高也只能與學習時準確度持平。所以下一步研究還應當加入判斷測試對象是否在已知類別的機制，當測試對象不在已知類別時，應能提供一種自學習機制。

圖6 加入本體輔助前后的圖像標注結果比較

［1］Halaschek－Wiener.Annotation and provenance tracking in semantic web photo libraries［C］.Proceedings of the International Conference on Provenance and Annotation of Data，2006：82－89.

［2］Khan.Standards for image annotation using semantic web［J］.Computer Standards ＆Interfaces，2007，29（2）：196－204.

［3］Cimino JJ，Zhu X.The practical impact of ontologies on biomedical informatics［J］.Methods Inf Med，2006，45（Suppl 1）：124－135.

［4］Barnard K，Duygulu P，Guru R，et al.The effects of segmentation and feature choice in a translation model of object recognition［C］.Proceedings on Computer Vision and Pattern Recognition，2008：675－682.

［5］Chen Y，Wang J Z.Image categorization by learning and reasoning with regions［J］.Journal of Machine Learning Research，2007，5：913－939.

［6］Langlotz.RadLex：A new method for indexing online educational materials［J］.Radiographics，2006，26（6）：1595－1597.

［7］Mueen A，Zainuddin R，Baba M.Automatic multilevel medical image annotation and retrieval［J］.J Digit Imaging，2007，21（3）：1123－1130.

［8］Petridis.Knowledge representation and semantic annotation of multimedia content［J］.Iee Proceedings－Vision Image and Signal Processing，2006，153（3）：255－262.

［9］Rubin DL.Creating and curating a terminology for radiology：Ontology modeling and analysis［J］.J Digit Imaging，2008，21（4）：343－351.

［10］Ruttenberg A.Advancing translational research with the semantic web［J］.BMC Bioinformatics，2007，8（3）：S2.

［11］Saadawi GM.Definition of an XML markup language for clinical laboratory procedures and comparison with generic XML markup［J］.Clin Chem，2006，52（10）：1943－1951.

［12］Troncy.Image annotation on the semantic web［R］.W3C Incubator Group Report，2007.http：//www.w3.org/2005/Incubator/mmsem/XGR－imageannotation/.

［13］Whetzel PL，Parkinson H，Stoeckert CJ Jr.Using ontologies to annotate microarray experiments［J］.Methods Enzymol，2006，411：325－339.

［14］Carneiro.Supervised learning of semantic classes for image annotation and retrieval［J］.IEEE Trans Pattern Anal Mach Intell，2007，29（3）：394－410.