999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖語法的視覺知識表達與標注圖像數(shù)據(jù)庫

2009-01-01 00:00:00彭紹武劉樂元農(nóng)
計算機應(yīng)用研究 2009年2期

(1.華中科技大學(xué)圖像識別與人工智能研究所, 武漢430074; 2.蓮花山計算機視覺和信息科學(xué)研究院, 湖北

鄂州 436000)

摘 要:

蓮花山數(shù)據(jù)集采用與或圖作為視覺知識模型,實現(xiàn)對客觀世界中視覺模式的多層次表達,從而將多種標注任務(wù)統(tǒng)一到圖像語法模型框架下。配套數(shù)據(jù)庫通過兩層模型分別管理視覺模型與標注數(shù)據(jù),提供了靈活方便的數(shù)據(jù)導(dǎo)入、管理、查閱、輸出功能,這是其他數(shù)據(jù)集所不具備的。最后給出基于該數(shù)據(jù)集標注結(jié)果的內(nèi)容檢索實驗,該算法加入到標注工具中,作為一種自動功能用于輔助加速人工標注過程。

關(guān)鍵詞:圖像語法; 視覺模型; 人工標注; 圖像數(shù)據(jù)集; 計算機視覺

中圖分類號:TP391.41 文獻標志碼:

文章編號:1001-3695(2009)02-0747-05

Visual knowledge representation based on image grammar and annotated database

PENG Shao-wu1,2,LIU Le-yuan1,2,YANG Xiong1,2,SANG Nong1

(1. Institute of Pattern Recognition Artificial Intelligence, Huazhong University of Science Technology, Wuhan 430074, China; 2. Lotus Hill Institute for Computer Vision Information Science, Ezhou Hubei 436000, China)

Abstract:LHI image dataset is a most various multi-task annotated dataset. It uses and-or graph as visual knowledge model to represent the visual pattern in a hierarchical way. By this means, this paper integrated multi-task human annotation into a unified framework. The corresponding database used a two-tier model to manage visual model and annotated data respectively, while offering flexible functions of data import, management, browse and export, which was not seen in other dataset. A content-based retrieval experiment shows that annotated image works well on this algorithm, and this function is added into the label tool to assist the human label.

Key words:image grammar;visual model;human annotated;image dataset;computer vision



0 引言

在計算機視覺領(lǐng)域,建設(shè)能適應(yīng)多種需求的大型人工標注數(shù)據(jù)集是目前的熱點,蓮花山人工圖像與視頻標注數(shù)據(jù)集(LHI dataset)[1]便是其中之一。目前其數(shù)據(jù)量約為6萬張圖像、88萬標注物體對象以及約88萬幀視頻畫面、 676萬標注物體。本文探討怎樣根據(jù)圖語法模型進行視覺知識表達,并設(shè)計一個與蓮花山圖像數(shù)據(jù)集相配套的數(shù)據(jù)庫框架。 

在建設(shè)蓮花山圖像數(shù)據(jù)集的過程中遇到的問題有:

a)對怎樣標注以及怎樣表示通用視覺知識這兩大視覺界數(shù)據(jù)集建設(shè)的難題,本文嘗試作了解答。尤其是標注結(jié)果需要滿足多種各不相同的視覺研究任務(wù)。

b)開發(fā)一個合適易用的標注工具,能夠滿足各種不同的標注任務(wù)。根據(jù)不同的視覺任務(wù)定義出一整套標注規(guī)則。

c)提出一個自頂向下的框架,以及相應(yīng)的自動/半自動算法,用于規(guī)范與加速標注流程。

d)建設(shè)一個結(jié)構(gòu)良好的數(shù)據(jù)庫,在數(shù)據(jù)庫中合適地表達視覺知識或視覺模型。

e)數(shù)據(jù)庫發(fā)揮對模型與數(shù)據(jù)的橋接功能,將標注數(shù)據(jù)與分別來自于數(shù)據(jù)與學(xué)習(xí)的視覺模型有機組織起來,并能方便地實現(xiàn)視覺任務(wù)所需的查詢、輸出功能。

f)怎樣在標注數(shù)據(jù)集與數(shù)據(jù)庫上展開有效的科研應(yīng)用。

其中,議題a)與b)在此前的工作中[2]已經(jīng)部分討論,議題c)涉及的一些算法涵蓋了多個研究課題,仍在進行中。到目前為止,基于蓮花山數(shù)據(jù)集的一些研究工作在文獻[3~10]中有所反映。本文重點討論議題a)b)e),即怎樣表達復(fù)雜的視覺模式,并設(shè)計與建立一個配套的數(shù)據(jù)庫,用于管理這樣一個大型數(shù)據(jù)集下的各種標注數(shù)據(jù)與相應(yīng)的視覺知識。最后,針對議題f),以圖像內(nèi)容檢索為例,用色彩特征進行了基于該數(shù)據(jù)庫的內(nèi)容檢索實驗。 

對于多任務(wù)的數(shù)據(jù)集,不同任務(wù)的數(shù)據(jù)標注有各自的標注流程與標注規(guī)則。要將這些流程、規(guī)則以及不同的數(shù)據(jù)融合到一起,本文從以下幾點考慮: a)對大量種類各異的數(shù)據(jù)有良好的管理;

b)維護好各種數(shù)據(jù)之間的復(fù)雜關(guān)系與關(guān)聯(lián)規(guī)則;

c)視覺模型與標注數(shù)據(jù)之間有良好的關(guān)聯(lián)對應(yīng);

d)適應(yīng)各種不同需求的數(shù)據(jù)查詢與輸出功能。

在蓮花山圖像數(shù)據(jù)集中,使用與或圖(and-or graph[11, 12])這樣一個自頂向下的圖語法模型指導(dǎo)圖像標注,并將該標注過程稱為圖像解譯(image parsing)。根據(jù)不同的視覺任務(wù),圖像內(nèi)容在標注過程中被解析為多個視覺物體對象 (object)。以圖像為單位的數(shù)據(jù),經(jīng)過標注和重新組織,在數(shù)據(jù)庫中變成以視覺物體對象為存儲單位。

就筆者所知,目前沒有很多介紹建設(shè)大型的、面向多種視覺任務(wù)數(shù)據(jù)集的文獻與討論,相應(yīng)數(shù)據(jù)庫設(shè)計的討論則更少。許多專用數(shù)據(jù)集公開發(fā)布已久,如LabelMe[13]、CatTech 101/256[14,15]、ETH-80[16]、the Berkeley segmentation dataset[17], UA(Arizona) localized semantics dataset[18]和 MPEG-7形狀數(shù)據(jù)集等。這些數(shù)據(jù)集的標注任務(wù)大都比較單一,有些只大致標注了物體外輪廓,有些只有物體的骨架形狀信息,有些只有單一的尺度或者視角。由于數(shù)據(jù)結(jié)果相對簡單,許多數(shù)據(jù)集甚至無須建設(shè)配套數(shù)據(jù)庫。Torralba在文獻[19]中介紹了MIT-CSAIL數(shù)據(jù)集 LabelMe及其數(shù)據(jù)庫,由于標注數(shù)據(jù)僅僅使用了多邊形邊界,它的配套數(shù)據(jù)庫非常簡單。Schroff’s在文獻[20]中介紹了如何從Internet上檢索巨量的圖像數(shù)據(jù),并將其組織到數(shù)據(jù)庫中,但該數(shù)據(jù)集僅對圖像作分類標簽,沒有對圖像內(nèi)容作標注。由于蓮花山數(shù)據(jù)集是目前標注任務(wù)最多樣的數(shù)據(jù)集,本文是在使用圖語法模型對復(fù)雜視覺模型進行表達的基礎(chǔ)上,探討怎樣設(shè)計相應(yīng)的包含視覺知識模型的數(shù)據(jù)庫。

1 圖語法模型與圖像標注

1. 1 與或圖模型

自然場景是高度復(fù)雜而又高度結(jié)構(gòu)化的,這種結(jié)構(gòu)化正是圖像語法的根源。從統(tǒng)計的觀點來看,圖像中的某些元素在一起出現(xiàn)的概率很高,通過一些組合規(guī)則和相互關(guān)系,它們形成新的、更大的結(jié)構(gòu)元素。

通過對這一現(xiàn)象建模,采用與或圖作為視覺知識模型,如同容器一樣,來包含它所表示物體的所有表現(xiàn)形式。這樣圖像語法可以表示客觀世界中視覺模式的多層次構(gòu)成特性。

圖1是與或圖的例子。一個與或圖可由五元組

G=(S,VN,VT,R,P)表示。

其中:S是根節(jié)點;VN是非葉節(jié)點,分為與節(jié)點和或節(jié)點;VT是葉節(jié)點;R是兩個節(jié)點之間的關(guān)系;P是與或圖上的概率。與或圖有三個關(guān)鍵概念:

a)或節(jié)點(or-nodes)。它屬于可配置變量,根據(jù)各種可能性的大小可選擇不同的孩子節(jié)點,從而反映出該節(jié)點結(jié)構(gòu)的可變性。在每個圖像實例中,一個或節(jié)點只能選擇其中一個子節(jié)點作為最終確定的配置。

b)與節(jié)點(and-nodes)。 表示它下屬的孩子節(jié)點按照一定的空間關(guān)系同時組合,是一種物體分解規(guī)范。這些孩子節(jié)點中有的可以是或節(jié)點,有的可以是與節(jié)點,根據(jù)其自身的可分解性來確定。

c)葉節(jié)點(leaf-nodes)。它代表模板,即具體的物體形狀。通過與節(jié)點和或節(jié)點的不同賦值,能夠選擇、拼接出不同的物體實例,這就是產(chǎn)生式模板。

與或圖表示繼承了傳統(tǒng)基于語法結(jié)構(gòu)方法中對物體多層次分解與構(gòu)成特性建模的優(yōu)點,同時結(jié)合了基于外觀模型方法來建立語法結(jié)構(gòu)基元與真實圖像的對應(yīng),以及建立結(jié)構(gòu)基元之間的空間和語義關(guān)系。從數(shù)學(xué)上來講,它有機地結(jié)合了隨機上下文無關(guān)語法模型(SCFG)與馬爾可夫隨機場(MRF),得到隨機上下文相關(guān)圖像語法,同時從數(shù)學(xué)上定義一個視覺概念;它能完整地表示物體的結(jié)構(gòu)、幾何、外觀以及概率方面的信息和模型。與或圖的定義是通過遞歸方式進行的,為此它能非常容易地通過合并來產(chǎn)生更大的與或圖。

通過與或圖這樣一種統(tǒng)一建模表示框架,從圖像中識別物體的推理計算就表現(xiàn)為通過圖像自底向上地對圖像數(shù)據(jù)進行計算,同時結(jié)合所建立的物體與或圖表示模型作為自頂向下的視覺知識指導(dǎo),共同來求解圖像的解譯圖(parse graph)。其中每個節(jié)點的標注(label)表示識別結(jié)果,同時解譯圖將物體的分解情況和各種關(guān)系情況,通過一個圖結(jié)構(gòu)表示附加在圖像上。這與傳統(tǒng)的識別算法中只是簡單地通過給圖像中的每個區(qū)域賦一個物體類別的標號相比,對物體識別和表示有了更加全面的解釋,更符合人的認知機理,也能支撐后期更上層視覺中更多的實際應(yīng)用開發(fā)。

1. 2 圖像解譯

對與或圖G作一次遍歷就可以產(chǎn)生一個解譯圖PG。其中必須滿足兩種限制:a)或節(jié)點開關(guān)變量概率與其在實際圖像訓(xùn)練集中出現(xiàn)頻率的匹配,如同在隨機上下文無關(guān)語法(SCFG)中的做法一樣;b)每個節(jié)點與真實圖像塊之間的各種統(tǒng)計特征的匹配,如Frame模型[21]的方法。解譯圖PG的概率為如下的Gibbs形式:

p(G,Θ)=(1/Z)(Θ)p(t)exp{-E(g)}

其中:E(g)是總能量,非參數(shù)形式,用來表示所必須滿足的能量約束情況,它需要通過從實際正樣本中學(xué)習(xí)得到:

E(g)=log(p(T))+∑i∈T∑R1Na=1αai(a(ti))+∑〈i,j〉∈V∑R2Nb=1βbi,j(b(vi,vj))

總能量中,第一項表示隨機上下文無關(guān)語法;第二項對節(jié)點自身的幾何和外觀屬性進行約束;第三項對節(jié)點間一致性和相容性進行約束,即對相互的空間和語義關(guān)系進行能量約束。通常使用的是馬爾可夫隨機場來建模,所以該模型整合了SCFG和傳統(tǒng)的MRF模型。

完整標注后的圖像包括如下幾個部分:

a)解譯圖。標注圖像的分解結(jié)果,包括物體的屬性、命名、相互間的關(guān)聯(lián)信息等。

b)物體。標注圖像中的視覺對象實體,包括物體本身,或物體分解的部件。

c)與或圖(and-or raph)。視覺數(shù)據(jù)的知識模型。

d)模板(template)。同一類數(shù)據(jù)在形狀空間上可能重復(fù)出現(xiàn)的模式。常規(guī)標注任務(wù)中,每個物體均和與或圖的某個葉子節(jié)點上的模板相關(guān)聯(lián)。

圖2是將一張圖片解譯的例子。圖像首先分解為物體和背景,然后物體(自行車)再分解成各個組成部分。如果圖像分辨率足夠清晰,部分仍然可以繼續(xù)分解(如圖3(h)中的學(xué)生)。解譯過程對應(yīng)解譯圖中自頂向下的箭頭,生成解譯樹;進一步通過設(shè)置物體間的關(guān)系,如遮擋和支撐關(guān)系,來描述場景內(nèi)物體的組織結(jié)構(gòu),即添加水平連接表示關(guān)系,將解譯樹擴充成解譯圖

標注內(nèi)容包括線描圖(sketch)、圖像區(qū)域塊(region patch)、遮擋線以及一些其他屬性線等。同時還按照與或圖的規(guī)范對解譯樹的每個物體節(jié)點命名。每一個線描圖對應(yīng)與或圖中的一個與其形狀最接近的線描模板。如果沒有相似模板,則該線描圖被導(dǎo)入到與或圖中成為新模板。根據(jù)不同的視覺任務(wù),標注數(shù)據(jù)還包括了一些其他信息,如場景事件信息、三維信息等。

目前,筆者已經(jīng)得到了幾百類物體、場景的與或圖,以及相應(yīng)的標注結(jié)果。圖3給出了幾種不同標注任務(wù)的結(jié)果示例。

其中:(a)為物體類別的與或圖; (b)為線描標注; (c)為人臉標注; (d)為三維場景標注; (e)為文本標注; (f)為航拍/衛(wèi)星圖像標注,只標出目標的區(qū)域塊; (g)為體育場景標注,含分割、地平面、人體骨架和臉部等的標注; (h)為物體的解譯圖。 

2 數(shù)據(jù)庫設(shè)計

在標注階段,視覺數(shù)據(jù)是以圖像為單位。在數(shù)據(jù)庫中,視覺模型的實例變成以標注的物體為單位。解譯圖中的每個節(jié)點、每個物體均作為一個數(shù)據(jù)實體記錄在數(shù)據(jù)庫中。

怎樣將這么多種類不同的復(fù)雜數(shù)據(jù)有機地組織起來,并且橋接好視覺模型與標注數(shù)據(jù)之間的聯(lián)系,是筆者在為數(shù)據(jù)集設(shè)計數(shù)據(jù)庫時遇到的最主要問題。最終使用一個兩層架構(gòu)來設(shè)計數(shù)據(jù)庫,設(shè)計為視覺知識的概念模型與標注數(shù)據(jù)兩部分,進行分層管理。

數(shù)據(jù)庫由兩個邏輯層次組成,第一層記錄模型,含與或圖及模板數(shù)據(jù);第二層記錄標注數(shù)據(jù)。

圖4是這個兩層數(shù)據(jù)庫模型的示意圖。第一層記錄的是與或圖數(shù)據(jù),即視覺模型;第二層是對圖像進行解譯的標注數(shù)據(jù),以物體為記錄單位。兩層之間數(shù)據(jù)的映射關(guān)系也是一種標注數(shù)據(jù),代表著從知識模型到數(shù)據(jù)之間的關(guān)聯(lián)。通過這個有兩個概念層次的數(shù)據(jù)庫結(jié)構(gòu)可以將模型與數(shù)據(jù)有機組織起來。而怎樣對這兩層數(shù)據(jù)進行索引是解決問題的關(guān)鍵。

2. 1 與或圖數(shù)據(jù)索引

使用類別(category)樹上的虛擬節(jié)點來組織管理大量的與或圖。第一層的與或圖數(shù)據(jù),按物體類別索引。如圖5(a)所示,增加一個虛擬的物體類別樹來管理數(shù)量眾多的視覺知識模型。物體類別樹是對物體分類的一個層次化的虛擬概念,每個虛擬節(jié)點可鏈接到一個含真實數(shù)據(jù)的樹狀與或圖上。圖5(b)是該層數(shù)據(jù)的管理界面。樹型列表的每一個節(jié)點均可被移動、刪除、重命名,或者創(chuàng)建新節(jié)點。每個葉子節(jié)點均可綁定一個與或圖,而與或圖中的每個葉子節(jié)點對應(yīng)一個模板。這樣,圖4第一層所給出的三部分數(shù)據(jù)便可互相關(guān)聯(lián)起來。

物體類別樹可重新配置,這樣,既可重新聚合出新的物體類別,也可實現(xiàn)不同類別的與或圖共享。例如,現(xiàn)有汽車與飛機兩個類別的與或圖可以在物體類別樹這兩個對應(yīng)節(jié)點之上,插入一個命名為交通工具的父節(jié)點,這樣,這兩類物體的概念模型以及它們相關(guān)聯(lián)的數(shù)據(jù)全部可以聚合成一個新類別——交通工具。這種靈活配置的方式,對于適應(yīng)不同需求的數(shù)據(jù)查詢與輸出,尤為有用。

2. 2 物體數(shù)據(jù)的索引

數(shù)據(jù)庫的第二層管理的是標注數(shù)據(jù)。由于每個標注物體都是與或圖中某個節(jié)點的實例,使用與或圖數(shù)據(jù)作為第二層標注數(shù)據(jù)的索引。

在數(shù)據(jù)庫中,物體數(shù)據(jù)記錄了標注的點、線結(jié)果。這些數(shù)據(jù)按照素描方式標注形成的數(shù)據(jù)單元稱為subgraph;按照區(qū)域分割方式標注的數(shù)據(jù)單元稱為region。如圖6所示,正常流程標注的物體包括了相應(yīng)的subgraph和region兩部分數(shù)據(jù),均被完整存儲在數(shù)據(jù)庫中,對應(yīng)圖4中第二層的PO低層數(shù)據(jù)部分。

PO的線描與區(qū)域兩類數(shù)據(jù)均分層存儲,自頂向下依次是subgraph/region、curve、linelet和node。 

一張解譯圖中,物體對應(yīng)的語法信息也被數(shù)據(jù)庫記錄。每個物體并不是孤立的,它們在解譯樹中有父節(jié)點,彼此之間也按照圖語法定義有聯(lián)系;除此以外,每個物體均對應(yīng)著原始的分割圖像。這幾部分內(nèi)容也都被數(shù)據(jù)庫所記錄,參見圖4第二層的相應(yīng)部分。

按照標注規(guī)則,每個物體均對應(yīng)某個類別的與或圖,所以它還和與或圖中某一節(jié)點下的模板相匹配,這種映射將分別管理的兩個概念層次的數(shù)據(jù)聯(lián)系起來。具體實現(xiàn)是在庫表中使用外鍵,將物體、與或圖、模板相關(guān)聯(lián)。

3 數(shù)據(jù)查詢與輸出

3. 1 數(shù)據(jù)查詢

圖7是數(shù)據(jù)查詢、瀏覽與輸出工具。根據(jù)不同的關(guān)鍵字能分別對物體類別、與或圖、模板、標注物體數(shù)據(jù)(線描圖、圖像塊等)進行單獨查詢或瀏覽,從而方便地按需獲取不同類型的數(shù)據(jù)。該功能專門用于數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入、數(shù)據(jù)檢查、實驗數(shù)據(jù)查詢獲取等用途,它能滿足數(shù)據(jù)庫建設(shè)階段對數(shù)據(jù)查閱的各種需求,如查看同一目標不同標注任務(wù)的結(jié)果;檢查每個樣本標注結(jié)果的正確與否;枚舉每類物體或每個模板的樣本等。而基于其他應(yīng)用的數(shù)據(jù)庫查詢功能,可以使用編程接口進一步按需定制。除了圖7所示的數(shù)據(jù)瀏覽功能外,還為數(shù)據(jù)庫管理提供了簡單統(tǒng)計查詢功能。圖中從左到右五列依次為類別管理器、模板、線描圖、區(qū)域分割圖像和原始圖像。

3. 2 數(shù)據(jù)輸出

與其他數(shù)據(jù)集不同的是,本系統(tǒng)可提供的數(shù)據(jù)結(jié)果類型比較豐富,而不局限于物體的邊緣分割或外輪廓結(jié)果,包括原圖像、分割結(jié)果、物體邊界輪廓、物體或場景的線描結(jié)果、感興趣部件的圖像塊、含物體分解部件名稱與物體之間關(guān)系的圖像解譯樹、三維場景標注結(jié)果、經(jīng)過標注的單個物體的視頻序列、去掉發(fā)際的人臉樣本庫以及一些特定任務(wù)的事件信息等。

除了圖像文件,標注信息使用結(jié)構(gòu)化的XML文件來組織記錄,包括了物體標注的所有細節(jié)數(shù)據(jù),如圖6所示的從點線坐標到的物體層的概念集合等具體數(shù)據(jù)、圖像解譯樹的完整信息以及上面提到的其他標注結(jié)果。此外,樣本引用的視覺模型信息也可根據(jù)配置一并使用XML文件輸出,包括對應(yīng)的模板數(shù)據(jù)以及該類別的與或圖。

3. 3 聯(lián)機訪問

對數(shù)據(jù)庫的使用,不僅要能保存、管理和發(fā)布標注數(shù)據(jù),還提供了一系列可遠程訪問的、實現(xiàn)了完整的數(shù)據(jù)查詢與操作的編程接口,從而可根據(jù)查詢請求,由服務(wù)器動態(tài)地生成XML結(jié)果。

有了這種能力,便能按照不同的應(yīng)用需求搭建特定的Web前端服務(wù)來連接后臺數(shù)據(jù),用這種方式可拓展數(shù)據(jù)庫數(shù)據(jù)的應(yīng)用范圍。例如第4章的實驗,它是標注工具的一種自動功能,但也可以通過添加合適的前端Web服務(wù)程序改成在線的剪貼畫查詢。

另一方面,隨著計算機視覺學(xué)科的發(fā)展,該領(lǐng)域算法在機器學(xué)習(xí)時所需的數(shù)據(jù)量大得不再適合在個人終端上孤立處理,為單機的訓(xùn)練、學(xué)習(xí)準備數(shù)據(jù)相當(dāng)耗費時間和空間資源。通過提供的編程接口,不同的人或程序便能聯(lián)機在線學(xué)習(xí),能充分發(fā)揮數(shù)據(jù)庫在數(shù)據(jù)共享上的方便與高效性。通過在線學(xué)習(xí),有效地利用經(jīng)過數(shù)據(jù)庫合理組織的數(shù)據(jù),是目前對蓮花山大型標注數(shù)據(jù)庫的一個重要用途。

4 數(shù)據(jù)庫應(yīng)用

數(shù)據(jù)的搜集與人工標注過程,經(jīng)常需要查找?guī)熘械默F(xiàn)有數(shù)據(jù)內(nèi)容,靠人工瀏覽容易引起標注畫師的疲勞。由于查看的內(nèi)容是經(jīng)過標注去除了背景的目標,在這類良好的數(shù)據(jù)上可使用算法來輔助。

這里給出一個通過編程接口直接在數(shù)據(jù)庫上作內(nèi)容檢索的例子。這個算法被作為一種自動功能添加到標注軟件中,目的是在標注的過程中,由程序自動快速地尋找?guī)熘幸呀?jīng)存在的類似內(nèi)容,既可避免添加太相似的數(shù)據(jù)、減少重復(fù),又可給出相似樣本供標注時參考。

用最近鄰方法對數(shù)據(jù)庫的內(nèi)容進行檢索,定義兩張圖像的距離,將檢索目標與數(shù)據(jù)庫中的樣本進行最近鄰排序計算,取出排序靠前的若干輸出作為檢索結(jié)果。筆者使用HSI色彩空間作為特征,每張圖像被投影到HSI色彩空間上。其中H占16個級別,S和I各四個級別,組合后是一個256級的直方圖。兩張圖像通過插值直方圖投影到特征空間后,距離定義為

D(obj1,obj2)=L1(H1,H2)=∑256i=1|h1i-h2i|

根據(jù)HSI距離,用給定的測試樣本在30類物體圖像上進行檢索實驗,能得到同類相似的圖像物體。圖8輸出了其中13個類別、各取一個檢索樣本的檢索結(jié)果。前10行是效果較好的類別。其中滅火筒、熊貓頭、自行車、直升機幾類準確率相對更高,說明這些類別的物體,經(jīng)過去除背景以后,可以通過色彩空間特征快速有效地進行檢索。后三行望遠鏡、手提包、手槍的準確率較差,說明這幾類物體并不適合使用顏色特征來進行內(nèi)容檢索,或是存在一些相近類別的干擾項,需進一步考慮其他特征才能進行有效的內(nèi)容檢索,如SIFT點聚類或者是形狀匹配等方法。

筆者將類似功能添加到標注軟件中。使用時,輸入的是在標注圖像中圈出的物體目標,得到的是檢索出來的數(shù)據(jù)庫中與目標相似的現(xiàn)有樣本。實驗證明,色彩檢索對經(jīng)過標注去除了背景干擾的目標圖像具有可用性。盡管只對部分類別有效,但作為一種自動功能,對人工標注工作仍然有加速、輔助的效果。

5 結(jié)束語

本文介紹了使用與或圖作為視覺知識表達模型,指導(dǎo)蓮花山圖像數(shù)據(jù)集的標注以及為此而專門設(shè)計的數(shù)據(jù)庫。采用與或圖作為圖語法描述工具,可以高效并且靈活地適應(yīng)不同類型的標注任務(wù)。據(jù)此設(shè)計了一個兩層數(shù)據(jù)庫,可以準確、靈活地容納眾多類型不同而又互相關(guān)聯(lián)的負責(zé)數(shù)據(jù),并可以方便地進行查詢、數(shù)據(jù)提取、輸出、聯(lián)機訪問。最后給出基于色彩的圖像內(nèi)容檢索的應(yīng)用示例,證明經(jīng)過標注的圖像數(shù)據(jù)可用于特定的自動算法,幫助提高標注效率。

數(shù)據(jù)庫的改進工作仍在進行中。由于標注任務(wù)與標注流程的差異,與或圖是按照場景或物體類別分別建立的。一個物體類別的與或圖節(jié)點還不能直接引入到一個場景類別的與或圖中,這為數(shù)據(jù)的進一步共享、交叉引用帶來了困難。例如,汽車類別中的一輛小汽車圖像與航拍場景圖像中標注的某一輛小汽車盡管屬于不同的標注任務(wù),但它們可能是同一個目標的不同視角的圖像,應(yīng)該使用同一個與或圖節(jié)點,從而將同一目標的兩種標注數(shù)據(jù)綁定關(guān)聯(lián)起來。這些均需要做更多工作,才能在不損害當(dāng)前數(shù)據(jù)關(guān)聯(lián)信息的前提下,實現(xiàn)更靈活的數(shù)據(jù)共享與交叉引用。

本文工作是筆者在蓮花山研究院從事課題研究期間完成的,特此致謝。

參考文獻:

[1]Lotus Hill Institute. LHI image dataset[EB/OL]. http://www.imageparsing.com.

[2]YAO Zhen-yu, YANG Xiong, ZHU Song-chun. Introduction to a large scale general purpose groundtruth dataset:methodology, annotation tool, and benchmarks[C]//Proc of the 6th Intermational Conference on Energy Minimization Method in Computer Vision and Pattern Recognition. Berlin:Springer,2007:169-184.

[3]WU Tian-fu, XIA Gui-song, ZHU Song-chun. Compositional boosting for computing hierarchical image structures[C]//Proc of IEEE Conference on Computer Vision and Recognition. DC:IEEE Press, 2007. 

[4]SUO Jin-di, MIN Feng, ZHU Song-chun. A multi-resolution dynamic model for face aging simulation[C]//Proc of IEEE Conference on Computer Vision and Recognition, 2007.

[5]LIN Liang, ZHU Song-chun, WANG Yong-tian. Layered graph match with graph editing[C]//Proc of IEEE Conference on Computer Vision and Recognition. 2007:1-8.

[6]PENG Shao-wu, LIN Liang, PORRWAY J, et al. Object category recognition using generative template boosting[C]//Proc of the 6th Intermational Conference on Energy Minimization Method in Computer Vision and Pattern Recognition. Berlin: Springer,2007:198-212.

[7]MIN Feng, SUO Jin-li, ZHU Song-chun, et al. An automatic portrait system based on and-or graph representation[C]//Proc of the 6th International Conference on Energy Minimization Method in Computer Vision and Pattern Recognition. Berlin: Springer,2007:185-197.

[8]GAO Ru-xin, WU Tian-fu, SANG Nong, et al. Bayesian inference for layer representation with mixed Markov random field[C]//Proc of the 6th International Conference on Energy Minimization Method in Computer Vision and Patter Recognition. Berlin: Springer,

2007:213-224.

[9]LIN Liang, PENG Shao-wu, PORWAY J, et al. An empirical study of object category recognition: sequential testing with generalized samples[C]//Proc of the 11th IEEE International Conference on Computer Vision. 2007.

[10]WU Ying-nian, SI Zhang-zhang , FLEMING C, et al. Deformable template as active basis[C]//Proc of the 11th IEEE International Conference on Computer Vision, 2007.

[11]ZHU Song-chun, MUMFORD D. Quest for a stochastic grammar of images[J]. Foundations and Trends in Computer Graphics and Vision, 2006,2(4). 

[12]CHEN Hong, XU Zi-jian, LIU Zhi-qian, et al. Composite templates for cloth modeling and sketching[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2006:943-950. 

[13]RUSSEL B C, TORRALBA A, MURPHY K P. LabelMe: a database and Web-based tool for image annotation, MIT-CSAIL-TR-2005-056[R]. 2005.

[14]LI Fei-fei, FERGUS R, PERONA P. One-shot learning of object cate-gories[J]. IEEE Trans on Pattern Recognition and Machine Intelligence, 2006,28(4): 594-611.

[15]GRIFFIN G, HOLUB A, PERONA P. Caltech 256 object category datset, CNS-TR-2007-001[R]. 2007.

[16]LEIBE B, SCHIELE B.Analyzing appearance and contour based methods for object categorization[C]//Proc of IEEE Conference on Computer Vision and Pattem Recognition. 2003: 409-415.

[17]MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics, UCB/CSD-01-1133[R]. 2001.

[18]BARNARD K, FAN Q F, SWAMINATHAN R, et al. Evaluation of localized semantics: data, methodology, and experiments, TR-05-08[R]. 2005.

[19]TORRALBA A, MURPHY K P, FREEMAN W T. The MIT CSAIL database of objects and scenes[EB/OL]. http://web.mit.edu/torralba/www/database.html.

[20]SCHROFF F, CRIMINISI A, ZISSERMAN A. Harvesting image databases from the Web[C]//Proc of the 11th IEEE International Conference on Computer Vision. 2007.

[21]MARK K, MILLER M, GRENANDER U. Constrained stochastic language models[J]. IMA Volumes in Mathematics and Its Applications, 1999,80:131-140.

主站蜘蛛池模板: 57pao国产成视频免费播放| 久久婷婷六月| 91网址在线播放| 免费国产不卡午夜福在线观看| 毛片视频网址| 伊人狠狠丁香婷婷综合色| 国产乱子伦视频在线播放 | 鲁鲁鲁爽爽爽在线视频观看 | 午夜啪啪福利| 欧美不卡视频一区发布| 在线日本国产成人免费的| 国产一区成人| 久久精品亚洲热综合一区二区| 午夜精品区| 国产凹凸一区在线观看视频| 亚洲视频免费在线看| 玩两个丰满老熟女久久网| 亚洲熟妇AV日韩熟妇在线| 国产精品免费福利久久播放| 热re99久久精品国99热| 国产永久免费视频m3u8| 好紧太爽了视频免费无码| 欧美特黄一级大黄录像| 色婷婷成人| 亚洲电影天堂在线国语对白| 久久免费成人| 久久精品国产亚洲麻豆| 久久亚洲精少妇毛片午夜无码 | 国产精品视频3p| 久久久国产精品免费视频| 99精品福利视频| 亚洲第一成年免费网站| 国产美女无遮挡免费视频| 国产女人18水真多毛片18精品| 女人18毛片久久| 福利片91| 日本国产在线| 亚洲免费成人网| 日韩一区二区在线电影| 最新国产麻豆aⅴ精品无| 精品国产网| 在线国产综合一区二区三区| 国产高清在线精品一区二区三区| 91伊人国产| 欧美日韩国产在线播放| 国产在线一区二区视频| 久久久精品无码一二三区| 国产麻豆福利av在线播放| 欧美激情,国产精品| 人人妻人人澡人人爽欧美一区| 综合天天色| 国产欧美日本在线观看| 91啪在线| 永久在线精品免费视频观看| 亚洲精品你懂的| 国产视频 第一页| 国产91特黄特色A级毛片| 免费啪啪网址| 99久久99视频| 老熟妇喷水一区二区三区| yjizz视频最新网站在线| 国产在线91在线电影| WWW丫丫国产成人精品| 97人人做人人爽香蕉精品| 国产女主播一区| 在线观看亚洲成人| 在线观看国产精品一区| 久草视频精品| 无码国产伊人| 97免费在线观看视频| 99在线观看国产| 亚洲精选无码久久久| 午夜在线不卡| 第一区免费在线观看| 亚洲三级电影在线播放| 国产爽妇精品| 91福利免费| 久草性视频| 色呦呦手机在线精品| 亚洲日韩Av中文字幕无码| 亚洲中文精品人人永久免费| h网站在线播放|