999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義信息的圖像理解關鍵問題研究

2009-01-01 00:00:00
計算機應用研究 2009年4期

(嘉興學院 數學與信息工程系, 浙江 嘉興 314000)

摘 要:

為了縮短介于低層視覺特征與高層語義特征之間的“語義鴻溝”距離,提出了急需解決的兩大關鍵問題。首先按語義抽象程度給出了一種圖像語義層次模型,著重分析與比較了四種語義信息提取方法的特點和存在問題;然后介紹了幾種典型的語義特征相似性度量方法,闡述了目前圖像理解應用的研究現狀;最后搭建了圖像語義理解框架,討論了智能圖像語義理解的未來研究趨勢。

關鍵詞:圖像理解; 語義信息; 圖像層次模型; 特征表示與提取; 相似性度量

中圖分類號:TP391.4文獻標志碼:A

文章編號:10013695(2009)04123407

Research on key problems of image understanding based on semantic information

ZHU Rong

(Dept. of Mathematics Information Engineering, Jiaxing University, Jiaxing Zhejiang 314000, China)

Abstract:

This paper presented two key problems to shorten “semantic gap” distance between lowlevel visual features and highlevel semantic features. First, according to the abstract degree of semantic information, set up a kind of image hierarchical model, and analyzed the characteristics and limitations of four semantic extraction methods in detail. Then, compared some representative similarity measures, and illustrated application research status in this field. Finally, based on the framework of image semantic understanding, discussed the development directions and research emphases.

Key words:image understanding; semantic information; image hierarchical model; feature representation and extraction; similarity measure

圖像理解位于圖像工程三個層次中的頂層,其重點是在圖像處理與分析的基礎上,結合人工智能和模式識別理論,解釋客觀場景并分析圖像內容,從而指導和規劃人類行為[1]。近幾年來,圖像理解,尤其是基于語義信息的圖像理解,已經成為一個研究熱點,并成為數字化圖書館、多媒體信息檢索等重大研究項目的核心技術[2,3]。圖像語義理解由圖像的感知內容去推斷語義內容,這種推斷建立在所掌握的概念和日積月累的經驗之上,因此,圖像理解也是一個基于知識的理解過程。圖像語義理解的最終目標是滿足用戶需求。隨著多媒體和網絡技術的迅猛發展,Web圖像資源與日俱增,如何充分理解圖像所包含的隱含語義內容、如何真正有效地利用圖像信息資源,如今已經成為一個重要的課題。

傳統的圖像資源利用大多借助于低層視覺特征,如顏色、紋理、形狀、輪廓,實質上是計算機對圖像內容的理解。然而,一幅圖像勝過千言萬語,圖像的語義信息遠遠比視覺特征所能表達的要豐富得多。圖像的低層視覺特征僅僅代表視覺信息,忽略了圖像內容所包含的語義信息,與人類對圖像的理解存在一定的差異。這種在計算機圖像理解與人類圖像理解之間存在著的客觀區別,也即圖像低層視覺特征與高層語義特征之間存在著的較大距離,被稱為“語義鴻溝”。基于語義層次上的圖像理解研究是解決“語義鴻溝”問題的重要技術,其關鍵問題有兩個:a)建立低層視覺特征與高層語義特征之間的相互映射;b)基于圖像抽象的語義表示度量圖像間的相似性。

近年來,許多從事圖像視覺研究的人員已經認識到語義研究在圖像理解中的重要性,但并沒有將基于語義信息的圖像理解作為一個智能信息處理領域進行全面的系統性研究。本文圍繞解決該領域中的“語義鴻溝”的兩大關鍵問題,在查閱大量國內外最新研究進展的基礎上,對圖像語義理解的核心技術與應用現狀進行了闡述,并試圖給出有關圖像語義理解的一個全面概述。

1 語義層次模型

圖像語義是指用戶能夠從圖像中所得到的信息,既包括對圖像中存在的對象及對象之間空間關系的理解,也包括對隱含在圖像背后更為豐富概念和內容的感受。圖像語義模型是圖像語義直觀形象的描述形式。通過語義模型,能使用戶了解和掌握如何從圖像中提取語義特征,對于更好地理解和應用圖像的語義信息有著重要作用。由于語義信息的抽象性和復雜性,一般圖像語義模型的建立是分層次的。

Eakins[2]將圖像語義模型分成三個層次:a)原始特征(primitive feature)位于底層,用于描述顏色、紋理、形狀、邊緣等視覺特征;b)中間層的邏輯特征(logical feature)由視覺特征推導得到;c)最高層為抽象特征(abstract feature),是對圖像中的對象和場景進行深層推理得到的語義。Colombo等人[4]根據各種特征表達圖像語義程度的不同,構建一個包含有感知特征(perceptual feature)、表達特征(expressive feature)和情感特征(emotional feature)的綜合語義表示框架。感知特征層由圖像的視覺元素組成,與視覺感知直接相連,該層上的規則將低層特征映射到更接近于人類意識的兩個語義層;表達特征層通常依賴于客觀性的集體文化背景,將來自下層的視覺特征按空間分布組織成結構化語義特征;情感特征層位于整個框架的最上層,需要對目標和場景的語義進行深層推理,與表達特征層不同,該層依賴于主觀性的個人心理感受。Jaimes等人[5]提出一個五層圖像表示模型,包括區域層(region)、感知區域層(perceptualarea)、對象部件層(objectpart)、對象層(object)和場景層(scene)。其中,區域層是圖像中分割出來的連通區域;感知區域層是相鄰且感知相似的區域集合;對象部件層由多個感知區域組成。這三層通過分析圖像中對象模型的視覺特征得到一個由小及大的組合過程。對象層根據位置信息和空間關系推導對象語義;場景層被定義為場景模型集合上的一組對象和場景的全局語義描述。

盡管以上幾種圖像語義模型的各層定義不盡相同,但本質上都是將圖像語義信息的抽象程度的差異作為分層原則,因此可以得到一個通用的三層結構的圖像語義模型,如圖1所示。

三層結構的圖像語義模型形成了一個自下而上的語義信息分析與處理過程。下層語義層將圖像特征進行加工處理后把有用的語義信息傳到上一層,經過逐級提煉使圖像表示更接近于人類的抽象思維,圖像語義信息也更具現實意義。視覺層包含顏色、紋理、形狀等原始視覺特征,對應的特征語義可以直接由圖像處理得到,不需要任何外部知識和經驗,因而無法很好地表達人類對圖像的語義理解。對象層包含圖像中對象的個體特征及對象之間空間關系的局部特征,對應的語義信息需要經過淺層的邏輯推理獲取,因此有必要利用外部知識與經驗加以輔助。概念層包含圖像的抽象屬性,對應涉及目標或場景表示及更高層次的行為或情感分析的語義特征,因此需要經過復雜的深層推理和主觀判斷將圖像內容與抽象概念聯系起來。通常稱此圖像語義層次模型中的視覺層為低層語義;對象層與概念層合稱為高層語義,它是目前圖像語義理解關注的重點。將低層語義與高層語義之間的差距定義為“語義鴻溝”,實質上是非語義與語義之間的真正差異所在。

2 語義信息的表示

圖像語義信息是圖像所能表達出來的客觀感知和主觀感受。由于圖像理解是面向用戶的,不同用戶之間知識背景的差異使得對圖像的語義需求也不盡相同,甚至對相同圖像也會有截然不同的解釋。圖像語義理解固有的模糊性致使語義信息表示也存在著一定的模糊性。圖像語義信息的表示實質上是一種知識的表示,因此用語義網絡和屬性關系圖、基于邏輯的表達、產生式系統、框架和框架網、不確定性表達、基于agent表示等知識表示方法會更加合理與有效。這些知識表示方法不但能夠表達復雜的語義關系,而且具備一定的模糊匹配能力。近期也有另外的基于知識的表示方法被提出。

Li等人[6]采用一個五元組〈x,T(x),U,G,M〉的語言變量(linguistic variable)描述圖像的語義特征。其中:x為變量名;T(x)為與x的變量值對應的模糊集合;U為論域;G為產生T(x)中部分元素的語法規則;M為控制變量值的模糊性含義產生的語義規則。用語言變量表示語義信息能方便地通過構造語言表達式去描述圖像內容,并能在沒有領域知識的情況下,成功地用遺傳算法建立從低層視覺特征到高層語義特征的映射關系。然而,該方法只將語言變量應用到圖像紋理語義特征的描述上,并未進行其他語義特征的拓展研究。Lombardi等人 [7]利用多尺度樹(multiscale tree)描述圖像語義,是一種既考慮結構又考慮半符號域信息的表示方法。圖像中對象用樹型表示;樹中每個節點對應到分解的邊界段上,并用向量(包括曲率、長度、邊界段的對稱性等)表示;當鄰接層中的邊界段在空間上相關時,用弧連接上下兩層節點。識別過程采用面向模糊神經網絡的遞歸訓練過程的并行2D形狀識別方法,并應用到飛機形狀識別系統中。此方法也存在一些缺陷,如無法很好地處理變形對象,缺乏對已學習原型的理解而導致效率受到影響。

在不同語義層次上對圖像內容進行分析與描述是一種目前被廣泛接受的語義信息表示方法,可以實現從低層到高層的漸進式圖像理解過程。高永英等人[8]給出一種基于多級描述模型的圖像語義表示,利用基于先驗知識的上下文驅動算法在不同層次上對圖像內容進行分析。Chou 等人[9,10]在一個分層知識結構的基礎上,用層次分析法(AHP)提取圖像的語義特征,實現圖像語義理解建模。該模型將專家評價融入到系統中,評估圖像語義表示的適應度,從而使低層特征到高層結構知識的映射更為方便。盡管這種語義分層表示法避開了圖像分割的問題,但是當存在外部干擾或外界因素影響時,如何保存圖像各語義層之間的相互關系還有待解決。

3 圖像語義的提取

語義提取的有效性很大程度上影響了圖像理解的準確性。由于高層語義特征不與可視化屬性一樣可以直接提取,需要經過一個從視覺特征到語義特征的非線性映射,要縮短“語義鴻溝”十分困難。根據語義信息的來源不同,圖像語義提取方法可以分為四類,即基于處理范圍的方法、基于機器學習的方法、基于人機交互的方法、基于外部信息的方法。

3.1 基于處理范圍的方法

按照特征提取范圍的大小分為基于區域的提取方法與基于全局的提取方法。基于區域的提取方法是在圖像分割和對象識別的前提下進行,利用對象模板、場景分類器等,通過識別對象及對象之間的拓撲關系挖掘語義,生成對應的場景語義信息。Wang等人[11]開發的Simplicity系統在區域分割基礎上提取視覺特征,并運用統計方法根據區域的隱含語義為圖像分類,得到一些語義類(如紋理—非紋理、室內—室外、圖片—照片)。Jeon等人[12]提出的交叉媒體相關模型(CMRM)是一種基于區域特征提取的圖像標注和檢索模型。首先以顏色、形狀等特征對分割后的圖像區域進行聚類,形成少量BLOB;然后通過CMRM模型計算出BLOB與某些關鍵詞共同出現的聯合概率。

然而,現實世界中的圖像理解并不一定需要針對目標的精確分割(強分割),而是可以根據用戶的不同需求,分割出圖像中相對同質的區域(弱分割)提取關鍵特征。其次,Navon[13]的心理學研究表明,通常在人類視覺感知中,全局特征優先于局部特征,即“forest before tree”策略。因此,基于弱分割或直接利用全局語義特征的方法更有利于提高處理速度與效率。Fan等人[14]提出一種弱分割語義特征提取方法。為突出用于區分不同語義的圖像特征,挖掘圖像中概念相關(conceptsensitive)的顯著對象之間的上下文連接關系,并建立概念相關的顯著對象與最大相關語義信息之間的統計模型。Li等人[6]給出利用遺傳算法提取圖像紋理的全局語義特征的方法,并通過實驗表明:全局語義特征不但能有效捕捉到圖像的整體紋理語義,而且能很好地與人類視覺感知相一致。Li等人[15]采用2D隱馬爾可夫模型提取圖像的全局語義特征。

盡管基于區域的特征提取方法在描述語義信息上比單純基于全局的方法更靈活,但需要精確度高的圖像分割和對象識別技術的支持。折中圖像語義特征提取質量與復雜度的途徑是融合局部與全局表示,形成逐步細化的多尺度圖像語義特征提取方法。

3.2 基于機器學習的方法

機器學習中有兩類不同的學習方法,即概率學習(研究在樣本數趨向無窮大時的狀況)和統計學習(研究在樣本數目足夠多時的狀況),因此基于機器學習的語義特征提取方法也可以分成基于概率的方法和基于統計的方法。基于概率的方法用隨機數學模型描述圖像語義特性,并建立概念模式分類器。Luo等人[16]利用貝葉斯網絡(BN)將低層特征與語義信息相結合用于圖像理解,并采用自底向上提取視覺特征和自頂而下提取語義特征的雙向控制策略。Aksoy等人[17] 提出一個以縮短低層特征與高層語義差距的貝葉斯框架,包括在像素的光譜、紋理及其他屬性上的自動融合、在分割的圖像區域上的反復分裂—合并算法、根據區域之間的空間關系為圖像建模等。樸素貝葉斯分類器(NBC)被用于訓練和學習用戶給出的正例和反例,從而得到相關語義特征。

支持向量機(SVM)是建立在統計學習理論的結構風險最小化原則之上,其原理是在高維空間中尋找一個超平面對樣本進行分類,使分類錯誤率最小。Han等人[18]融合基于多示例學習的SVM和基于全局特征的SVM來提取圖像語義。基于多示例學習的SVM被應用到3×3大小的圖像子塊中獲取圖像特征;基于全局特征的SVM合并MPEG7顏色描述子和改進的邊緣直方圖描述子以彌補基于多示例學習的SVM在處理圖像RST變形問題上的不足。Goh等人[19]采用oneclass、twoclass和multiclass SVM實現圖像語義特征的提取。該方法利用一個基于置信度的動態集成(CDE)算法,將表示類預測正確性的置信度因子逐層傳播到多類SVM中,通過不斷用置信度因子動態調整分類器以改進類預測的準確性,并積累新的語義信息。

基于機器學習的語義提取方法可以最大限度地減少人工干預,為今后實現真正語義層次上的智能圖像語義提取打下基礎,然而這類方法在現實世界中使用時會受到一些限制。例如,BN中的信念傳播算法是一個NP難問題,為了讓BN框架在實際應用中易于處理,必須事先使用網絡結構、條件獨立性、不確定的條件和先驗概率等假設。

3.3 基于人機交互的方法

基于人機交互的語義提取方法包括圖像預處理和反饋學習兩個方面。早期的對圖像庫中的圖像進行人工標注就是一種簡單的圖像預處理方式。反饋學習是在提取語義的過程中加入人工干預,通過用戶與系統之間的反復交互改進圖像的語義提取方法,建立和修正與圖像內容相關聯的高層概念,構建相對真實的語義映射網絡。

Liu等人[20]提出一種半自動策略對圖像語義進行標注。當用戶針對關鍵字或示例進行查找時,可對系統給出的圖像進行相關性判定,同時系統根據用戶的反饋產生或修改圖像語義標志。He等人[21]從短期學習與長期學習兩方面,利用用戶反饋構造獲取語義特征的學習框架。長期學習策略用于從圖像內容和人機交互中學習語義,進而推導語義空間;短期學習過程采用錯誤驅動學習算法和SVM訓練算法對來自用戶當前反饋的正例和反例進行學習。結合短期學習與長期學習能從用戶反饋中不斷積累知識,形成新的語義特征表示,使系統性能在人機交互中得以改進。Han等人[22]給出一種基于記憶學習的語義特征提取思路。首先構造知識記憶模型積累和存儲來自用戶相關反饋的語義信息,并根據已存儲知識預測圖像間的語義關系,力圖實現基于低層特征與習得語義間的無縫連接。

基于人機交互的語義提取方法把用戶融入到圖像語義提取過程中,通過學習和不斷積累圖像語義信息來縮短“語義鴻溝”。然而這類方法也存在一些固有缺陷。大多數相關反饋技術來源于文本信息檢索,一些注重低層視覺特征的方法難以準確捕捉圖像中的語義信息。另外,在現實世界中很少有用戶愿意用無休止的反饋循環去獲得最佳結果,同時來自用戶的反饋可能包含不準確或不可靠的信息。盡管一些好的反饋技術考慮了魯棒性,但為了更加理想,需要加入過濾技術去掉噪聲。

3.4 基于外部信息的方法

基于外部信息的語義提取方法是指從圖像外部附加信息中獲取與圖像內容相關的語義信息,也可以是圖像本身的屬性(如文件名、標題、鏈接地址);可以是圖像周圍文本中反映圖像內容主題、主體、背景等關鍵詞句;還可以是一些其他的元數據信息,然后進行語義分析與理解。與針對圖像庫中圖像的語義提取方法不同,Web圖像的語義提取具有處理數據量大、精確度要求高、響應時間要求快的特點。考慮到這種需求,基于外部信息的方法是Web圖像高層語義特征提取的一個重要手段。

Shen等人[23]將HTML文檔中與圖像語義密切相關的文件名、注釋、周圍文本和網頁標題四項文本信息組成詞匯鏈,作為表達Web圖像語義的外部信息源。Yang等人[24]采用以SOM學習算法為核心的數據挖掘技術,從圖像的周圍文本中提取語義特征,且圖像中一些隱含的模糊語義信息經過挖掘處理之后也能被發現。隨著數碼相機的出現和不斷增加,在Web上產生了大量的數字圖像,一些照片共享服務工具(如Flickr、Retrievr)也為用戶在網絡上共享、交流圖像信息資源提供了方便。Ames等人[25]通過調查近期Flickr和ZoneTag(一種可以拍照、上傳照片的手機)的使用情況,發現有越來越多的用戶用標題(caption)或標簽(tag)為照片標注。Tag是一種按照自由分類法(folksonomy)定義的不存在先驗語義的無結構知識,從中提取有結構知識是目前Web圖像特征提取面臨的難題。Rattenbury等人[26]利用burstanalysis技術和scalestructure識別方法,從tag中提取照片中位置與事件語義。Boutell等人 [27]通過分析與拍攝照片環境相關的相機元數據,發現一些元數據(如曝光時間、是否用閃光燈、拍攝對象的距離)在室內、室外場景下區別顯著。基于這個前提,提出將圖像視覺特征與這些數碼相機元數據相融合的語義提取方法,甚至在缺少部分元數據的情況下,也能較好地處理室內/室外圖像的分類問題。

基于外部信息的方法利用外部信息源獲取圖像語義,表達高層次的語義概念直觀、易于計算機處理,具有一定的優越性。然而,由于圖像外部文本中存在大量有用信息的同時也存在與圖像語義無關的文本和噪聲,導致有效組織有用信息難度大。同時,當外部信息不易得到或量少時,采用這類方法提取語義特征就相對困難。此外,來自數碼相機的家庭照片和個人圖像在網絡上大量出現,很多照片沒有做任何標志,有些即使做了標記也由于不夠精確、語種混亂、產生垃圾tag多等原因,在實際應用中無法達到預期效果。一個可行的解決途徑是動態調整圖像特征提取中視覺特征和語義特征所占比例,當外部信息充實時,縮小視覺特征在整個圖像特征中所占比例,反之加大比例。

4 相似性度量

當確定好圖像的語義特征提取方法,獲得圖像的特征描述子后,如何利用這些特征設計出準確的相似性度量方法是圖像語義理解面臨的又一個關鍵問題。視覺相似是以圖像內容的低層特征的相似性為依據。視覺特征的表示、提取和相似性度量都比較容易,但對于用戶來說,建立在視覺相似上的判斷圖像相似性是遠遠不夠的,而需要對圖像內容理解的語義相似。通常對圖像內容理解得越深入,越有助于圖像之間匹配的準確性,但語義相似性計算就越復雜。

目前的圖像相似性度量方法大多為特征空間中的距離匹配(表1)。Wang等人[11]提出一種基于IRM距離的軟匹配度量方法。IRM距離用最大相似、最高優先權(MSHP)原理去匹配圖像區域,對分配給特征向量的權值進行調整來增加魯棒性,減少不正確分割的影響。Chen等人[28]利用模糊技術得到一種IRM的變形。Hastie等人[29]利用高斯混合模型估計特征向量的分布,并用KL距離度量不同概率密度函數分布之間的差異性。在Carson等人[30]給出的Blobworld系統中,不是直接進行圖像間的匹配,而是針對事先用EM算法分割好,由用戶挑選出的一個或多個同質的感興趣區域進行匹配,將相似性度量方法轉換成基于模糊邏輯的組合查詢問題。為了使相似性度量更好地與人類對圖像的視覺感知相一致,近期提出了一種在非線性流形空間中度量圖像相似性的思想,即尋找一個非線性流形空間,圖像特征向量存在于這個空間中,利用測地距離(Geodesic)代替歐氏距離(Euclidean)。這種思想被He等人[31,32]應用到圖像相似性度量與結果可視化排序中。Jin等人[33]將特征表示、特征提取與相似性度量合并到一個貝葉斯概率框架中,不足的是概率相似性測量估計的計算復雜度較高。圖像語義特征的相似性計算與匹配是復雜的,目前僅限于針對簡單語義信息(如圖像類別、基于類別知識的目標)的相似性度量,為了開發真正基于語義相似的度量方法,縮短“語義鴻溝”的距離,還需要在技術上突破局限和不斷實踐嘗試。

表1 幾種典型圖像特征相似性度量方法比較

特征描述子度量空間距離測量計算公式 特點

特征向量線性帶權歐氏距離D(I,J)=XT[W]Y。其中:X和Y分別是圖像I和J的特征向量; [W]是權值向量W的對角化形式允許特征向量帶權值;應用廣泛

特征向量集線性IRMD(I,J)=minSi,j∑ni=1∑mj=1Sijd(Xi,Yj),其中:{X1,…,Xn}和{Y1,…,Ym}分別是圖像I和J的特征向量集;d(…)是Xi與Yj之間的距離,可用不同的形式定義;Si,j 是權值,表示Xi和Yj的相似性基于圖像分割;計算快速

特征向量分布線性KLD(I,J)=∑xF(x)log[F(x)/G(x)]。其中:F(x)和G(x)分別是圖像I和 J的特征向量分布輸入數據是直方圖;兩個概率分布之間的相似性比較

特征向量非線性測地距離D(I,J)=∑n-1i=1dN(Pi,Pj)。其中:{P1,…,Pn}是圖像I與J之間的最短距離路徑; dN(…)是鄰接向量Pi與Pj之間的最短距離在非線性流形空間中的距離度量方式;更好地描述語義相似性;計算更為復雜

5 圖像理解的應用

正如前面所提到的,圖像的語義信息是面向用戶的,因此了解在各種應用領域內的研究現狀是進一步開展圖像語義理解研究的必需。Datta等人[34]在關于圖像檢索領域的最新研究狀況的調查報告中強調了與圖像理解有關的應用性研究的重要性。從現狀來看,盡管圖像分析與理解的手段仍主要憑借圖像的視覺內容,但其應用研究正呈現出快速、多元化的發展趨勢。近期在一些新的應用方向上的研究也不斷出現,如故事插圖[35,36 ]、藝術圖像分析[37~39]、人機交互證明[ 40,41]、版權保護[42~44]等。由于文章篇幅有限,這里只介紹目前在分類與聚類、圖像標注和檢索等方向上的應用現狀。

5.1 圖像語義分類與聚類

目前,基于語義信息的圖像分類和聚類已成為計算機視覺的一個研究熱點。圖像分類和聚類是兩種不同的歸類方法。分類是指在已知語義類別的基礎上,對未知類別數據進行歸類。圖像分類一般包括以下三個要素:

a)訓練集中的每個數據應包含有一組特性,而每一特性就是一個類別;

b)構造分類函數或分類模型作為分類器,分類器變量應對應一組特性;

c)對于未知類別數據,分類器應能將該數據劃分到準確的類別中。

決策樹和選擇樹是常用的構造分類器的方法。神經網絡技術也可以用來挖掘分類規則。貝葉斯分類器和SVM是目前最受研究者關注的兩種分類器。近期,Calvo等人[45]針對在缺乏反例情況下無法直接應用半監督分類算法的問題,給出基于PNB推導算法增強圖像分類性能的兩種途徑。萬華林等人[46]利用一種新的紋理、邊緣描述子提取方法,集成圖像的顏色、紋理與邊緣特征作為圖像的特征向量,并用SVM實現圖像的語義分類。

聚類分析與分類不同,不要求有先驗知識,而是完全依據數據自身的特性差異進行處理,最終結果是把數據劃分到不同語義的簇中。聚類應滿足“簇間差別應盡可能大,簇內差別盡可能小”的要求。圖像聚類一般包括以下三個要素:

a)差異性的定義,這些差異性應是影響聚類效果的最主要因素;

b)確定數據之間相似性和差異性的計算策略;

c)選擇聚類條件和聚類算法。

Sheikholeslami等人[47]給出一種SemQuery算法,利用不同性質的圖像特征進行語義聚類,形成自頂向下的圖像語義層次聚類結構;同時為了實現視覺特征到高層語義的映射,提出一種基于多感知器神經網絡模型的特征合并算法。Goldberger等人[48]將基于混合高斯密度的圖像模型與基于規則的信息理論相結合,對圖像集合進行多級聚類。該方法在實現圖像集的半監督聚類過程中,引入信息理論中的信息瓶頸原則評估聚類質量,最大程度地保存圖像語義內容和簇間信息。

5.2 語義自動標注

圖像中蘊涵豐富的語義信息,解決人工標注圖像標志的一條途徑是利用有效的自動或半自動標注方法。圖像語義標注是一個受到研究者廣泛關注的問題。

Carneiro等人[49]把圖像的語義標注形式化為有監督的學習問題。對給定的圖像和語義單詞表,通過采用多示例方法估計概念條件分布的學習過程,并提取最能夠描述該幅圖像的單詞集合作為圖像的語義標志。Yang等人[50]和Wang等人[51]都將圖像內容標注看成一個圖像分類問題。前者將每個用于標注的關鍵詞視為不同的類標記,并建立貝葉斯模型解決圖像語義標注問題;后者提出一種學習相似度(LS)框架。該框架采用ANN作為圖像語義分類器,并基于LS的K近鄰分類器根據主要的相似度特征來標注未知圖像。Margarita[52]提出一種模糊的圖像標注方法,將多個語義標志與置信度一起分配給圖像。此置信度由圖像區域與SVM所確定的超平面之間的距離推導得到。Feng等人[53]借助少量人工標注的圖像建立一組統計模型來表示語義概念,然后用這些模型向未標注的圖像傳播關鍵詞以實現圖像的語義自動標注。統計模型通過相關反饋進行定期更新,并引入一種基于熵的主動學習策略來提高相關反饋效率。

5.3 基于語義的圖像檢索

當前圖像信息資源的數量呈指數級增長,如何從中快速、準確地查找到用戶需要的信息,建立有效的圖像檢索機制是急需解決的一個問題。由于人類對圖像內容的理解是建立在以往認知和經驗的基礎上,用戶進行檢索的主要依據應是圖像的高層語義(圖像所表達的對象、行為、場景、感情色彩等),而不是表達低層細節的視覺特征。如今,越來越多的研究者致力于基于語義信息的圖像檢索(SBIR)研究,然而大多數是在基于內容的圖像檢索(CBIR)的基礎上作改進,至今沒有一個真正能實現SBIR的應用系統出現。此外,由于不同用戶對高層圖像語義特征的理解不盡相同,使得SBIR研究面臨許多難題。

Branhmi等人[54]基于相關反饋建立了一個反映用戶喜好的語義模型,并引入機器學習方法調整表示圖像語義內容的元數據的權值,實現視覺內容與語義信息的組合檢索。Lu等人[55]利用一種基于LLP(localitypreserving projection)之上改進的半監督子空間學習算法實現圖像檢索。不同的語義類別在語言子空間中最佳區分,有效改善了圖像檢索性能。Zhuge[56]認為一幅圖像的語義信息可由其相關圖像的語義和兩者關系的語義來反映,提出用語義鏈接集合來強化Web頁面超鏈接。該方法采用圖運算和矩陣運算進行語義匹配和推理,基于建立在語義空間上的單個圖像和語義鏈接空間實現圖像檢索。該檢索方法能獲得相關圖像的語義簇,而不是孤立圖像的列表,用戶能在語義鏈接推理的支持下沿語義鏈接路徑瀏覽圖像。

6 發展趨勢與研究方向

從圖像語義理解的研究現狀來看,盡管近年來在特征表示與提取、相似性度量與評價、人機交互與反饋等方面取得了一定進展,然而,隨著Web上大容量圖像的到來(如航空測繪圖像、生物醫學圖像、太空圖像、在線照片集),如何挖掘高分辨率、高維數圖像的語義內容,如何實現真正語義層次上的智能圖像理解,將成為圖像理解研究的新問題。要縮短甚至填平圖像理解中存在的“語義鴻溝”,還需要開發出更具有可靠性、魯棒性的圖像理解工具,讓計算機懂得人類是怎樣觀察、分析和理解圖像的。要實現智能圖像語義理解,以下方面的研究值得關注:

a)基于廣義集合的語義表示模型。目前采用的圖像語義模型主要是單純面向對象的表示模型,盡管這種模型便于提取圖像的視覺特征,但沒有真正考慮人類對圖像的理解機制。廣義集合是一種集向量、句法和對象等為一體的綜合表示方法,具有很強的模型描述能力。將廣義集合[57]引入到圖像語義表示模型中,結合人類視覺感知與認知心理學相關知識,設計一種用廣義空間代替原有特征空間的混合語義表示模型,能更有效地執行圖像的語義理解任務。

b)語義模式的發現與規則生成。知識庫與語義庫的建設需要依賴領域專家知識或進行大量應用測試。完整的知識庫與語義庫的建立并非一朝一夕能夠完成,特別是在現實世界中可能永遠不能完成。利用機器學習和數據挖掘技術發現圖像內容的語義模式,開發實用的面向語義的關聯規則生成算法,能大大提高計算機的自學習能力。

c)面向本體的知識推理。目前圖像分析與理解技術大多在基于視覺特征的圖像理解基礎上加入簡單的語義信息處理得到,并不能讓計算機與人類一樣去理解圖像的語義信息,挖掘隱含在圖像中更豐富的深層語義內容。本體是描述語義知識的建模手段,在信息組織、管理和理解領域有巨大的潛力。將本體技術結合到圖像內容理解的知識推理與語義擴展中,不但有利于得到更接近人類理解的圖像語義描述形式,而且有利于圖像理解應用研究中結果的可視化表示。

d)智能圖像語義理解系統。全球信息網絡的發展使得多媒體資源,特別是Web圖像資源的有效利用面臨新的挑戰,解決圖像語義理解問題是迎接挑戰的出路之一。基于語義信息的圖像理解框架(圖2)既包括了需要解決的核心技術,也包括了不可分割的圖像語義理解的應用研究,然而要真正地將框架中的各個部分融合成一體,需要建立一個實用、有效、合理的智能圖像語義理解系統。可見,未來只有將計算機視覺、圖像處理、機器學習、數據挖掘、人工智能和模式識別等多種學科的最新研究成果與認知心理學、計算語言學、數理邏輯等相關知識緊密結合,才有可能真正實現人機圖像理解的無縫連接。

參考文獻:

[1]章毓晉.圖像工程(下冊):圖像理解與計算機視覺[M].北京: 清華大學出版社, 2000.

[2]EAKINS J P.Automatic image content retrieval are we getting anywhere?[C]//Proc of the 3rd International Conference on Electronic Library and Visual Information Research. 1996: 123135.

[3]HERMES T, KLAUCK C, KREY B J, et al. Image retrieval for information systems[C]//Proc of IST/SPIE’s Symposium on Electronic Image: Science and Technology. 1995:394405.

[4]COLOMBO C, DERBIMBO A, PALA P.Semantic in visual information retrieval[J].IEEE Multimedia,1999,6(3):3853.

[5]JAIMES A, CHANG S F. Modelbased classification of visual information for contentbased retrieval[C]//Proc of SPIE Conference on Storage and Retrieval for Image and Video Databases.1999:402414.

[6]LI Qingyong, HU Hong, SHI Zhongzhi. Semantic feature extraction using genetic programming in image retrieval[C]//Proc of the 17th International Conference on Pattern Recognition. 2004.

[7]LOMBARDI L, PETROSINO A. Distributed recursive learning for shape recognition through multiscale trees[J]. Image and Vision Computing, 2007, 25(2): 240247.

[8]高永英,章毓晉.基于目標語義特征的圖像檢索系統[J].電子與信息學報, 2003,25(10):13411348.

[9]CHOU T C, CHENG S C. Design and implementation of a semantic image classification and retrieval of organizational memory information systems using analytical hierarchy process[J].Omega,2006, 34:125134.

[10]CHENG S C, CHOU T C, YANG C L,et al. A semantic learning for contentbased image retrieval using analytical hierarchy process[J]. Expert Systems with Applications,2005,28(3):495505.

[11]WANG J, LI Jia, WIEDERHOLD G. Simplicity: semanticssensitive integrated matching for picture libraries[J]. IEEE Trans on Pattern Analysis and MachineIntell igence,2001,23(9):947963.

[12]JEON J, LAVRENKO V, MMNMATHA R. Automatic image annotation and retrieval using crossmedia relevance models[C]//Proc of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2003.

[13]NAVON D. Forest before trees: the precedence of global features in visual perception[J]. Cognitive Psychology,1977,9(3):353383.

[14]FAN Jianping, GAO Yuli, LUO Hangzai, et al. Statistical modeling and conceptualization of natural images[J]. Pattern Recognition,2005,38(6):865885.

[15]LI Jia, WANG J. Automatic linguistic indexing of pictures by a statistical modeling approach[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2003,25(9):10751088.

[16]LUO Jiebo, SAVAKIS A E, SINGHAL A. A Bayesian networkbased framework for semantic image understanding[J]. Pattern Recognition,2005, 38(6):919934.

[17]AKSOY S, KOPERSKI K, TUSK C, et al. Learning Bayesian classifiers for scene classification with a visual grammar[J].IEEE Trans on Geoscience and Remote Sensing,2005, 43(3):581589.

[18]HAN Yutao, QI Xiaojun. A complementary SVMsbased image annotation system[C]//Proc of International Conference on Image Processing. 2005:11851188.

[19]GOH K S, CHANG E Y, LI Beitao. Using oneclass and twoclass SVMs for multiclass image annotation[J]. IEEE Trans on Knowledge and Data Engineering,2005,17(10):13331346.

[20]LIU Wenying, SUN Yanfeng, ZHANG Hangjiang. MiAlbum :a system for home photo management using the semiautomatic image annotation approach[C]//Proc of the 8th ACM International Conference on Multimedia. New York: ACM Press, 2000.

[21]HE Xiaofei, KING O, MA Weiying, et al. Learning a semantic space from users relevance feedback for image retrieval[J]. IEEE Trans on Circuits and Systems for Video Technology, 2003,13(1):3948.

[22]HAN Junwei, NGAN K N, LI Mingjing, et al. A memory learning framework for effective image retrieval[J]. IEEE Trans on Image Processing,2005,14(4):511524.

[23]SHEN Hengtao, OOI B C, TAN K L. Giving meanings to WWW images[C]//Proc of the 8th ACM International Conference on Multimedia. New York:ACM Press, 2000:3947.

[24]YANG H C, LEE C H. Image semantics discovery from Web pages for semanticbased image retrieval using selforganizing maps[J]. Expert Systems with Applications,2008,34(1):266279.

[25]AMES M, NAAMAN M. Why we tag: motivations for annotation in mobile and online media[C]//Proc of Conference on Human Factors in Computing Systems. New York: ACM Press, 2007.

[26]RATTENBURY T, GOOD N, NAAMAN M. Towards automatic extraction of event and place semantics from Flickr tags[C]//Proc of Annual Conference on Research and Development in Information Retrieval. New York: ACM Press, 2007:103110.

[27]BOUTELL M, LUO Jiebo. Bayesian fusion of camera metadata cues in semantic scene classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2004.

[28]CHEN Yixin, WANG J Z. A regionbased fuzzy feature matching approach to contentbased image retrieval[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002,24(9):12521267.

[29]HASTIE T, TIBSHIRANI R, FRIEDMAN J. The elements of statistical learning[M]. [S.l.]:SpringerVerlag, 2001.

[30]CARSON C, BELONGIE S, GREENSPAN H M. Blobworld: image segmentation using expectationmaximization and its application to image query[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002,24(8):10261038.

[31]HE Xiaofei, MA Weiying, ZHANG Hongjiang. Learning an image manifold for retrieval[C]//Proc of ACM International Conference on Multimedia. 2004.

[32]HE Jingrui, LI Mingjing, ZHANG Hongjiang, et al. Manifoldranking based image retrieval[C]//Proc of the 12th Annual ACM International Conference on Multimedia. New York: ACM Press, 2004:916.

[33]JIN Rong, HAUPTMANN A G. Using a probabilistic source model for comparing image[C]//Proc of IEEE ICIP. 2002.

[34]DATTA R, JOSHI D, LI Jia, et al. Image retrieval: ideas, influences, and treads of the new age[J]. ACM Trans on Computing Surveys, 2008, 40(2):160.

[35]BARNARD K, DUYGULU P, FORSYTH D, et al. Matching words and pictures[J]. Machine Learning Research, 2003,3:11071135.

[36]JOSHI D, WANG J Z, LI Jia. The story picturing engine: a system for automatic text illustration[J]. ACM Trans on Multimedia Computing, Communications and Applications, 2006,2(1):6889.

[37]LI Jia, WANG J Z. Studying digital imagery of ancient paintings by mixtures of stochastic models[J]. IEEE Trans on Image Processing, 2004,13(3):340353.

[38]CHEN C C, WACTILAR H, WANG J Z, et al. Digital imagery for significant culture and historical materials: an emerging research field bridging people, culture, and technologies[J].Digital Libraries,2005,5(4):275286.

[39]BARNI M, PELAGOTTI A, PIVA A. Image processing for the analysis and conservation of paintings: opportunities and challenges[J]. IEEE Signal Processing Magazine,2005,22(5):141144.

[40]DATTA R, LI Jia, WANG J Z. IMAGINATION: a robust imagebased captcha generation system[C]//Proc of the 13th Annual ACM International Conference on Multimedia. 2005:331334.

[41]MORI G, MALIK J. Recognizing objects in adversarial clustter: breaking a visual captcha[C]//Proc of IEEE CVPR. 2003.

[42]WU Mingni, LIN C C, Chang C C. Novel image copy detection with rotating tolerance[J]. Systems and Software, 2007,80(7):10571069.

[43]KE Yan, SHKTHANKAR R, HUSTON L. Efficient nearduplicate detection and subimage retrieval[C]//Proc of ACM International Conference on Multimedia. 2004.

[44]ZHANG Dongqing, CHANG S F. Detecting image nearduplicate by stochastic attributed relational graph matching with learning[C]//Proc of the 12th Annual ACM International Conference on Multimedia. New York: ACM Press, 2004.

[45]CALVO B, LARRANAGA P, LOZANO J A. Learning Bayesian classifiers from positive and unlabeled examples[J]. Pattern Recognition Letters, 2007,28(16):23752384.

[46]萬華林, CHOWDHURY M U. 基于支持向量機的圖像語義分類[J]. 軟件學報, 2003,14(11):18921899.

[47]SHEIKHOLESLAMI G, CHANG W, ZHANG Aidong. SemQuery: semantic clustering and querying on heterogeneous features for visual data[J]. IEEE Trans on Knowledge and Data Engineering, 2002,14(5):9881002.

[48]GOLDBERGER J, GORDON S, GREENSPAN H. Unsupervised imageset clustering using an information theoretic framework[J]. IEEE Trans on Image Processing, 2006,15(2):449458.

[49]CARNEIRO G, VASCONCELOS N. Formulating semantic image annotation as a supervised learning problem[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2005:163168.

[50]YANG Changbo, DONG Ming, FOTOUHI F. Image content annotation using Bayesian framework and complement components analysis[C]//Proc of IEEE International Conference on Image Processing. 2005:11931196.

[51]WANG Dianhui, LIM J S, HAN M M, et al. Learning similarity for semantic images classification[J]. Neuron Computing,2005,67: 363368.

[52]MARGARITA C S. Fuzzy semantic labeling for image retrieval[C]//Proc of IEEE International Conference on Multimedia and Expo. 2004:767770.

[53]FENG Jing, LI Mingjing, ZHAN Hongjiang, et al. A unified framework for image retrieval using keyword and visual features[J].IEEE Trans on Image Processing, 2005,14(7):979989.

[54]BRAHMI D, ZIOU D. Improving CBIR systems by integrating semantic features[C]//Proc of the 1st Canadian Conference on Computer and Robot Vision. 2004.

[55]LU Ke, HE Xiaofei. Image retrieval based on incremental subspace learning[J]. Pattern Recognition,2005,38(11):20472054.

[56]ZHUGE Hai. Retrieve images by understanding semantic links and clustering image fragments[J].Journal of Systems and Software,2004, 73(3):455466.

[57]ZHANG Yangu, YAO Min, YUAN Zhen. Research on methodology of image semantic understanding based on generalized computing[C]//Proc of MIPPR. 2007.

主站蜘蛛池模板: 国产精品亚洲αv天堂无码| 九色综合视频网| 免费xxxxx在线观看网站| 亚洲综合日韩精品| 国产精品九九视频| 激情综合网激情综合| 一级一级一片免费| 久久青草视频| 天天摸天天操免费播放小视频| 亚洲欧美另类日本| 国产亚洲欧美在线中文bt天堂| 亚洲欧美另类专区| 夜夜操天天摸| 中文字幕欧美日韩高清| 国产主播在线一区| 欧美一级大片在线观看| 成年女人a毛片免费视频| 怡春院欧美一区二区三区免费| 亚洲中文字幕久久精品无码一区| 欧美一级黄片一区2区| 亚洲不卡av中文在线| 免费看av在线网站网址| 91国语视频| 国产精品美女自慰喷水| 亚洲精品色AV无码看| 小说区 亚洲 自拍 另类| 国产91全国探花系列在线播放| 伊人久综合| 思思热精品在线8| 99热这里只有免费国产精品| 天堂成人在线| 网友自拍视频精品区| 一级毛片免费不卡在线视频| 亚洲第一区在线| yy6080理论大片一级久久| 国产免费观看av大片的网站| 国产美女91视频| 九色综合视频网| 亚洲婷婷丁香| 欧美成人一级| 四虎永久免费地址在线网站| 4虎影视国产在线观看精品| 久久99国产精品成人欧美| 亚洲无码日韩一区| 欧美国产精品拍自| 亚洲热线99精品视频| a毛片免费观看| 在线视频97| 福利国产微拍广场一区视频在线| 狠狠ⅴ日韩v欧美v天堂| 国产自在线播放| 欧美日韩久久综合| 欧美日韩专区| 四虎永久在线| 老司国产精品视频91| 久久国产亚洲偷自| 米奇精品一区二区三区| 日本人真淫视频一区二区三区| 亚洲VA中文字幕| 激情综合激情| 午夜日b视频| 亚洲天天更新| 综合色区亚洲熟妇在线| 91精品人妻一区二区| 国产亚洲欧美另类一区二区| 欧洲成人在线观看| 日韩国产黄色网站| 亚洲经典在线中文字幕| 欧美中文字幕第一页线路一| 亚洲AV色香蕉一区二区| 国产美女丝袜高潮| 久久国产精品电影| 欧美精品高清| 视频二区国产精品职场同事| 四虎国产永久在线观看| 在线看片中文字幕| 欧美在线精品一区二区三区| 亚洲无码免费黄色网址| 呦女亚洲一区精品| 自拍亚洲欧美精品| a欧美在线| 久久96热在精品国产高清|