段湘寧
(葫蘆島市發展改革委信息中心 125000)
信息技術快速發展的當下,信息數據的數量和范圍愈加龐大,對于相關信息數據和圖像等的標注和處理直接影響信息搜索的全面性和準確性同時也會影響圖像自動標注系統的使用效果等。在計算機數據庫和視覺研究的推動下,圖像標注檢索技術成為計算機互聯網技術研究的重點之一。PASCALpj等技術在計算機視覺研究領域已經得到了廣泛應用。通過圖像和文字的關聯性、圖像之間的關系以及文本之間的關系等實現對圖像的有效標注,并在該種標注實現的基礎上使用統計等方式設計實現對圖像的自動標注。
在網頁關聯性特征下的文本標注的方法,通常是利用互聯網的圖像在特定的語言或者數據信息環境中的相關特征,利用圖像和語言內容相關的文本信息的關系實現對互聯網圖像的語義信息或者文本信息的自動標注。
對于圖像自動標注的實現,是在網頁關聯性的基礎上充分利用圖像所傳達的內容與文字的相關性,通過信息的匹配及相關的技術和標注系統和設計實現對圖像信息的自動標注從而實現對數據信息的搜索,提高搜索的速度和效率。
利用圖像實現檢索產生于上個世紀的70年代中期,產生之初采用的主要檢索技術是基于文本信息的圖像檢索,即把圖像作為數據庫中儲存的檢索對象,通過關鍵字或者自由的文本對儲存于其中的圖像進行描述來實現檢索。這種圖像檢索技術的查詢操作是在對儲存與數據庫中的圖像描述的基礎上實現一種精確的匹配或者一種概率性的匹配,有些系統為了實現該種圖像檢索功能還設有詞典支持。圖像檢索系統的有效運作,圖像的數據模型、多維索引和查詢的評價等都是在這種數據系統的框架下來實現。
當下的互聯網圖像的語義自動標注的方式是把所有相關的關聯文本視為整體,或者根據既有的知識或者啟發思維預先估設既定的語義分布模型和數據庫,在此基礎上實現圖像的標注。但現有的圖像標注技術大多是在訓練集的基礎上實現基于內容的圖像的自動標注的方式。這種標注方式的特點是將訓練集作為其圖像信息標注的基礎,因此,訓練集中缺少相關關鍵字符時即使圖像的標注信息恰當無誤其標注的結果也會缺少該關鍵字符從而無法實現對圖像的有效準確的標注。訓練集的數據預先設定儲存,不可避免的存在數據的有限性和收據時效性的問題,因此數據信息無法及時有效的更新和擴大會對圖像信息的標注產生直接的影響。基于網頁關聯性特征的文本的標注方式是限于目標圖片位于單一的網頁文本中時并且要利用圖像和文本的關聯性假設來實現圖像的標注和檢索,因此,它所能利用的文本信息是極其有限的也會受到當前網頁文本信息的一些影響,從而直接影響圖像的標注信息的準確性最終影響檢索的結果和效率。
就互聯網圖像的相關性特征而言具體體現為,圖像名稱對于圖像所具有的特定的提示意義、與圖像所在的HTML的頁面所表達主題的一致性、圖像所指向連接地名稱或者頁面的主體內容與圖像內容的對應性等、圖像與其上下文環境下的關聯性和密切性以及圖像所出現的位置和次數的特征等都在一定程度上起到了提示該圖像的功能,所有這些都為我們改進圖像自動標注系統提供了切入點和有效的利用方式和途徑。當我們在改進圖像自動標注系統的過程中可以通過利用互聯網圖像信息采集方式的完善來實現系統自身的完善和發展,在圖像采集時可以根據互聯網的特點充分利用不同的圖像所傳達的文本信息,利用其體現出的關聯性特征有區別的使用圖像采集和標注技術,實現對信息的擇優選擇。這種有針對性的區別標注在充分利用互聯網自動標注系統的有利條件,能夠保證圖像標注信息源的全面性,將網頁文檔中的圖像名稱、注釋及圖像周圍的文本、圖像URL等充分利用,提高了圖像標注信息源的全面性。
在該系統中將圖像標注作為核心內容,該標注的實現要提取各種圖像的關聯性特征,并且在現有自然語言技術和網頁分析技術的基礎上對提取的該種特征間的關聯性以及提取特征和圖像之間的關聯性進行分析。該種標注工作完成并將其應用于互聯網信息檢索時,標注的結果直接關系圖像檢索系統運作的效果和功能。
該種檢索系統的設計由以下幾個方面共同完成。首先通過首先,通過輸入的URL抓取網頁,利用網頁分析器從網頁中抓取圖片文件,與此同時,分析網頁的DOM結構與視覺結構,抽取網頁中與圖像相關的語義關聯特征,并存儲于數據庫中。其次,在網頁分析器獲得圖像語義特征的基礎上對圖像進行相關的語義標注。在完成該種語義標注時應該對關聯性特征所包含的各種信息進行充分的篩選和過濾以剔除噪音信息等,最終為每一圖像生成對應的標注結果,并且為該種結果的輸出提供多種接口。
該系統架構下的技術是將整個系統分為數據存儲層、數據處理層和數據表現層三個層次。具體而言,數據存儲層主要數據存儲層主要用于存儲網頁信息、圖像文件、圖像關聯信息及最終的圖像標注結果。數據處理層主要處理存儲層中的圖像相關數據,并為每符圖像生成圖像的語義標注結果,它們通過數據庫訪問接口查詢、操作數據庫。數據處理層包括網頁分析器和圖像標注生成器,通過對標注圖像信息和數據的后臺處理和網頁相關內容的分析實現對圖像信息的標注。數據表現層即圖像信息標注信息和數據的顯示,它主要用于顯示標注過程中的相關信息和數據,使得圖像標注結果能夠以一種較好的方式呈現。三層結構通過不同的分工和相互作用實現對圖像信息的準確有效標注并且一最佳的方式呈現給使用者。
在互聯網環境下,網頁文檔的成為互聯網圖像的外部信息源和載體,它本身包含了對圖像內容等進行描述的豐富的文本信息,也便是我們所說的圖像的關聯性特征。現行網絡技術環境下的圖像搜索都是在互聯網圖像關聯性的基礎上通過對圖像關鍵字標注的形式建立相關的信息索引來實現對特定目標的搜索。但是該種凸顯檢索系統對互聯網圖像的關聯性特征的分析和利用不夠深入存在標注信息不全面的問題,因而影響標注詞的生成等。而對互聯網圖像關聯性信息采集的全面和準確直接影響圖像標注詞義的準確性和全面性,所以在互聯網頁面分析器設計時便要將獲取網頁中符合一定條件的圖像文件作為其主要目標,同時該種頁面分析器還應該能夠實現對頁面結構的充分分析,對于頁面中和互聯網圖像有關的信息能夠進行深入的挖掘和分析,實現自動準確的獲取互聯網圖像特征,并自動的完成相關數據的組織與處理,生成圖像標注的數據源。
圖像關聯性特征采集的實現,通過對頁面的預處理,依據規定的圖像處理規則來獲取相應的圖像文件,并且從網頁中獲取相同類型的關聯信息,同時圍繞每個文件獲取具備一定特定的數據信息,并在獲取圖像所在頁面的文字信息,當圖像是文字與連接的結合時獲取鏈接所指向的標題和正文信息。為實現該種工作流程,通過對頁面處理器進行不同的模塊分工,頁面預處理模塊實現對頁面圖像內容的預處理,圖像上下文處理模塊則負責對圖像所在語言環境下的上下文信息的深入分析獲取相關的文本信息,網頁正文提取模塊實現對文本正文的提取,實現圖像標注信息源保證圖像標注信息的準確和充分。
[1]歐萍.基于外部數據庫的圖像自動標注改善模型分析[J].計算機光盤軟件與應用,2012(06)
[2]俞建橙,曹冬林,李紹滋,林達真.基于互聯網搜索與反饋驗證的圖像自動標注[J].計算機工程,2012,38(24)
[3]陳濤.基于網頁關聯特征的互聯網圖像自動標注系統[J].[學位論文],2007