陳 斌
(杭州圖書館)
在三墩讀書中心跨媒體實驗平臺開展的圖像文獻語義研究項目現(xiàn)已進入第二期,本期的主題是:語義描述與圖像組織的新技法,屬語義形態(tài)的特征研究范疇。目的是提升圖像檢索可視粒度的穩(wěn)定性和圖像檢索質(zhì)量的系統(tǒng)性(一項解決圖像傳遞和檢索的重大攻關(guān)課題)。互聯(lián)網(wǎng)時代,數(shù)字圖像資源有容量較大、色彩形式多樣、內(nèi)容豐富的特點,在網(wǎng)絡(luò)或數(shù)據(jù)庫中的圖像資源集中在資源池,通過檢索功能推送至用戶界面。
2017年底,筆者在中國知識資源總庫、萬方數(shù)據(jù)庫知識服務(wù)平臺、維普期刊資源整合服務(wù)平臺進行檢索,通過“跨媒體圖像”not(-)“跨媒體檢索”,得到關(guān)于跨媒體圖像語義服務(wù)研究的成果1項;通過“跨媒體圖像”or(+)“跨媒體圖像檢索”,得到有關(guān)跨媒體圖像的成果6項、有關(guān)跨媒體圖像檢索的成果3項;通過“跨媒體圖像檢索”or“跨媒體語義”,得到有關(guān)跨媒體檢索的成果59項、有關(guān)跨媒體語義(服務(wù))的成果12項;通過“圖像檢索”and(*)“圖像語義”,得到交叉和邊緣有關(guān)圖像檢索和圖像語義服務(wù)共7,770項。可見,雖然跨媒體圖像語義源自于媒體圖像和圖像檢索的系統(tǒng)方法,但目前對跨媒體圖像語義的研究還較匱乏。
國內(nèi)關(guān)于跨媒體圖像或圖像語義服務(wù)的前期研究成果主要有:欒悉道提出了基于概念分布的圖像語義標注與檢索方法,用戶可通過提交概念所在大概位置信息快速查找出與檢索意圖相近的圖像,但該設(shè)計只實現(xiàn)了圖像語義標注與檢索系統(tǒng)在相似性上匹配,需加強文本語言的算法;[1]金大衛(wèi)對圖像固有的顏色、紋理、形狀等特征進行自動識別,改進了傳統(tǒng)的圖像檢索技術(shù),認為在圖像的語義空間中還包含隱藏語義特征,并依照向量空間模型方法對特征文本文件建立結(jié)構(gòu)模型。[2]
跨媒體圖像語義的形態(tài)特征對跨庫平臺的圖像搜索程度造成了一定的干擾影響。石躍祥通過衡量圖像之間的相似程度來實現(xiàn)檢索,使用的各種方法都利用了圖像本身客觀性質(zhì)的特點,但在實現(xiàn)過程中也出現(xiàn)了困惑:不大需要人為地解釋與干預(yù),應(yīng)用的自動化程度較高,但也存在著檢索精度不夠準確和應(yīng)用領(lǐng)域較為局限的缺點。[3]楊珺在保持分類能力不變的情況下極大地縮減圖像特征向量的個數(shù),去除了與語義判斷無關(guān)的視覺特征,實現(xiàn)了圖像視覺特征到高層語義的映射。[4]王華秋提出新的機器學習方法以及如何有效地將機器學習技術(shù)融入語義映射之中,并認為實現(xiàn)高效的語義映射仍會是今后一段時間的研究熱點。[5]
筆者進一步分析發(fā)現(xiàn),我國學者在研究圖像語義和檢索時,基本上是圍繞圖像語義層、底層視覺特征、高層語義映射、語義描述和聚類、語義向量模型等語義技術(shù)展開的,對圖像語義的不同媒介屬性的把握不夠。圖像檢索的視覺特征就是圖像聚類相似度和錯誤匹配之間精確性的提取關(guān)系。圖像媒體基礎(chǔ)分布狀態(tài)的處理方法為:① 厘清在檢索結(jié)果中可能存在的不相關(guān)圖像;② 用戶檢索反饋時的圖像語義參數(shù)遺落在哪個推送環(huán)節(jié),此環(huán)節(jié)對下一輪映射有無特征提取、圖像分割的變化,或在某個聚類分布單元組圖像抽取的其他細節(jié)來識別圖像的相似性;③ 語義類和映射對象均指向高層語義,可擴展性語義與跨媒體技術(shù)結(jié)合會不會對圖像產(chǎn)生自動語義標注;④ 依賴型和學習型是其兩大特點,語義映射需通過多特征關(guān)聯(lián)的聚類分析才得以完美析出,這就需要在圖像語義處理模式方面增加基于人工智能識別技術(shù)的情感對話,補充心理學、認知科學、生物仿真視覺等訓練分布層的語義框架模型。
從21世紀初開始,基于內(nèi)容的圖像檢索(Content-based image retrieval,CBIR)技術(shù)被提上研究日程,催生了信息資源整合技術(shù),進而拓寬到信息資源應(yīng)用領(lǐng)域和最大化挖掘信息價值的管理過程。[6]圖像資源的整合是為了更好地管理圖像信息資源,而信息資源特征的“分散孤立”是為了更好地實施信息推送(服務(wù))。從用戶角度來說,精準資源才是最好的資源,用戶概念性檢索要求的提出,有力避免了出現(xiàn)圖像信息組織的服務(wù)悖論。
大多數(shù)用戶依靠自身的認知水平去理解怎樣“檢索”圖像信息,檢索的結(jié)果是指令式的標簽定位。我們把用戶群分為準專業(yè)型和業(yè)余型,其中業(yè)余型用戶群所占比例達到總遠程用戶群的80%左右。準專業(yè)型用戶群懂知識、能描述、會分析;業(yè)余型用戶群不懂描述、不會分析,只是運用檢索通道來獲取真實的、準確的、不帶任何泛在“欺騙性”的唯一圖像信息。我們說,能夠描述出需要圖像信息的用戶同時是具備對圖像整體把握和先驗的,這類用戶獲取圖像信息的途徑與圖像的元描述基本一致,而業(yè)余型用戶群也期望通過“無法描述”的檢索通道獲取精準的圖像資源。
對圖像資源采取組織、管理手段,既是為了提高檢索質(zhì)量,又是為了滿足廣大用戶的真實所需,摒除“類似”“相似”“聯(lián)系”的查全率。我們要解決的是如何為廣大用戶群獲取“親和”的檢索資源,讓圖像資源真正為用戶所用。因此,建立面向用戶的跨媒體圖像組織管理體系,通過語義技術(shù)、語法語言描述、分類組織與主題標引、圖像集成方法及數(shù)據(jù)組織等手段,以藝術(shù)圖像為視角提高查準率,是本課題的研究方向。
跨媒體藝術(shù)圖像檢索是新型數(shù)字圖像文獻信息檢索技術(shù),它可以實現(xiàn)文本圖像對圖形圖像的跨媒體互操作,凈化圖像語義形態(tài)擴展的真實關(guān)聯(lián)數(shù)據(jù)的穩(wěn)定性形態(tài)特征,活躍Web 5.0的鏈接能力。語義統(tǒng)一是消解異構(gòu)性和多義性的知識語言,對圖像資源庫響應(yīng)可靠、真實的請求結(jié)果后返回給檢索用戶。語義關(guān)系網(wǎng)絡(luò)是組織圖像檢索參數(shù)的應(yīng)用系統(tǒng),搜索引擎能實現(xiàn)對圖像文本的自動分類、聚合、標引等語言處理,但暫無情感語言(Emotional Language)的判斷能力,即語義描述的智能化能力。跨媒體圖像語義新技法憑借解析智慧語義的功能走在國內(nèi)相關(guān)研究的前沿。
改善數(shù)據(jù)的疊加分布狀態(tài),提高圖像信息檢索正確率,充分施展檢索內(nèi)容的“有用性”,關(guān)鍵是增強檢索技術(shù)的組織結(jié)構(gòu)。針對目標源和上下文關(guān)系,優(yōu)化XML標準標記語言的語義描述,將成為解決數(shù)據(jù)差異性和不確定性的格式工具(見圖1)。[7]

圖1 跨媒體語義描述標準格式拓展模型
語義技術(shù)對語言進行智能化處理,語義層負責處理自然語言,RDF和XML均提供語義描述框架中的結(jié)構(gòu)關(guān)系,真正解析出圖像語言之間的推理還需上升到本體層的一個可描述框架中。本體層的可視化技術(shù)與跨媒體圖像技術(shù)相結(jié)合,有利于用戶對圖像識別作出穩(wěn)定的判斷。主題描述揭示圖像的基本特征組織圖像的內(nèi)涵、特點、結(jié)構(gòu)類型,建立在自然語言之上,并滿足要素檢索。早年,我們以信息關(guān)聯(lián)性來揭示圖像之間的相互關(guān)系,隨著大數(shù)據(jù)的不斷膨脹,關(guān)聯(lián)性可用于圖像組織,但用于檢索推送就顯得“不友好”,語義識別達不到檢索用戶的期望需求。
圖像文獻語義研究項目的第一期實驗討論跨媒體圖像語義的分布形態(tài),RDF有高語義和高分布性特點,提及XML的語法序列化問題:語義分布和語義數(shù)位點對點的關(guān)系。臺灣大學典藏數(shù)位化計劃項目采用DARCI工具進行架構(gòu),該工具在元數(shù)據(jù)收割時保存了原始數(shù)據(jù)的映射,與DC有良好的共融性,在圖像數(shù)據(jù)轉(zhuǎn)化和整合方面更顯透明,是目前相關(guān)機構(gòu)圖像資源館藏、中長期數(shù)字化保存、元數(shù)據(jù)組織和管理的較為理想的檢索工具。
語義關(guān)聯(lián)平臺對XAM圖像元數(shù)據(jù)映射的共融局限性的表達是圖像元數(shù)據(jù)在數(shù)據(jù)特征選取上的相似度對應(yīng)關(guān)系,潛隱的相似映射關(guān)系提取單位媒體流特征后進行融合分析(Fusion analysis),并同步相似對象,限制圖像數(shù)據(jù)之間模態(tài)挖掘的關(guān)聯(lián)度(見圖2)。

圖2 圖像元數(shù)據(jù)映射的共融關(guān)系局限
每一種圖像的成像自帶有元數(shù)據(jù),元數(shù)據(jù)是對數(shù)字化信息進行框架組織的依據(jù)型數(shù)據(jù)。可用于圖像描述、分類、加工、組織、管理和推送的元數(shù)據(jù)類型有描述型元數(shù)據(jù)、技術(shù)型元數(shù)據(jù)、管理型元數(shù)據(jù),不同類型元數(shù)據(jù)的側(cè)重點也不同。在元數(shù)據(jù)種類中能較好支持圖像檢索的是DC元數(shù)據(jù)和METS元數(shù)據(jù),目前在圖書館界廣泛應(yīng)用的是MARC和MODS。DC是都柏林核心元素集委員會的龍頭產(chǎn)品,其內(nèi)容描述與外形描述對RDF來說,具有語義上的互操作性。METS是元數(shù)據(jù)編碼與傳輸標準,結(jié)合XML進行圖文編碼標識,與DC的復(fù)雜模式DCMI一樣,均在元數(shù)據(jù)結(jié)構(gòu)方面表現(xiàn)良好,允許可擴展性元素充分擴展,為圖像的語義描述和形象定義打下結(jié)構(gòu)化的映射基礎(chǔ)。
由于圖像本身含有十分復(fù)雜的特征描述,每項特征可以視為一元數(shù)據(jù),如果我們從更高的語義層次揭示不同數(shù)據(jù)之間的聯(lián)系,并建立起映射連通關(guān)系,那么在映射過程中又導出了另一種含義:圖像內(nèi)容的特征揭示,即圖像的數(shù)字化數(shù)據(jù)利用HTML標記語言對映射對象起到穩(wěn)定的復(fù)雜對接作用。在第一期實驗中,我們認為跨媒體圖像在多次語義描述和筆畫匹配環(huán)境產(chǎn)生記錄標識的元數(shù)據(jù)格式,新生成的數(shù)據(jù)具有較為穩(wěn)定的靶向目標,這里的靶向指的是對檢索而言的映射關(guān)系,元數(shù)據(jù)則提供數(shù)據(jù)存取、鏈接的本體框架。圖像資源有其自身的分布空間作為語義空間,通過檢索能夠使具有相似語義的圖像數(shù)據(jù)形成關(guān)聯(lián)。圖像數(shù)據(jù)在元數(shù)據(jù)關(guān)系空間里完成映射,純粹的結(jié)構(gòu)化框架已無法利用特征提取技術(shù)來提供最優(yōu)的檢索結(jié)果。
跨媒體圖像由多維多模形態(tài)的數(shù)據(jù)組成,語義鴻溝跨度大,不同類型的圖像數(shù)據(jù)在語義層面上統(tǒng)一,使不同形態(tài)的圖像表達同一語義指向。跨媒體圖像組織技法主要利用語義的組織方法將不同圖像的媒體特征予以精準重塑,提高查準率。
跨媒體圖像是重要的媒體數(shù)據(jù)之一,圖像檢索統(tǒng)一在邏輯框架中體現(xiàn)描述性數(shù)據(jù)語言。圖像語義能形象地表述不同圖像之間的特征關(guān)系,通過語義描述、信號處理、機器學習、感知推理、演繹分析等環(huán)節(jié),在不同圖像媒體之間抓取用戶提交的查詢對象(語言、文字、行為表達),得到較為精準的圖像數(shù)據(jù)。
隨著人們文化需求的日益增長,媒體圖像信息資源占據(jù)了互聯(lián)網(wǎng)總資源的60%以上。每日新增和更新的圖像數(shù)據(jù)達到0.2TB。在如此多元的數(shù)字環(huán)境下,對圖像進行有效檢索還未能完全實現(xiàn),資源利用效果缺乏精準和真實。圖像基礎(chǔ)檢索一般經(jīng)歷六個過程:用戶請求→圖像抓取→特征提取→多維數(shù)據(jù)分割解析→多因素識別→反饋推送,即便如此,無序或錯誤的圖像仍然充斥著互聯(lián)網(wǎng)。傳統(tǒng)索引語義歸類方法只能分類對象,不能理解對象,甚至會出現(xiàn)圖像語義鴻溝沖突。而多內(nèi)容矩陣映射可消除不同圖像之間的內(nèi)容鴻溝。
我們已經(jīng)熟悉了圖像檢索是相似度匹配的聚類關(guān)聯(lián)和動態(tài)分布排序后的查詢反饋,反饋結(jié)果視為自動生成的較高關(guān)聯(lián)度特征的圖像,但不排除非準確圖像和真實檢索圖像。在藝術(shù)美學領(lǐng)域,Colombo等通過研究如何獲取藝術(shù)圖像的情感語義,建立了一系列映射規(guī)則,用以判斷藝術(shù)圖像傳達的情感。[8]圖像在從低層特征描述向高層語義轉(zhuǎn)化過程中,會遇到語義鴻溝和特征匹配失敗的情況,這時圖像本體語義提取與外部響應(yīng)語義提取就要用標引編碼來交互和識別。
數(shù)據(jù)的動態(tài)表達是人為干預(yù)的結(jié)果。修改和刪除使原始文本處于網(wǎng)絡(luò)傳輸?shù)倪吘墸袃r值的真本圖像隨即消失,殘留字符又影響正常數(shù)字信息傳遞的軌道。數(shù)據(jù)庫有識別指令的功能,但沒有識別指令情感真實與否的功能。[7]為了完善語義層次上的互操作功能,RDF以豐富的語義料為內(nèi)容,實現(xiàn)不同領(lǐng)域、多語義的元數(shù)據(jù)信息交換。如,當一位用戶想查詢《富春山居圖》原圖圖像時,RDF的建模可表達為:
經(jīng)上述,仿制或偽造的《富春山居圖》數(shù)據(jù)不應(yīng)該出現(xiàn)在用戶的終端檢索界面上。RDF可提高核心約束機制定義圖像之間的關(guān)系;XML關(guān)心圖像結(jié)構(gòu),與RDF互為描述上的補充關(guān)系,RDF通過XML語法化來描述RDF的語法功能。從20世紀40年代的機器翻譯到現(xiàn)今的機器學習,自然語言的處理方法經(jīng)歷了詞義分析、詞素抽取、分類標引和機器算法等自然語言處理技術(shù)的階段性過程。
圖3是以檢索《富春山居圖》為例的跨媒體語義特征提取標簽?zāi)P汀?/p>

圖3 跨媒體語義特征提取標簽?zāi)P?/p>
通過模型可以發(fā)現(xiàn),圖像文本種類以百目單位記憶,由用戶提交的描述對其先驗特征融合度進行掃描,分配給不同類型的映射層。在形態(tài)特征等多模語義描述析出關(guān)聯(lián)度,對圖像“單元數(shù)據(jù)分布回應(yīng)點”的進行智能排列,語義描述進一步改變結(jié)構(gòu)走勢,圖像的特征值有孩子(父節(jié)點的孩子;形體、顏色、紋理、空間等關(guān)系特征的數(shù)據(jù)樹也有孩子節(jié)點)的變換形態(tài)排序,跨媒體返回式節(jié)點應(yīng)答聚焦了正確的相關(guān)點,推離不相關(guān)點,低層數(shù)據(jù)資源層的語義分布矩陣的集合組織方法可提高查準率。圖像之間有高度的特征相似度和形態(tài)概念,圖像分割模塊區(qū)域雖近似,但有其語法可尋,可擴展語義標注提高了識別圖像的算法。如:語義標引“淡墨過渡”“前密后疏”標準化專業(yè)術(shù)語,不具備此特征的圖像不能映射,亦不能進入用戶檢索反饋結(jié)果,只能作為后期的視覺分組訓練學習。特征要素正確的圖像克服遮影、光亮、角度等影響問題后又與原圖匹配,傳送準確的圖像,無關(guān)特征圖像或偽圖像不在檢索界面出現(xiàn)。
通過上述的跨媒體圖像檢索新組織方法實驗,發(fā)現(xiàn)在圖像檢索領(lǐng)域仍有十分廣大的研究和發(fā)展空間。基于語義描述的圖像檢索從用戶的角度提出更為精密的學習算法、特征模型的演算和語義特征提取等技術(shù),旨在達到精準檢索。在數(shù)據(jù)挖掘和推送服務(wù)方面,主要在以下三方面提升優(yōu)化。① 圖像檢索進入到社會公共事務(wù)(如醫(yī)學、生物、生命科學、城市環(huán)境)等學科領(lǐng)域,以語義匹配和特征推離作為識別該領(lǐng)域圖形圖像數(shù)據(jù)處理的新途徑。② 對圖像數(shù)據(jù)的結(jié)構(gòu)化組織分析,在融合、改良、排序上要有本體上的訓練過程。適度引入人機交互的反饋評價機制,實現(xiàn)個性化圖像數(shù)據(jù)定制服務(wù)。③ 繼續(xù)對“數(shù)字圖書館”數(shù)字圖像文獻開展持續(xù)性研究。跨媒體圖像檢索可應(yīng)用于數(shù)字圖書館圖像館藏及互聯(lián)網(wǎng)資源庫的檢索服務(wù),并積累元數(shù)據(jù)和數(shù)據(jù)源的同步性,實現(xiàn)圖像數(shù)據(jù)上的精準組織推送功能和智能索引分析學習,使圖像媒體具有多模認知智能。