馬向東
(哈爾濱理工大學榮成學院圖書館,山東榮成264300)
一種形式與內容相結合的多媒體分類方法研究與實現
馬向東
(哈爾濱理工大學榮成學院圖書館,山東榮成264300)
側重多媒體資源分類標引方面的探討,分析了當前多媒體分類、檢索技術研究狀況及實施難度,給出一種可以更充分反映出多媒體新學科與傳統學科之間的聯系、注重多媒體資源的主題內容與中圖法分類的關聯,同時也兼顧多媒體的外在形式的分類方法。
多媒體;著錄;分類
自20世紀90年代開始,出現了一種先進的超文本檢索——WWW。超文本是一種信息的組織方法,它把包括文字、圖像、音頻、視頻等各種不定長的基本信息單元存放在各個結點上,通過復雜的鏈路聯系在一起,得以檢索出內容更廣泛的各種信息。這種包含聽覺、視覺等多種元素的圖文并茂、聲像并舉的各種媒體的總和產生了多媒體概念[1]。多媒體在圖書館現代化建設中越來越顯示出它的巨大作用。因此,如何能夠更有效地組織起多媒體文件與檢索特征詞特別是分類法之間的內在關聯,以方便廣大讀者檢索利用,成為當前圖書館及計算機學術界的重要課題。
(一)傳統非紙本資源的著錄標引分類狀況及其局限
傳統圖書館經歷電子化時代后也收藏了很多非紙本資源,包括音像資料、縮微資料、機讀資料等,因其類型繁多、內容復雜,根據不同標準有多種不同的劃分結果[2]。這些語音資料、圖像資料或其綜合體給我們的傳統圖書分類方法造成了一定的麻煩。現在各高校圖書館的傳統非紙本資源的著錄標引有多種方法,但都有其共同特點:一是都采用CNMARC/USMARC格式,需要專業圖書著錄人員錄入;二是都依賴于紙本圖書數據庫發布及檢索,難于體現多媒體標識的特殊性;三是字段煩瑣,人工著錄的工作量很大。缺點也是顯而易見的,它很難包含網絡獲得的種類繁多的多媒體資源,不能充分直觀地反映多媒體資源的特征與類型,在分類標引上也單一化,組織及檢索存在較大的難度。
目前,Internet網上的多媒體資源分類方法多種多樣,有根據音視頻的藝術形式、創作題材或壓縮方式來進行分類的,如將電影資源分為紀錄片、言情片、戰爭片、恐怖片、災難片,喜劇片等;有將音頻資源分為MIDI、MP3等的。這些分類方法也有明顯缺陷,經?;ハ喟踔链嬖诿?。如只從電影資源方面看,在紀錄片中也存在戰爭題材或表示自然或人為災難的。而且無法反映多媒體資源的多樣性,但也可以作為借鑒參考。
(二)當前多媒體資源的分類、檢索技術研究狀況及實施難度
當前,在多媒體資源分類、檢索方面的前端研究課題有兩個方向:一是基于元數據的多媒體信息分類檢索,代表是DublinCore元素;二是基于內容的多媒體信息分類檢索,代表是MPEG7標準接口。這兩種分類檢索技術的側重點不同,前者的主要目的是方便電子文獻的著錄;后者主要是對多媒體內容描述的步驟定義一系列的方法和工具,起到檢索標準接口、方便計算機自動分類檢索的目的[3]。
與MARC相比,Dublin Core有結構簡單、字段較少等優點,但也有一定缺陷,即在大型數據庫建設中,通過限定詞進行數據標引以加以區分,容易造成非經過特殊培訓的專業人員不易掌握的缺陷。區分過粗就影響數據的使用效率,區分過細又著錄復雜,形同MARK著錄方式。但是,隨著對DC的研究發展,從圖書館的電子文獻組織分類方面來說,DC還將是一個發展方向,應用前景不容置疑[4]。
MPEG7是MPEG(運動圖像專家組)的新一代多媒體標準。因為MPEG-7標準本身不提供對描述特征的自動提取機制,現在還沒有一個真正與之配合的科學實用的檢索系統出現,還只處于研究階段,是多媒體檢索界的重大課題。
通過對以上兩種多媒體分類檢索前沿技術發展的概括,我們可以發現在大多數圖書館的現有軟硬件環境下,這兩種方式都存在要求過高、很難實現的共同特點。
針對高校圖書館的具體現狀和軟硬件現有配置,在不需增添設備、不需另行研究開發高端技術、不需增加大量勞動量的基礎上,因地制宜地建設一個結合本館實際的多媒體資源數據庫及方便快捷的檢索系統,應該是我們當前的主要實現目標。綜合大量研究實踐,筆者認為應該側重以下三個方面。
1.充分利用現有資源及技術?,F有資源包括平時上網瀏覽積累的多媒體素材、開設某專題特意尋找的多媒體資料、經過數字化轉換的本館傳統電子介質資源等?,F有技術則指本館原有網絡設備軟硬件、網絡常用多媒體壓縮處理及轉換軟件、具有普適性的網絡數據庫技術、網絡多媒體傳輸技術等。
2.在多媒體分類標引方面,堅持分類標準,兼顧多樣。采用國內最通用的中國圖書館分類法第四版作為分類標準,具有科學性、連續性、前瞻性、預見性的特點。同時,為了充分反映多媒體新學科與傳統學科的聯系,要注重多媒體資源的主題內容與中圖法各類的關聯,也要兼顧多媒體的外在形式,創建出一種同時具備兩種分類標準的分類檢索方式。
3.在多媒體數據庫及檢索方面,設計一個不直接依賴于MARC字段式著錄方式的簡單明了的錄入窗口程序有其必要性,而且使其成為能夠脫離圖書館廣泛應用的基于CNMARC/USMARC的紙本圖書數據庫的自動化系統,采用單獨特殊的數據庫,利用現有的圖書館數字化平臺建設一個多媒體數據庫檢索系統。
通過對幾種當前多媒體資源的分類、檢索技術研究狀況比較研究,筆者認為,在現階段來說,還是目前仍廣泛應用于圖書館方面的基于文本的多媒體信息檢索最直接、最簡單、最實用。為了盡量避免它的缺陷,借鑒DC元數據的結構簡單、字段少的發展方向,應采用以最少最必要的字段來揭示盡可能多的多媒體內容特征的方法進行著錄。
而在分類方面,針對圖書館應用的特點,采用國內最通用的“中圖法”對圖片、音頻、視頻進行分類標引有其必要性。再結合互聯網上普遍采用的對多媒體文件的類別劃分,得出內容與形式相結合的分類方法。因此,可以同時采用兩種分類并存并互為補充的方式進行分類標引,分別為按形式分類和按內容分類。以按內容分類為主,體現多媒體源文件的題材內涵;以形式分類為輔,體現多媒體文件的表像區別。
例如,在形式分類上為軍事題材的故事片,因其表現的是二次世界大戰的歷史,在內容分類上就將分在歷史類。推而廣之,這樣就能很好地解決科技類多媒體文獻的分類標引,如一部描寫環境生態保護方面的記錄片,按形式分類為藝術類的記錄片,按內容分類即為環境保護類。再舉一個圖像的例子。一張毛澤東在1949年開國大典上的照片,在形式上將歸到藝術大類的新聞攝影小類當中,而從內容上分類則是馬列主義毛澤東思想大類中的毛澤東生平小類。
這樣同時保留兩種分類方法,讓讀者可以根據自己的需要,除了利用題名、關鍵詞等檢索方法外,還可以通過不同的兩種分類類別檢索到自己所需的多媒體資源。
例如,在視頻及音頻庫著錄字段方面,“名稱”、“關鍵詞”、“主題詞”、“簡介”、“作者”、“來源”、“大小”、“出版日期”等為必備字段。而圖像庫字段與音視頻庫略有不同,要增加“圖像屬性”、“DPI”、“尺寸”三個字段,以突出圖像方面的特殊屬性。在此基礎上,在所有多媒體資源的著錄字段中添加“按內容分類”與“按形式分類”兩個新字段,利用不同的樹型結構或檢索提示展示中圖法類別,能夠極大方便讀者檢索利用。
因為音頻、視頻、圖像等媒體類型有著不同的區別,可以采用分別建立不同的數據庫的方法建立多個不同結構模板的數據庫,然后采用統一的跨庫檢索(即同一服務器上的不同數據庫組織在一起檢索)技術來實現多媒體數據庫的統一檢索,從而實現構建包含不同多媒體文件的整體性多媒體網絡數據庫。比如,在一個多媒體建設平臺上分別建立音頻庫、視頻庫、圖像庫,然后在三種不同的數據庫的基礎上建立跨庫統一檢索界面,讀者可以通過傳統的題名、關鍵詞、著者等檢索途徑進行檢索。同時,統一采用中圖法分類導航,并設定為“按內容分類”、“按形式分類”兩種分類方式,以便更快速更全面地展示出各種媒體庫的相關資源信息。
因為多數圖書館都已購買或自建了數字圖書館建設平臺,所以,只要將其稍加變化或二次開發就可實現這種按形式分類與按內容分類的不同分類方法并存互為補充的分類檢索方式。
在信息化的網絡時代,多媒體技術在高校圖書館工作中已經處于越來越重要的地位。為了節省人力物力,在不侵犯著作版權的前提下,應該充分利用現有的網絡資源及網絡技術優勢來打造自己的多媒體資源數據庫及檢索平臺,同時研究出最充分反映多媒體形式與內容本質特征的分類標引方法。這樣才能因陋就簡、因地制宜地建設好具有自己本校特色的多媒體網絡數據庫。同時,要放眼未來,注意可以擴展升級到尖端新技術方面的兼容性,為將來移植到如Dublin Core標準的新型數據庫打好基礎。
[1]范建鳳.多媒體技術與圖書館信息服務[J].現代情報,2002,(6):142-145.
[2]劉新周.非書資料管理研究[J].農業網絡信息,2007,(4):74-76.
[3]杜明輝.MPEG-7的現狀和發展[J].山西電子技術,2005,(3):42-44.
[4]周建清.MARC與DC元數據對比研究[J].中國科技信息,2006,(8):7-8.
【責任編輯 安 琪】
G255.72
A
1673-291X(2016)23-0142-02
2016-09-10
馬向東(1966-),男,河南溫縣人,圖書館員,從事信息存儲與信息檢索研究。