[摘要]在闡述了數字圖書館中圖片圖像信息保存的重要性后,重點就如何建設圖片圖像資源庫以及相應的技術難點進行了分析和研究,通過分析研究給出了建設圖片圖像資源庫的相關步驟和規程,實踐表明該研究對目前數字圖書館的建設有著積極的指導作用。
〔關鍵詞〕數字圖書館;圖片圖像;數據庫建設;組織技術
DOI:10.3969/j.issn.1008-0821.2011.03.020
〔中圖分類號〕G250 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)03-0083-03
Research on the Construction and Organization Technology of Pictures and Images in the Digital LibraryGuo Ruifang
(Library,Zhaoqing University,Zhaoqing 526061,China)
〔Abstract〕It is very important to keep the pictures and images in the digital library.This thesis analyzed how to built the pictures and images resource bank,and pointed out the procedure and rules.This has the positive function to the construction of the digital library.
〔Keywords〕digital library;pictures and images;resource bank;organization technology
計算機技術和網絡通信技術的飛速發展,因特網的廣泛應用,使圖書館的功能模式發生根本性的改變。數字圖書館的成功運用使圖書館信息實現數字化管理,并提供優質的上網服務,Internet用戶可隨時隨地查閱所需資料,同時數字圖書館的功能在不斷的豐富和完善。與傳統圖書館有所不同的是,實現了從以書本紙張式載體保存信息轉變為以磁盤、光介質等形式來存儲信息資料,從而實現最大程度的信息共享。其實對于數字圖書館來說首先是一個數字信息資源庫,它可以具有豐富的內涵及延伸,其資源可以包括文字、聲音、圖片圖像等多種媒體形式。相比文字信息等,圖片圖像作為一種信息載體以其鮮明、生動、形象、明確、清晰、真實細膩的特點展現給我們直觀的信息,它具有其他任何載體文獻不可比擬的顯著特點[1]。在純文字時代,學者們描述一件事物,常常是費盡心機,極盡文字之能,卻往往是數千字甚至幾萬字也未必能將它的外部特征與內在聯系詳盡無遺地描述清楚[2];特別是對那些需要科學、客觀地記述的事物,不能用文學語言描述,文字的貧乏無力則于此暴露無遺;而圖片,特別是一組附有文字說明的專題圖片,以其特有的鏡頭語言,向人們傳遞最直觀的視覺信息;一組專題圖片提供的全部信息,往往超過文字所能表達的信息含量。在因特網上,有許多免費圖片的資料和資源,但是真正含有學術資料的圖片并不多,顯然這與人們對該類資源的重視程度以及實現技術難度有關。如何組織這類資源,并實現其真正的價值,發揮其更大的潛在價值,在過去的10多年中學者對該方面做了一些探索性的研究,但其這方面的研究力度尚顯不足,與日益增長的需求明顯滯后。
傳統的圖書館大部分是以藏書的數量、種類的多少等指標來衡量一個圖書館的規模及影響,伴隨著數字化時代的到來其評價指標又進一步得到了提升。通過研究我們發現圖片圖像作為一種信息資源其潛在價值越來越高,對該類資源的收集也越來越受到重視,作為信息資源共享的主要平臺數字圖書館其收藏圖片圖像這類資源的價值就更高。在傳統的圖書館中圖片圖像這類信息只是作為很小的一部分來進行保存的,沒有進行有價值的大規模開發,我們認為隨著數字圖書館的日益普及其作用會得到進一步的提升,因此在圖書館中專門設立圖片圖像數據庫就成為可能。目前人們越來越多地接觸到大量圖片圖像信息,伴隨圖像數據庫技術的日益成熟其運用也會更加豐富,對數字圖書館中如何來保存、檢索圖像信息也就成為其建設中要研究的一個方面。對于這方面的研究熱點主要集中在以下幾個方面:
(1)圖片圖像元數據格式;
(2)檢索技術;
(3)圖片圖像壓縮算法;
(4)圖片圖像資源庫建設。
目前,從國內可以查閱的一些文獻來看研究主要集中在一些實例的運用上,對進一步研究具有一定的借鑒意義,本文就是在這些學者的研究基礎之上針對圖片圖像數據庫的組織、建設、管理應用等方面做一些探索性的研究。
1 數字圖書館下圖片圖像資源庫的建設難點及共享技術研究在數字圖書館建設方面首先要進行信息的歸類,通常我們可以將文獻資料信息可以劃分為兩大類:一類是能夠用數據或統一的結構加以表示的信息類型,如數字、符號等,我們稱之為結構化數據;而另一類是無法用數字或統一的結構來表示的信息類型,如圖片、圖像、聲音等,我們稱之為非結構化數據。圖像數據庫興起于上個世紀80年代初期,來源于圖像解釋、分析和模式識別領域。圖像數據庫所包含的信息有圖標型數據(圖像本身)、圖像相關數據(分辨率、格式描述)、從圖像中提取的信息(數值、結構特征)以及其它程序型數據等。圖像數據庫經歷了從簡單到復雜、從圖像解釋到基于內容檢索的發展過程,是一種較為成熟的數據庫之一。對于圖書館建設中有關該類資源的建設還屬于探索階段,因此以下就在數字圖書館建設中有關圖片圖像資源庫建設所涉及的一些主要內容和難點將分別進行研究和探討。
1.1 圖片圖像庫的建設難點研究
1.1.1 圖片圖像的收集與整理
圖片圖像資源庫屬于特色庫,其建設屬于特色資源建設,特別是對于地方圖書館來說具有創新意義。收集和整理圖片圖像文獻無疑是建立圖片數據庫的前提,離開了良好的文獻收集整理工作,就不能建成頗具特色的圖片數據庫。建立這一特色文獻資源,需要有前瞻意識,要有人員、經費的支持,對于具體主持圖片庫建設的館員來說,除具備傳統圖書館專業知識外,還應懂得攝影與電腦處理技術等。由此可見建立這樣一個特色資源庫需要高素質的復合型人才,同時還需要各方面的配合,其難度較大。因此,對于該類資源的收集及整理要作為一項系統工程來進行規劃和建設。
1.1.2 圖片圖像的存儲問題
圖片圖像的存儲涉及到圖像格式的選擇,圖像格式是指我們利用計算機以數字方式存儲圖像的方法, 不同的圖形格式意味著不同的編碼方法。對于圖片的存儲有多種形式可供選擇;在實際工作中,圖片圖像大多是通過掃描儀掃描后進行存放的。通常掃描軟件提供多種格式,因此在圖片存儲時,可以采用靈活的存放標準,比較常用的格式可以分為兩種類型,一種是采用統一的壓縮形式存放,另一種是保留非壓縮存儲形式。
數字圖像是數字信息資源的重要組成部分,它不同于一般文獻資源,其內容特征涉及非文字性的圖形、色彩、色調、紋理、內容對象、物理制作要素等信息。對這類資源進行組織、收藏和檢索時,更需要一個規范和全面的描述格式。目前,在不同領域和不同應用項目中,存在多種對數字圖像進行描述的元數據格式,由于本文涉及的只是資源庫的建設問題,因此本文對這些內容就不再介紹和比較。
1.1.3 圖片圖像數據庫的建設問題
對于資源庫來說圖片圖像最終都將以文件的形式進行保存,在確定了存儲格式后在建設資源庫時就要涉及到文件的命名以及數據庫的建設問題。一般來說圖片的命名包括存放圖片的文件夾的命名和圖片本身的命名兩部分。對于這兩個部分的命名既具有惟一性,又避免了名稱重復出現,同時又具有一定的規律性。而數據庫的建設涉及到數據庫軟件的選擇、規模的大小、成本以及訪問共享的數量問題,這方面的技術比較成熟,可以參閱其它的文獻及資料,這里不再展開討論。
1.2 共享與圖像檢索技術研究
如何在浩如煙海的圖像數據庫中檢索到所需的圖像數據成為近年來人們關注的領域,對圖像檢索展開的研究也取得了很大的進展,圖像檢索發展到現在經歷了兩個階段:基于文本的檢索和基于內容的檢索。在圖書館大部分的傳統數據庫中,圖片圖像數據庫檢索采用基于關鍵詞或描述性文本的檢索方式,如圖像作者、標題、創作時間等,查詢時需要指明文本特征,要求用戶對文本特征的描述具有一定的規范性和正確性。然而不同用戶對同一幅圖像的內容可能有不同的抽象,事實上在現實生活中,人們使用信息的方法很多情況是靠直覺的印象,而且圖像的視覺特征難以用關鍵詞描述,所以這種方法往往不能達到滿意的效果。因此,國外許多機構為了提高檢索圖像的有效性,開始研究基于內容的圖像檢索方法,并有以IBM的QBIC為代表的成功產品。
文本的圖像檢索存在著兩大困難,尤其是當圖像的數量非常大的時候,其一是手工對圖像進行注解所需的工作量太大,其二是圖像注解的主觀性和不精確性可能導致檢索過程失?。郏常?。為了克服這些弊端,研究者們提出了基于內容的圖像檢索,即通過分析圖像的內容,如顏色、紋理、形狀等,建立特征索引,并存儲在特征庫中。用戶在檢索查詢時,只需把自己對圖像的模糊印象描述出來,就可以在大容量圖像庫中找到所需的圖像??傊?,基于內容的圖像檢索技術融合了圖像理解技術,從而可以提供更加有效的檢索途徑[4]。采用該方法,用戶不需要對檢索的媒體對象進行精確描述,比較適合實際應用;具有很強的交互性,用戶可以參與檢索過程;引入了特征庫和知識輔助的概念,即便于保存描述圖像內容的特征,又有利于查詢優化。
2 圖片圖像數據庫的建設相關標準工作規程研究
通常在設計圖像數據庫時,需要包括以下幾方面內容:首先是進行圖像的掃描及預處理,即格式的轉換、統一尺寸、圖像增強與去雜,為圖像提取做準備;其次,進行圖像的特征提取,例如圖像的形狀與顏色特征、圖像的紋理特征等;接下來,由數字化圖像信息構成的圖像庫、圖像經特征提取后構成的特征庫、由文本信息構成的知識庫三方面組成數據庫系統。本著打造精品的指導思想,在數據庫的建設過程中,我們通??梢詫D像數字化的過程分為3個階段,即圖像掃描、圖像處理、圖像文件的發布[5],這是一項系統工程,每個階段都要明確任務。
圖像數字化的第一階段,是圖像掃描。圖像掃描的質量如何,直接影響到后期的制作。在實際工作中可采用較新的圖像掃描儀,并針對掃描的圖像不同,參照相關的數字化資源建設標準,進行了反復的試驗、比較,確定較為合理的、可操作的技術指標。同時掃描指標的設置,盡可能滿足今后的多種不同數字產品輸出需要,避免重復建設。第二階段是圖像處理。為此,必須進行專題研究,如:圖像畫面的選取、圖像發布的格式、水印的嵌入、圖像文件壓縮與優化、圖像文件傳輸與存貯、數字資源長期保存、圖像的數字版權等方面,進行了反復的測試、比較,從而選取最佳的技術指標。第三階段是圖像文件的發布。這一階段的主要任務是:圖文比對,力求圖文并茂,根據瀏覽效果,對圖像進一步調整。
從以上的研究可以得出,在實際的建設過程中,我們首先要制定數據庫建設相關標準和規范,其中主要包括圖像掃描規范、圖像文件處理規則、文獻標引規則、文獻分類詞表、數據入庫規則。
當然,最終用戶檢索時的數據庫界面也是必不可少的。用戶在查找一個圖像時,通過示例或特定的查詢語言形成一個檢索提問,計算機將查詢特征與特征庫中的特征按照一定的匹配算法進行相似性匹配,在這之后會輸出滿足一定相似性條件的一組候選結果,并按相似度大小排列后返回用戶。
通過對國內相關圖像數字資源建設標準和部分圖書館的圖像數據庫建設狀況的系統調研,我們對圖像數據建設的思路、技術平臺、圖像數據庫文獻收錄的范圍、數字資源的制作標準、發布與存貯管理等一系列問題進行了分析和研究,發現由南京圖書館建設的《中國近代文獻圖像數據庫》建設具有良好的借鑒作用,他們成功運用科技部科技基礎條件平臺工作重大項目《中國數字圖書館標準規范建設》所明確的數字圖書館數字加工標準和規范,采用國內成熟的商用軟件,建設一個立足館藏特色,具有自主版權、鮮明時代特色,集史料性、學術性和觀賞性為一體的綜合性中國近代文獻圖像數據庫。有關這方面的研究可以參閱文獻。
3 結 語
圖片圖像作為一種重要的信息載體,具有形象直觀、內容豐富等特點,是表達信息的一種重要方式,但圖像在使信息的表達更加準確和豐富的同時,一直面臨著如何對圖像進行有效的管理,使用能迅速準確地得到自己所要的圖像的問題。通過以上的研究我們發現,作為數字圖書館中不可缺少的資源類型,特別是針對教、學和科研工作讀者而設計的圖片圖像數據庫資源,具有一定的借鑒作用。本文結合了當前我國數字圖書館建設中圖片圖像數據庫建庫研究與實踐,探討該類資源建設的難點,給出了實際建設中的操作規程。以目前的檢索技術要解決基于圖像內容的查準率和查全率尚有很長的路要走,本文只是對這類資源建設中的一些問題進行了分析和探討,對于實際的應用具有重要指導意義。
參考文獻
[1]朱曉燕,白建明.圖書館特色文獻圖片庫建設[J].圖書館建設,2002,(5):44-46.
[2]許延長.中小型圖書館特色文獻圖片庫建設[J].圖書館建設,2001,(3):33-35.
[3]呂娜,孫揚民,黃國豐.對圖像檢索應用概況的研究[J].情報科學,2002,(3):324-329.
[4]肖明,王永紅,石勇.基于內容的圖像檢索研究進展[J].情報雜志,2007,(1):43-45.
[5]何惠芬.數字圖書館中基于內容的圖像數據庫檢索技術[J].情報雜志,2002,(7): 33-36.