摘要:數字圖書館是一個將信息資源以數字化方式存貯并通過網絡提供即時服務的信息系統,因而信息資源數字化是實現數字圖書館的根本條件。從數字圖書館中信息資源數字化的涵義出發,探討了信息數字化的關鍵技術,并從內容建設、知識產權、技術應用和標準與規范4個方面分析了我國數字圖書館信息數字化中存在的主要問題,同時提出了相應的對策和建議。
關鍵詞:數字圖書館;信息數字化;存儲技術;發展對策
中圖分類號:G203 文獻標識碼:C 文章編號:0439-8114(2011)09-1942-03
The Problems and Countermeasures of Information Digitization Construction of the Digital Library in the College
LU Xian-feng
(The Library of Huanggang Normal University, Huanggang 438000,Hubei,China)
Abstract: A digital library was an information system which saved information resources by digitalization and offered immediate service by internet. Therefore, the digitalization of information resources was a basic requirement for the realization of a digital library. Initially the concept of digitization of information was disscussed, the key technology of it was explored, the main problems nowadays which involved the construction of content, intellectural property rights, technology application and standards were analyzed, and some countermeasures and suggestions for those problems were put forward too.
Key words: digital library;digitization of information;storage technology;strategy of development
信息數字化作為數字圖書館的內容建設,是數字圖書館正常運轉的關鍵步驟。但目前我國信息數字化中由于種種原因還存在許多問題,如重復建設、知識產權、技術應用和標準與規范等問題,這些都嚴重阻礙了我國數字圖書館的健康發展。因此,我國在實施信息數字化建設過程中,不僅需要更新觀念、統籌建設,還要規范標準、加強立法、提高館員素質,更要加強適合我國國情的技術創新。為此,我們需要不斷地總結經驗,探索新的開發技術和工作方式,逐步將我國寶貴的傳統文化遺產加以數字化,進而開發出具有中國特色的數字化產品。
1數字圖書館中的信息數字化
1.1信息數字化的內涵
從社會信息化環境來說,數字圖書館是運用計算機技術、網絡技術、通信技術等多種信息技術,對不同載體和類型的信息資源進行搜集、選擇和規范化處理,使之以數字化的方式存儲,建立分布式的館藏信息資源庫和虛擬信息資源庫,并通過網絡向世界各地用戶提供無時空限制服務的信息系統。數字圖書館的主要職能是搜集、保存和傳遞數字化信息,可以稱之為數字化信息的存儲和傳遞中心,因而信息數字化建設無論從質量還是從數量上都是數字圖書館發展的關鍵環節。
1.2信息數字化的關鍵技術
信息數字化技術包括數字化信息的生成技術、存儲技術和壓縮技術等,其關鍵技術是數字化信息的生成技術和存儲技術。
1)數字化信息的生成技術包括有鍵盤錄入和非鍵盤錄入兩種方式,目前使用較多的數字化信息的生成技術主要是第二種方式。鍵盤錄入是一種手工轉換的文本模式;非鍵盤錄入包括手寫識別技術、印刷文稿掃描識別技術、語音識別技術。在信息數字化實際工作中,我國許多數字圖書館都采用兩者相結合的方式來規避鍵盤錄入的較高錯誤率和掃描方式對硬件的較高要求,也就是采用超星公司開發的數字化技術加上便攜式文件格式(PDF)和超文本標記語言(HTML)格式。
2)數字化信息的存儲技術包括直接存儲技術和網絡存儲技術。直接存儲技術是目前大多數數字圖書館的數據存貯技術,主要包括光盤塔技術、磁盤陣列技術和磁帶庫技術;網絡存儲技術是海量數據信息存儲的實現方式,包括直接附加存儲(DAS)、網絡附加存儲(NAS)、存儲區域網絡(SAN)、小型計算機系統接口(iSCSI)技術和內容尋址存儲(CAS)[1]。
2信息數字化中存在的主要問題
雖然我國數字圖書館建設中的信息數字化工作取得了一定的進步,但由于觀念和技術的落后,信息數字化建設整體上呈現出數字信息資源重復建設嚴重、版權保護立法不健全、缺乏有力的技術支撐、標準和規范化建設滯后等問題[2]。
2.1重復建設問題
由于國內各地區、各系統以及各館之間無一個權威的協調機構,也無規劃布局和分工實施計劃,數字圖書館建設缺乏全局性的統一規劃和政府權威部門的協調,相當多的所謂數字圖書館建設仍處于各自為政、貪大求全和相對分散的無序狀態,信息資源重復現象的問題嚴重。近年來,我國各級政府投入數字化建設的資金總額已達36億元,在政府資金的大力支持下,各級各類數字圖書館都在進行數字信息資源建設,甚至引進CNKI等數據庫,這種現象在各大高校數字圖書館的信息數字化中也非常普遍,在相當廣的范圍內存在著潛在的數字信息資源重復建設問題。
2.2知識產權問題
數字圖書館中信息數字化所涉及的知識產權問題包括信息來源的著作權尊重和數字化信息建成后自身著作權的保護。隨著數字圖書館的開通,數據庫的利用將越來越廣泛,由此產生的知識產權問題就不可避免,其中爭論的焦點是關于網絡作品的制作、傳播和使用的版權保護問題,讓一些數字圖書館在實踐中遭遇法律尷尬。著作權人公開指責圖書館界濫用權利,嚴重損害了著作權人的利益;出版界也有人認為文獻信息的數字化是復制出版界的出版物,在網上出現了成千上萬的復制本、使出版界的經濟利益受到損害;而圖書館界則認為信息獲取的主動權完全掌握在版權人手里,這樣會嚴重地影響知識的創造和傳播。因而制定網上數字化文獻的著作權法律法規已成當務之急。
2.3技術應用問題
隨著電子出版物的收藏和網絡數字化資源的采集,圖書館越來越多的信息一入館就是數字化的,而對于未數字化的傳統館藏,進行數字化轉化所使用的技術主要是光學字符識別(OCR)掃描錄入方式。一般的OCR錄入系統能夠實現對各種現代書籍、簡繁體書籍、報刊雜志、公文檔案的錄入識別,且識別率高,還能實現各種校對,然而,對于館藏文獻的數字化而言,由于漢字的復雜性,OCR對各類中文文獻的識別遠難于對英文和數字的識別,特別對含有繁體手寫漢字的古籍文獻、簡繁混排的中文文獻、專業性強的中文文獻以及難于機檢的漢字文獻。OCR技術目前還存在很大的誤識率和拒識率,為此,需要對OCR系統進行深入的研究和改進,提高其應用的全面性,并要引入中文校對、錄入質量控制等技術,從而加強其管理功能。
2.4標準與規范問題
目前,在信息數字化標準規范方面存在的問題主要有:①缺乏對標準規范重要性的認識;②缺乏普遍接受和廣泛應用的關鍵標準規范;③缺乏對標準規范建設的系統化把握;④缺乏對標準規范的開放描述和開放應用;⑤缺乏開放、聯合、共享的標準規范建設與應用機制,例如圖書館在信息資源建設過程中所采用的軟件系統差異很大,如ILAS系統、圖書館集成系統等,其標準和格式都不一致,導致開發的數據庫不能兼容,檢索界面不一,檢索途徑也不同,檢索語言也無統一的規范控制,無法在網上實現資源共享。
3信息數字化發展對策
3.1加強特色數字館藏建設
只有具有特色的數據才能贏得較高的網絡訪問頻率,才具有資源共享的價值,也是各大數字圖書館以最小投入換取最大效益的文獻信息共享模式。因此,在進行本館的信息數字化建設時,除了需要全面考慮文獻價值、用戶需求、載體形態、技術可行性和著作版權等一般因素外,還需要科學而系統地考慮館藏內容、館藏特色,尤其是館藏結構和館藏級別。館藏級別一般可以劃分為永久保存級、服務級、鏡像級和鏈接級4個基本層次。永久保存級館藏是指具有確定的保存價值和用途,并具有惟一性的特色文獻;服務級館藏是指十分有用和必須的虛擬館藏;鏡像級館藏是指其他數字圖書館館藏的拷貝,與永久保存級相同的是它們都是現實館藏,與之不同的是它缺乏惟一性;鏈接級館藏則是貯存于其他數字圖書館中的數字化信息資源,其內容較為廣泛,與服務級館藏相比,它與用戶的相關性要低一些。只有通過這些特色數字館藏的建設,才能真正優化館藏文獻的結構,加快館藏信息利用,最大限度地避免重復建設,從而提高整個社會文獻資源的保障水平和信息資源的開發利用效率。
3.2從信息源頭加快信息數字化建設
文獻信息資源的源頭在出版社和出版商,每年都有數以萬計的文獻資源被出版系統數字化,這個資源如能加以利用,將是一筆巨大的財富。據2001年統計,全國530家出版社的圖書總量是154 526 種[3],一年的文獻資源總量就相當于一個中型圖書館文獻資源的全部館藏總量,而且還在逐年遞增。如果把信息數字化的生產重任交給出版商,將會帶來很大的經濟效益和社會效益:一方面可以大量減少信息資源重復數字化帶來的人力、物力、財力的浪費;另一方面,信息資源數據庫的建設者可以通過與出版社合作取得授權來解決信息資源建設、傳播中的知識產權問題,既能保護作者的知識產權,又能照顧到出版商利益,同時還能讓各類文化、科技的文明成果納入數字圖書館,使其能為更多的人服務,創造出更大的價值。
3.3開發和利用先進技術
無論是從數字圖書館建設,還是從作為其一部分的文獻信息數字化技術來說,技術問題仍然是制約著信息資源共享的主要問題。數字圖書館是采用現代高新技術的系統工程,不僅需要立項研究開發新的應用技術,而且還需要各種高新技術成果的及時轉化和應用。目前,信息資源數字化的關鍵技術在發達國家已趨于成熟,國外的數字圖書館工程為國內提供了可借鑒的經驗,加強技術研發工作可以從以下幾個方面進行:①從中國數字圖書館建設項目的實際出發,組織專人對信息數字化關鍵技術進行跟蹤、研究、攻關;②借鑒引進適合國情的國外先進技術和先進產品;③集成和采用以國家“863”計劃為代表的國內已有的科技成果;④開發適合我們自己的先進技術,如電子信息處理技術、指引庫技術、語音識別技術及信息媒介技術,同時規范有關技術標準[4]。
3.4促進信息數字化建設的規范化和標準化
信息數字化涉及文獻描述、組織和檢索多個方面,要使工作順利進行,各個數字圖書館之間要能夠共建共享信息資源,就必須統一標準,加強兼容性。因此,圖書館數字化建設要走資源共享的道路,必須打破各自為政的局面,各圖書館文獻分類編目不統一,對資源共享造成很大的障礙,在書目數據方面,數據不標準就不能保證用戶從各個角度迅速、準確地檢索資料。因此必須有一個數字圖書館全國中心,建立和健全全國數字圖書館使用的各種標準規范,協調規范資源庫建設,解決信息數字化建設的標準化問題。根據標準,再由地區內、地區間各館合作建庫或由地區文獻信息中心統一建庫,各館錄用,最終達到全國的標準化。
3.5提高館員的信息處理技術與研究人員的素質
隨著信息資源概念的發展,文獻信息數量和類型的增加,信息工作方式和手段的改進,圖書館的工作對象已不再局限于對傳統紙質文獻和某些縮微資料或視聽資料的一般性收集、整理、組織、管理等工作,數字圖書館面臨更多的信息載體和信息服務方式。例如,各種電子圖書、網絡信息資源、CD-ROM和其他電子資料已成為數字圖書館采訪和處理的主要對象,這對于長期熟悉紙質文獻的傳統圖書館員來說就是一個巨大的挑戰,同時,數字圖書館還會帶來一系列需要解決的新問題,如知識產權歸屬品種和復本的比例、購書經費的分配等。在書刊分類和編目工作上,館員的技術性處理工作會迅速減少,但會被賦予需要更多知識的技能才能完成的新任務。也就是說,他們可能參與更多的信息技術工作、文獻信息研究和用戶研究工作。總之,現在圖書館工作者應當是信息專家和信息工程師,是信息系統的設計者,也是信息用戶的導航者。鑒于此,在提升數字圖書館館員的素質上,一方面可以通過吸收一批計算機、通訊、外語方面有特長的人才充實圖書館人員隊伍;另一方面應加強在職人員的培訓,提高其計算機、英語和專業綜合技能與素質,及時調整和優化他們的知識結構,以適應信息資源數字化建設的要求。
參考文獻:
[1] 陳柯明.談網絡環境下數字圖書館信息存儲技術應用發展[J].圖書館界,2004,6(2):20-21.
[2] 梁 平.我國數字圖書館建設中的幾個問題[J].中華醫學圖書情報雜志,2004,13(3):13-14.
[3] 楊曉農.我國文獻信息數字化技術的發展[J].中國信息導報,2004(5):32-33.
[4] 楊慕蓮.論加強數字圖書館建設的幾點措施[J].圖書館學刊,2005(1):55-56.