王 瑩
(鄭州大學(xué)外語學(xué)院,河南 鄭州 450052)
每一個數(shù)字化項目都有自己的明確目標,通常情況下,這個目標有兩大范疇:其一是保護易損載體文獻資源,即數(shù)字保存;其二是將有較高價值的文獻資源數(shù)字化后通過因特網(wǎng)面向公共提供瀏覽,以實現(xiàn)文獻本身的傳播價值,也即數(shù)字存取。項目目標對數(shù)字化項目生命周期的各個階段都有直接關(guān)系,因此,確定項目目標是整個項目實施的關(guān)鍵環(huán)節(jié)。數(shù)字保存不僅意味著保存原始資源載體,而且還意味著數(shù)字資源的長期保存,以確保用戶的有效訪問,為此就必須采用數(shù)字遷移或數(shù)字仿真等長期保存策略對數(shù)字資源實施長期維護。數(shù)字存取方便用戶對數(shù)字資源的并發(fā)、實時獲取,從而克服對原始資源存取的時間、空間和可獲得性等方面的障礙。
信息資源數(shù)字化是一類成本高昂的項目,成本分布在其生命周期的各個階段,主要包括數(shù)字化內(nèi)容選擇、數(shù)字化生產(chǎn)準備、元數(shù)據(jù)析出、原始文獻的保護、數(shù)字化生產(chǎn)系統(tǒng)基礎(chǔ)設(shè)施的建設(shè)、數(shù)字轉(zhuǎn)換、文本抓取、數(shù)字主文檔及其各種副本的保存、數(shù)字資源的發(fā)布及其發(fā)布網(wǎng)站的維護以及整個項目的質(zhì)量控制等。在項目實施之前,應(yīng)該基于成本分布來編制經(jīng)費預(yù)算,在項目實施過程中,應(yīng)該采取一切可能方法降低其實施成本,這些方法主要有:一是減少人力成本;二是對數(shù)字轉(zhuǎn)換各環(huán)節(jié)實施自動控制,以減少人工干預(yù);三是實施規(guī)模生產(chǎn),減少生產(chǎn)流程中的變量;四是提高整體績效和產(chǎn)出,確保資金的高效利用;五是嚴格質(zhì)量管理,改善和優(yōu)化項目生產(chǎn)流程;六是構(gòu)建風(fēng)險管理預(yù)警體系,降低風(fēng)險成本;培訓(xùn)員工所需技能,提高生產(chǎn)能力和產(chǎn)品質(zhì)量;七是開展項目合作,實現(xiàn)資金、設(shè)備、人員和技術(shù)的優(yōu)勢互補。
數(shù)字化項目所涉及的信息資源的產(chǎn)權(quán)狀態(tài)有三種:免產(chǎn)權(quán)許可、產(chǎn)權(quán)歸數(shù)字化實施機構(gòu)所有和產(chǎn)權(quán)歸他人所有。對于第三種情況,數(shù)字轉(zhuǎn)換前必須獲得產(chǎn)權(quán)所有人的許可。調(diào)查顯示,產(chǎn)權(quán)許可是信息資源數(shù)字化項目實施的主要瓶頸之一,構(gòu)建集體授權(quán)管理機制和建立完善法定許可制度可提高產(chǎn)權(quán)許可效率,降低產(chǎn)權(quán)許可成本。
實施方式主要有自己實施和項目外包,這兩種方式各有優(yōu)劣。項目實施機構(gòu)應(yīng)權(quán)衡利弊,方能做出合適選擇。第一種方式對于不具備數(shù)字化生產(chǎn)基礎(chǔ)設(shè)施的數(shù)字化項目實施機構(gòu)具有很強的吸引力,因為這樣可以省去設(shè)備購置的高昂成本。對于一些特殊載體資源和載體過大資源(如,大幅面建筑圖紙、地圖和海報等)進行數(shù)字化,外包也許是唯一選擇。對于短期數(shù)字化項目,外包尤其是比較理想的選擇。然而,對于長期數(shù)字化項目,完全外包值得商榷,項目實施機構(gòu)將整個項目的實施依賴于外包商并非是明智決策。外包方式是項目實施機構(gòu)的困難選擇,決策前應(yīng)充分咨詢,出發(fā)點是成本效益分析。
2.1.1 Web訪問的需要
數(shù)字化的產(chǎn)品是通過因特網(wǎng)被廣大用戶存取利用,而網(wǎng)絡(luò)用戶組成非常復(fù)雜,一些非法用戶可能會對數(shù)字資源以及通過數(shù)字資源訪問的原始資源的安全構(gòu)成威脅。
2.1.2 成本的需要
解決數(shù)字化生產(chǎn)高成本和信息機構(gòu)經(jīng)費有限性之間矛盾。幾乎沒有信息機構(gòu)(如圖書館)有充足的資源來對整個館藏進行數(shù)字化,內(nèi)容選擇不可避免。
2.1.3 數(shù)字資源管理的需要
技術(shù)的快速發(fā)展使數(shù)字化項目的產(chǎn)品壽命越來越短,投入巨資進行數(shù)字遷移是延長數(shù)字資源生命的一個重要途徑,昂貴的維護成本就必須考慮數(shù)字化的內(nèi)容選擇。
2.1.4 產(chǎn)權(quán)保護的需要
信息機構(gòu)對絕大數(shù)館藏都缺乏產(chǎn)權(quán)的擁有,只能選擇那些能夠得到產(chǎn)權(quán)許可的館藏進行數(shù)字化。
2.1.5 特殊文獻的需要
信息機構(gòu)大都收藏一些對文化倫理乃至民族敏感的信息資源,對這些資源進行數(shù)字化就要考慮很多因素。
2.1.6 殘缺文獻處理成本的需要
信息機構(gòu)館藏文獻中有一部分是殘缺不全的,對這些文獻進行數(shù)字化之前就要進行補缺或相應(yīng)的說明,其費用是非常可觀的。
2.2.1 產(chǎn)權(quán)保證原則
館藏資源的產(chǎn)權(quán)狀態(tài)識別與數(shù)字化項目實施和數(shù)字資源發(fā)布所在的國家地區(qū)有關(guān),每個國家都有自己的知識產(chǎn)權(quán)保護法律。數(shù)字化項目只能選擇那些不存在產(chǎn)權(quán)保護的,或者是雖然存在產(chǎn)權(quán)保護但可以獲得產(chǎn)權(quán)許可的信息資源進行數(shù)字化生產(chǎn),除此之外,保護產(chǎn)權(quán)的方式也要經(jīng)產(chǎn)權(quán)所有者認可。
2.2.2 原始文獻知識價值原則
文獻知識價值的判斷具有很大程度的主觀性,其結(jié)果可能因人而異。但盡管如此,知識價值也必須是數(shù)字化內(nèi)容選擇的重要原則之一。影響原始信息資源的知識價值因素有很多,但主要包括資源的唯一性、相關(guān)價值、對相關(guān)主題領(lǐng)域理解的重要性、對相關(guān)主題領(lǐng)域覆蓋的廣度和深度、實用性和準確度、特定主題領(lǐng)域中其他載體記錄質(zhì)量差的信息內(nèi)容、具有強化項目實施的歷史價值以及數(shù)字化產(chǎn)品潛在的長期價值等。
2.2.3 用戶保障原則
用戶保障的本質(zhì)就是館藏文獻的利用率,理論上講,信息資源數(shù)字化項目應(yīng)該把有限的資金用在利用率高的資源的數(shù)字化上。
2.2.4 原始文獻物理特性原則
在數(shù)字化內(nèi)容選擇過程中,需要考慮的與原始文獻物理特征相關(guān)的問題主要有:原始文獻的物理狀態(tài)是否有利于數(shù)字化;其內(nèi)容是否能被目前的數(shù)字化技術(shù)完全和充分地抓取;物理材質(zhì)和形狀是否會對數(shù)字化過程構(gòu)成障礙;是否有保存良好的替代品(如縮微膠片)。
2.2.5 數(shù)字保存原則
為了保存的需要,數(shù)字化內(nèi)容選擇的原則之一是安全數(shù)字化,其含義包括:原始信息資源的狀態(tài)允許被完全數(shù)字化;數(shù)字化實施過程需要搬運原始資源時,其狀態(tài)適合于搬運;盡可能掃描原始資源的替代品,從而減少對原始資源的損傷;數(shù)字化的產(chǎn)品必須建檔,并制訂由于時間和技術(shù)變化等因素導(dǎo)致的長期維護策略。
2.2.6 技術(shù)條件限制原則
數(shù)字化內(nèi)容選擇將受到現(xiàn)有技術(shù)條件的限制。與技術(shù)條件有關(guān)的因素有:數(shù)字化技術(shù)生成的文獻數(shù)字版與原始文獻包含信息的相符程度;數(shù)字資源顯示在用戶終端的質(zhì)量;信息機構(gòu)支持的現(xiàn)行平臺和網(wǎng)絡(luò)環(huán)境對數(shù)字資源的存取能力;數(shù)字資源網(wǎng)絡(luò)傳播速度的合理性;對未來用戶使用先進設(shè)備的預(yù)測,以免日后需重新掃描;搜索引擎對數(shù)字資源的索引能力等。
信息資源數(shù)字化生產(chǎn)涉及最多的是二維平面介質(zhì)信息資源的數(shù)字掃描 (個別情況下采用數(shù)字拍照),以及模擬音頻的數(shù)字化轉(zhuǎn)換。
二維平面介質(zhì)信息資源的類型包括印刷型文本、手稿、半色調(diào)型信息資源、連續(xù)色調(diào)型信息資源和混合型信息資源等5種類型。
目前實現(xiàn)二維平面介質(zhì)信息資源數(shù)字化生產(chǎn)的主要設(shè)備是數(shù)字掃描設(shè)備和數(shù)碼拍照設(shè)備,并且前者占絕大多數(shù)。所以,一般情況下,數(shù)字化生產(chǎn)模式實際上是指數(shù)字圖像的掃描模式。掃描模式?jīng)Q定了從原始文獻中捕獲到的顏色信息的數(shù)量,也直接關(guān)系到形成的數(shù)字圖像文件的大小。要達到較好的掃描質(zhì)量,前提之一是選擇正確的掃描模式。對某一特定類型的文獻選擇比較理想的掃描模式時,主要考慮擬掃描對象的特性和掃描結(jié)果的用途(如,彩色顯示,黑白顯示,還是準備使用OCR處理等)。目前,絕大部分數(shù)字圖像掃描設(shè)備都提供三種類型的掃描模式:黑白模式、灰度模式與彩色模式。
影響二維平面介質(zhì)信息資源數(shù)字轉(zhuǎn)換質(zhì)量的生產(chǎn)因素有:分辨率、位元深度、文件格式、圖像壓縮等。數(shù)字化生產(chǎn)系統(tǒng)包括硬件系統(tǒng)和軟件系統(tǒng),前者主要有數(shù)字掃描設(shè)備、數(shù)字拍照設(shè)備、計算機系統(tǒng)及其相關(guān)存儲設(shè)備等,后者主要有圖像掃描軟件、圖像編輯軟件和圖像管理軟件等。數(shù)字化生產(chǎn)的質(zhì)量管理涉及不同類型信息資源數(shù)字掃描質(zhì)量調(diào)控,以及數(shù)字轉(zhuǎn)換產(chǎn)品的質(zhì)量檢驗
音頻數(shù)字化是將在時間和幅度上連續(xù)變化的模擬音頻進行數(shù)字化處理,轉(zhuǎn)換成在時間上取樣和幅度上量化的離散的二進制數(shù)字信號的過程。在這個轉(zhuǎn)換過程中,涉及到主要參數(shù)有采樣頻率和采樣數(shù)位(也稱量化級),二者是決定數(shù)字音頻質(zhì)量的主要因素。采樣是指用每隔一定時間間隔的信號樣本值序列代替原來在時間上連續(xù)的信號,即在時間上將模擬信號離散化,每秒的采樣次數(shù)稱為采樣頻率,以千赫茲(即,每秒幾千個樣本)來描述。在采樣結(jié)果中,每個樣值的幅度仍然是連續(xù)的模擬量,還需對其進行離散化處理,將其轉(zhuǎn)換為有限個離散值,才能最終用二進制編碼來表示其幅值,采樣位數(shù)是指表示振幅測量值的二進制碼的位數(shù),其單位是比特(bit)。音頻數(shù)字化最常見的模式是脈沖編碼調(diào)制。
數(shù)字資源發(fā)布是信息資源數(shù)字化項目面向最終用戶提供服務(wù)的重要窗口。發(fā)布對象是數(shù)字化主文檔的網(wǎng)上發(fā)布級應(yīng)用副本,發(fā)布過程包括數(shù)據(jù)庫建立和發(fā)布網(wǎng)站構(gòu)建。發(fā)布數(shù)據(jù)庫包括數(shù)字對象數(shù)據(jù)庫和元數(shù)據(jù)數(shù)據(jù)庫,一般采用現(xiàn)成的商業(yè)化大型數(shù)據(jù)庫系統(tǒng)。發(fā)布網(wǎng)站則由數(shù)字化項目自己構(gòu)建(或委托專業(yè)公司設(shè)計,但要項目本身提出質(zhì)量要求)。
4.1.1 透明性
指網(wǎng)站能夠清晰地表達構(gòu)建者的目的,并具有明顯的可識別特征。透明性體現(xiàn)在網(wǎng)站內(nèi)容表達的清晰性、網(wǎng)址的可識別性和網(wǎng)站宗旨陳述的簡潔性等。
4.1.2 有效性
指對收藏的文獻資源進行選擇,并進行數(shù)字加工與發(fā)布,以方便用戶有效利用。該原則的核心在于網(wǎng)站內(nèi)容。高質(zhì)量網(wǎng)站的內(nèi)容必須是經(jīng)過精心選擇的、與主題相關(guān)的、有效的、正確的、配有合適注解和輔助信息的內(nèi)容。有效性體現(xiàn)在發(fā)布內(nèi)容的準確性、展現(xiàn)方式的合理性和導(dǎo)航的合理性等。
4.1.3 維護性
指網(wǎng)站應(yīng)及時更新,以確保網(wǎng)站內(nèi)容的時效性。維護性體現(xiàn)在過時信息存檔以及靜態(tài)信息刷新等。
4.1.4 可訪問性
指網(wǎng)站必須對所有用戶都是可訪問的,無論用戶采用什么技術(shù),也不管他們的身體狀況存在有哪些訪問障礙。可訪問性體現(xiàn)在訪問技術(shù)的保障性、網(wǎng)站所有內(nèi)容的可訪問性以及支持網(wǎng)站瀏覽技術(shù)的多樣性等。
4.1.5 用戶中心
指網(wǎng)站設(shè)計與維護必須考慮用戶需求,并通過網(wǎng)站評估和信息反饋等方式收集用戶意見和建議,確保網(wǎng)站的有用性、易用性和對用戶的吸引性。用戶中心體現(xiàn)在網(wǎng)站的用戶保障、用戶使用效果的反饋以及內(nèi)容的可添加性等。
4.1.6 互操作性
指該網(wǎng)站與其他文化網(wǎng)站之間相互訪問的能力。互操作的實現(xiàn)將有助于用戶在更廣范圍內(nèi)查找所需信息。互操作性體現(xiàn)在元數(shù)據(jù)的標準化、網(wǎng)站設(shè)計技術(shù)的標準化、元數(shù)據(jù)收割以及分布式檢索等。
4.1.7 產(chǎn)權(quán)保護
指有關(guān)網(wǎng)站使用過程中涉及的倫理與法律因素,包括網(wǎng)站發(fā)布內(nèi)容的知識產(chǎn)權(quán)管理和用戶個人隱私的保護兩個方面。產(chǎn)權(quán)保護體現(xiàn)在發(fā)布內(nèi)容擁有者的產(chǎn)權(quán)保護、網(wǎng)站構(gòu)建者的產(chǎn)權(quán)保護、網(wǎng)站擁有者對發(fā)布內(nèi)容侵權(quán)的防止、用戶個人隱私的保護以及網(wǎng)站內(nèi)容下載的合法性等。
數(shù)字資源發(fā)布網(wǎng)站是文化遺產(chǎn)網(wǎng)站的重要組成部分,擔負著文化遺產(chǎn)的長期保存和用戶服務(wù)的重要使命。與一般網(wǎng)站相比,該類網(wǎng)站更重視數(shù)字資源的生產(chǎn)、存儲與使用。數(shù)字資源發(fā)布網(wǎng)站的生命周期包括的主要階段有網(wǎng)站規(guī)劃、網(wǎng)站設(shè)計、Web發(fā)布數(shù)據(jù)庫的建立、元數(shù)據(jù)數(shù)據(jù)庫的建立、網(wǎng)站制作、網(wǎng)站發(fā)布、網(wǎng)站的維護與更新。
[1] NINCH.The Price of Digitization:Resources[EB/OL].[2008-8-8].[2010-10-29].www.ninch.org/forum/price.resources.html.
[2] Carnegie Mellon University Libraries.Survey Results:The Random Sample Feasibility Study[EB/OL].[2007-1-8].[2010-11-10].http://www.library.cmu.edu/sm.html.
[3] Carnegie Mellon University Libraries.The Fine and Rare Book Study [EB/OL].[2009-1-9].[2011-1-01].http://www.library.cmu.edu/sm.html.
[4] The NationalScience Foundation(NSF).The Million Book Project Study[EB/OL].[2006-8-12].[2011-01-20].http://www.nsf.gov/news/index.jsp.
[5] Maxine K.Sitts.Handbook for digital projects:A ManagementToolfor Preservation and Access[EB/OL].[2009-12-19].[2011-02-20].http://www.nedcc.org/digital/dman.pdf.