文/董晨
我國高等教育資源數字化現狀
文/董晨
教育文獻信息資源簡稱教育資源,是指用于教學過程及其評價與管理的教材、閱讀材料、參考輔導資料、習題集、考試題、實驗室數據、實習項目、教學計劃、教學標準與過程規范等。伴隨著我國高等教育規模不斷擴大,高等教育資源出現不足。對教育資源數字化并通過網絡提供服務,是重要的應對措施之一。
當前,我國高等教育資源數字化基本可分為自建、他建和共建共享三種模式。自建模式是指高校圖書館根據本館自身的需要,本館自己加工、開發一些具有本館館藏資源特色的專題數據庫;他建模式是指高校圖書館為了館藏文獻文獻信息資源數字化的需要,委托具有一定數字化加工能力的專業機構對館藏中非數字文獻信息資源進行數字化加工而獲得文獻信息資源的模式;共建共享模式則是指高校圖書館與其合作方共同建設共同享用數字文獻信息資源而獲得文獻信息資源的一種模式。
近年來,我國高校圖書館越來越重視自建特色數據庫的工作,許多高校圖書館基于館藏特色、學科特色和地方特色自建了許多數字化資源。一些高校館完全依靠自身人員、設備獨立實現館藏資源數字化,還有一些高校館購買成型的圖書資源數字化制作系統自行加工。當前該類成型軟件國內推出較多,如北京書生科技有限公司的書生全息數字信息制作系統、世紀超星公司的超星PDG制作系統等,功能都較為強大,基本上可以滿足圖書資源數字化的要求。

高校圖書館越來越重視自建特色數據庫的工作,許多高校圖書館基于館藏特色、學科特色和地方特色自建了許多數字化資源。一些高校館完全依靠自身人員、設備獨立實現館藏資源數字化,還有一些高校館購買成型的圖書資源數字化制作系統自行加工。
根據2010年CALIS管理中心對全國高校自建特色數據庫所做的調查,截至2010年6月7日,共有至少107所高校圖書館已建或在建特色數據庫300余個。這些自建庫所含資源數量相差較大,少則幾十條,多則百萬余條記錄;在資源類型上以全文、書目文摘、事實數值為主;全文資源所占比例≥50%的數據庫占總量的60%;大多數自建庫都有自己的著錄標準;多數數據庫都有支持標準協議的接口,以支持OAI和OpenURL為主;大部分自建庫都采用校內/館內訪問的方式來進行版權保護,個別自建庫取得了責任者的授權。
為保證自建數字資源工作的順利進行和規模化發展,一些高校圖書館還建立了自己的資源數字化加工中心。如:北京大學圖書館于2002年5月成立了數字加工部,開始對本館的古文獻、民國圖書、學位論文、教學參考書、民國舊報刊等印刷型資源進行數字掃描加工。2008年初,在圖書館數字加工部基礎上,由學校支持建成北京大學數字加工中心,圖書館負責其日常運行,是主要面向全校單位和個人提供數字資源加工、存儲和發布的公共服務機構。該中心具備數字化加工/采集/制作、數字文獻信息資源內容服務、資源共享發布、資源保存等功能,年加工能力可達到50TB。清華大學圖書館于2003年9月成立了“賢志資源數字化中心”,其建設目標是生產和管理高質量的數字化對象包括文本、圖像、聲頻、視頻信息,以支持各個數字化項目的建設。該中心成立后,對清華大學圖書館大量的古籍、近代文獻以及中外文圖書、教學參考書及參考資料等進行了數字化加工。
自建模式的優點是高校圖書館可以了解整個資源數字化建設流程,各項相關研發如元數據方案的制定、著錄系統的開發、電子書展示模式、OCR技術的應用等等都可以得到實踐和檢驗,也可以得到優化和完善;可以為將來數字館藏的發展提供在生產加工、技術研究、標準制定、成本分析等方面的經驗;可以培養本館的數字資源建設隊伍;對于一些珍本、善本,本地數字化有利于文獻的保護與安全。缺點是圖書館管理大量臨時人員的經驗不足,容易效率低下。
總體來看,全國高校圖書館采用自建模式進行資源數字化,目前已在數據庫數量、資源總量、標準規范等方面取得了一定的成就。
面對浩繁的紙質文獻文獻信息資源和特色化館藏需要數字化的緊迫性任務,一些高校圖書館由于自身在技術、人力、設備、資金等方面的欠缺,往往會選擇他建模式,委托具有一定數字化加工能力的專業機構對館藏中非數字文獻信息資源進行數字化加工。當前國內已建立多家有一定規模的此類企業,著名的有超星公司、北京書同文數字化技術公司等,都提供該種委托加工的業務服務。
超星數字圖書館成立于1993年,長期致力于紙張圖文資料數字化技術開發及相關應用與推廣,是國內專業的數字圖書館解決方案提供商和數字圖書資源提供商。超星經過多年的研發,已經擁有了成熟的整套圖書館數字化解決方案,被公認為數字圖書館行業中的第一品牌。超星依托雄厚的資源和技術,不僅迅速占領了國內絕大部分的圖書館市場,也已經躋身于世界圖書館數字化進程中的領跑者行列。1998年,超星公司組建了國內第一條大規模數字化掃描生產線,在北京成立了數字化加工中心,加工能力達到每天20萬頁。經過一年多的發展,超星公司在全國各地建立了五個數字化加工中心,在北京、成都、福州、長沙、鄭州等地都有超星的數字化加工基地。通過10多年的努力,超星已經數字化近300多家圖書館館藏,授權簽約作者達34多萬位,到目前,超星已經擁有中文電子圖書館藏100萬種,囊括中圖法全部22個大類,并且擁有國內最大的圖書資料數字化生產線,年加工能力超過20萬種圖書以上。強大的制作能力與先進的技術保證超星數字資源的不斷增加與更新,并能夠滿足眾多單位進行大規模資料數字化加工的需求。目前超星與國內100多家專業圖書館、300多出版社,還有新華書店等建立了長期的合作伙伴關系,進行圖書文獻數字化加工工作。如北京地區,80%以上的高校圖書館與超星進行圖書數字加工的合作。
書同文公司成立于1997年,是北京市科委認證的高科技企業、獲軟件企業認證,持有因特網信息服務業務經營許可證,在國家版權局登記有UniHanOCR、全文檢索、數碼翰林和彩書引擎在內的十七項擁有自主知識產權的軟件。書同文公司承接各種大型現代書籍、檔案資料及古籍的中文數字化加工服務,加工對象可以是紙或縮微載體的簡繁文字橫排、豎排、印刷本或手抄本,甚至是日文及英文數字的內容。它采用自主開發的“數碼翰林”,經過流水線方式的OCR漢字識別及多種交叉聯機校對操作管理,將海量信息制作成格式化中文編碼數據。可以根據客戶的需要,實現從內容數字化、編目直至信息發布一攬子的數字化工具定制開發,指導客戶使用和管理,大大提高客戶數字化工程的效率和質量。對于擁有珍貴文史價值的古籍資料單位,可以按客戶的需要,提供所需的古籍數據庫或電子出版物的委托開發與制作,并可配備漢字關聯全文檢索引擎和聯機字典。根據客戶所在行業特點,提供自建專題的資料庫、電子出版物或數字圖書館項目建設、產品及輔助工具的委托開發與制作。成品可以是網絡版、因特網版等多種形式。
其他還有如點通公司、青蘋果公司等,也承接大量的數字化加工委托任務。
通過他建模式,高校圖書館可以依靠數字化加工公司在文獻數字化方面的優勢以及在紙質文獻數字化掃描方面積累的豐富經驗,獲得優質的專業方案、服務及高質量加工效果。隨著數字化加工市場日趨成熟,數字化加工公司數量不斷增加,紛紛推出全方位、規模化、流水線式的數字化加工服務, 這也為高校圖書館采用他建模式進行文獻文獻信息資源數字化建設提供了可靠的保證和奠定了堅實的社會基礎。
目前我國高校圖書館采用共建共享模式開展資源數字化,主要是通過參加CALIS和CADAL兩大項目來進行的。
CALIS主要是通過組織高校圖書館開展一系列特色數據庫建設來實現數字資源的共建共享,迄今參加CALIS項目建設和獲取CALIS服務的成員館已超過500家。如:約80家高校圖書館簽訂了參加CALIS高校學位論文庫項目建設的協議,目前學位論文庫已經積累了大約42萬條學位論文文摘;共有50余所高校圖書館參加CALIS教學參考信息庫項目的共享建設,教學參考信息庫中的教參信息達5萬余條。在CALIS“九五”建設期間,共建成25個特色數據庫;“十五”建設結束時,共有65個項目真正成為CALIS的特色數據庫。
2010年9月20日,CALIS三期項目建設正式啟動。三期項目建設的目標是全面挖掘、整合國內高校圖書館以及其它各級各類文獻信息服務機構的資源和服務,有重點的整合國際相關機構的各類文獻信息資源與服務,提高高校圖書館文獻資源的總體保障率,提升高校圖書館現代化服務能力。CALIS三期將采用“預研一批、試點一批、推廣一批”的思路,在充分挖掘大型圖書館的研究能力與服務能力的同時,引導中小型圖書館廣泛參與,從而縮小“211”院校與國際一流高校圖書館的差距,縮小普通院校與“211”院校圖書館的差距,縮小西部欠發達地區與發達地區的差距,全面提升我國高校圖書館整體信息服務水平。
CADAL一期建設由浙江大學和中國科學院研究生院牽頭,北京大學、清華大學、復旦大學、南京大學等16個高校參與建設。建成17個掃描加工中心,擁有各類掃描儀150余臺,微機400余臺,月加工能力1500萬頁以上。掃描加工來自16個參建單位的100余萬冊中英文圖書資料,資源類型包括古籍、民國書刊、中文現代圖書、中文學位論文、英文圖書等,形成了幾種具有很高使用價值與開發潛力的特色資源集合,如:
數字化民國圖書132,007冊,民國期刊138,154冊(期),以及民國時期的學位論文1943篇,基本覆蓋了全國高校館藏的民國資源,形成目前全世界最大的民國資源庫;
結合浙江大學張涌泉教授的研究和藏書,數字化敦煌相關圖書1,423冊,縮微膠片165,399拍,內容涵蓋國家圖書館藏、英藏、法藏、俄藏以及日藏的所有已整理敦煌文獻;

表1 文獻信息資源數字化模式比較
數字化了《四庫全書》、《四庫薈要》、《續修四庫全書》等四庫系列,《中華大藏經》、《大正大藏經》、《頻伽大藏經》、《宋磧砂藏經》等佛藏系列,《中華道藏》、《續道藏》、《正統道藏》等道藏系列的若干大型叢書,大致完成了包含儒、道、佛相關文獻的中文傳統經典文獻的數字化;
掃描《甲骨文全編》、《甲骨文編》、《金文編》等一系列出土文獻匯編材料,通過文字學專家參與釋讀,利用UniCode編碼有效展示,完成了相關注釋文字共193,596條,是研究甲骨和金文的重要資源和參考;
數字化中文現代圖書約41萬冊,時間跨度從1949到2000年,其中人文社科相關文獻占65%~70%,這部分資源可以按地域切分,提煉成如《浙江文獻集成·現代編》的特色庫,也可以按時間切分,完成如《文革時期文獻》這樣的資源庫。
CADAL二期建設于2010年4月1日正式啟動,計劃在一期的基礎上完成150萬冊(件)數字資源的掃描加工,資源類型包括:古籍、民國文獻、中文現代圖書、中文現代報紙、外文圖書、外文科技報告、地方文史資料、圖形圖像、聲像資料等,同時將建立分布式數據中心和服務體系,實現數據安全和全球服務。目前參加二期項目建設的高校圖書館已達70家。
在CALIS與CADAL這兩大數字資源共建共享項目的組織與帶動下,國內高校圖書館資源數字化建設迅速發展并逐步向加強資源整合與擴大共享范圍邁進。從某種意義上說,基于CALIS與CADAL項目建設的共建共享模式是目前推動我國高等教育資源數字化建設的最重要的模式。
綜上所述,自建、他建和共建共享三種建設模式構成了目前我國高等教育資源數字化的現狀,這三種模式各有特點,互相補充,共同推動了我國高等教育資源數字化的發展。
(作者單位為浙江大學圖書與信息中心)