肖君
(山西博物院古籍保護部,山西 太原 030024)
古籍是對中國古代書籍的總稱。其內容主要為收錄、論述中國古代的傳統文化,并以中國古代傳統的著作方式撰寫,具有中國古代圖書傳統的裝幀形式。從廣義上講,1911年以前出版的所有書籍、典籍都可視為古籍。古籍還有孤本、珍本、善本的區分。其載體是非常豐富的,經過數千年的演變,已經由巖石、竹簡、錦帛等逐漸過渡到現在輕便且利于保存的紙張書籍。同時,古籍文獻的價值也是多樣的,其體現的文化內涵是中國古代人民集體智慧的結晶;其版本、版式、印刷技藝也有很高的研究價值,對于深入了解歷史文化和語言文字都具有極其重要的意義。
然而,由于長久以來自然因素和人為因素的作用,流傳至今的諸多古籍文獻保存狀況不佳,不僅不利于使用,更不利于保護、整理與研究。因此,各大圖書館、博物館另辟蹊徑,提出了既能延長古籍使用壽命,又能發揮地域及館藏特色的再生性保護。
山西博物院前身為山西教育圖書博物館,成立于1919年,主要負責征集和保管博物館各類的藏品,其中就包括古籍圖書,數量頗為可觀。但是,戰亂原因導致這批古籍散佚非常嚴重。直至五十年代,圖書館與博物館“分家”,很多珍貴的善本才輾轉留在了博物館中。另外,又通過收購、接受捐贈等方式,陸陸續續征集到7萬余冊的古籍文獻。這就造就了今天的山西博物院不僅具有悠久的歷史文化,還擁有豐富的館藏資源。2008年山西博物院被評為第一批國家古籍重點保護單位,2009年被評為山西省第一批古籍重點保護單位。
現在的山西博物院擁有10萬余冊的古籍文獻資料。善本600余種、5000余冊,涵蓋了刻、寫、稿、抄、印等多個版本,不乏珍本、善本。普通古籍的數量,也占館藏的90%以上,以包背裝和線裝為主??梢哉f,山西博物院藏古籍數量之多、珍本之豐,在全國也是翹楚。
不難看出,這批古籍不管在內容、版本,還是藝術形式上都具有很高的價值。但是,從保存現狀來看,經過這么多年的輾轉收藏,在不同程度上,院藏古籍都出現了書頁變色嚴重、污斑、書衣破損等現象,有些古籍甚至還有相當嚴重的脆化情況。由于紙張易碎易折,工作人員在翻看古籍和拍攝書影的過程中,雖然小心翼翼,還是不可避免地造成了書口缺損、書頁開裂及裝幀線斷裂等狀況。基于這些情況的出現,從保護的角度出發,山西博物院對部分古籍進行了日常的保養與修復,并在制度層面,采取“雙人雙鎖”入庫制度,非必要不得進入,對古籍庫房進行了嚴格管理。此舉措有效地保護了古籍圖書,但也為研究、利用設置了障礙。古籍保護和利用之間的矛盾日益凸顯。因此,為了真正讓沉睡的古籍“熠熠生輝”,山西博物院經過多次的討論與利弊分析,最終決定將古籍再生性保護作為古籍保護的重要舉措列入博物館發展的長期規劃中。
在此,筆者首先提到古籍保護的兩個有效途徑。一是原生性保護,博物館正在踐行的,即對古籍進行修復、加固和對古籍庫房環境的必要改善。二是再生性保護,也是博物館最需要付諸行動的,通過現代技術、數字化手段將古籍內容復制或轉移到其他載體上,避免古籍利用的二次損壞。其次,筆者提出再生性保護最為重要的手段:古籍的數字化。所謂古籍數字化,就是利用三維激光掃描儀和圖像識別技術,精準地將古籍文字內容轉化成為電子文本。它不僅降低了人工錄入出錯的概率,還能夠通過互聯網與世界共享,達到館藏文獻資源惠及他人的目的。這是古籍與現代技術的完美結合,既能解決保護與利用之間的矛盾,又能為將來館際間古籍數字資源的共享打下基礎,讓博物館工作人員把更多的時間和精力投入古籍整理、保護與研究的更高層面。因此,古籍數字化勢在必行。
于是,山西博物院借鑒了很多有關單位,諸如國家圖書館、上海博物館等大型先進圖書館、博物館的成功經驗,綜合考慮本院特色古籍的管理方式,與北京漢王科技有限公司合作,開展了數期數字化保護項目。并制定了古籍加工過程中相關的操作制度,規范了在古籍領取、古籍整理、古籍掃描、掃描質檢、圖像處理、OCR識別校對、成品驗收、數據備份等方面的工作流程,在整個工作環節中保證古籍及其信息的安全性,確保了每期數字化的順利完成?,F將具體工作經驗分享給大家,以求共勉。
古籍出庫:在數字化工作開展期間,為確保古籍文獻的安全,山西博物院仍然保留了“雙人雙鎖”的入庫制度及現場人員輪班制度,專人負責古籍拿取、監督、緊急情況處理及確認歸還等工作。古籍掃描前,按古籍出庫流程進行登記,記錄古籍序列號、冊數、頁數、紙張大小以及完殘程度等原始狀況,經兩位古籍保管員和掃描提書人員雙方簽字確認后,形成規范的登記目錄。根據數字化工作進度,領取頻次為每天領取。一天工作結束后,古籍全部核對清點無誤后,方可入庫。
為確保數字化質量,在掃描之前,對古籍的物理形態、古籍的質量、古籍的可讀性進行檢查,無問題的進入下一道環節,有問題的記錄問題作報告。對古籍進行逐頁清點,包括古籍的封皮、封底、正文頁、浮貼、夾條的頁數都要一一記錄。檢查及統計古籍內容的完整性,詳細檢查有無缺頁、漏頁破損、殘缺等情況,是否需要添加襯紙,同時整理及檢查古籍內容的頁數、順序,對照目錄逐條記錄;要對紙面進行平整處理,消除折角、皺褶及遮字等現象,確保古籍文獻的掃描質量。山西博物院要求漢王科技工作人員在古籍整理中必須佩戴手套,整理過程中輕拿輕放輕翻,以古籍安全為第一位。
古籍掃描選用非接觸式快速掃描儀設備(圖1)。根據實際情況會先對古籍頁面進行平整、除塵等處理,以保證掃描效果。并確認掃描參數是否正確。確認完畢后,方可正式掃描。古籍掃描時需要給原書卷端添加色卡和標尺,并且每冊古籍最后要單獨對色卡進行掃描。古籍資料掃描采取逐拍掃描方式,依照掃描規格進行數字加工,按照命名規則命名圖像文件。掃描工作完成后,會再次整理及清點古籍資料,并上傳加工端進行掃描質檢。掃描完成的古籍及時清點歸庫。圖像采用原始TIFF圖像,分辨率600dpi以上。山西博物院要求掃描不得有漏掃、多掃、頁碼順序顛倒等情況發生,保證圖像內容完整。掃描頁面清晰、無扭曲、變形等現象發生,無臟點、臟斑,黑點、黑線、黑框、黑邊等污漬出現。最終形成雙層PDF文件。

圖1 古籍掃描
為保證古籍資料無缺、漏、殘現象發生,山西博物院要求必須逐冊逐頁對古籍資料進行全檢。掃描質檢過程中戴棉質手套,特別注意輕拿輕放,不能對古籍資料造成任何人為損壞。詳細質檢項如下:古籍掃描有無缺頁、倒頁、漏號、重號、錯號等不規范現象;檢查圖像分辨率,命名是否符合標準;有無存在傾斜、壓字、折角、異物、透字和露字等情況,掃描明暗度、對比度是否最佳,是否與原件效果吻合。不符合要求的要打回掃描工序進行返工處理。質檢結束后,會將襯紙撤出。撤出襯紙時務必小心操作,不得損壞古籍。質檢結束后,將質檢完成的圖像,上傳至服務器質檢文件夾內。
根據山西博物院的要求,掃描后的圖像文件需經過頁面糾偏、去影像黑邊、影像拼接等圖像處理程序。圖像處理后進行自我檢查,先與掃描記錄單核對頁數是否完整。使用影像進行圖像質檢逐冊逐拍檢查圖像文件,詳細質檢項如下:檢查圖像完整性、偏斜度、清晰度、失真度、圖像畸變等;檢查古籍漏掃、多掃等情況;檢查圖像文件的排列順序與古籍原件是否一致或是否符合文種要求的掃描順序;檢查圖像文件命名是否符合規范要求;檢查圖像文件與實際目錄是否相符。對于圖像文件質檢不合格部分進行返工、修改。最終處理后的圖像分頁按實際頁展現,無顏色失真,滿足圖像利用效果(圖2)。

圖2 圖像處理前后對比
對獲取的古籍圖像,根據版面布局、內容會先進行分析理解,然后采用OCR技術對文字進行數碼識別轉換,識別繁體印刷體、刻版圖像、規范手寫圖書等內容。全文識別采用的“機器+人工”方式,能夠OCR識別的進行OCR識別,OCR識別質量不好的,進行人工校對,這種“機器+人工”的方式可以發揮機器和人的最大優勢,大大提高了文字的準確率。最后還會由山西博物院方專業人員進行審核,再次確保識別校對的準確性。
完成所有既定古籍的數字化加工后,山西博物院對所有古籍原件、數字化加工后的圖像數據進行了質量抽檢。遵循古籍原件100%不丟失,數據要求圖像清晰、亮度適中、無黑邊、圖像不偏斜的原則,對抽檢的每一本古籍進行了嚴格的核查。確保每一頁圖像資源的技術參數(包括色彩、分辨率、格式)100%達標;古籍原件除確認無法掃描的外,100%不漏掃;需要進行重掃、補掃,完成率為100%;圖像質量參照圖像處理要求,完好率≥99%;圖像數據文件夾排序、命名正確率100%。
經驗收合格的完整數據信息,山西博物院與漢王科技工作人員交接后,進行了及時備份。備份數據主要包括能否打開、數據信息是否完整、文件數量是否準確等。山西博物院對備份好的數據都做了標記,便于以后的查找與管理,還就具體出現的其他問題通過協商的方式得到了及時的解決。經過院方驗收合格的掃描TIFF圖像和處理質檢的JPG圖像,以及雙層數據圖像由漢王科技備份至服務器和存儲介質。PDF文件通過掃描錄入后,經過去污、糾偏、OCR識別,輔以人工校對,最終生成上層是原始圖像,下層是識別結果,可以檢索的雙層PDF文件。這樣形成的圖像既可以100%保留原始版面效果,又便于建立數字資源庫,進行科學的管理。
博物館是一個集征集、典藏、陳列和研究于一體的綜合性非營利機構。古籍文獻作為博物館藏品的重要組成部分,是非常珍貴的學術寶庫。所以,古籍數字資源庫的建立對山西博物院再生性保護具有十分重要的意義。根據山西博物院的要求,漢王科技通過數字化加工的方式將院藏古籍文獻內容轉換為圖像數據和全文精加工數據,搭建起了古籍圖像數據庫和全文識別數據庫等數字資源庫平臺。
該平臺集內容檢索、書影瀏覽、輔助研究等功能于一身,預計會先向院內職工提供在線閱覽、檢索查詢及部分資源共享的服務,使館藏古籍得以展示和利用。后期會陸續對古籍資源庫進行升級和改造,以達到與其他博物館相適配的目的。未來將逐步實現院古籍數字資源平臺對外適合管理、方便閱覽、易于檢索和輔助利用等功能,為最終實現資源共享做好充分準備。
在《山西博物院古籍善本書目》序言中,李致忠先生提出:“對待古籍藏品,凡屬善本,皆以文物相待,是博物院(館)共同的看法和做法。而一旦成為文物,就要跟其他文物一樣,深栢地宮,輕易不能為人所用。從保護的角度講,無可厚非;從研究的角度講,無論院(館)內外,都可能要受到不同程度的制約,這大概是包括博物院(館)人在內的普遍感受。”李先生也是希望諸如我們這樣收藏有典籍文獻的博物館,悉心整理,揭示館藏,真正讓古籍上的文字“活起來”。因此,筆者認為利用掃描、拍照等再生性保護技術手段將紙質的古籍文獻,轉化為計算機識別的電子數據,建立起龐大的信息資源數據庫,形成資源共享,增進各個圖書館、博物館之間的交流與合作,最終幫助到更多有需要的人。這才是真正的“活起來”。
目前結束的兩期數字化保護項目,山西博物院共完成3000余冊古籍的逐頁掃描,500冊全文精加工。筆者認為這是山西博物院古籍再生性保護的重要成果,也為今后古籍文獻整理的延伸、發展與創新奠定了基礎;而數據庫平臺的建立,將為實現數字資源的共享起到強有力的推動作用,最終能夠惠及更多熱愛中國古代典籍與文化的人。