肖 紅 吳 茗 曾 燕(國家圖書館,北京100081)
?
民國報紙縮微膠片數(shù)字化及服務探析
——以國家圖書館為例
肖紅吳茗曾燕
(國家圖書館,北京100081)
[摘要]民國報紙是研究民國歷史、把握民國文化精髓的重要文獻,受載體損壞、組織形式復雜等因素影響,一直未能廣泛為讀者提供服務。結合國家圖書館的具體實踐,系統(tǒng)分析了民國報紙縮微膠片的數(shù)字化方法及服務模式,并介紹了工作中存在的問題及對未來的展望。
[關鍵詞]民國報紙縮微膠片數(shù)字化服務
[分類號]G255.72
自我國第一種報紙——唐朝時的邸報(官報)問世以來,我國報業(yè)便迅速發(fā)展,并成為傳播知識、社會教育的重要媒介。民國報紙經(jīng)歷了辛亥革命、五四運動等多次社會動蕩,承載著特定歷史時期的珍貴記錄,是反映民國時期中國政治、經(jīng)濟、軍事、科學、文化、生活等各個方面的重要文獻,同時也是中華民族文化寶庫的有機組成部分,具有特殊的參考價值和史料價值。
民國時期是造紙工藝過渡時期,因材料混雜,工藝落后,導致民國報紙酸度大,質(zhì)量差,極易老化。另外,報紙建報之初并未考慮長期保存,受保存條件和方法所限,大量民國報紙出現(xiàn)紙張惡化、無法利用的慘狀。近年來,很多圖書館采用縮微或數(shù)字化技術進行民國報紙的搶救、保存為讀者服務。筆者在國家圖書館從事文獻數(shù)字化工作多年,并親身參與民國報紙縮微膠片的數(shù)字化及服務工作,提出幾點想法,希望能為其他圖書館的民國報紙數(shù)字化工作起到借鑒作用。
1.1縮微膠片的優(yōu)點
與民國報紙原件嚴重損壞、一觸即碎屑滿地的情況相比,其縮微膠片在很大程度上解決了民國報紙的保存和服務問題。縮微膠片節(jié)省存儲空間,通過拷貝的方式可基本實現(xiàn)長期保存,并可通過一定的政策實現(xiàn)各圖書館間民國報紙的共建共享,查漏補缺。
1.2縮微膠片的局限
膠片因其載體的特殊性,只能使用專門的膠片閱讀設備閱讀,硬件成本較高,圖書館配置數(shù)量有限,尤其是經(jīng)費緊張的小型圖書館,無法充分提供服務。讀者缺乏膠片閱讀設備的使用知識,需要圖書館員的技術支持,增加了人員成本。報紙出版周期短,信息量大,版數(shù)多,而且編目時一般只揭示到報紙名稱,膠片閱讀設備只能以瀏覽方式閱讀某卷報紙,無法按讀者指定的日期、版次等進行精確的檢索服務,讀者往往需要不停地更換膠卷并逐頁瀏覽報紙來找到所需的信息,花費較多的時間也未必能獲得想要的信息資源,讀者需求較難滿足。
1.3數(shù)字化的必要性
眾所周知,很多圖書館很早便開始針對館藏民國圖書和民國期刊的數(shù)字化工作,民國報紙卻始終被束之高閣,國家圖書館亦是如此,除少數(shù)幾種報紙用于數(shù)字化實驗外,并未大規(guī)模開展民國報紙的數(shù)字化工作[1]。報紙具有出版頻率高、載體形態(tài)復雜、內(nèi)容組織形式豐富、數(shù)量大等特點,加上民國報紙原件的脆弱,導致民國報紙的數(shù)字化工作進展緩慢。但在互聯(lián)網(wǎng)和多媒體技術迅速發(fā)展的今天,為了將民國報紙這一珍貴資源早日呈現(xiàn)給讀者,并提供報名、篇名、版面等多種檢索方式的網(wǎng)絡閱讀服務,其數(shù)字化工作迫在眉睫。
2.1縮微膠片數(shù)字化的優(yōu)缺點
1985年全國圖書館文獻縮微復制中心成立[2],因每個成員館藏民國報紙種類有限,存在殘缺、內(nèi)容不全、載體損壞等多種問題,報紙縮微拍攝前通常會進行補缺、登記、整熨、修補、排序等多項整理工作[3],因此用縮微膠片數(shù)字化比直接數(shù)字化原件更全面,信息更完整。民國報紙數(shù)字化除了要得到報紙的影像文件,經(jīng)過OCR處理的全文文件也是很重要的數(shù)字化成果,經(jīng)過一定的計算機技術處理,可以實現(xiàn)民國報紙的全文檢索。然而,原件本身的劣化,拍攝時的縮微比例,最終可能導致文字斷筆、透字、重影和模糊,將直接影響文字識別的準確性,除了需要設計較好的識別算法來控制,還需要大量的人力輔助工作。
2.2對象數(shù)據(jù)
2.2.1民國報紙的特點
民國報紙縮微膠片數(shù)字化除了考慮掃描圖像的格式、分辨率等參數(shù),還應充分考慮其載體形態(tài)和內(nèi)容組織的特殊性。民國時期報紙開本大小不統(tǒng)一,版面版次也有很大的隨意性;一張兩版的報紙部分有中縫內(nèi)容,部分沒有,有中縫內(nèi)容的也因為折疊裝訂導致中縫內(nèi)容被遮掩而看不清;有號外、增刊、特刊、副刊等特殊版面內(nèi)容;報紙內(nèi)容另一個顯著的特點是各類廣告所占篇幅較大。
2.2.2實踐中應側重考慮的問題
①圖像格式:數(shù)字化圖像分長期保存級和發(fā)布服務級兩個級別。長期保存級數(shù)據(jù)用于數(shù)據(jù)保存,不應用于網(wǎng)絡,可作格式轉換和復制的母本。經(jīng)過大量的試驗對比,國家圖書館選用業(yè)界廣泛接受的不壓縮TIFF格式作為民國報紙長期保存級數(shù)據(jù)格式,8位灰度掃描,分辨率為300DPI。
發(fā)布服務級數(shù)據(jù)由長期保存級數(shù)據(jù)經(jīng)適當?shù)膲嚎s和格式轉換獲得,經(jīng)由互聯(lián)網(wǎng)等渠道為廣大讀者提供服務。國家圖書館提供數(shù)字資源服務的方式豐富多樣,如個人計算機、觸摸屏、數(shù)字電視、移動終端等,每種服務方式對發(fā)布服務級數(shù)據(jù)的格式均有一定的要求,綜合考慮后將發(fā)布服務級數(shù)據(jù)格式選為JPG格式和雙層PDF格式,雙層PDF格式的上層為圖像層,下層為文本層。
②OCR識別的范圍:影像數(shù)據(jù)只能提供簡單的版面瀏覽服務,無法像全文文本數(shù)據(jù)一樣,經(jīng)過計算機和數(shù)據(jù)處理便可實現(xiàn)按用戶指定的檢索詞來快速準確地檢索信息。受經(jīng)費和民國報紙數(shù)字化經(jīng)驗等多方面因素的限制,本著先做起來再逐步完善的思想,國家圖書館民國報紙縮微膠片數(shù)字化項目規(guī)定現(xiàn)階段只對報紙篇目內(nèi)容(包括引題、標題和副題)進行OCR文字識別和位置置標,方便用戶檢索報紙標題內(nèi)容來相對精確地查找信息。
③圖像的切分與合并:民國報紙在開本和版面安排上沒有一定的規(guī)律,可能一張為一版,也可能一張有多版,為能夠向讀者提供最基本的按版面進行檢索與瀏覽的服務,規(guī)定每版加工成一幅圖像。如縮微膠片存在一拍多版時,按版拆分圖像;一版多拍時,長期保存級文件按拍攝膠片直接轉換圖像,發(fā)布服務級圖像需將多拍圖像拼接為一幅JPG或PDF文件。
④中縫和廣告:據(jù)抽樣統(tǒng)計,報紙廣告所占的版面比例很高,北京《晨報》占52.7%,天津《益世報》占62%,上海《申報》占42.7%[4],由于開本較大,在裝訂時常采用中縫對折裝訂、導致中縫內(nèi)容損壞嚴重。縮微拍攝時不論中縫裝訂部分拆與不拆,裝訂過的中縫信息都將不同程度地破損或缺失,基本無法還原原有信息內(nèi)容。考慮民國報紙的中縫內(nèi)容破損較嚴重以致難以恢復,且多為廣告類資源,實質(zhì)性信息較少,轉成數(shù)字化圖像時將采用計算機圖像處理技術去除中縫信息。目前,由于經(jīng)費和時間等因素限制,各版面中的廣告原樣保存,但雙層PDF的文本層將暫時放棄對廣告內(nèi)容的識別,未來可以考慮再進行廣告加工。
⑤號外、增刊、副刊、特刊:大部分民國報紙的號外、增刊、副刊和特刊是和當日普通版面報紙一起出版的,有的為獨立版面,有的占據(jù)普通版面。如此看來,號外等特殊版面的圖像加工和普通版面并無兩樣,但需在相應的文檔里進行記錄,以便日后的檢索和統(tǒng)計等。
2.3元數(shù)據(jù)
國家圖書館館藏民國報紙縮微膠片的元數(shù)據(jù)是標準MARC格式,記錄了該種報紙的名稱、出版地、出版時間等各種信息。民國報紙在數(shù)字化過程中會產(chǎn)生很多新的元數(shù)據(jù)信息,如版次、篇目坐標和篇目作者等,考慮讀者的個性化需求和未來可能為讀者提供的各類檢索服務,此處用ACCESS數(shù)據(jù)庫和XML文件來保存新的元數(shù)據(jù)內(nèi)容。ACCESS數(shù)據(jù)庫記錄信息更全面,分基本信息表、版面篇目信息表和結構信息表,分別用于基本信息記錄、元數(shù)據(jù)與對象數(shù)據(jù)掛接和報紙結構揭示。XML文件主要從全文識別的角度來記錄數(shù)據(jù)。兩種元數(shù)據(jù)文件都將記錄到標題及其在版面的具體位置等最小粒度。
2.4存儲路徑
國家圖書館館藏民國報紙種類多、出版頻率高(一日、三日、一周等)、每期有多個版面等特點要求其在介質(zhì)上的存儲路徑要清晰,便于查找。結合每種報紙編目時賦予的唯一標識號和出版日期,將其存儲路徑設為兩個層級。第一級為每種報紙的唯一標識號,不同的報紙此標識號唯一、不重復,可由MARC中的001字段內(nèi)容充當。第二級為期號,8位數(shù)字組成:4位年、兩位月、兩位日組成,相應的文件夾下放置該期的版次掃描圖像。如:唯一標識號為2009n00884,出版日期為1940年2月1日,民國報紙相應的圖像掃描文件應存放于 2009n0088419400201目錄下。
數(shù)字報紙的服務模式依賴于數(shù)字報紙的格式、整合深度和整合方式。格式分圖像、文本和圖像文本雙層3種格式。整合深度為對報紙的揭示深度,從大到小可分為報紙名稱級別、版面級別、篇目標題級別和篇目內(nèi)容級別。整合方式,即針對報紙各級別內(nèi)容進行多個維度的分類處理、數(shù)據(jù)挖掘而獲得更深層次的內(nèi)容聚合,如主題知識庫、人物知識庫等。早期報紙因缺少原始排版的電子文件,需經(jīng)過掃描等方式將印本轉換為數(shù)字化圖像提供圖像級別服務。近期報紙在互聯(lián)網(wǎng)和數(shù)字出版技術不斷發(fā)展的大環(huán)境下,可以原始原貌的數(shù)字格式提供各種級別的檢索服務,無需從紙本進行數(shù)字化,不但可以有效降低成本,還能極大地滿足讀者的需求。國家圖書館正在深入研究自建或已購買的數(shù)字報紙庫的服務模式,總結經(jīng)驗,努力探尋當前民國報紙的最佳服務模式。
3.1基于圖像的服務
3.1.1基于版面的圖像服務
基于版面的圖像服務為按照報紙名稱、版面、出版日期等提供對數(shù)字報紙的簡單瀏覽和檢索服務。如國家圖書館的“數(shù)字報紙典藏與服務項目”,通過網(wǎng)絡采集、報社繳送等方式收集的近年來出版的數(shù)字報紙,按照報紙名稱、地區(qū)、出版日期和版次進行整理,提供版面級別的原版原式圖像瀏覽服務。
“報紙在線閱讀系統(tǒng)”對通過網(wǎng)絡采集獲得的報紙資源,提供字序、報紙種類和地區(qū)3個維度的分類瀏覽和按報紙名稱的檢索服務,對每種報紙可進行逐頁圖像的瀏覽,并支持對感興趣區(qū)域的剪報服務。
此種方式因支持報紙原版原式圖像瀏覽,能滿足大多讀者的讀報體驗。
3.1.2基于篇目標題的圖像服務
“臺灣時報數(shù)據(jù)庫”提供按報紙篇目進行檢索,檢索結果為該篇目內(nèi)容的圖像文件,不可編輯和復制內(nèi)容。每個篇目文件為黑白二值圖像,字多圖少,如此提供服務也符合了時報快捷、簡單的特點。
3.2基于內(nèi)容的服務
3.2.1基于篇目標題的內(nèi)容服務
基于篇目標題的內(nèi)容服務即提供篇目名稱的檢索、瀏覽,并可對內(nèi)容進行編輯等操作。如“中國重要報紙全文數(shù)據(jù)庫(清華同方)”提供篇目級別的按主題、題名、關鍵詞、全文、出版時間、作者、句子和中圖分類號等進行的模糊和精確檢索服務。檢索結果為簡單排版的篇目內(nèi)容,包括報名、出版日期、版次、題名、作者和正文。
該方式不體現(xiàn)原報紙的排版信息,適用于側重內(nèi)容查找的讀者,對讀報體驗有較高要求的讀者不太適合。
“中國報紙資源全文數(shù)據(jù)庫(方正阿帕比)”提供按報紙名稱、新聞圖片和新聞3類進行檢索,并可按地區(qū)進行分類。報紙名稱檢索,針對名稱和刊號進行查找;新聞檢索,按標題、內(nèi)容、出處、作者和版名進行檢索;新聞圖片檢索,檢索點包括標題、內(nèi)容、作者和出處。用戶界面可同時展示報紙原貌、版號、版面名稱和各版的篇目標題。通過點擊篇目標題或鼠標單擊報紙感興趣的篇目區(qū)域來獲得篇目內(nèi)容。篇目內(nèi)容的展示與原報紙排版略有差異,文字部分可編輯。
該方式既能展現(xiàn)報紙原貌,又可進行篇目閱讀、檢索與編輯,較好地滿足大多數(shù)讀者的需求。
3.2.2基于全文的內(nèi)容服務
基于全文的內(nèi)容服務是在報紙全文文字識別的基礎上,實現(xiàn)對全文內(nèi)容進行檢索、瀏覽和編輯的服務。如本館購買的“參考消息”數(shù)據(jù)庫提供了該報紙自創(chuàng)刊以來的全部報紙原版、文字、圖片、表格和廣告的全文信息,支持對各部分內(nèi)容的文字檢索。依據(jù)“參考消息”的報道特點,數(shù)據(jù)庫對報紙進行了特色分類,并可在各自分類下進行檢索,同時具有題名、報紙名稱、期號和全文內(nèi)容的檢索能力。
此種方式為目前較受歡迎的服務方式,提供類似服務方式的還有“經(jīng)濟日報”。
3.3國家圖書館民國報紙數(shù)字資源的服務模式
通過研究各種數(shù)字報紙的服務模式,比較現(xiàn)代報紙和民國報紙的多方面情況(如表1所示),充分考慮民國報紙的自身特點、經(jīng)費限制以及迫切需要對外提供服務等因素,秉承“先做起來再逐步完善”的基本思想,國家圖書館克服諸多困難完成了縮微膠片到影像圖片的轉換,并進行標題內(nèi)容的文字識別工作,以期盡快將數(shù)字化數(shù)據(jù)用于網(wǎng)絡服務,最終選用基于篇目標題的圖像服務模式。考慮到將來各方面條件充足時,可能進行基于全文的內(nèi)容服務,民國報紙的發(fā)布平臺會預留全文服務的接口。
此種方式提供報紙名稱、版面、出版日期、篇名等信息的簡單瀏覽和檢索服務,既能實現(xiàn)讀者按報紙原版原式閱讀,同時還能對篇目進行檢索服務。

表1 現(xiàn)代報紙和民國報紙比較
4.1面臨的問題
4.1.1部分報紙信息存在變更
民國報紙種數(shù)多,出版周期、每期版數(shù)和報紙名稱等變化大,尤其對存在繼承、替代等關系的報紙,如果要在元數(shù)據(jù)中清晰地著錄這些信息將會遇到一定的困難,需要查閱大量資料來確定變化前后的名稱、關系等各種信息的真實性。
4.1.2文字識別困難較大,需大量人為干預
報紙原件在縮微拍攝前進行了很多細致的整理工作,但由于原件本身質(zhì)量較差,文字不清晰,透字較嚴重,尤其是縮微倍率的問題,導致報紙縮微膠片的內(nèi)容有斷筆、模糊等情況,OCR文字識別準確率不到30%,要實現(xiàn)報紙全文識別,從而提供全文檢索服務仍任重而道遠。
4.1.3發(fā)布平臺需更新
資源的質(zhì)量和加工深度是基礎,好的展示平臺是關鍵。國家圖書館正在使用的資源發(fā)布平臺是以圖書類型資源為主體設計的,元數(shù)據(jù)即為MARC數(shù)據(jù),對象數(shù)據(jù)為每頁書的影像數(shù)據(jù),一般為PDF格式。民國報紙的組織形式和圖書迥異,很難在現(xiàn)有的發(fā)布平臺上得到很好的展示,尤其考慮將來完成報紙全文的文字識別后,現(xiàn)有平臺就更難以滿足其服務需求。
4.2展望
第一,在民國報紙縮微膠片數(shù)字化過程中,盡量克服人力和財力的困難,多與其他圖書館進行合作交流,做好邊建設邊梳理的工作,將每種報紙的變化信息理清。
第二,民國報紙縮微膠片本身的問題已幾乎無法挽回,為了提高文字識別的準確率,可與市面上有經(jīng)驗且技術成熟的數(shù)字加工公司合作,來獲得更高品質(zhì)的數(shù)據(jù)。
第三,著眼于未來,全面考慮民國報紙可能的整合方式和展現(xiàn)方式,選用最先進的技術,開發(fā)能夠?qū)崿F(xiàn)滿足民國報紙各種展示方式和檢索方式的發(fā)布平臺。
民國報紙具有較高的文物價值、資料價值和藝術價值。數(shù)字化后,兼具數(shù)字化媒介和紙質(zhì)報紙的優(yōu)勢,可按多維度進行檢索并方便在網(wǎng)絡上展示。國家圖書館民國報紙數(shù)字化工作是該領域一項很好的嘗試,通過實踐來獲得民國報紙數(shù)字化和發(fā)布的最佳方式方法,希望有更多的圖書館可以開展此項工作,及時將館藏民國報紙通過網(wǎng)絡為廣大讀者提供服務。
參考文獻:
[1]謝雷.圖書館民國文獻保護探析[J].圖書館建設,2012 (8):13-17.
[2]張煒.報紙的保存與保護:縮微化與數(shù)字化探究[J].圖書館建設,2007(2):37-40.
[3]李建莊.報紙縮微復制的七個程序[J].河南圖書館學刊,1988(3):36-37.
[4]趙琛.民國報紙廣告[J].中國廣告,2005(4):65-69.
肖紅女,1982年生。碩士,館員。研究方向:文獻數(shù)字化方式方法。
吳茗女,1975年生。碩士,館員。研究方向:數(shù)字資源發(fā)布與使用。
曾燕女,1962年生。本科學歷,副研究館員。研究方向:數(shù)字資源驗收與檢查。
收稿日期:(2015-05-11;責編:徐向東。)