李秀東 徐培德
中小型圖書館立足本館特色,建設本地區、本館獨有的數據庫是當前圖書館數據庫建設的一個亮點。由于老舊報紙酸性大、存儲難、學者使用率低、科研價值高等原因,老舊報紙的數字化加工成為當下解決問題的主要途徑。通過查訪各類文獻和咨詢情況,青海省尚未對《青海日報》1990年以前的老舊報紙進行數字化加工,本文本著方便讀者檢索、提供圖書館多樣服務的原則,在充分考察報紙數字化的最新技術的基礎上,針對館藏《青海日報》老舊報紙的數字化加工建庫工作進行項目論證。
一、《青海日報》老舊報紙數字化的必要性
據統計,1995年至2004年,全國只有15家報社投資歷史報紙數字化項目,2005年到2006年,投入制作的有10家。近年來,向“數字報業”轉型已成為全國報業的共識。《青海日報》作為中共青海省委機關報,創刊于1949年10月20日,《青海日報》忠實記錄了青海省解放以來的歷史變遷、文化發展、生產實踐等綜合性知識,是青海地方政治、經濟、文化、社會發展、風俗民情及自然資源等的綜合反映。經過70多年的厚重積淀,《青海日報》既是一部鮮活的青海地方志,也是保存地方記憶、傳承地方文化的重要載體,是研究青海的文史資料、發展青海的決策參考。但眾所周知,報紙所采用的新聞紙不是可以長期保管的檔案介質,青海省委黨校圖書館收藏了該報自創刊至今的紙質報紙,由于紙質版報紙受館藏條件限制,1960年以前報紙由于受損、受潮、菌害、酸腐現象嚴重。近年來校院教職工對歷史報紙的需求不斷上升,以黨史黨建教研部為甚。2021年是中國共產黨建黨100周年,對《青海日報》過報歷史見報數據進行技術性開發,充分挖掘見報數據的價值,既為建黨100周年獻禮,也為充實校院數字圖書館服務內容,滿足讀者對青海歷史資料的檢索需求,實現歷史見報數據的增值利用,對青海省文化建設、歷史事實還原、輿論引導有一定的現實意義。此外,開發以歷史報紙為基礎的全媒體數據庫,利用歷史報紙數字化最新成熟技術和新聞分類標準,對報紙版面制作環節采用版面全信息重構,建立技術先進、管理便利、通篇檢索、具有良好兼容性的數據庫,形成新聞數字內容的服務平臺,以更加快捷、方便、真實的方式,為用戶服務。
1.老舊《青海日報》數字化是解決文獻資源保護與利用矛盾的有效途徑
老舊報紙數字化,就是通過最新數字出版技術把紙質報紙上的內容進行掃描、文字識別以及插入音視頻或動畫進行版面重構等一系列步驟,轉換成可以被電腦、手機、平板等多終端使用的格式,通過互聯網展現的一種基于PDF版面的Flash形態的多媒體數字報。《青海日報》老舊報紙由于長期保存在庫房里,重藏少用,少有讀者。由于黨校圖書館多次館舍搬遷、報刊庫房調整,長期封存的報紙紙張,由于年代久遠,大部分報紙已經老化、發脆、破損嚴重,假如繼續以舊報紙提供讀者查詢、翻閱,將造成更為嚴重的破損。而老舊報紙數字化后,則可以在保護文獻版權的同時,放開使用權限,盡可能使用戶利用網絡不受時空限制的查閱資源,還可以通過加密、禁止非法下載等相關手段保護版權,報紙數字化的信息在檢索、復制、傳輸上可以給讀者提供極大方便,不僅可以被多人同時重復使用,也有利于報紙原件的保護,切實做到了舊報紙的保存與利用并舉,從而解決了保護與利用的矛盾,對于提高資源的利用率,實現資源的社會功用具有十分重要的現實意義。
2.老舊《青海日報》數字化便于挖掘舊報紙的史料價值
我國近代辦報人提倡“秉筆直書”“春秋筆法”精神,這也就是為什么近代以來會將新式報紙或新聞紙看作史書的延續。英國薩里-羅漢普頓大學歷史學教授約翰·托什在《史學導論》中就曾說英國早期報紙“它們記錄了當時產生最大影響的各種觀點”“提供了對事件的日常記錄”“經常會提供有關一些問題的更全面的調查結果”等,研究青海歷史,老舊《青海日報》中有最重要、最可靠的史料,其史料價值需要重視,在相關研究中應注意收集并挖掘。鄭曦原的《帝國的回憶》就是利用《紐約時報》晚清對華報道選編,和《泰晤士報》晚清改革觀察記,翻譯編寫而成的。
老舊《青海日報》作為當時歷史的真實記錄,其時代特征中蘊藏著許多極其珍貴的史料,如實記錄了當時社會政治、文化生活、經濟、新聞動態等諸多方面的現實狀況。為充分發揮舊報紙的潛在史料價值,滿足不受時空限制的研究利用需求,數字化開發老舊《青海日報》刻不容緩。
從另一方面說,報紙是一種有歷史積淀的印刷文獻,一直是各類型圖書館收藏、整理、編目的主要對象。老舊報紙的數字化開發便于檢索,這就為我校及學者的多學科、多視角的學術研究開啟了便利之門。
二、老舊《青海日報》數字化的主要內容
1.紙質資料數據處理
限于當下圖書館普遍存在數字化技術設施設備缺乏、人員技術水平參差不齊,最新報紙數字化技術適宜引入數據商對圖書館館藏1949年10月2日至1989年12月紙質報紙進行數字化處理,生成高清晰度圖像及文檔。
數據商利用先進的技術和管理方式,解決報紙在處理版面數字化過程中存在的問題,諸如版面還原不清晰、文字錯誤率高、字形還原非原貌等遺憾和缺失,特別注意針對2001年1月1日《中華人民共和國國家通用語言文字法》生效前的非規范漢字(含繁體字、港臺字、試行簡化字等)的正確表達。實現目前行業普遍實行的標準數字報刊功能,在保留目前現有數字報刊功能的基礎上,增加如下主要功能:
建立以XML對報紙結構和內容進行描述和封裝的數據基礎,實現信息的多通道發布和個性化服務;創建文本間的關聯、特殊的交互設計實現文本的輸入、跳轉、檢索等操作;圖片采用動態鏈接,實現視頻新聞鏈接,增加新聞的附加屬性;利用多媒體技術中的線條處理技術,條塊分割成各自獨立的信息空間;利用多媒體技術實現對內容的分類導航、導讀功能;采用國家新聞分類法標準和數字化技術標準,將版面結構和版面內容等完整信息實施數字化展示。
2.數據索引及數據庫特性
實現數據索引,使用基于概率和詞典的分詞庫數據索引技術,上萬條記錄情況下,檢索響應時間不超過1秒,且數據庫具備以下特性:
(1)安全性。索引數據自動定期進行備份,備份目標支持本機和遠程服務器。提供手動備份和自動備份選項,自動備份又分為定時備份和指定時間間隔循環備份,備份工作進行一次設置后,無需后續干預可有效運行。隨著資源庫中數據的不斷增加,索引庫也不斷增大。系統允許對索引庫進行分割,分割后檢索效率不受影響。支持按日期進行索引庫的自動分割。
(2)靈活性。系統中索引數據庫可以是多個,按照語種、資料類型等生成多個索引數據庫。索引數據可以按照任意的規則進行排序,例如可以指定某一時間段內的文章,或者文件大小在某一范圍內的資料,均可以作為篩選條件應用于索引數據庫中,篩選的結果還可以按照正序和反序進行自動排列。
(3)易用性。索引數據庫中,除保存索引數據,還需保存附加信息,例如資料原文,數字指紋,日期信息,內部編碼和其他定制的信息。對于不同的索引資料,可以通過設置配置文件,來決定要索引的字段,要保存的字段。
實現全文檢索。基于索引數據庫和用戶給出的查詢條件,實現快速讀取,對海量信息的檢索在毫秒級時間內完成。用戶可以使用中文、英文進行檢索,檢索結果界面友好、信息豐富、分類清晰,檢索結果按照相關度進行排序,同時,參考用戶使用習慣、大數據分析結果、數據聚合信息等,對檢索結果的排序進行調整,提升用戶的使用體驗。檢索系統能滿足以下要求:
①支持多種編碼
對于不同編碼的檢索關鍵詞,系統能自動識別和轉換。無論是中文的GB碼,BIG5碼,系統都能正確識別并統一轉換成UTF8編碼,能在索引數據庫中正確查找到需要的結果。
②支持多關鍵詞
多關鍵詞之間可以指定邏輯關系,如邏輯“與”,邏輯“或”,邏輯“非”等,并且多個關鍵詞能自動按照權重對結果進行排序,提高檢索的易用性和準確性。
③高召回率、高準確率
提供精準的中文分詞,中文分詞準確、完整,在檢索時,對用戶輸入的檢索關鍵詞進行分析和分詞,如果檢索結果不理想,自動進行二次精細分詞,再次查找,確保查詢精確度。
④模塊化可升級
全文檢索的分詞部分、檢索部分、展現部分獨立模塊化。每一模塊有自己的配置文件,可以單獨進行配置。如果需要對某一模塊進行升級,僅需要替換該模塊的動態庫即可。各個模塊所使用的詞典,語料庫等,可以隨時替換更新。
三、老舊《青海日報》數據庫建庫原則及結構設計
構建《青海日報》老報紙數據庫不但充實了圖書館的數字資源,而且讀者能夠在極短的時間內獲得自己想要的文獻資料,實現圖書館“收藏”和“使用”的有機統一為最終目標。構建《青海日報》老報紙數據庫時需堅持以下原則。一是先進性思想,在數據庫的建設上要具有高強度的檢索性,確保檢索在各種環境下能夠進行,包括系統脫機、光盤、聯機與網絡檢索等,同時為了能夠獲得檢索的全面性,內容要做到詳盡,覆蓋要全,能夠滿足不同讀者的各類信息需求,才能確保讀者一次就可以搜索到自己所需要的文獻資料。二是發展性原則,數據庫的構建要確保每個時段系統發展的一致性原則,還要確保將來數據庫的發展,以達到符合社會發展性原則。三是協調性原則,在數據庫的建設中要朝著集約化、正軌化、統一化、全面化、產業化和規模化方面發展,對信息化資源能采取取長補短,有效互補,使得數據庫的使用范圍變得更廣,確保社會效益的有效提升,以此實現資源的真正意義上的互通。
數據庫的結構設計是數據庫建設質量高低的一個重要性參數。《青海日報》舊報紙信息格式包含文本、圖片,基本字段為標題,主題標題、引題、副題、提要和小標題等標題。《青海日報》老舊報紙特色數據庫應提供多類型檢索方式,而且都可以在系統內存在,包含分類查詢、關鍵字模糊檢索、數據庫分類檢索、數據庫高級檢索等方式。本文庫有效采用TRS全文檢索系統里全文檢索功能,提供各種方式的全文檢索,包括整個字段檢索、組合檢索、文章關鍵字檢索,以及二次檢索,方便用戶從不同角度找到自己想要的數據。本項目宏觀上分為兩大環節,一是館藏舊報紙的整理、數字化,二是搭建多媒體數據庫。
四、老舊《青海日報》數字化建庫工作的重點難點
本課題采用經驗總結法進行數字化建庫,經驗總結法是通過對實踐活動中的具體情況,進行歸納與分析使之系統化、理論化,上升為經驗的一種方法。總結推廣先進經驗是人類歷史上長期運用的較為行之有效的方法之一。
系統總體結構要求實現入庫、索引、WEB服務和客戶端四部分,并設計相應的數據庫。入庫程序實現內容的自動、手動導入;索引工具構建索引;WEB服務響應用戶的查閱請求并生成讀報頁面或檢索結果頁面。
閱讀頁面要求實現原版原式,給讀者原汁原味的讀報體驗,與紙質報刊版面效果、字型完全一致。實現流行的閱讀視圖,包括版面圖,版面導航,標題導航,及“上一版”“下一版”和“上一期”“下一期”導航區。版面導航能夠以合理的形式列出本期報紙所有版面,并可點擊跳轉到相應版面。標題導航能夠以合理的形式列出本版報紙所有文章標題,并可點擊跳轉到相應文章。同時,要求實現全部報紙內容的版面、標題、圖片導航功能。總之,整合《青海日報》的各項新聞資源,實現新聞資源標準化、智能化的統一管理,實現新聞歷史數據庫建庫工作。
參考文獻:
[1]王茂華.歷史報紙檔案數字化項目的幾點經驗:《重慶日報》歷史報紙搶救工程的回顧與總結[J].新聞研究導刊,2013.5.
[2]胡陽.《沈陽日報》歷史報紙數字化的開發與應用[J].中國記者,2017.
[3]劉家強.遼寧省圖書館藏舊報紙數字化管見[J].圖書館學刊,2013.
[4]玉翠玲,劉斌.大學生媒介文化概論[M].北京,北京師范大學出版社,2016.
[5]張艷國.大學本科畢業論文創作指導[M].武漢,華中師范大學出版社,2017.10.
(作者簡介:李秀東,中共青海省委黨校圖書館研究館員。研究方向:中小型數字圖書館建設。徐培德,中共青海省委黨校圖書館研究館員。研究方向:數字圖書館建設及讀者服務。)