李倩
摘要:鑒于近現代文獻資料的珍貴性及其被忽視的現狀,文章以近現代文獻資料的數字出版和保護為例,闡述了數字出版內容的開發、管理路徑和歷史文化承載意義,對于保護近現代文獻資料、豐富數字出版內容、促進數字出版產業發展有一定的作用。
關鍵詞:
數字出版產業 內容開發管理 近現代文獻資料
內容是數字出版產業的靈魂,價值含量高的出版內容和合理有效的管理方式是數字出版產業健康可持續發展的基本要求和根本動力。我國古代歷史、近代革命和現代建設中遺留下來的海量文獻資料,是數字出版內容的重要來源之一。
近現代文獻資料,指的是自1911年辛亥革命到21世紀初近百年間所創作出的圖書、報刊、日記等文獻資料。由于近現代文獻資料距今時間較短,因此普遍存在不必緊急搶救開發的認識誤區;同時,長期以來人們一直認為近現代文獻的價值遠不如古籍善本,所以它們的安置待遇也就遠低于古籍文獻。近現代文獻資料淪為歷史文獻中的“亞珍貴文獻”,甚至是“弱勢群體”。[1]
需要引起人們重視的是,這些資料記錄著近代的革命浪潮、百家爭鳴的學術思想、抗戰時期的跌宕政局和新中國成立后的治國滄桑,其珍貴性并不比古籍善本低。[2]利用數字出版平臺來挖掘、開發和管理近現代文獻資料,是數字出版產業實現保護、傳播人類文化知識遺產這一歷史使命的重要方式。
一、歷史文化承載:數字化近現代文獻資料的必要性
1. 數字化的近現代文獻資料可更清晰地重現宏大壯觀的歷史語境
中國近現代歷史是一部政局跌宕、風潮暗涌的革命史,其不同政見和立場的政治實體孕育了各具特色的經濟、文化、思想文獻載體,如《大公報》《滿洲三省志》《蔣中正日記》《論持久戰》等等都誕生于此。此外,在新中國成立之后,全國范圍內轟轟烈烈開展起來的土地改革、社會主義改造和改革開放等運動,也都留下了大量的私人記錄、文學作品、公開發行報刊和政府機構出版物等文獻資料。
數字出版產業有責任重現這宏大壯觀的歷史語境,將其數字化,以保留這些珍貴的資料,從而更加真實地還原歷史原貌和歷史真相,更加清晰地展示新中國的奮斗及成長歷程,為中國解決發展中出現的各種社會問題提供必要的參考。
2. 數字化的近現代文獻資料可演繹百家爭鳴的文化思潮
中國近現代的政治雖然起伏動蕩,文化事業卻非常繁榮。近現代的中國思想文化異彩紛呈,圖書、報刊、手記、海報、檔案、圖片等豐富多彩的文獻形式,反映出了近現代時期百家爭鳴的文化盛況。在民國時期,學術啟蒙和思想交鋒一度達到頂峰,民國學人以《新青年》雜志為陣地,轟轟烈烈地開展新文化運動,在這段重要的歷史時期內,誕生了諸如梁啟超的《中國近三百年學術史》、馮友蘭的《中國哲學史》、李大釗的《我的馬克思主義觀》等學術巨著。新中國成立之后,中共中央適時提出了“百花齊放,百家爭鳴”的振興文化事業的方針政策,文化事業得到了迅速的繁榮和發展,產出了大量如《紅巖》《蔡文姬》等優秀作品。改革開放之后,我國文化事業再次迎來輝煌發展的春天,涌現并出版了更多的文化精品。
數字出版產業有責任演繹和傳播這百家爭鳴的文化思潮。近現代涌現出的這些文化精品,是中國近現代學術史上首批具有開創意義的奠基之作,不僅對我國近代新興學科的創建具有重要的學術價值和參考價值,在全世界范圍也被視作第一手研究資料。作為延續民族文化的重要手段,數字化出版這些近現代文獻資料可以重新演繹出近現代歷史中的文化風采和思想交鋒。
3. 數字化的近現代文獻資料可為人文科學研究提供資源
海量的近現代文獻資料中,相當一部分在中國近現代學術史上占據著重要地位。數字化采集提取和編輯處理過的近現代精品文獻,可以完整保存文獻資料的文本信息,更能保持文獻的初始面目,如原件的印章、墨跡、筆跡、批注等各種原始特征,使當代研究學者可以足不出戶地拜讀到近現代文獻的原始樣貌,體會到近現代文獻的原始韻味,為研究學者提供更多挖掘原始資料的線索,有助于當代科學研究更廣泛和更深入的開展,對當代多種學科的建設有著不可替代的作用。
4. 數字化的近現代文獻資料有益于中國文化走向世界
進入互聯網時代,網絡傳播所具有的不受時空限制、信息量大、傳播速度快的特點,使數字信息成為最重要的文化資源。數字化手段將使人類的精神文化寶庫跨越時空,在全人類面前實現資源共享,可以讓神秘的中國文化——尤其是近現代文化歷史——借助現代信息技術再現輝煌,讓全世界人民感受到東方文化恒久彌新的獨特魅力。
二、數字出版產業的內容開發:近現代文獻資料的挖掘與優選
源源不斷地提供優質內容,是保證數字出版行業健康科學、可持續發展的基本要素。對于近現代文獻而言,從浩如煙海的近現代文獻史料中挖掘和優選出具備人文、思想、經濟、歷史價值的優質資源,是數字出版的第一步。然而,海量的文史資料中必然玉石同室,精華與糟粕同在。因此,數字出版前應對這些內容資源進行優選,實現對數字出版內容質量的宏觀控制。長期以來,受“片紙只字不得銷毀”思想的誤導,我國的近現代文獻整理和數字化工程一直持有“有文必收”的錯誤態度,這難免會將內容價值極其一般的事務性、零散性和重復性文件也收錄其中,導致數字出版產業“內容龐雜、魚龍混雜、玉石不分”,也造成了人力、財力和物力的巨大浪費。
對近現代文獻資料進行挖掘和優選,除對國家所有的文獻資料進行整理外,更要重視民間對文化遺產的容納力。要通過民間走訪和考古發掘進行文獻挖掘,然后對散落在民間的文獻資料和館藏文獻進行擇優鑒選,使投入的人力、財力、物力、時間等要素得以充分、合理和有效的配置,最大限度發揮數字化成果的經濟效益和社會效益,提高數字資源的利用率。[3]對數字化對象的鑒選,應當采取歷史文化價值優先性原則,從重要文獻到次要文獻,從亟須文獻到一般文獻,依次鋪開,循序推進,打造優質化和精品化的數字出版產業。
三、數字出版內容管理:近現代文獻資料的數字加工與管理
數字出版產業的內容管理,是指在內容上進行包括收集、編輯處理、格式轉換、審核、版本控制、內容測試、發布等處理的過程。[4]在大量的內容資源中,絕大部分內容是非結構化的,內容管理的目的是把非結構化的信息,制作成圖書、報刊、光盤、網頁等產品,供用戶以各種媒體形式閱讀、檢索、查詢、分析和共享。以近現代文獻資料為來源的出版內容數字化處理,就是指對近現代紙質文獻進行數字化提取、格式轉換、數字化編輯整理等加工與整合,以及進一步搭建和應用近現代文獻數據庫。
1. 近現代文獻資料的數字化提取
通過數字化手段,把破損的紙質文獻當中的文本內容提取出來,是數字化出版近現代文獻資料的第一步。從古籍文獻的保護經驗和國外數字化科技的發展趨勢來看,對近現代文獻資料可采用以下兩種數字化加工技術:(1)通過光學字符識別——OCR軟件,把近現代文獻資料的內容錄入計算機,制成文本文件等。OCR技術可將近現代文獻資料轉化為文本,并能從圖像文件中自動抽取題名、著者、文中插題、文內關鍵詞等檢索點,并轉化為索引。該技術在古籍數字化處理中已有較為成熟的應用,如電子版《文淵閣四庫全書》。(2)通過影像縮微與掃描將文獻的內容掃入計算機,制成圖像文件。縮微品存儲載體的穩定性強,預期壽命可達500年以上,是長期安全保存文獻資料的最佳存儲介質之一。對于非常珍貴、不可再生的近現代文獻資料,非常有必要使用可靠性更強的縮微技術進行處理。隨著掃描技術與縮微技術的結合,近現代文獻的數字化加工又可分為直接縮微處理和先掃描后縮微處理兩種形式。縮微技術在古籍數字化處理中取得的成果,值得借鑒,如廣東省立中山圖書館建成的“古籍全文數據庫”。
考慮到文獻價值和保存狀況的不同,筆者建議對文獻資料采取差異化數字加工手段:(1)對于價值珍貴且易老化損壞的、或價值一般但老化壞損嚴重的文獻,建議采用縮微技術,將文獻的影像記錄在縮微膠片上,以實現對文獻的搶救和保護。(2)對于價值高且使用頻率高的文獻,建議首先應用縮微技術制作影像膠片以便保護,在此基礎上再將縮微膠片進行數字化轉換以便編輯和使用。(3)對于價值一般、保存情況好、使用頻率高的文獻,可采用OCR光學識別技術將文獻數字化以便于傳播使用。
2. 近現代文獻資料的數字化編輯整理
數字出版絕非簡單地將數字內容資源提取出來,還須經過必要的編輯、整理和加工,使用戶可以對內容資源進行檢索、復制等必需的操作。近年來,信息組織技術方法逐漸被應用于典籍文獻的數字化整理工作中,對于近現代文獻資料的編輯整理有參考借鑒價值。
數字化編輯整理工作主要包括近現代文獻索引的自動編纂和近現代文獻電子圖書的編纂:(1)近現代文獻索引的自動編纂。主要是指借助OCR技術對提取出來的文獻原文進行機編索引,可采用的技術手段包括索引之星、Word 索引軟件和自編語詞索引軟件等,此外,在索引排序方法方面可借鑒較為成熟的科學技術。(2)近現代文獻電子圖書編纂。電子圖書就是“以電子的方式儲存信息,并以電子的方式進行閱讀的圖書”。在完成掃描、識別等預處理之后,近現代文獻電子圖書編纂主要包括電子排版、Word文檔拆分、添加模板、制作網頁文件等環節,Easy CHM電子圖書編輯軟件是當前最常用的電子圖書編纂軟件。
王雅戈等學者以吳覺農先生所著的《中國茶葉問題》為例,對機編索引的方法和索引軟件的應用進行了研究,并進一步應用Easy CHM電子圖書編輯軟件對民國文獻電子圖書編纂進行了實驗。[5]其研究對民國農業文獻數字化整理、開展農史研究都有重要的貢獻,對其他近現代文獻的數字化編輯處理亦有指導借鑒意義。
3. 近現代文獻資料的數據庫式管理模式
傳統的出版方式難以有機綜合這些文字、圖像和聲音等不同載體的內容資源和信息,而計算機數字化處理技術和數據庫存儲管理技術則可以實現近現代文獻聲、文、圖并茂的多維度展示和傳播,改變出版作品單一的出版形式,賦予其更加生動的形象和更加強大的生命力。[6]所以,在對海量的文獻資源完成挖掘、開發和編輯處理后,還需要對近現代文獻資料進行數據庫式的管理。
實際上,隨著科技的發展,數據庫技術已經成為較為先進的文獻數字化管理手段,在近現代文獻資料的管理中,文化出版企業和文化管理機構已經逐步采用這一方式。如湖南省青蘋果數據中心就走在了行業的前列。中心成立20年來,已經數字化了從清朝至今200多年的400種報刊,建立了擁有4000億漢字和4億篇文章的海量歷史文獻庫——“華文報刊文獻數據庫”,包含了中國革命領導人文庫、中國歌曲數據庫等數十個分庫。
結 語
近現代文獻資料涵蓋了清末以來中國的政治、經濟、軍事、外交、科學、技術、教育、文化、宗教等各方面,是歷史締造者留給我們的精神遺產。借助數字出版的形式將近現代文獻提取、編輯、整理并用數據庫模式予以管理,是弘揚中國歷史和文化的重要途徑,也是豐富數字出版產業的內容資源、引導數字出版產業科學發展、豐富人民精神文化生活的必然選擇。
參考文獻:
[1] 王雅戈,王晉玲,常娥. 民國文獻整理研究進展[J].圖書館建設,2011(3):15-18.
[2] 劉洪權.民國古籍出版對當代古籍出版的文化貢獻[J].編輯之友, 2007(3):91-94.
[3] 孫琴.民國文獻數字化建設現狀分析研究[J]. 山東圖書館季刊,2008(1):71-73.
[4] 劉爭.內容管理系統在數字出版中的應用研究[J].編輯之友,2012(4):20-23.
[5] 王雅戈,朱原諒,何琳.電子圖書編纂實驗——以民國文獻電子圖書編纂為例[J].圖書館理論與實踐,2009(6):61-63.
[6] 朱琪.民國檔案數字化研究與思考[J].北京檔案,2010(2):26-27.
(作者單位:湖南第一師范學院)