●李朋真 嚴 丹 蔡迎春
(上海外國語大學 上海 201620)
習近平總書記強調:“要把紅色資源利用好、把紅色傳統發揚好、把紅色基因傳承好。”在中國共產黨的百年歷史進程中,產生并留下了大量珍貴的紅色文獻,挖掘、整理、開發、利用紅色文獻具有重要的歷史價值和現實意義。如何讓布滿歷史塵埃的紅色文獻得以更好保存并在新時代煥發新生?數字化、大數據是路徑之一[1]。開展紅色文獻數據庫建設,打造集文獻資料保存、文化承載傳播、教育科研利用于一體的紅色文獻大數據平臺,對紅色文獻進行全文數字化,是使紅色文獻再獲新生的必要手段和有效途徑,便于研究者對紅色文獻的內容進行全方位的深入挖掘、整理和利用。
當前紅色文獻數據庫的建設現狀如何,收錄了哪些類型的文獻資源,平臺功能具有哪些優勢和不足,后續應當如何進一步加強建設和不斷完善,都是本文擬解決的主要問題。
紅色文獻的概念有廣義與狹義之分。廣義的概念從文獻的內容及其開放性角度,把中國革命歷史上有關資料及中國共產黨黨政領導人的著作統稱為紅色文獻。狹義概念的紅色文獻則明確限定了文獻的出版時間、出版發行地、出版發行機構、載體形式及其主要內容,通常主要指1921年7月中國共產黨成立之日起至1949年10月中華人民共和國成立之前,由中國共產黨機關或各根據地所出版、發行、制作的各種書籍報刊以及標語、印章、文書、證件等文獻資料[2]。
但也有研究者認為,毛澤東主席在1942年寫的《如何研究中共黨史》中指出研究黨史只從1921年起還不能說明問題,要有前面的歷史說明共產黨的前身,從辛亥革命說起,從五四運動說起可能更好。因此,紅色文獻的時間上限也可以追溯到辛亥革命前后[3],而時間下限基本也是在1949年新中國成立前后。也有研究者指出,關于對紅色文獻的界定,早些年都稱為革命文獻。近年來,紅色文獻用得較多,但這一概念界定現在還不清晰,所以應從源頭加強對紅色文獻的界定和管理[4]。
總體而言,紅色文獻屬于歷史文獻、革命文獻的范疇。筆者認為,紅色文獻的時間范疇界定在從1915年新文化運動開始到1949年新中國成立是基本合適的,這也是目前較多紅色文獻數據庫建設中所收錄文獻的主要時間范圍。從紅色文獻目錄的編制現狀可以發現,紅色文獻的目錄整理工作各自為政、比較分散,收錄范圍、收錄標準和著錄標準很不統一,各種目錄間的交叉、重復現象嚴重,對海外及民間收藏較為忽視,紅色文獻數據庫建設更是處于起步階段[2]。
在數據庫建設方面,截至2021年4月底,以發布紅色文獻為主的數據庫總計有16個[5]。其中延安大學于2016年啟動“延安時期紅色文獻數字研究平臺”,預期整合延安時期的圖書、報刊檔案、圖片和音視頻數字資源,并嵌入大數據統計分析功能,打造一個集紅色文獻保護、傳承、傳播、教育、教學、科研于一體的紅色文獻大數據平臺。國家圖書館出版社打造建設了“中國歷史文獻總庫”的一個專題庫“紅色文獻數據庫”,并于2020年末基本建成上線。上海圖書館于2019年著手建設“革命(紅色)文獻服務平臺”,已初步完成紅色文獻相關書目8 000余種。北京愛如生數字化技術研究中心研制的“紅色歷史文獻庫”于2014年啟動,計劃分四批陸續出版,目前已上線首批資源含紅色報紙687號、紅色名刊50種。這些都是當前紅色文獻數據庫的代表性平臺,具有典型性和綜合性,同時也各具特色和優勢。以下就這四大紅色文獻數據庫分別進行介紹和對比分析。
愛如生“紅色歷史文獻庫”是匯輯中國共產黨領導的中國革命歷史文獻的全文檢索版大型數據庫,分為紅色大報、紅色名刊、紅色著作和紅色記實四編,收錄1915年新文化運動興起至1949年全國解放期間,中國共產黨及外圍組織公開和秘密出版的各類報紙、雜志,中國共產黨領導人、共產黨員以及黨外、國外友好人士公開發表的各類著作、紀實文章等[6]。數據庫第1輯共上線2種報紙和50種期刊文獻,收錄中國共產黨中央和革命根據地黨政軍創辦的機關報刊;新文化運動和建黨初期的重要報刊;大革命時期和抗日戰爭時期國共合作的重要報刊;左聯等外圍革命組織出版的重要報刊。各庫初印原件或權威影本,務求忠實于原文。總計影像約96余萬頁,錄文約6 800余萬字,數據總量20G。
“紅色文獻數據庫”是“中國歷史文獻總庫”的一個專題庫,由國家圖書館出版社開發完成,文獻來源以國家圖書館的館藏為主,廣泛整合海內外收藏的1949年前的紅色“書報刊”文獻,并進行系統發布。數據庫包含紅色圖書、紅色期刊、紅色報紙三大版塊,其中一期上線的紅色圖書6 300余種,紅色期刊100余種,紅色報紙50余種[7]。
圖書版塊收錄紅色圖書6 300余種,包含馬克思主義著述的早期經典譯本,馬克思主義傳播的經典著述,毛澤東《論持久戰》的各種版本。期刊版塊收錄紅色期刊近100余種,既包括延安出版的《共產黨人》《北方紅旗》等刊物,也包括“左聯”等革命團體在國統區出版的進步刊物,反映了從中國共產黨創建到新中國成立的全過程。報紙庫收錄紅色報紙50余種,既包括《解放日報》《新華日報》等知名報紙,也包括各解放區、根據地出版的稀見報紙,史料價值極高。
“革命(紅色)文獻服務平臺”是上海圖書館為了開展上海革命歷史文獻的數字化工作、文獻整理研究、文獻服務,最終形成可容納不同機構的、多種文獻類型的革命(紅色)文獻,同時為普通大眾和研究者在互聯網上提供文獻服務而建設的紅色文獻服務平臺。目前開放了紅色文獻相關書目8 000余種,是一個實現跨平臺、多終端訪問和具備統一的檢索及展示界面的資源開放服務平臺,并且可與數字資源長期保存系統進行數據交互,是一個可進行全文檢索、高級檢索等多搜索功能的開放數字資源展示服務平臺[8]。
延安大學系統地搜集整理了延安時期的紅色文獻,將延安革命紀念館、陜西黨史研究室、中共中央文獻研究室珍藏的許多延安時期的歷史文獻進行整理和匯總[9],2016年啟動了“延安時期紅色文獻數字研究平臺”建設項目。項目一期重點對《紅色中華》《新中華報》《解放日報》三種黨中央機關報紙進行了全文數字化,于2018年底完成了約8 500多萬字、11 000多個版面的錄入、校對和分類標引工作,建成了“延安時期中共中央機關報全文數據庫”。該庫采用圖文對照的數字版式,使報紙原貌和文本得到了完美的展示,也使報紙的閱讀和考證變得非常方便。同時還可以從全文、題名、作者、關鍵詞等多個維度檢索報紙內容,為紅色資源的挖掘和整理提供了平臺[10]。
上述紅色文獻數據庫在收錄內容、界面設計、平臺功能等各方面各具特色、各有優勢,同時也存在各自的不足。通過對其進行對比分析,如表1所示,可以發現問題,進行取長補短和優勢互補,促成共建共享與協同完善。

表1 四大紅色文獻數據庫對比分析
在數據庫框架設計中,對紅色文獻如何進行分類導航是一個比較重要的問題,也是難點所在。根據紅色文獻載體類型的不同,針對期刊、報紙、圖書的特性,目前的幾個紅色文獻數據庫均采用了多元化的分類方式,從不同維度來設計分類導航,從而在最大程度上便于用戶利用。但同時也會產生分類標準不統一、分類維度過多、分類不科學等問題。
(1)按期刊的內容性質分類。在愛如生“紅色歷史文獻庫”中的“紅色名刊”版塊(見圖1)中,將50種期刊按照其內容性質分為了新文化運動刊物、共產黨機關刊物、國共合作刊物、左翼進步刊物、抗日戰爭刊物等五大類。每一類別中的期刊再按照首發時間進行排序羅列,從而比較清晰地劃分了這些刊物,易于使用者根據研究方向和領域來快速查詢所需期刊。這種方式取決于數據庫設計和開發者對于紅色文獻的內容分類和領域屬性有較為深入的研究和認知,并有能力進行較為科學合理的劃分,這種方式相對而言具有一定的難度。

圖1 愛如生“紅色歷史文獻庫”紅色名刊分類
(2)按期刊的發行時期分類。國家圖書館出版社“紅色文獻數據庫”(見圖2)中的期刊,采用的是按照發行的歷史時期進行劃分的分類方式,將其分為建黨前后、大革命時期、土地革命時期、抗日戰爭時期、解放戰爭時期等5個時期,基本上是屬于按照時間線的分類,對于研究特定歷史時期的研究者而言具有較大的便利性和導航價值。

圖2 “紅色文獻數據庫”期刊分類
(3)按報紙的發行區域分類。國家圖書館出版社“紅色文獻數據庫”中的報紙,主要采用了按照區域導航(見圖3)和按照拼音導航兩種模式。其中按區域導航比較適合于報紙這種類型的文獻,因為報紙數量眾多,發行地區廣泛,涵蓋全國多個省市,對于按地區來研究紅色報紙的使用者來說是一種比較好的導航途徑。

圖3 “紅色文獻數據庫”報紙按區域導航
(4)按圖書的中圖法分類。對于紅色文獻中的圖書而言,其主題涉及的領域較為寬泛,政治、經濟、軍事、文化、教育、文學、藝術等各個領域都會涵蓋,因而,按照中圖分類法對其進行分類導航不失為一種較為合理的方式。國家圖書館出版社“紅色文獻數據庫”中的紅色圖書即采用了這一分類模式。
上述幾種具有代表性的紅色文獻數據庫收錄的文獻類型和范圍各有不同,但也有部分交叉重復現象,且有的數據庫收錄不夠全面和系統。其中比較典型的案例是《紅色中華》中報紙的歷史變遷及收錄情況,經歷了從《紅色中華》到《新中華報》再到《解放日報》的較為復雜的發行變化[12]。
愛如生“紅色歷史文獻庫”第一輯收錄了《紅色中華》和《新中華報》這兩種報紙,涵蓋從1931年12月11日創刊至1941年5月15日停刊共687號。但愛如生收錄的這兩份報紙存在缺漏現象,且其后續與《今日新聞》合并復刊的《解放日報》也沒有進一步收錄,在收錄體系上欠完整。而延安大學開發的“延安時期紅色文獻數字研究平臺”項目一期則完整收錄了《紅色中華》《新中華報》《解放日報》三種黨中央機關報的數字化全文,其收錄更為全面和系統,但同時與愛如生數據庫的資源存在著交叉重疊現象和重復建設問題,兩大平臺理應本著優勢互補和資源共享的態度,共同建設數據庫,避免重復投入。
(1)圖書、期刊、報紙三種類型文獻的常規檢索方式。以國家圖書館出版社的紅色文獻數據庫為例,在圖書檢索中,所有圖書都實現了全文檢索。全文檢索采用檢索結果預覽,點擊后在圖像中精確定位的方式。在期刊檢索中,期刊提供按刊檢索、按篇檢索、高級檢索、全文檢索四種維度的檢索。報紙檢索中,報紙可實現篇目檢索、熱區導航、篇目定位和下載,部分可全文檢索,全文檢索以篇目為單位,可實現檢索結果的預覽和命中詞的高亮顯示。
由于支持全文檢索,在國家圖書館出版社的紅色文獻數據庫中可以使用“書目檢索”的方式進行關鍵詞檢索。在這種檢索方式下,讀者通過輸入任意相關詞匯即可進行檢索,也可以在檢索時規定是否使用同義詞、是否進行模糊匹配等。任意詞檢索的結果范圍較大,精準度較低,適合沒有明確的檢索目標,僅有大概需求方向的讀者使用。讀者也可以使用“按篇檢索”的方式進行革命文獻的檢索。在此模式下,需要輸入文獻名進行檢索,與“書目檢索”類似,檢索時也可以規定是否使用同義詞等擴大或縮小檢索范圍。“按篇檢索”所得出的結果較為精準,但對檢索目標信息的要求較高,適合目標明確的讀者。若上述兩種檢索模式無法滿足需求,亦可使用“高級(復合)檢索”模式,在此模式下,可以使用邏輯檢索語言進行檢索,也可輸入各種限定信息如作者、版次、版名、日期、卷期、欄目等擴大或縮小檢索范圍。同時,還可通過類型勾選的方式確定資源類型以及檢索范圍,從而使結果更精確。同樣的,此模式也可以選擇是否使用同義詞等。
(2)個性化的檢索方式及揭示形式。本文研究的幾種紅色文獻數據庫分別提供了不同的個性化檢索模式,以上海圖書館“革命(紅色)文獻服務平臺”為例,該平臺創新地采用了“地圖檢索模式”(見圖4)。用戶可以使用鼠標在地圖中劃出區域,系統就會在該區域內檢索該區域內產出的文獻或者歷史人物信息。該功能是以JSON數據格式化進行了數字人文可視化處理,通過RDF數據的JSON處理,即可利用JavaScript語言進行調用,實現各種操作。在本例中,使用OpenLayers就可以實現文獻的時空分布在地圖上的展示[13]。

圖4 “革命(紅色)文獻服務平臺”地圖檢索模式
上海圖書館“革命(紅色)文獻服務平臺”也使用了中共組織史機構圖表的方式進行歷史人物的檢索(見圖5),該模式可以快速通過歷史時期—組織機構的方式,二維定位需要檢索的歷史人物,使用該模式檢索的觀感比一般檢索模式更加清晰,檢索過程也是知識獲取的一部分。這種檢索方式需要龐大而詳細的人物社會關系知識圖譜作為數據支撐。上海圖書館憑借其在數字人文方向的研究而建立的數據基礎,以CBDB關聯數據平臺為輔助[14],實現了中共組織史人物關系圖譜的建立,從而可以讓讀者以全新的方式了解紅色歷史人物。根據歷史時期跨度,這些歷史人物被劃分為黨的創建和大革命時期(1921.7—1927.7)、土地革命戰爭時期(1927.8—1937.7)、抗日戰爭時期(1937.7—1945.8)、全國解放戰爭時期(1945.8—1949.9)。每個時期內以不同的組織機構如中央組織機構、中央派出機構等再次進行細分,可以清晰地查明每個歷史時期不同機構的革命歷史人物。

圖5 “革命(紅色)文獻服務平臺”中共組織史機構圖表
(3)紅色文獻的文字識別與全文檢索。紅色文獻使用的馬蘭紙、自制油墨,導致其印刷質量非常差,字跡模糊難辨。同時,手工刻版、豎排版、繁簡交叉等因素,都給數字化過程中的OCR文字識別增加了極大的難度,使得數據庫中很多紅色文獻的全文檢索成為一個難題。要實現文獻的全文檢索,需要克服數字化過程中的諸多技術難關,對每個頁面、每篇文獻上的文字識別需要進行仔細校對,對無法識別的掃描圖像需要進行人工文字錄入,并對每個篇目進行分類標引等,才能為全文檢索打下堅實的基礎。
上述幾種紅色文獻數據庫基本上實現了大多數紅色文獻的全文檢索,但仍有不少文獻只能實現篇目層級的檢索。如國家圖書館出版社“紅色文獻數據庫”中的部分圖書,尚不能進行全文檢索(見圖6),但簡體字與繁體字互相識別與檢索問題則基本得以實現。

圖6 “紅色文獻數據庫” 書籍詳情頁(暫不支持書內全文檢索)
針對以上分析發現的數據庫之間資源交叉和重復建設問題、紅色文獻收錄不夠系統和完整問題、全文檢索功能尚不完善等問題,筆者嘗試提出如下優化措施和改進建議,以期為紅色文獻數據庫的進一步開發和建設提供借鑒和指導。
當前的紅色文獻數據庫開發存在各自為政、重復建設的問題,如上述幾種數據庫中的《紅色中華》《新中華報》《解放日報》資源就交叉重復較為嚴重,這在很大程度上造成了資源和人力投入的極大浪費。為此,數據庫建設和平臺開發者之間應當加強溝通,互通有無,進行優勢互補和共建共享,對平臺之間交叉重復的文獻資源進行梳理和整合,實現查漏補缺、共同完善。在此基礎上,各平臺還可以考慮構建聯合平臺,協同建設,形成合力,聚合各家所長,發揮協作精神,打造一個資源涵蓋最全面、功能設計最完善的一站式權威平臺,從而在紅色文獻數據庫領域占據主導地位。
紅色文獻的整理除了數據庫建設外,紙質影印本的出版發行也是一條重要路徑。兩者在資源收藏上也存在交叉重復和互相補充的問題,亟待協同開發和建設,如可以利用《紅藏:進步期刊總匯(1915— 1949)》(以下簡稱《紅藏》)紙本資源開發數字化資源數據庫。《紅藏》系統整理、影印了1915年至1949年間中共中央及其各級機構、組織、團體主辦或在其領導下創辦的《新青年》《每周評論》《黨的建設》《紅色中華》等151種以黨報黨刊為核心的進步報刊,共計428冊,3億余字,是系統研究中共黨史、中國革命史及中國近現代史的珍貴歷史資料。
對比愛如生數據庫和《紅藏》所收錄的報刊目錄,可見其具有很大的交叉重復性。除了重疊部分的文獻外,《紅藏》還有很多愛如生等數據庫均未收錄的期刊資源將近100種,亟待進行數字化加工,將其納入數據庫建設的范疇中。紙本書籍出版社應當加強與數據庫開發方的協同合作,在影印出版紙質紅色文獻的同時,考慮將其版權讓渡給數據庫進行后續的數字化處理,使其發揮更大的效用。
要深入挖掘和利用紅色文獻資源,提供優質的文字識別和全文檢索功能是核心要務,唯此才能實現對文獻的全方位檢索和數字化利用。同時,這也是進一步開展數字人文研究的重要基礎。因此,需要投入更多的人力物力,攻克數字化技術難關,進一步改善紅色文獻的文字識別和全文檢索問題。在此基礎上,需要融入數字人文研究的理念、方法和工具,在平臺的界面設計、功能設置、內容揭示、效果呈現等方面,結合大數據技術,運用數字人文的方式予以展現。如可以通過可視化工具展示文獻之間的相互關聯、通過數字人文地圖呈現文獻的地區分布、利用思維導圖展示組織架構等,為研究者利用紅色文獻開展中共黨史的數字人文研究奠定堅實的基礎。
本文列舉的幾種紅色文獻數據庫平臺收錄的資源類型,主要包括圖書、期刊和報紙等三大類文獻,這是最主要、體量最大,也是最符合圖書館傳統文獻資源的幾大類型。但就紅色文獻的深入研究而言,僅這幾類還遠遠不夠,還有大量其他類型的資源需要擴展和豐富,如紀錄片、音視頻資料、檔案文件、歷史照片、文物實物(如毛主席像章)等。為此,高校、圖書館、數據庫公司等機構可以尋求多元合作,與革命紀念館、歷史檔案館、博物館、民間收藏機構等多方開展協同建設,挖掘多種類型的紅色資源,進而展開梳理、整合、編目和揭示,這樣就可以不斷擴充和豐富紅色文獻的資源類型,增加平臺的全面性和系統性,展現歷史感和厚重感,為多渠道挖掘和利用紅色文獻和歷史資料開展數字人文研究創設更多資源環境。