e-校勘
——中國紅色文獻整理研究的新路徑

2022-12-06 06:31:46劉曉禾

新世紀圖書館 2022年10期

劉曉禾

0 引言

目前學界關于“紅色文獻”的含義看法較為一致，即主要指“1921年7月中國共產黨成立起至1949年10月新中國建立之前由中國共產黨機關或各根據地所出版、發行、制作的各種文獻資料，其中包括黨的領袖的著作、黨組織各類文件及根據地出版的各種書籍和報刊雜志等。”[1]這些飽含紅色基因的文獻，是長久以來在中國共產黨的領導下，黨和人民創造的寶貴思想和文化財富，是共產黨人初心和使命的見證。黨的十八大以來，習近平總書記也多次強調，“要把紅色資源利用好、把紅色傳統發揚好、把紅色基因傳承好”。因此，全面做好紅色文獻深入挖掘、整理、研究和傳播工作，對于做好當前政治宣傳和紅色教育工作，以及賡續紅色血脈意義重大。

校勘作為傳統古典文獻的基礎整理研究方法，其發展歷史“萌芽于春秋，勃發于漢，大盛于清，近代開始成為專門之學”[2]40，并且其在內涵上也有廣義和狹義之分。廣義的校勘學，前人稱之為校讎學，主要包括版本、校勘、目錄、考證、輯佚等內容，也就是當下的文獻學研究版塊。現代所謂校勘學，即狹義校勘學，指專門研究古籍整理的文字比勘的科學方法和理論的學問。校勘的首要目的在于“歸其真正”“克復其舊”。紅色文獻之所以需要校勘的邏輯初衷，即由于其本身在產生、流傳過程中也會存在有待校勘的類似古典文獻中出現所謂“書三寫，魚成魯、虛成虎”等錯訛現象，簡言之，紅色文獻校勘就是為了解決其本身在傳播過程中出現的諸多誤、脫、衍、倒或乙、錯簡等因素導致其史料價值難以實現的問題。

進入新時代以來，互聯網、大數據、人工智能等技術的應用發展對于傳統的人文社科研究帶來了巨大的挑戰，各種基于先進技術的研究理念、手段、路徑層出不窮。如李振宏評價基于計算機、互聯網的史學研究說：“如今的歷史學研究，不光是搜集資料的方式或手段由于電子文獻檢索的推廣而變得極為便捷，以往竭澤而漁、將材料一網打盡的夢想輕而易舉地變為現實，而且數據庫方法也滲透到邏輯分析的領域，影響到學者思維方式的改變。古老的歷史學科，似乎正在展開一個學術科學化的發展方向。”[3]97校勘學既然隸屬于歷史學研究或者人文社科研究范疇，當然也避免不了上述背景的影響。基于此，就紅色文獻的校勘工作來講，筆者認為時代發展帶來的技術革新潮流是不可逆的，應當重新審視信息技術推廣條件下傳統校勘學研究的思維和價值，理想的出路即在于勇于面對變革，充分共享時代資源所帶給科學研究的紅利，并在校勘理論和實踐層面尋求新的發展契合點是不斷推動紅色文獻校勘工作走向深入的當務之急。要之，嘗試提出基于電子資源（Electronic Resources）的“e-校勘”是符合中國紅色文獻整理研究時代和現實需求的。

1 e-校勘作為一種方法的緣起

“e-校勘”的提出實際來源于“e-考據”的啟示。“e-考據”首見于中國臺灣學者黃一農的《兩頭蛇：明末清初的第一代天主教徒》一書中。傳統觀點認為，“e-考據”就是充分利用電子資源進行考據的一種歷史、文學研究方法，其核心的三個要素即為電子資源、考據、方法。黃一農在其《從e考據看避諱學的新機遇：以己卯本<石頭記>為例》一文中對于學界就e-考據的定義、價值等作了進一步澄清：“許多人將‘e考據’片面理解成只不過是利用大數據以進行關鍵字檢索，不知其要旨遠超過此一技術面的層次。”[4]205-206“質言之，e考據是文史工作者在將傳統的知識與研究方法作為基礎的前提之下，輔以對大數據的充分運用，以盡可能耙梳材料并深化考據的一個現代化手段。”[4]206黃一農的“e-考據”概念，“也是意在提醒人們充分利用因特網和豐富的電子文獻數據庫，借鑒前人的科學考據方法，將歷史學研究提升到一個新的階段。”[3]99

由此觀之，“e-考據”在方法論層面上依舊強調考據主體以傳統的考據方法為重點和前提，但是重要的輔助手段即在于對數據庫及互聯網電子資源的檢索利用，以有效節約時間精力成本達成研究的目的。換言之，e-考據肯定了傳統科學研究方法的價值，同時也對研究主體本身研究素養的積累提出要求，而基于大數據的歷史信息檢索只是手段，在整個研究流程中僅是作為輔助出現的。因此，黃一農也明確指出：“真正的e考據應是在大數據的從旁輔助下從事考據（考據雖非許多文史研究的終極目的，但卻常是許多研究無可或缺的基礎），而絕非僅僅依靠數位資料的檢索！”[4]206

實際上，近幾年國內學者也關注到了基于“e”的文獻校勘問題。如在理論研究方面，清華大學人文學院劉石、李飛躍指出：“大數據技術在自動比對的廣度和精度上都非人力所及，自動斷句、標點、比對、文獻關聯性、風格相似性分析等技術手段，不僅可輔助完成一般校勘任務，也有利于發現文獻的源流及相互的影響”[5]。劉稟誠以《〈紅色中華〉全編（整理本）》為例分析了紅色文獻整理主題素養[6]；牛青從概念、分類、特征3個角度闡述了紅色文獻內涵，介紹了校勘的定義和常用的方法，詳述了紅色文獻校勘的主要內容，提出從引入區塊鏈技術、優化校勘團隊人員組成兩個角度解決紅色文獻校勘實踐中存在的問題[7]。在實踐研究方面，如蘇芃從自身校勘實踐出發，已總結認識到古籍數據庫對校勘研究的潛在價值[8]。但無論是黃一農還是蘇芃，上述成果均看到了信息技術對于人文研究的價值和作用，理論建構中研究方法都是依托電子數據庫等資源來展開，并且強調信息檢索僅是“引得”，最終還需回歸到規范文本之中。

鑒于此，圍繞黃一農“e-考據”定義中核心的方法、大數據、考據、現代化手段等關鍵詞的內涵和外延，以及蘇芃關于數據庫對于漢語古籍文獻校勘的思路來講，都可為紅色文獻e-校勘實現的理論建構及實踐提供參考和指引。

2 紅色文獻e-校勘的載體及理論方法

2.1 紅色文獻e-校勘的載體

古代校勘理論要求，校勘者首需廣搜異本以資比勘佐證，其中“異本”的內涵且不單指單一文獻的眾多版本，實際還應包括各種與之相關、相類的文獻資料。如王鳴盛指出：“獨處一室，覃思史事，既校始讀，亦隨讀隨校，購借善本，再三讎勘，又搜羅偏霸雜史、稗官野乘、山經地志、譜牒簿錄以暨諸子百家、小說筆記、詩文別集、釋老異教，旁及于鐘鼎尊彝之款識、山林冢墓祠廟伽藍碑碣斷闕之文，盡取以供佐證，參伍錯綜，比物連類，以互相檢照。”[9]吳葆勤曾發文強調：“傳統校勘流程向數字化平臺遷移……當然要以古籍版本的全文數字化為前提。”[10]傳統的校勘學理論中，廣博的資料積累是校勘實踐的基礎和前提，因而，若要實現基于“e”的文獻校勘當然也就離不開數字化的校勘客體全文文本資源。

從載體維度討論，筆者認為e-校勘應是依托非結構化的數字全文文本而并非結構化的數據庫來進行的，這與e-考據存在明顯區別，并且這也是由于紅色文獻本身包含書籍、文件、報刊、書信、會議記錄、日記、音視頻、照片等繁多種類的非結構特性所決定的。一方面，從結構化數據和非結構化數據的特征來看，結構化數據即行數據，存儲在數據庫里，可以用二維表結構來邏輯表達，而非結構化數據庫中數據字段長度允許不等，并且每個字段的記錄又可以由可重復或不可重復的子字段構成數據庫，用它不僅可以處理結構化數據（如數字、符號等信息），而且更適合處理非結構化數據（全文文本、圖象、聲音、影視、超媒體等信息）[11]。另外，在非結構化數據結構化的處理過程中，“雖然成功降低了數據的復雜度，但同時也承受了大量的數據損失”[12]。另一方面，結構化的數據庫存在雙重局限。如姜義華指出：“目前各種數據庫所選錄的數據，不僅存在既有資料本身的局限，還有建立數據庫時建立者自身標準的局限”[13]。依筆者看，e-校勘作為人機協同“校異、訂訛、存真”的文獻整理研究手段，以非結構化思維處理紅色文獻數字化問題，可以充分保證文獻數據的完整性和原始性，是符合上述文獻校勘首需“廣搜異本以資比勘佐證”內在要求的。因此，紅色文獻e-校勘實現的載體重點就是要形成以中國紅色文獻為中心的龐大的非結構化文獻數據全文文本庫。

然而，形成非結構化的紅色文獻電子全文文本庫及在此基礎上的人機協同異文挖掘，只是為了給學人皓首窮經的傳統資料積累模式轉為文本數字挖掘架橋鋪路，而并非完整、理想的e-校勘全流程。如在西方學者眼中，校勘應當包括emendation（比對）和criticism（評判）兩個階段，與中國傳統方法相對應而言，emendation（比對）即顏師古所謂之“曲核古本”，criticism（評判）即段玉裁所謂之“斷其立說之是非”。不難看出，在校勘流程上西方學者的做法和中國傳統做法具有很明顯的相似性，但不得不說明的是，無論是emendation（比對）還是“曲核古本”，都是單純文獻異文挖掘初級流程。如倪其心指出：“（文獻校勘面臨的錯誤可）分為兩大類：一類是有形可見的，一類是無跡可尋的。”[14]金宏宇解釋道：“后一類指校勘時并未發現異文，但實際上其中確有錯誤，這是無跡可尋、較難發現的錯誤，屬疑誤，如文理不通、名物制度上矛盾、歷史事實上抵牾等等；前一類是校勘時發現異文，其中必有正誤，這是有形可見、容易發現的錯誤，即那些誤字、脫文、衍文、倒文或乙文、錯簡等。”[2]40可見，校勘的全流程中全面深入的異文挖掘無疑對于解決“有形可見”的問題大有幫助，但對于“無跡可尋”的錯誤重點還需要校勘者綜合使用多種方法實事求是“訂訛規過”。因而，依托非結構化的紅色文獻電子全文文本庫的索引便利，引入成熟的中國傳統校勘學方法并結合文獻回歸，將對于紅色文獻e-校勘的成果產出大有裨益。具體校勘全流程如圖1所示。

圖1 校勘全流程對比

2.2 紅色文獻e-校勘的理論方法

中國古代文獻校勘長久以來積累形成了豐富的校勘學思想和方法。從思想層面來講，“克復其舊”“經世致用”是校勘的目的；主張“多聞闕疑”、實事求是是校勘的原則。而從方法層面來看，前后曾有以葉德輝為代表的“死校”和“活校”，梁啟超在葉氏基礎上總結的“校勘五法”，陳垣繼承與發展梁啟超校勘實踐而創立的“校勘四法”，胡適校勘工作“三部曲”，張舜徽基于陳垣的校勘學方法創建等，其中尤以陳垣“本校、他校、對校、理校”四法為著。周一平針對中共黨史文獻的特殊性也曾提出了“物校法”（實物校文獻）和“實校法”（實地考察校正文獻）[15]。依筆者看，無論任何一種方法，只要能在e-校勘流程中發揮作用、解決問題，那么都應該是值得學習推廣的。

需要說明的是，以陳垣“校勘四法”為例，紅色文獻借助e-校勘的理念和手段，可以輕易地完成本校、他校、對校的目標任務，但在解決相關需要理校的問題時作用會受到影響，就需要校勘者根據本校、他校、對校所發現的異文情境做進一步考察研究，當然這也充分肯定了校勘者在文獻校勘過程中的價值和地位。

如以毛澤東所著的紅色經典文獻《新民主主義論》為例討論，據不完全統計，僅1949年10月以前在各類中文報紙、期刊、論著中收錄版本有23種，單行本達64種，秘密印刷發行的偽裝本達6種，另外還有少數民族版本、外文版及節選本若干[17]。以1940年《解放》[17]版與1940年《中國文化》[18]版對校，可以發現紅色經典文獻《新民主主義論》在題目的選用上就可見明顯差別：《中國文化》版作“新民主主義的政治與新民主主義的文化”，而《解放》版作“新民主主義論”。此外，清晰可見《中國文化》版中小節前并未有小標題名稱，但在《解放》版中十五部分均設置有小標題。需要說明的是，假設這兩種對比是建立在e-校勘路徑下的OCR等識別手段形成非結構化電子全文文本庫之上，那么通過借助Windows下開源的Diff文本差異對比等軟件或其他類似技術處理就可以輕松獲取異文信息。若通過本校、他校、對校等手段很難徹底解決因揭示紅色文獻《新民主主義論》題目設置差異、新增小標題之緣由而產生的問題時，就需要校勘者回歸原始文獻，在規范文本的基礎上實事求是進行綜合理校。

圖2 1940年《中國文化》版

圖3 1940年《解放》版

3 紅色文獻e-校勘的主體素養

前述提及，傳統校勘的基礎是要廣搜異本以資堪比，e-校勘亦如是。在此種情形下，由于文獻本身版本及相關、相類文獻眾多導致的電子全文文本庫信息量龐大是可預見的。因此，實現e-校勘對于校勘主體的素養首先要求具備強大的信息管理、甄別能力。其次，應當有傳統校勘學所要求的專業知識積累。誠如顏之推所言：“校定書籍，亦何容易，自揚雄、劉向，方稱此職耳。觀天下書未遍，不得妄下雌黃。或彼以為非，此以為是；或本同末異；或兩文皆欠，不可偏信一隅也。”[19]可見，廣博的知識積累和專業的學術素養是文獻校勘成果產出達到理想狀態的重要保證。第三，對于紅色文獻這一特殊文獻類型校勘而言，主體還需要對于中國近代史、中共黨史、新中國史、社會主義發展史等內容有豐富積累，并且還要有“闕疑伺考”的審慎態度對待校勘是非。以上所述是紅色文獻e-校勘順利實現之主體素養要求，三者間相輔相成，將有益于推動紅色文獻整理研究并發揮紅色資源的教育功能不斷走向深入。

4 e-校勘應用于紅色文獻整理的價值探討

e-校勘是符合新時代中國紅色文獻整理研究現實需求的新路徑，與傳統校勘學方法論相比具有重要優勢。首先，從載體維度而言，傳統的校勘難以窮盡式地搜羅異本以備考證，簡單依靠結構化的數據庫作為校勘依據也存在數據庫建立者本身在資料收集、選取過程中主觀篩撿導致資料不全的弊端，并且在非結構數據結構化的過程中也會發生字段限制、信息缺失等問題，因此，在e-校勘理念下，通過互聯網海量數據窮盡式地搜集校勘文本相關相類信息將成為可能，并且將原始的非結構數據通過科學檢索手段及回歸文獻的方法將大大提高文獻校勘的效率和準確性。其次，從方法維度講，e-校勘利用嚴謹的計算機數據挖掘技術來分析整理信息，這在很大程度上減少了人力的付出，同時也大大提高了校勘產出的科學性。第三，從未來發展趨勢而言，e-校勘依托開放的網絡環境來進行，而這恰恰增加了校勘專業由上到下、由學者到民眾參與轉化的可能性，有助于促進形成“大校勘”格局，可有效提升校勘質量，真正達到“克復其舊”的目的。

5 余論

綜上所述，e-校勘基于e-考據的啟示，在紅色文獻整理研究方面提出了新時代人文社科研究技術、理念變革背景下催生的新的校勘路徑，對于充分挖掘利用紅色文獻的史學研究和政治教育價值具有重要作用。但不得不承認的是，在紅色文獻e-校勘的全流程中仍然存在現行條件下無法解決的技術問題，如部分文獻中存在手寫體文字識別困難、油印字體暈染后采集錯誤率高、部分文獻豎排左行版式矯正等等。因此，本文所討論的e-校勘僅是作為一種以紅色文獻整理方法為中心的理論設想，具體操作還有待進一步技術發展的探索研究。

e-校勘——中國紅色文獻整理研究的新路徑