摘? 要:本文以上海圖書館為代表的古籍數字人文平臺建設是館藏資源開放利用的新型探索,通過總結當前中文古籍聯合目錄及循證平臺、家譜知識服務平臺的基本特點,分析了對民國檔案開放利用的幾點啟示,提出了民國檔案知識服務平臺建設的必要性和建設路徑。
關鍵詞:民國檔案;數字人文平臺;開放利用;上海圖書館;檔案整理
Abstract: The construction of digital humanistic platform for ancient books represented by Shanghai Library is a new exploration for the open utilization of library resources. By summarizing the basic characteristics of current Chinese ancient books joint catalog, evidence-based platform and genealogy knowledge service platform, this paper analyzes some enlightenment for the open utilization of Archives in the Republic of China, and puts forward the necessity and preliminary ideas for the construction of Archives knowledge service platform in the Republic of China.
Keywords: Archives of the republic of china; Digital human platform; Open use; Shanghai library; Archive organization
中國第二歷史檔案館是中華民國時期(1912-1949)檔案典藏的重鎮,近年來,二史館通過縮微復制、數字化掃描、編研出版等方式開放利用了大批檔案史料。筆者借二史館全面開展全館以及全國民國檔案文件級目錄著錄工作之機,以上海圖書館為代表的古籍數字人文平臺建設為例,希冀有裨于后期民國檔案知識服務平臺的建設。
1 古籍數字人文平臺建設特點
上海圖書館充分利用自身古籍、家譜資源收藏優勢,搭建了中文古籍聯合目錄及循證平臺、家譜知識服務平臺這兩個數字人文平臺試驗型項目。主要實現了幾點功能:
1.1 循證研究。兩個平臺查詢到的數據,包含聯合目錄、古籍目錄或家譜目錄中的所有數據。在古籍循證平臺,讀者可以查看檢索的作品在歷史上不同目錄書里提到的次數,從側面反引出了該時期此本古籍受到的重視程度。檢索結果可以按照以下分面進一步篩選:館藏機構、版本類型、版本時間、責任者、批校序跋者,可查看作者的詳細信息,以及作者批校題跋過的書籍,可以通過點擊直接跳轉到上海圖書館的人名規范庫中。
在家譜知識平臺,讀者可以篩選譜名、姓氏、堂號、家譜責任者、先祖、名人等任一字段,詳情頁為讀者提供家譜的版本收藏地和姓氏溯源等信息。
1.2 知識節點。古籍循證平臺的古籍目錄收有歷史上有名的官修、私家、史志、藏書樓、版本目錄書,輔之以人名、地名、印章、刻工、避諱字等額外規范數據,有助于學者循證版本、考鏡流藏。家譜知識服務平臺以《中國家譜總目》所收錄,以及來自全球多地收藏機構所藏的5萬4千余種家譜目錄為基礎,析出姓氏608個,先祖名人7萬余個,堂號3萬余個,譜籍地名1600余個,[1]以知識組織的方法和關聯數據技術,重構了上海圖書館的家譜服務。
1.3 聯合檢索。古籍循證平臺目前收錄有1400余家機構的古籍館藏目錄,其中上海圖書館的古籍館藏、哈佛燕京圖書館的中文善本館藏、加州柏克萊大學東亞圖書館的中文善本館藏、澳門大學圖書館的中文古籍館藏可在線訪問部分掃描影像全文。
1.4 地圖瀏覽。數字人文平臺的地圖瀏覽功能,運用語義可視化技術、GIS技術,實現了在地圖上顯示古籍或家譜的館藏地。即在地圖上畫圈,則可以顯示所畫圈內的古籍、家譜收藏機構。點擊機構,檢索出該機構的所有館藏古籍、家譜,為研究者提供內容分析統計、時空及可視化工具和社會關系分析。
2 對民國檔案開放利用的幾點啟示
2.1 挖掘既有成果,建立民國檔案文獻語料庫。家譜知識服務平臺的搭建基礎已有的館藏資源和研究成果,包括了上世紀出版的《上海圖書館館藏家譜提要》《中國家譜總目》《中國家譜通論》《中國家譜資料選編》等工具書。
二史館編輯出版了包括中華民國史檔案資料匯編、叢刊、叢書在內共200余種10億字的檔案史料,并已完成以民國工具書為主的5740萬頁資料的全文識別。
下一步,可以利用新的技術手段來重新組織研究成果,抽取民國公文、職官、機構、軍事、人名、區劃等,與異名別稱規則、分類規則、斷句標點規則、書法字體、圖片唱片等形成豐富的語料庫,為實現規范數據的重用和共享構建基礎。
2.2 充分利用語料庫實現民國檔案整理與開發自動化。當下數字化的古籍資源除了實現文本字符的數字化,還需具有“研究支持”功能,即能夠提供內容本身的統計和計量信息。[2]
通過基數龐大的語料庫,組織編纂期刊論文索引、職官機構索引、卷宗主題索引等各類索引,構建起語料庫之間的元數據交叉聯系,并結合語言學方法,實現計算機的輔助識別、自動校勘、自動斷句,從而實現成果挖掘和知識增值功能。此外,還可以衍生出多種子目級檢索系統,極大豐富民國檔案利用的視角和方式。
2.3 基于UGC(用戶貢獻內容)實現公眾互動與檢錯。上海圖書館另建設有歷史文獻眾包中心,通過公布部分掃描圖片,允許研究專家、學生、民間團體依據識別難度,自主協同錄入,并且可以通過撰寫反饋與不同人士交流互動。經過認證的專家登錄系統后,可直接修改數據,經審核通過后發布。
這種基于UGC的知識平臺,將會大大降低民國檔案目錄著錄過程中由于少部分抽檢帶來的錯誤率。系統會像“百度百科”一樣記錄每一次修改。隨著民國檔案文獻語料庫的定期更新,讀者與編者也將更容易發現數據沖突和錯漏,實時修改,保證民國檔案著錄編目的可持續性發展。
所以未來的民國檔案開放利用平臺不能僅是一個展示系統,還需要是一個可寫的、支持眾包的平臺。
2.4 運用語義可視化技術、GIS技術滿足多層次需求。基于時空的瀏覽、地圖畫圈瀏覽等功能,都在功能設計和內容組織上增加了用戶使用的趣味性,既滿足普通大眾了解民國檔案、認識民國歷史的需求,也能支持學者基于概念及概念間關系匹配的高級檢索。
3 民國檔案知識服務平臺的建設路徑
上海圖書館數字人文平臺的知識網絡基于索引式的研究成果,這種模式的不足便是分類提供的信息固然有價值,但信息量仍然有限。通過進一步對中文電子圖書全文數據庫如超星、方正電子圖書等,古籍數據庫如愛如生、翰堂典藏、雕龍等了解使用,可以發現借助云存儲技術,建設基于多種數據庫的知識服務平臺將能夠更大程度上滿足用戶需求。
比較成功的案例就是中華書局基于14個數據庫建設的籍合網以及商務印書館聚合《新華字典》《現代漢語詞典》《古代漢語詞典》等權威實用的字、詞典上線的語言資源知識服務平臺(涵芬APP)。筆者在此對民國檔案知識服務平臺提出幾點功能模塊上的建設思路。
3.1 學術功能。首先,要建立民國檔案文獻語料庫,抽取民國公文、職官、機構、軍事、人名、區劃等,與異名別稱規則、分類規則、斷句標點規則、書法字體、圖片唱片等形成豐富的語料庫,為實現規范數據的重用和共享構建基礎。
其次,通過基數龐大的語料庫,組織編纂期刊論文索引、職官機構索引、卷宗主題索引等各類索引,構建起語料庫之間的元數據交叉聯系,實現從一鍵檢索、全文查找、章節閱讀、原圖查看到條目引用的全流程服務。
最后,開發民國檔案循證服務,通過對同一主題聚類分析,展現近現代人、時、地、事的多維情況;通過指定書籍、指定字詞分類查找字頻、詞頻統計,允許導出數據表格,滿足計量分析需求。
3.2 共建功能。首先,要提升知識服務模式的共建化水平,平臺可以打通館藏資源和社會資源、工作人員與檔案館、讀者與工作人員之間的聯系,而且挖掘出廣大社會讀者的知識資源。
其次,轉變人員服務角色,構建多主體協同供給機制。借助平臺可以實現知識資源的交換,實現用戶參與與知識貢獻的互動關系,逐步形成檔案館主導,多主體協同共建的知識聚合格局。
最后,要注重知識挖掘、激勵策略等機制的實現,將其轉化為用戶持續行為的動力。借助于民國檔案文件級目錄著錄工作,實現全體用戶參與的民國知識網絡節點更新,以及基于GIS的民國區劃、大事記、戰役系統的搭建。
3.3 書城功能。首先,開放部分館藏民國期刊書籍、已出版大型叢書細目。融合既有民國史料題材,征集學術及文學創作、創意,開發繪本、有聲書等特色文創,加強民國檔案的歷史文化教育功能。
其次,要統一網絡文獻資源采集的標準規范。針對目前網絡文獻資源標引不規范導致難以二次開發利用的問題,探索建立“垂直典藏、專題建設、深層檢索”的元數據加工制度,實施分類管理。[3]
最后,構建網絡文獻資源的信息組織機制。檔案館作為知識的存儲機構,可以承擔對網絡文獻資源的采集與信息組織與分析機制的探索,制定網絡文獻資源采集、編目、管理工作規范。引導社會公眾參與對網絡文獻資源的信息抽取、知識組織等環節,引入網絡文獻資源觀察評估制度,編制網絡文獻資源的年度報告書,逐步建立起一個嵌入數字人文服務平臺,與既有檔案資源數據相互補充的互聯網資源服務體系。
4 建立民國檔案知識服務平臺的意義
4.1 知識服務模式的完善。長期以來,民國檔案由于涉密等客觀因素,開放利用程度遠小于古籍文獻資源,目前仍局限于到館查檔,這實際并不利于服務模式的升級、服務內容的豐富。
以“知識地圖”的建立為例,布魯克斯提出的“知識地圖”是“以知識網絡的形式來說明知識單元的發展變化,從而明確學科知識的發展變化”,[4]基于這個理念建設的民國檔案知識地圖可以有效組織檔案館知識資源的總目錄并揭示各知識資源目錄間關系。民國檔案開放利用平臺可以打通館藏資源和外部資源、傳統載體與現代載體、館員與檔案館間、讀者與館員間的聯系,而且挖掘出廣大社會讀者的知識資源。[5]
4.2 人員服務角色的轉變。社會讀者知識資源的介入并不會替代檔案館工作人員應有的作用。因為這個平臺提供檢索服務的這背后是線性化文獻檢索向非線性化檢索方式的轉變,具有支持知識發現、獲取、增值和管理的強大功能。[6]檔案館工作人員需要利用自身的知識資源將不同介質、不同地點的各類知識資源整合、聯結、排序,在浩如煙海的平臺數據資源中尋找到“知識節”,從而使不同層次、不同專業背景的讀者在知識網絡中完成資源的利用需求。
4.3 “群體智慧”模式的實現。非遺檔案資源建設中提出一種“群體智慧”模式,即“構建一個公眾可以隨時上傳、共享自己發現和獲取的非遺資源,并對現有資源進行鑒
定、評價和分級,檔案部門只需對資源進行篩選和匯總”。[7]
這種集體協作的創作方式拓展了UGC(用戶貢獻內容)的外延,使用戶由貢獻者轉化為主導者。民國檔案可以通過開放利用平臺群體決策模塊的設置,由用戶上傳民國檔案史料信息,經審核后建設用戶數據集,進而建立起與館藏數據間的聯系,以雙向融合后的形式向用戶呈現。
4.4 民國檔案著錄評估體系的建立。“十三五”期間啟動的民國檔案文件級目錄著錄與采集工作,全方面覆蓋各省、自治區、直轄市檔案館館藏的民國時期經濟、文化、民俗、商業等民國檔案基礎信息,將豐富民國檔案資源的內涵和外延,有助于促進各學科在各階段發展歷史的有效銜接,充分發揮民國檔案在服務社會中的價值。[8]通過對民國檔案開放利用平臺使用前、中、后反饋報錯意見的跟蹤研究,可以補足按比例抽檢帶來的疏漏,了解外包數據資源的實際產出效益,利用檔案著錄評估體系對平臺進行分析研究,在兩相對照之中,把控民國檔案著錄的發展方向,從而進一步優化檔案卷宗文件的編目著錄工作。[9]
參考文獻:
[1]劉小琴,吳建中主編.數字圖書館發展趨勢研究報告[M].上海:上海科學技術文獻出版社,2016:163.
[2]王雅戈著.古籍計算機自動索引研究 以民國農業文獻自動索引為例[M].蕪湖:安徽師范大學出版社,2013:2.
[3]李曉明,馬寧寧.國家圖書館網絡信息采集的實踐與發展[J].網絡資源采集與數字資源長期保存學術研討會論文集,2013:15-17.
[4]尉遲文珠.試論我國高校圖書館知識服務模式構建[D].天津師范大學,2007:27.
[5]陳宇.應急保障視角下對網絡資源“集聚效應”的重新審視[J].高校圖書館工作,2020(05): 50.
[6]陳丹.數字出版產業創新模式研究[M].北京:科學技術文獻出版社,2012:99.
[7]周耀林等.基于群體智慧的非物質文化遺產檔案資源建設探析[J].中國檔案研究:第1輯,2015:112.
[8]許茵.國家重點檔案文件級目錄題名著錄問題探析——以全國民國檔案文件級目錄著錄為例[J].檔案學通訊,2018(06): 59-61.
[9]姜欽芳.機關數字檔案室建設淺議[J].檔案管理,2020(04):78+80.
(作者單位:中國第二歷史檔案館 來稿日期:2021-01-26)