邵澍赟
(江蘇省檔案館,江蘇南京, 210019)
檔案文獻遺產反映一個國家、民族的群體記憶,通過一定歷史、文化、藝術、科學、技術或社會價值的真實記錄[1]引發社會公眾深層次的文化認同。當前社會對檔案文獻遺產資源的研究需求、文化需求日益顯著,《“十四五”全國檔案事業發展規劃》提出,實施檔案文獻遺產影響力提升工程,實施中國檔案文獻遺產宣傳推廣計劃。[2]伴隨檔案文獻遺產數字化程度逐步提升,數字人文與知識組織等理論重塑了檔案文獻遺產資源開發利用形態,關注技術要素在檔案資源基本屬性表達與深化方面的實踐效用、探究基于文化傳承保護的檔案文獻遺產資源知識管理具有現實與理論意義。本文以江蘇省檔案館收藏的韓國鈞《朋僚函札》檔案文獻為例,試圖為構建檔案文獻遺產知識管理模型提出一種參考方案。
本體可以規范化、抽象化描述檔案文獻遺產知識資源,通過概念及概念間的關系實現邏輯推理和語義關聯,為檔案文獻遺產知識管理智能化提供了新契機。在檔案文獻遺產相關領域,當前國內外對其數據化開發、信息采集與保護、元數據設計與應用[3-5]等較為關注并展開研究,清代文官官制檔案文獻[6]、南僑機工檔案文獻遺產[7]等應用案例也逐漸豐富,但整體上在檔案文獻遺產知識管理的系統性、內容描述的關聯性方面還有較大的拓展空間。
韓國鈞《朋僚函札》系1915—1937 年間韓國鈞與康有為、梁啟超、黃炎培、張謇等700 余人交往的信函。共計57 冊,3600 余件,現藏于江蘇省檔案館,2003 年入選《中國檔案文獻遺產名錄》。該檔案文獻涉及的地域范圍廣泛,主題內容豐富,除江蘇外,還涉及浙江、福建、上海等地乃至全國的政治、經濟、軍事、文化等多方面的史實與重要歷史人物,是深入研究二十世紀初江蘇及中國歷史、相關歷史名人的第一手原始史料,具有重要的學術和歷史價值。
本研究探討的韓國鈞《朋僚函札》本體在明確檔案文獻涉及的人物、事件、地區、時間概念和特征基礎上,分析其數字資源要素,深入知識單元層面精細化描述資源特征,解構知識對象屬性,希望通過對韓國鈞《朋僚函札》檔案文獻的精細化語義揭示,拓展《朋僚函札》數字資源個性化知識關聯,同時展現文獻的實物數字化成果、面向檔案檢索利用服務,為推進檔案文獻遺產知識組織體系、構建知識管理模型提供參考。一方面,細粒度展示二十世紀初中國從清王朝專制統治向共和制度過渡、北洋軍閥政權交替、國民政府北伐、東西方文化沖突、日本帝國主義侵略等重大歷史;另一方面,關注這些典型的中國傳統紙質書信檔案內容,對相關歷史事件與歷史人物展開資源層面的細節描述與分析,深入挖掘其背后的信息元素關聯。對于跟檔案文獻遺產實體、數字資源管理相關的業務活動與遺產項目信息,同時納入本體構建范圍。
(1)人物內容。社交互動是人的社會屬性的重要表現形式,書信作為人際交往的產物反映人作為社會存在形成的一系列社會關系。韓國鈞,江蘇泰縣海安鎮(今江蘇海安)人,民國政要,愛國民主人士。北洋政府時期曾任江蘇省省長,晚年任抗日民主政權蘇北臨時參政會名譽議長。韓國鈞《朋僚函札》較為系統、完整地反映了韓國鈞與當時政權核心至地方各類歷史人物的關系,涉及眾多歷史名人和政界要人。《朋僚函札》圍繞韓國鈞人物實踐活動而形成,內容體現突出的人物要素,因而本體中定義“人物”類加以概括,描述相關人物以及他們之間存在的關系。
(2)事件內容。《朋僚函札》對于中國近現代史上的一些重大事件,如府院之爭、對德絕交案、賄選總統、第二次直奉戰爭、北京政變、江浙戰爭、浙奉戰爭、蘇浙戰爭等均有涉及,對江蘇運河海塘工程、黃災救賑、江蘇泰源鹽墾公司等方面的情況也有所記述。根據描述的事件內容要素確定“事件”類,目的在于幫助相關研究人員與機構精確定位、準確考證相關歷史原貌與具體細節,同時引導社會公眾了解具有重要影響力的歷史事件。
(3)地區、時間內容。《朋僚函札》檔案資源呈現時間上的流變和區域的動態轉換,關注其在時空維度上的變化,由此更準確真實地反映歷史事實。該檔案文獻記述和反映了1915—1937 年前后23 年時間段,其中又存在著大量的點性和線性時間信息,通過時間要素梳理可以幫助公眾明晰歷史脈絡。而在地區維度上,跨區域覆蓋江蘇、浙江、上海、安徽、福建等多地,蘊含大量的地理位置信息,描述“地區”“時間”類用以體現檔案文獻資源內容的時空演變過程。
(4)實物數字資源。《朋僚函札》全部為寄信人用毛筆撰寫的手工書信,集中了同一歷史時期眾多歷史名人和書法名家信函,具有極高的書法欣賞價值與文物價值。其稀有性、原始性和唯一性也是其他史料不可替代的,體現出《朋僚函札》檔案文獻作為中國檔案文獻遺產的重要意義和寶貴價值,目前江蘇省檔案館已完成實物文獻資源數字化。“實物數字資源”類與人物、事件、時空等內容特征類共同構成互相聯系的檔案文獻遺產本體有機整體。
(5)檔案管理信息。《中國檔案文獻遺產名錄》將珍貴檔案文獻以名錄的形式向社會公布,推動珍貴檔案文獻的保護和宣傳,韓國鈞《朋僚函札》入選第二批中國檔案文獻遺產。檔案文獻遺產入藏后涉及收管存用等一系列檔案業務活動。提煉《朋僚函札》檔案文獻遺產管理的業務行為,包括確定的歸檔專題、全宗號、案卷號、件號、責任者、立卷日期、密級等。通過對文獻遺產資源管理層面的描述關聯檔案管理信息。
韓國鈞《朋僚函札》本體既具有檔案文獻遺產本體的共性,又具備歷史特征的個性,根據七步法本體構建規則,比較相關領域本體,可以結合檔案文獻遺產特點進行一定程度的復用。CIDOC CRM(CIDOC Conceptual Reference Model,概念參考模型)[8]常用于文化遺產領域,提供了一個將文化遺產信息源與相關人物、時間、地區等鏈接的背景框架,其中的“actor”“time-span”“place”類等適用于《朋僚函札》檔案文獻遺產本體原始資源特征。結合涉及的人物、事件、時間、地區等類型,本研究參考FOAF、Event、GeoNames本體并對部分屬性進行了自定義擴展。同時為描述檔案文獻遺產保管情況,根據《檔案著錄規則》及《朋僚函札》檔案文獻管理信息將其分別明確為一類。
定義六個一級類目及其數據屬性,見表1。其中人物類描述與韓國鈞《朋僚函札》相關的參與主體;事件類描述《朋僚函札》提及的具體史實;地區類描述《朋僚函札》涉及的地理位置;由于《朋僚函札》作為信件的特殊屬性,時間類描述定義撰寫信函時間與其內容關聯時間;實物數字資源類描述文獻遺產數字化情況;檔案管理信息類描述文獻遺產管理信息。通過對象屬性建立類間關聯關系,從而使知識單元從點性信息向網絡化轉變。結合對韓國鈞《朋僚函札》文本分析與內容分解,確定本體對象屬性主要包括內容情境關系、資源與內容關系。其中內容情境關系包括“參與”“涉及”“發生”等,資源與內容關系包括“具有”“所屬”等。

表1 韓國鈞《朋僚函札》本體類及數據屬性
根據韓國鈞《朋僚函札》檔案文獻本體類與屬性提取元數據元素填充實例并進行語義關聯,實現對資源的描述、組織、存儲與知識管理,這也成為檔案文獻遺產資源智能化利用服務的前提。知識關聯情境下要堅持全面性與適用性原則。全面性指覆蓋《朋僚函札》資源信息的全部內容,保持知識完整性、數據對象關聯性和形式一致性;適用性指關聯結構和目標要符合當前檔案文獻遺產資源的研究需求和文化需求,設計關聯對象時對數量的選擇要適度。
以人物類為例,元數據包含韓國鈞在履官、鄉居期間交往的名流賢達、同僚屬吏以及故舊知交,有黃炎培、陶行知、史量才、曾樸、冷遹、張謇、張一麐、馮國璋、齊燮元、趙爾巽、盧殿虎、陳陶遺等。事件類元數據記錄了當時政治、經濟、軍事、實業、稅賦、水利、教育、藝術等領域不同側面、不同程度的情況。由于所涉元數據資源量多龐雜,層次多元,數據間存在隱性關聯,總體上呈現出復雜的網絡系統特征。1998 年,Hearn等最早提出知識超網絡的概念[9],知識超網絡多維、多級、多屬性的特征與韓國鈞《朋僚函札》檔案文獻遺產本體資源多層級、多數據的特征相契合,能將顯性數據關聯,隱性關系顯化,所以可結合知識超網絡理論進行《朋僚函札》知識資源整合。
六個本體類關聯形成具有復雜聯系的知識網絡:一是人物事件關聯,主要指同一人物與不同事件的關聯,比如史量才致韓國鈞函,“涉及”事件包括“江浙戰爭才平”“北京政潮突起”等。二是事件時間關聯,主要指函述不同歷史事件的開始時間與結束時間范圍,以及致函發生時間的關聯。仍以史量才致韓國鈞函為例,“發生”時間即“1924年10 月25 日”。三是事件地區關聯,指文獻中不同事件涉及的不同地區。四是人物事件和文獻屬性關聯,指不同人物事件與其所屬的信函檔案管理和具有的數字化信息的關聯。
本體構建完成了對韓國鈞《朋僚函札》檔案文獻遺產資源的知識抽取與知識建模,知識關聯實現了分散異構的檔案文獻信息整合與共享,最終目的是要實現檔案文獻遺產資源知識利用。在保持原有檔案文獻信息獨立性的前提下,本研究嘗試構建韓國鈞《朋僚函札》檔案文獻遺產知識管理模型,分為數據資源模塊、知識處理模塊、語義關聯模塊和應用服務模塊,見圖1。
數據資源模塊主要是對韓國鈞《朋僚函札》檔案文獻的基礎數據進行采集和存儲。由于該文獻遺產載體、所處年代的特殊性以及其撰寫主體、書寫方式各異,造成數據資料提取存在一定難度。尤其當涉及的信函實物存在字跡難以辨認或表達模糊時,需要從多方渠道努力,參考相關檔案說明、編研成果和學術文獻,并結合領域專家訪談的方式,補全相關知識信息。因而數據預處理尤為關鍵,要反映正確真實的歷史信息。
知識處理模塊進行知識清洗、抽取與校對,將收集到的信息轉化為結構化數據,形成細粒度的知識單元,建立韓國鈞《朋僚函札》檔案文獻遺產資源數據庫。通過自動化工具結合人工核校對基礎數據進行整理,完成人物、事件、地區、時間、實物數字資源、檔案管理信息抽取和冗余信息合并,將其轉換為可用于分析和關聯的數據,形成概念與特征的有序、語義化組織。分析比較可復用的常用本體構建類和屬性,便于后續知識關聯。
語義關聯模塊將分散的數據資源整合成關聯開放的韓國鈞《朋僚函札》檔案文獻遺產知識網絡,拓展有價值的語義連接,關聯范圍包括資源內容關聯和資源管理關聯。定義人物、事件、文獻等的關聯關系,解決了抽取的基礎數據平面化、缺少邏輯層次的問題,利用各類關系規則設置,將無序、獨立的檔案文獻遺產知識單元轉化為立體、多元的知識組織模式,加深對《朋僚函札》的知識挖掘與知識增值,同時體現檔案文獻遺產管理、保存等活動。
應用服務模塊可以面向用戶提供優質高效的檔案文獻遺產知識檢索、共享、可視化瀏覽等服務。《朋僚函札》研究者、機構或社會公眾能夠結合本身需求選擇粗粒度或細粒度的知識獲取方式,既能完成對《朋僚函札》檔案文獻遺產的總體知識概況瀏覽,也能實現對其涉及的某一人物、歷史事件等具體知識點的信息獲取,或通過關聯聯系實現知識查詢,完整了解相關知識,如歷史事件起因、經過、結果等。
引入本體的方法實現韓國鈞《朋僚函札》檔案文獻遺產知識管理,對資源內容屬性與管理特征進行揭示,構建的《朋僚函札》本體為后續檔案專題利用與知識發現打下基礎,對于《朋僚函札》檔案文獻遺產知識共享與開發有促進作用。如通過黃炎培致韓國鈞函知識檢索,可關聯人物韓國鈞、黃炎培、章太炎,地點江蘇、上海,事件卷煙稅變化、教育費減少、上海水電事糾紛,時間1924 年12 月3 日等,相關人物生平、事件發展經過等可依據需求拓展呈現,亦可查閱原函保存情況或數字化附件。通過資源數字存儲與知識管理,充分展示《朋僚函札》檔案文獻資源價值,助力檔案文獻遺產數字化保護與傳承。
本研究以韓國鈞《朋僚函札》為樣本,知識提取、本體建模、知識關聯、知識服務的具體策略可以為檔案文獻遺產知識管理提供參考。展示了設計檔案文獻遺產本體的具體過程,在文獻資源選擇分析、元數據收集、類和屬性確定、關聯關系定義等環節有一定共識性,提出的人物、事件、地區、時間的內容特征和實物數字資源、檔案管理信息的管理特征可供同類檔案文獻遺產資源本體在一定程度上復用,搭建突出內容聚合的檔案文獻遺產知識管理框架模型,最終滿足檔案管理的數字化、信息化、標準化要求。
檔案文獻遺產本體的構建能夠打破檔案數字資源“孤島”,實現數字檔案資源之間的知識關聯,體現知識檢索、推理與發現的價值。通過推理可以實現檔案文獻遺產信息的知識聚合,從而完成更加深入的邏輯驗證與知識發現。通過知識化智能化服務給檔案利用帶來更好的用戶體驗,面向用戶展示的不再僅僅是原始的檔案文件或數字件,而是可視化、可組織、可拓展的檔案知識,利用者能夠根據自身興趣或需求自主選擇延展想要了解的知識信息,完成檔案資源共享,這也有助于進一步提升檔案服務滿意度,發揮檔案文獻遺產講述歷史、傳承文明的意義。
當然,本研究過程中尚存在一些不足之處,后續將不斷完善本體的修訂補充以及提高知識管理模型的系統成熟度,以期更好地服務于檔案文獻遺產知識管理。