



摘 要:云南藏文歷史檔案是保護、傳承和傳播藏族歷史文化的重要史料,對其進行資源整合有很高歷史價值與現實意義。文章提出進行數字人文視域下云南藏文歷史檔案資源整合,分析整合的已有成效和滯后問題,闡述整合的理論和政策依據,梳理古籍檔案、金石檔案、文書檔案、口述史料等整合的資源基礎,并從提高整合定位、強化整合基礎、明確整合模式、重構整合方式、革新整合技術等五方面論證整合路徑,以此實現云南藏文歷史檔案資源優化整合。通過上述整合,推進云南藏文歷史檔案資源的體系化建設,促使云南藏文歷史檔案的有效保護、科學管理和資源共建共享。
關鍵詞:資源整合;云南藏文歷史檔案;數字人文;檔案資源;知識重組;人工智能
2020年8月,習近平總書記在中央第七次西藏工作座談會上強調:“要挖掘、整理、宣傳西藏自古以來各民族交往交流交融的歷史事實,引導各族群眾深刻認識到中華民族是命運共同體,促進各民族交往交流交融。”[1]云南藏文歷史檔案是1949年以前以藏文形式形成的反映云南藏族地區歷史的原始記錄,其記載了滇藏地區特別是迪慶藏族自治州的歷史、政治、經濟、軍事、天文、歷法、醫藥、教育、文藝、哲學、倫理、宗教、民俗等各方面情況,是囊括文字、圖畫、聲像、實物等各種形式的具有保存價值的原始歷史記錄。
目前,學界對云南藏文歷史檔案的特點價值、收集整理、開發利用等進行過一些探討,但未涉及云南藏文歷史檔案資源整合問題。如陶芳等以典型實例介紹迪慶清代藏文檔案,認為其反映了清王朝對迪慶藏區的實際管理,揭示了漢藏交流的特征[2];李燕蘭等介紹迪慶州所存的藏文典籍與檔案史料現狀,提出相應的搶救保護策略[3];鄭荃等運用民族檔案學理論探討云南藏文歷史檔案的分布現狀,闡述其整理成績與存在的問題,提出開發利用建議。[4]而且,云南藏文歷史檔案資源保存分散,除國家綜合檔案館外,大量古籍檔案、政教檔案、金石檔案、口述史料等保存在不同主體中,資源共建稀見,資源共享缺失,導致資源獲取困難,利用范圍狹窄,開發比率不高,嚴重影響了云南藏文歷史檔案資源的體系化構建及其信息資源的整體性發掘利用。
鑒于上述云南藏文歷史檔案資源的重要價值、研究空白及存在的問題,本文利用數字人文的理念、方法和技術,將分散、異構的云南藏文歷史檔案資源進行有序組織和深層優化,形成有效的知識單元或知識集合,為用戶提供智慧化的知識服務,具體從整合的現狀、整合的基礎、整合的路徑3個方面,探討數字人文視域下云南藏文歷史檔案資源整合問題,以期促進資源的優化整合,推進云南藏族歷史文化更大范圍、更深層次的傳播與共享。
1 云南藏文歷史檔案資源整合的現狀
1.1 云南藏文歷史檔案資源整合已有成效。現有云南藏文歷史檔案資源整合的成效主要體現為迪慶藏族自治州檔案、文化、社科、民族宗教等部門開展的藏文歷史檔案搜集、整理和編纂工作,具體如下。
(1)云南藏文歷史檔案搜集整理工作。云南藏文歷史檔案的搜集整理工作可劃分為兩個階段:第一階段,20世紀50年代至80年代,迪慶州開展了藏文歷史檔案初步收集整理。例如,1955年11月中甸縣成立“敵偽檔案清理小組”,立卷36卷;1956年9月中甸縣清理民國11個單位歷史檔案,移交縣公安局管理;1983年5月中甸縣檔案館從縣公安局接收歷史檔案65卷(包);1988年8月中甸縣縣志辦整理立卷歷史檔案37卷;1987年8月—1990年中甸縣檔案館與縣志辦赴云南省檔案館查閱復制歷史檔案,立卷229卷。第二階段,20世紀90年代至今,迪慶州進行了一定規模的藏文歷史檔案搜集整理工作。例如,1990年迪慶州檔案局和州志辦組織三縣(市)史志辦和檔案館24人,至云南省檔案館查閱復制三縣(市)民國檔案共計600余卷;1992年5月—7月迪慶州州志辦與檔案館共同赴康巴地區進行歷史檔案資料調查,共搜集到100余萬字材料;1993年10月—11月迪慶州史志辦前往三縣(市)的鄉、鎮、村實地考察,搜集了大量藏族口述史料;2007年底云南省社科院迪慶州《格薩爾》研究室搜集整理了手抄本《松嶺大戰》《門嶺大戰》《姜嶺大戰》《霍嶺大戰》等30余部的《格薩爾》經典,等等。515e96b204055d4a62f3cd463cbfdc87c31b89a7862272c016e7a11c76e685d3
(2)云南藏文歷史檔案編纂工作。其一,迪慶州對遺存的部分藏文歷史檔案進行整理、翻譯和編纂,并由云南民族出版社2003年出版了《中甸藏文歷史檔案資料匯編》一書。該書為滇藏地區藏文歷史檔案的首次發掘、整理和譯注,收錄藏文歷史檔案共計66份。其中,56份為清代康熙十三年(1674)至宣統二年(1910)間歷史資料,包括清代中甸地區政教領袖所頒執照、各機構往來公文、土地房屋買賣契約、各類公約協議等;7份為民國五年(1916)至民國三十八年(1949)間檔案,記述了中甸地區的兵務兵食、佛寺修繕、匪患處理、土地買賣、僧侶管理等情況;3份為1950年至1958年在中甸地區政治軍事活動相關史料。此書真實記錄和反映了清代至中華人民共和國成立初期云南藏區的歷史面貌,打破了迪慶高原缺乏豐富歷史記錄的既定偏見,推動了各界對云南藏區歷史文化的關心關注。其二,迪慶州州政府和中國藏學研究中心合作編纂了《云南省迪慶藏族自治州所存西藏和藏事檔案史料目錄》一書,該書由中國藏學出版社2002年出版,為《藏學檔案史料目錄叢書》構成部分。此書收錄清代乾隆三年(1738)至民國三十八年(1949)云南涉藏檔案條目共計11308條,其條目按檔案文獻的形成時間編排,并附有分類索引,便于讀者檢索查用,反映了西藏和迪慶地區從清代至民國的政治、經濟、軍事、民政、司法、警務治安、民族事務、宗教事務、文教衛生、涉外事務等多方面情況,是研究云南藏區歷史發展不可多得的珍貴原始史料。
1.2 云南藏文歷史檔案資源整合滯后問題
(1)資源保存分散問題。目前,云南藏文歷史檔案資源保存分散(見表1),具體表現為:
第一,大部分云南藏文歷史檔案資源保存在迪慶州20余個佛教寺院、迪慶州文化局、迪慶州檔案館、德欽縣公安局、德欽縣檔案館、維西縣檔案館和香格里拉市檔案館、迪慶州藏學研究所、云南省民族宗教管理事務委員會、云南省內其他州市相關機構之中,具有跨地域、跨部門、跨機構保存的明顯特點。
第二,部分云南藏文歷史檔案資源散存民間,未進行集中收集和管理。如:藏族英雄史詩《格薩爾》尚有20余個版本流傳于迪慶州民間,統一收集難度較大;部分藏文石碑、石刻、壁畫等不可移動檔案資源散存在云南偏僻山村,檔案化處理十分不易。資源保存分散的特點破壞了云南藏文歷史檔案間的有機聯系,導致資源在集中保護和共建共享上面臨困境,不利于資源的體系化整合與發掘利用。
(2)合作機制缺乏問題。一是主管部門之間壁壘重重。云南藏文歷史檔案保藏機構分屬檔案、文化、社科、民族宗教等不同行政主管部門,各部門有獨立的管理體系與管理模式,服務架構與體系標準均不一致。二是保藏機構之間缺乏協作。云南藏文歷史檔案資源分散保存在佛寺、檔案館、圖書館、文化館、史志辦、民委等各類機構中,檔案分類管理辦法與保管保護流程各不相同,例如,檔案館根據民族類別建立檔案全宗、圖書館按照四部分類法管理歷史文獻、博物館按照文獻年代和材質進行史料保管。
(3)整合方式陳舊問題。一是整合方法傳統。傳統云南藏文歷史檔案資源整合以檔案的搜集、整理和編纂為主要方法,多為檔案實物整合或紙質文獻數字化整合,僅能收錄部分機構所藏,難以形成云南藏文歷史檔案知識體系,無法提供全面、深層、便捷的檔案知識服務。二是平臺建設滯后。除云南省檔案館之外,多數云南藏文歷史檔案資源保藏機構未建立獨立門戶網站,不利于地方特色檔案資源的宣傳和推介;多數保藏機構未建立藏文歷史檔案特色資源庫,少量與之相關的檔案資源庫存在技術陳舊落后、資源關聯不強、服務模式單一等缺陷;云南省相關部門和機構尚未提出通過檔案顯性知識與隱性知識的二次組織與三次組織,構建起統一的云南藏文歷史檔案知識服務系統,其平臺建設的理念、實踐均較為滯后。
(4)整合技術制約問題。一是整合工具亟待升級。目前云南藏文歷史檔案資源整合以人力資源而非信息技術為主要工具,其整合技術工具需要跨越式變革與迭代;由于軟件開發機構對檔案內容的識別、理解及處理方式不同,目前的藏文文字處理軟件、藏文操作系統等基礎性整合工具存在數據難以讀取、文本互不兼容、所錄文字亂碼等問題,數字化工具需要更高階的升級。二是數字人文技術亟須引入。目前云南藏文歷史檔案資源整合尚未引入和運用基于數據管理、數據分析、可視化、機器學習、VR/AR等技術的數字人文方法。
2 數字人文視域下云南藏文歷史檔案資源整合的基礎
2.1 理論和政策依據
(1)理論支撐。其一,數字人文理論。“數字人文”目前尚未有統一定義,本文采用英國劍橋大學藝術、社會科學和人文學科研究中心學者Katy Barrett提出概念:數字人文,指利用計算機技術處理和分析傳統人文研究資料,并將人文學科方法論和計算機工具相結合進行的人文研究[5]。
數字人文理論對云南藏文歷史檔案資源整合的指導意義在于:一是通過“數字技術+檔案資源”的基本模式,實現數字倉儲、內容分析、文本挖掘、信息可視化、虛擬現實、多媒體出版等方面的資源共建共享,完成資源深層次整合;二是有效整合不同地區、不同機構的云南藏文歷史檔案資源,形成人文學者和數據科學家多機構、多學科跨界合作、協同創新的全新資源共建共享模式。
其二,民族檔案多元性理論。云南大學學者華林提出民族檔案多元性理論,認為民族檔案歸屬于民族文化遺產,具有民族文獻、檔案、古籍、文物、史料等多元屬性,檔案館、圖書館、博物館、文化館、民委古籍辦等各類相關機構均為民族檔案集中保護與資源建設的主體。[6]民族檔案多元性理論的應用意義為:一是在該理論框架下,藏文古籍是歷史文獻,藏文石碑、石刻、摩崖等是文物,藏文口述史料是史料,都具有原始性、價值性,均可納入藏文歷史檔案概念的外延,并在該理論指導下進行資源優化整合;二是在該理論指導下,檔案館之外的佛寺、圖書館、博物館、文化館、民委古籍辦、民族研究所、史志辦等機構,都可成為云南藏文歷史檔案資源整合的工作主體,協同構建整合的機構體系。
其三,文獻資源共建共享理論。文獻資源共建共享理論是從宏觀規劃、協作,各文獻信息機構協調和分工進行館藏建設,在此基礎上開展文獻資源的共享服務工作。[7]
(2)政策支持。其一,國家方針層面。2016年7月,《國家信息化發展戰略綱要》強調:“加快文化資源數字化建設……整合公共文化資源,構建公共文化服務體系,提升信息服務水平。”[8]2021年12月,《“十四五”國家信息化規劃》提出“要實施文化產業數字化戰略,發展基于5G、超高清、增強現實、虛擬現實、人工智能等技術的新一代沉浸式體驗文化產品服務,積極利用線上平臺展示中國文化”。[9]其二,檔案政策層面。2020年2月,國家檔案局局長陸國強提出:“省區市要加強本地區檔案信息資源共享平臺建設,盡快實現區域內各級綜合檔案館互聯互通,推動共享平臺向各單位延伸。”[10]2020年6月,新頒《中華人民共和國檔案法》強調:“各級人民政府應當將檔案信息化納入信息化發展規劃……檔案館和機關、團體、企業事業單位以及其他組織應當加強檔案信息化建設……國家推進檔案信息資源共享服務平臺建設,推動檔案數字資源跨區域、跨部門共享利用。”[11]
上述兩個層面的方針政策涉及我國檔案信息化建設的目標、策略和實施,為云南藏文歷史檔案資源整合提供了政策保障和工作指導。
2.2 資源基礎
(1)古籍檔案。其一,格魯派古籍。該教派古籍最多保藏在滇西北最大的藏傳佛教寺院松贊林寺中,主要包括:一是經典古籍,如《甘珠爾》《丹珠兒》《般若十萬頌》《三師徒文集》《五世達賴文集》《班禪文集》《七世達賴文集》《俄世瓦大師文集》《章嘉阿旺曲丹文集》《曲桑喇嘛文集》《帕翁喀巴文集》《土觀宗派源流》《五部大論》等;二是禮贊祈愿文,如《皈依頌》《釋迦牟尼贊》《兜率天上師瑜伽法》《上師供養法》《無量壽佛贊》《藥師佛贊》《尊勝母贊》《二十一尊圣救母禮贊》《懺悔文》《心經》等;三是常誦明咒,如《長壽三尊咒》《三怙主咒》《文殊菩薩誓愿咒》《財神咒》《釋迦牟尼佛心咒》《藥師佛心咒》《妙音佛母咒》《往生極樂世界咒》《空行母咒》《金剛界佛咒》等。[12]其二,噶舉派古籍。該教派古籍大量保存在德欽縣云仙寺,主要包括:一為經典古籍,如《甘珠爾》《丹珠兒》《般若十萬頌》《般若八千頌》《入行論注疏》《司徒文法大疏》《噶舉咒庫》《米拉日巴傳及道歌》《解脫莊嚴論》《納若六法》等;二為念誦儀軌,包含各教派共有念誦經典、該教派獨有經典《法行明》《金剛亥母頌》《怙主白那堅》《瑪哈瑪亞儀軌》《噶瑪都松欽巴愿文》《勝樂金剛》《幻化精義》等。[13]其三,寧瑪派古籍。該教派古籍主要保存在香格里拉市云登寺和德欽縣英主頂寺中,主要包括:一是各教派共同經典,如《大藏經》《般若頌》《五部大論》《入行論》《皈依頌》《度母頌》《釋迦牟尼贊》《無量壽佛贊》《藥師佛贊》《心經》等;二是寧瑪派獨有經典,如《蓮花生大師傳》《五部遺教》《隆欽繞絳巴文集》《悟境精義》《隆欽七藏》《四部醫典》等。[14]其四,民間散存古籍。云南省香格里拉、德欽、維西、寧蒗永寧、貢山丙中洛等地散存有少量古籍抄本、寫本及民眾供奉經典等,如《創世之歌》《藏醫精要》《醫學四續除暗明鑒》《漢嶺傳奇》《般若頌》等。[15]
(2)金石檔案。其一,石碑。代表性的有圣旨碑和格子石碑。①圣旨碑,指立于明朝天順五年(1461)的《法王皇帝圣旨碑》,原矗立于云南省迪慶州德欽縣卡瓦格博雪山,其碑文為藏文楷書,200余字,陰文,并鐫刻著“圣稱四川左布政之印”漢文印跡,該碑反映了明朝優待噶舉派的態度和噶舉派、薩迦派、格魯派的宗教情況。[16]②格子石碑,1992年發現于云南省麗江市巨甸格子村,現收藏于麗江博物館。該石碑由藏文碑文、臣服圖、碑飾和動物圖案四部分構成。其中,藏文碑文共5行60字,記載了龍臘塔部落臣屬于吐蕃的歷史事件;臣服圖表現了吐蕃大臣接受歸順者龍臘塔及其隨從進貢的場景;碑飾花邊呈水波狀和山形,裝飾著碑頂;動物圖案刻有代表大唐的二龍戲珠和代表吐蕃、南詔、龍臘塔的巨獅、戰馬和老虎。[17]其二,摩崖石刻。云南藏文摩崖石刻數量豐富,代表性的有:①茂定河口藏文摩崖石刻群。位于德欽縣茂定河電站機房附近,分布在羊拉公路兩邊,主體是數量眾多的瑪尼石刻,所刻寫藏文大小不一,內容基本都為“六字真言”。②丹達河藏文摩崖石刻群。位于海拔2536米的德欽縣丹達河橋東岸,主體是崖壁上刻滿的蠶豆大的藏文經咒,內容與佛教神鬼傳說有關。③扎達茸摩崖石刻。位于德欽縣,在一塊長50余米、高約30米的巖壁上銘刻著23組佛像及藏文瑪尼咒文。④春讀藏文摩崖。位于香格里拉市五境鄉倉覺村春讀小組春大橋右邊200米處,所刻藏文細小難辨,題寫內容未經翻譯,但可推斷出其與祖師洞、參巴寺等有一定歷史淵源。
(3)文書檔案。其一,檔案館館藏檔案。一是迪慶州檔案館館藏。該館有一個全宗的歷史檔案復制卷,共438卷,長8.7米,為民國元年(1911)至民國三十八年(1949)的歷史檔案和新中國成立初期檔案,[18]其中很大一部分為藏文檔案。二是迪慶州下屬的德欽、維西、香格里拉三縣(市)檔案館館藏。三館共有三個全宗的歷史檔案,共176卷,長5.75米,內容涉及清代咸豐九年(1859)至民國三十八年(1949)年迪慶地區的田賦、黨務、政務、禁煙、財政、教育、土地清丈、戶籍、土司械斗、教會等情況,[19]藏文檔案占一定比例。其二,佛寺政教檔案。指1949年以前在佛寺政治宗教活動中形成的具有保存價值的原始記錄。十年動亂期間,云南藏文政教檔案幾乎悉數被毀,僅在搗毀香格里拉歸化寺時,就燒毀經書9800多部、照片2700余張、畫像730幅,檔案散失情況嚴重,[20]但部分旨諭、公文等檔案文獻得以留存,例如香格里拉松贊林寺保藏的藏文唐卡《達賴喇嘛之白雜達拉教言成為多康與北方執政者窩居托執教八吐臺吉之指令》,為五世達賴給多康六崗地區下達的一份旨諭,記載了該地區民眾、僧人的特權及義務,反映了西藏政教領袖對迪慶地區的政治與思想統治,又如《駐建塘新政長官頒給駐軍公文一件》《紅坡噶丹羊八景如意寶瓶底簿序》《七世達賴頒給建塘土司松杰的執照》等公文,詳備記述了五世達賴奉康熙皇帝命令平息嘉夏寺僧人及土司叛亂的過程,反映出清中央政府對云南藏區的領導力和影響力。
(4)口述史料。以藏族民歌口述史料為例,藏族民歌以詩、歌、舞三位一體,以熱巴音樂、弦子音樂、鍋莊音樂、情舞音樂等作為構成主體,主要分為史詩、歌曲歌謠、樂曲三類。
藏族史詩主要指《格薩爾》,其為藏族民間英雄史詩,形成于10世紀至13世紀,在民間流傳至今已達到100多部。此史詩主要由民間藝人口頭傳承,融合了詩詞、歌謠、諺語等多種形式,內容涉及藏族歷史、社會形態、道德倫理、民俗民風等各方面情況。
藏族民間歌曲歌謠,如:《德欽縣藏族民間歌謠》,收錄流傳于德欽縣的藏族民間歌謠346首;《德欽藏族民間歌曲選》,收編德欽縣藏族民間歌曲177首,歌詞為漢藏文對照版;《妙語歡歌》,匯編了長歌、鍋莊、弦子、情卦、山歌等藏文歌曲歌詞;《迪慶藏族民歌選》,收錄流傳于迪慶的弦子63首、情卦296首、鍋莊6類、魯體山歌100首、新歌謠3首等,總計3133詩行。
寺院樂曲,如格魯派曲目《共安》、薩迦派曲目《騰且嗦嘎》、寧瑪派曲目《絨青》等。
3 數字人文視域下云南藏文歷史檔案資源整合的思路路徑
總體思路為:在數字人文理念和方法指導下,以相關的理論、政策及資源現狀為支撐,以知識服務為目的,以資源建設為基礎,以跨界合作為模式,以知識重組為方式,以新型數字技術為工具,開展云南藏文歷史檔案資源的優化整合,具體路徑見圖1。
3.1 提高整合定位:從文獻服務到知識服務。目前,云南藏文歷史檔案資源整合以提供文獻服務為主要定位,而數字人文可實現檔案資源與用戶的需求對接、資源關聯及服務匹配,提供從文獻服務到知識服務的全新視角與思路。
第一,以知識服務為目的。云南藏文歷史檔案資源整合應以建設滿足多樣化個性化用戶需求為導向的數據基礎設施為目標[21-23],抽象出檔案知識層面的內容,通過知識挖掘串聯出云南藏區的歷史脈絡,再經由一站式檔案資源整合平臺,開展以用戶為中心的知識服務,實現云南藏文歷史檔案資源的優化整合。
第二,以用戶需求為導向。需求導向的重點是為人文研究提供大規模高質量的數據、科學的研究方法和輔助研究的工具支持。[24-27]同時,分析和掌握用戶需求,將檔案資源、信息技術、用戶需求進行三位一體綜合考量,通過跨界合作、知識重組和技術應用,提供高質量服務。
綜上,資源整合的定位為:針對用戶需求,通過跨界合作和技術手段重組檔案資源,構建一站式云南藏文歷史檔案知識服務平臺,為用戶提供更深層次的知識服務。
3.2 強化整合基礎:強化資源整合。鑒于云南藏文歷史檔案資源大量散存的現狀,強化整合基礎。
其一,進行云南藏文歷史檔案資源現狀普查。由云南省政府主導,云南省檔案局牽頭,各主管部門合作,各保藏機構配合,集中人力、物力和財力進行云南藏文歷史檔案資源現狀普查。
其二,構建云南藏文歷史檔案資源體系。依據云南藏文歷史檔案資源遺存現狀和資源建設工作需求,對資源建設進行頂層設計和框架構建(見圖2)。云南藏文歷史檔案資源體系分4個模塊:一是古籍檔案,包括格魯派、噶舉派、寧瑪派等各佛教教派古籍和散存民間古籍;二是金石檔案,涵蓋石碑和摩崖石刻;三是文書檔案,包括檔案館館藏檔案和佛寺政教檔案;四是口述史料,涵蓋藏族史詩、寺院樂曲、藏族民間歌曲歌謠等。
其三,進行云南藏文歷史檔案資源的多樣化收集。一是全面收集和重點收集相結合。在全面收集基礎上,重點收集藏文書札、手信、古籍、金石、口述史料等特殊檔案。二是主動收集和社會收集相結合。通過接收、遷移、購買、復制、交換、代存等多種方式主動收集,并通過發布征集公告、開發在線征集平臺、開放網站征集專題窗口等方式,鼓勵民間力量捐贈云南藏文歷史檔案。三是實體收集和數字收集相結合。通過在資源整合平臺開發專門的數據接口,鼓勵民間收藏者上傳分享藏文歷史檔案資源。
3.3 明確整合模式:推進跨界合作。鑒于云南藏文歷史檔案資源保管分散且整合工作各自為政的現狀,選擇合適的合作模式進行跨界合作是資源整合的關鍵問題。筆者認為,云南藏文歷史檔案資源整合應堅持政府主導模式,發揮政府在資源整合中的政策指導、資源支持、統籌協調作用。
第一,明確各級權責。云南省政府負責制定檔案資源整合規劃與法規,厘清各部門、各機構權責,明確資源整合目標,擬定資源整合框架,建立資源整合運行機制;迪慶州政府負責協調保藏機構間的關系,根據資源整合的目標、特點和掣肘,制定資源整合的具體方案并督促執行;各保藏機構在省、州兩級政府的指導與管理下,遵循相應的工作標準和工作流程,分工協作,推進云南藏文歷史檔案資源整合的具體工作。
第二,構建合作模式。云南藏文歷史檔案資源整合采取“政府主導+專題項目驅動”的合作模式進行(見圖3)。
云南省政府提出、規劃和領導檔案資源整合專題項目;迪慶州政府制定資源整合專題項目方案并對項目進行協調和運作;各保藏機構基于數字人文方法進行跨界合作,推進專題項目的具體執行,過程中根據資源的特點及優勢進行資源互補共享,最終完成檔案資源整合專題項目。
3.4 重構整合方式:知識重組優化。數字人文視域下的檔案資源整合重在創新知識重組方式,實現知識組織和優化。
(1)檔案資源的數字化建設。目前,我國藏文檔案資源數字化建設已取得一定成績,如:2019年西藏完成近6000函古籍文獻普查登記數據整理歸檔,建設完成近6TB藏文古籍文獻數字化數據庫[28];“十二五”期間,西藏自治區檔案館完成館藏36.8萬件歷史檔案、2.35萬卷現行檔案、1.2萬張照片檔案的數字化工作,各市(地)檔案館共完成了3314卷檔案的數字化工作。[29]但是,目前在云南尚未進行規模化、系統化的藏文歷史檔案數字化工作,因此,下一步需構建數字化標準體系、研發藏文文字處理軟件和藏文操作系統、推進數字化工作,形成有序、規范的云南藏文數字檔案資源庫。
(2)檔案資源的數據化整合。云南藏文歷史檔案資源的數據化整合,指將已經數字化的檔案資源轉化為可識別、可計算、可分析、可理解的文本與數據,從而實現資源的機器可閱讀、機器可計算和機器可理解,為下一步的知識化重組奠定優質數據基礎。
首先,利用Open Refine等開源軟件進行數據的清洗、加工和采集,生成規范的大規模二維表格數據,完成半結構化數據的結構化處理。
其次,針對詞匯的顯性與隱性語義知識,通過人工標注、機器學習的策略,進行數字化文本的分詞、詞性、命名實體和斷句的自動標注,[30,31]完成云南藏文歷史檔案的文本標注。
再次,進行數據建模即知識本體構建,“本體”指形式化的、對共享概念體系明確而詳細的說明,[32-35]而云南藏文歷史檔案資源知識本體構建,指基于通用資源標識(URI)和資源描述框架(RDF)進行云南藏文歷史檔案知識領域的模型構建,在此過程中須明晰云南藏文歷史檔案數據資源中可抽象出的概念有哪些,每個概念的特征是什么,概念之間存在哪些關系,并用專業術語表達出這些概念。
最后,在完成數據建模后,需不斷修正模型,提升數據質量,得到一個涵蓋云南藏文歷史檔案資源“人、時、地、物、事”等命名實體的檔案語料庫,以此實現機器的可閱讀、可計算和可理解。
(3)檔案資源的知識化重組。在云南藏文歷史檔案資源數字化、數據化基礎上,進一步開展資源的知識組織關聯化和知識增長自動化,以此實現機器可推理、機器可自主學習,最終完成云南藏文歷史檔案資源的知識化重組,具體需開展以下工作:
一是知識組織的關聯化。即利用關聯數據和知識圖譜技術,在云南藏文歷史檔案資源蘊含的知識單元之間建立能夠被機器理解的關聯關系,讓機器基于這種關聯推理出新的知識。云南藏文歷史檔案知識單元之間的關聯關系越多,越能促進機器可推理的實現,并能保證推理的準確性和廣泛性。通過基于知識單元關聯化的機器推理,用戶可獲得云南藏文歷史檔案知識領域的初步分析成果,減少研究前期簡單、瑣碎、重復的基礎性工作。
二是知識增長的自動化。指引入機器學習方法實現云南藏文歷史檔案資源整合的人工智能化,其原理是基于深度學習等機器學習技術,在知識組織過程中借助機器自動智能地完成云南藏文歷史檔案知識增長。這一步驟使機器自動輔助人文研究成為可能,是人工智能技術在云南藏文歷史檔案整合領域的全新應用構想。
(4)檔案資源的平臺化呈現。數字人文視域下云南藏文歷史檔案資源整合的落腳點在于構建一個以云南藏文歷史檔案知識為主題,并以此為主體展開資源組織與描述,提供知識服務的大型歷史人文數據庫。該數據庫是在資源數字化、數據化、知識化基礎上,從數字人文“跨領域、大范圍、大規模”特性出發,以云南藏文歷史檔案的資源、數據、知識為核心,以滿足人文研究者多樣性需求為導向,以具有操作擴展性和數據處理優勢的非關系型數據庫為工具,構建起的一個具備數據存儲、知識檢索、信息可視化、專題服務、社交化應用等多重功能的大型知識服務平臺。
3.5 革新整合技術:應用人工智能。鑒于云南藏文歷史檔案資源整合存在各種技術制約的現狀,以人工智能為發展方向的數字人文技術,帶來了超越手工操作和傳統數字化的全新技術工具。主要包括新型數字資源整合技術和人工智能相關技術。
3.5.1 新型數字資源整合技術。數字資源整合技術主要包括文本挖掘技術、關聯數據技術、文本可視化技術。
文本挖掘技術。文本挖掘指從文本信息中抽取有價值的、潛在的及用戶感興趣的重要模式或知識的過程。應用文本挖掘技術,可以實現云南藏文歷史檔案文本的分類和聚類,形成知識關聯,促進檔案知識聚合。
關聯數據技術。關聯數據技術指在萬維網上發布“任何有URI標識的資源”的一種方式,其不僅可以標識所有信息資源,而且可以通過RDF/XML編碼進行元數據和其他非信息資源的數據描述,以此建起數據關聯。應用該技術,可以串聯起云南藏文歷史檔案中某一事件的人物、事物、時間、空間等要素,搭建一個相互連接的信息網絡,并將其作為檢索結果系統性地呈現給用戶,提升云南藏文歷史檔案的可用性和用戶體驗感。
文本可視化技術。該技術從大量文本中提取一定的信息生成圖形,用戶通過可視化界面獲取這些文本信息并快速理解文本的技術。[36-38]該技術可幫助工作人員快速找到云南藏文歷史檔案文本的主題詞,梳理出與主題詞相關的核心語句與段落,并分析詞、句、段落之間的邏輯關系,揭示出不同文本間的相關性及歷史聯系,為檔案知識服務奠定堅實基礎。
3.5.262d4ad71802f8a9c16deaa1624913096 人工智能相關技術。一是機器學習技術。最重要的就是引入了基于神經網絡的深度學習技術,這是一種借助機器智能化自動化完成知識增長的技術手段,它使機器自主學習知識成為一種可能,并能推動云南藏文歷史檔案資源自然語言處理、名稱實體識別、自動標引、自動分類等領域的進步。二是AR/VR技術。AR即增強現實技術,VR即虛擬現實技術。區別于展覽、紀錄片、書籍等傳統檔案內容展示方式,AR/VR技術以實景體驗式的強大視覺效果和聽覺沖擊,給用戶帶來對歷史文化的沉浸式體驗,具有很高的情感溫度和用戶參與度。
4 結語
本文闡釋了數字人文視域下云南藏文歷史檔案資源整合的理論、政策和資源基礎,論證整合的思路和實現路徑。目前云南藏文歷史檔案資源整合領域還存在若干問題亟待研究者的深入探討與解決。
法律法規層面上,云南省雖然出臺了一些民族民間文化保護條例或檔案工作條例,諸如《云南省民族民間傳統文化保護條例》《云南省檔案條例》等,但尚未出臺專門針對云南藏文歷史檔案的法律、法規或條文,資源整合的法律法規保障欠缺。
標準層面上,目前我國出臺了多項檔案行業標準、文化行業標準、文物保護標準等,但因云南藏文歷史檔案資源具有多元屬性,橫跨不同行業,導致其資源整合的標準不明確、權責不清晰。
組織層面上,云南藏文歷史檔案資源整合的協同程度不高,亟待通過建立橫向和縱向的合作機制,實現政策上、組織上和業務上的高度協作和規范運作。
技術層面上,云南藏文歷史檔案資源整合的信息化程度較低,數字技術的運用與發達地區差距較大,亟待引入全新的技術工具。
本文期冀通過上述探討,推動更多研究力量進入云南藏文歷史檔案資源整合領域,促進云南藏族歷史、文化和記憶的完整構建,推動云南藏族歷史文化的保護、傳承和共享,為我國藏族歷史文化的發揚光大和云南邊疆民族地區的科學治理提供文化助力。
本文受教育部重大招標項目“元明清時期中國邊疆治理文獻整理與數據庫建設研究”(項目批準號:21JZD042)資助,是該項目的階段性研究成果。
參考文獻:
[1]習近平在中央第七次西藏工作座談會上強調 全面貫徹新時代黨的治藏方略 建設團結富裕文明和諧美麗的社會主義現代化新西藏[EB/OL].新華網:http://www.xinhuanet.com/politics/leaders/2020-08/29/c_1126428830.htm.
[2]陶芳,史衛云.感悟迪慶清代藏文檔案[J].檔案學研究,2009(05).
[3]李燕蘭,李莉.迪慶少數民族檔案史料的收集與搶救[J].云南檔案,2003(05).
[4][20]鄭荃,陳子丹.云南藏文歷史檔案及其開發利用[J].檔案學通訊,2007(01).
[5]KATY BARRETT.From pamphlet to pixel:the humanities intransition[EB/OL].[2024-3-20]https://www.cam.ac.uk/research/discussion/from-pamphletto-pixel-the-humanities-in-transition.
[6]華林,劉大巧,許宏曄.西部散存民族檔案文獻遺產集中保護研究[J].檔案學通訊,2014(05).
[7]肖瓏.人文社會科學文獻資源的共建共享與國家保障[J].圖書情報工作,2010,54(11).
[8]中辦 國辦印發《國家信息化發展戰略綱要》(全文)[EB/OL].央視網:http://news.cctv.com/2016/07/27/ARTI2inGuJovBM0jdxJnZKGh160727_3.shtml.
[9]“十四五”國家信息化規劃[EB/OL].中華人民共和國中央人民政府:http://www.gov.cn/xinwen/2021-12/28/content_5664873.htm.
[10]在2020年全國檔案局長館長會議上的報告[EB/OL].中華人民共和國國家檔案局:https://www.saac.gov.cn/daj/yaow/202101/2d00d00de2c54e9b87bd429843ba98b2.shtml.
[11]《中華人民共和國檔案法》[EB/OL].中華人民共和國國家檔案局:https://www.saac.gov.cn/daj/falv/20200679ca4f151fde470c996bec0d50601505.shtml.
[12][13][14][15]徐麗華.云南藏文古籍概述[J].中國藏學,2002(02).
[16]杰西.西饒江措.“法王皇帝圣旨”藏文石碑釋略[J].西藏研究,1995(04).
[17]馮智.一塊發現于滇西北的藏文石碑:格子石碑[J].云南社會科學,1993(06).
[18][19]迪慶藏族自治州地方志編纂委員會.迪慶藏族自治州州志(下)[M].昆明:云南民族出版社,2014.
[21]夏翠娟,賀晨芝,劉倩倩.數字人文環境下歷史文獻資源共建共享模式新探[J].圖書與情報,2021(06).
[22]周林興,張笑瑋.以文促旅,以旅彰文:地方特色檔案資源賦能文旅融合研究[J].檔案管理,2022(03):34-38.
[23]王愛輝,丁華東.我國檔案公共服務均等化的推進:特點、動力與路徑[J].山西檔案,2021(06):38-45.
[24]周晨.國際數字人文研究特征與知識結構[J].圖書館論壇,2017(02).
[25]汪建軍.數字政府建設背景下檔案數據治理的內在邏輯與實踐進路[J].檔案與建設,2023(09):49-53.
[27]歸吉官,田曉青.檔案資政服務樣態及路徑優化—基于多案例研究[J].檔案管理,2023(03):66-70.
[28]西藏古籍文獻數字化提速 大批珍貴藏文古籍近期實現“云閱讀”[EB/OL].新華網:http://www.xinhuanet.com/photo/2020-03/12/c_1125703698.htm.
[29]西藏自治區檔案局(館):數字化手段延續歷史記憶[EB/OL].中國西藏網:http://www.tibet.cn/cn/index/syyc/201901/t20190108_6476292.html.
[30]徐晨飛,包平.面向農史領域的數字人文研究基礎設施建設研究:以方志物產知識庫構建為引[J].中國農史,2019(06).
[31]劉文俏.大模型與古籍檔案文化遺產數字化:價值、挑戰與應對[J].山西檔案,2024(01):104-107.
[32]THOMAS R.GRUBER.A translation approach to probable ontology specification Knowledge Acquistion[J].Knowledge Acquistion,1993(02).
[33]嚴孝珍,張秀紅.紅色檔案智慧數據:概念、組織與應用[J].山西檔案,2024(02):84-86.
[34]高大偉,韓瑞雪.城建檔案領域知識圖譜構建方法研究[J].檔案管理,2022(03):57-58+62.
[35]李海軍.檔案管理信息化之本體方法討論(上)[J].山西檔案,2007(06):16-18.
[36]余紅梅,梁戰平.文本可視化技術與競爭情報[J].圖書情報工作,2011,55(08).
[37]高建輝,朱思嘉.基于數字人文技術的滇西抗戰口述歷史檔案開發研究[J].山西檔案,2023(03):104-109.
[38]邵澍赟.檔案編研出版中增強現實技術的應用場景與路徑探究[J].檔案與建設,2022(12):36-39.
(作者單位:云南大學歷史與檔案學院 何志麗,博士研究生,檔案副研究館員;華林,教授,博士生導師,全國檔案專家領軍人才;馮安儀,碩士研究生 來稿日期:2024-06-04)