
在數字化時代,史料數據庫是史學研究的重要工具,不僅有助于提高史料的共享利用水平,還極大地方便了史學研究人員的檢索與閱讀?,F分析遼金史料數據庫建設現狀,提出基于區塊鏈技術的史料數據庫建設方法,以實現數字史料安全存儲以及權益保護;同時結合區塊鏈技術構架,提出構建史料數據庫共享共建模式,以激勵更多社會力量參與,提高史料數據庫建設效率,豐富史料數據庫內容,加快史料數字化建設進程。
中國歷史是各民族交融匯聚成多元一體中華民族的歷史,是各民族共同締造、發展、鞏固、統一偉大祖國的歷史。遼金時期是中華民族多元交融與一體升華的關鍵階段。陳述先生稱,“遼金是中國史上的第二次南北朝,對于祖國的歷史文化,特別是民族融合、經濟文化的交互影響和發展前進,起著極其重要的承前啟后的作用”。然而,史料的匱乏讓遼金史素以冷僻著稱。
目前,有關遼金史研究的資料不僅數量少,而且收錄情況較為分散,散見于各種傳世文獻。在紙質文獻方面,目前尚存的遼人著作僅有三部,即《焚椒錄》《龍龕手鏡》和《續一切經音義》。而后世有關遼史史料的著作,除《契丹國志》及元修《遼史》外,亦散見于《續資治通鑒長編》《宋會要輯稿》《宋大詔令集》《遼史拾遺》和《宋使遼語錄》等相關文獻。此外,目前所見遼朝出土碑志有200余方,這些也是遼史研究的重要參考。
相較于遼史史料,金史史料雖較為豐富,但與前后相承的唐、宋、元史研究相比,亦顯蕭條。除元修《金史》外,還有《大金吊伐錄》《大金集禮》《大金德運圖說》《南征錄匯》《青宮譯語》《南遷錄》《歸潛志》《汝南遺事》《遼東行部志》《鴨江行部志》《遺山集》《中州集》等金人史書文集。此外,《三朝北盟會編》《建炎以來系年要錄》《靖康稗史》《松漠紀聞》《大金國志》等宋人文獻也涉及金史史料。在出土石刻資料方面,涉及金朝的碑志有800余方。另外,在遼金史料的整理方面,還有陳述的《全遼文》、閻鳳梧的《全遼金文》、向南等的《遼代石刻文編》及《遼代石刻文續編》、王新英的《全金石刻文輯校》、蓋之庸的《內蒙古遼代石刻文研究》、趙永春的《奉使遼金行程錄》等。
近代以來,幾代遼金史學者利用有限的史料奮力開拓,已取得可觀的學術成果。但是“材料”問題一直是制約遼金史研究進展的重要瓶頸,是導致現今遼金史研究落后的重要因素,而以數據庫為代表的數字人文技術可以在一定程度上彌補這一不足。
遼金史料數據庫建設現狀
隨著數據庫技術的發展與普及,量化史學成為重要的史學研究范式,史料數據庫成為史學研究的重要工具。與傳統的印刷品史料相比,數字化的史料數據庫不僅可以提高史料的共享與傳播效率,還極大地提高了史料檢索與閱讀的便捷性,同時還可以支持相關研究人員開展量化分析,從而進一步提高研究結論的可解釋性、可靠性。此外,通過關聯分析、數據挖掘、時空分析等技術手段,還能發現使用傳統研究方法所無法發現的新問題、新規律。
在史料數據庫建設方面,歐美國家及中國香港和臺灣地區起步較早。比較有代表性的如哈佛大學費正清中國研究中心、北京大學、臺灣“中央研究院”共同研發的《中國歷代人物傳記資料庫》(CBDB),其數據粒度較為精細,支持時空分析、社會網絡分析、統計分析、數據挖掘等深度數據分析操作。另外,哈佛大學CHGIS、荷蘭MARKUS、德國馬普LOGART、中國臺灣地區DOCUSKY等也是目前較為流行的數字人文數據庫。此外,上海交通大學的《中國地方歷史文獻數據庫》以文獻學研究為基礎,建立特定的元數據結構,提供交叉導航、數據統計等功能,可以幫助研究者發現新的研究議題。浙江大學的《學術地圖發布平臺》以及《全宋詩分析系統》《全唐詩分析系統》《四庫全書》《四部叢刊》《中國基本古籍庫》等也是目前國內較為流行的數據庫。由于遼金史料非常匱乏,遼金史料數據庫建設成果也較少。中國臺灣地區“中央研究院歷史語言研究所”的《遼金元拓片數位典藏》是為數不多的遼金史料數據庫成果。
除去史料匱乏導致遼金史料數據庫建設受阻外,建設模式也是重要的影響因素。目前,史料數據庫建設采用“中心化”建設和運營模式,即由一個或少數機構獨立負責史料數據庫建設,并統一提供對外服務。這種“中心化”建設模式適用于史料豐富的研究領域,但也存在建設周期長、建設效率低、史料采集難、史料數據利用效率低、使用成本高的問題。因此,其并不適用于館藏史料匱乏、收藏分散,甚至散落民間、海外的遼金史料。
當前,史料數據庫建設面臨的挑戰是數字史料內容安全與權益安全保護問題。數字史料比傳統物質化史料更易被篡改,也更易非法復制。篡改史料不僅會誤導史學研究,還會危及國家安全、民族團結、社會穩定和國際秩序。數字史料的侵權盜用還會侵犯史料擁有者的合法權益,打擊他們對史料進行數字化處理及促進史料共享與利用的積極性。這嚴重影響了歷史文化資源的傳播、交流與利用,阻礙了史學研究進展。
基于區塊鏈技術的遼金史料數據庫建設方法
要想解決上述問題,除了利用立法手段以外,還需要采用更加科學、可靠、可行的新技術、新手段、新模式構建新型史料數據庫。在當前流行的新技術中,區塊鏈技術備受青睞。區塊鏈是一種分布式數據庫,利用區塊鏈存儲數據不僅可以保護數據不被篡改,還可以避免對交易行為的抵賴,其現已被廣泛運用于數字貨幣、數字存證等領域。
更重要的是,區塊鏈還具有“去中心化”(亦稱“多中心化”)的特征?!叭ブ行幕焙汀爸行幕笔莾煞N截然不同的理念。在“中心化”數據平臺上,資源的開發與利用均歸單一機構(中心)負責,資源的安全性、可靠性得不到保障,資源利用也會受到限制。在“去中心化”數據平臺上,任何人都可以貢獻數據并獲得相應的回報,為多方協同共建史料數據庫提供了機制保障;而且區塊鏈的數據防篡改技術也極大地提高了數據內容的安全水平。通過調動全社會史學愛好者、研究人員、史料擁有者的積極性,可以加快諸如遼金史等冷僻領域的史料數字化進程,甚至很多藏于民間、未被發現的珍貴史料也有望被發掘出來,從而破解史料匱乏的難題。在權益得到更好保障的前提下,史料共享與利用的效率也得到顯著提高。
基于區塊鏈技術的遼金史料數據庫建設具體工作包括以下幾方面。
設計通用元數據模型
元數據是史料著錄的依據,利用元數據著錄并標準化史料描述信息,可以將史料的描述轉變為結構化、可機器解析的數據,從而支持史料檢索、高級分析方法和工具的應用,進而發現蘊含在史料中的高價值內容或新的研究議題。
根據內容和載體的不同,史料可以分為不同類型,如古籍文獻、文書檔案、古跡場所、實體文物、口碑傳說等。為準確、翔實地著錄各類史料,研究機構或權威部門頒布了相應的元數據標準,如《古籍元數據規范》(WH/T 65-2014)、《拓片元數據著錄規則》(WW/T 0093-2018)、《博物館藏品信息指標體系規范(試行)》(文物博發2001[81號])等。
根據多元異構的元數據標準產生的史料著錄不僅會提高計算機檢索系統的復雜性,還會提高史料數據庫結構的復雜性,增加各類史料應用、維護的成本與難度。因此,在綜合各類史料元數據標準的基礎上設計通用史料元數據模型,可以實現對所有種類史料的著錄、描述。具體的機讀元數據模型設計可以借鑒《都柏林核心元素集》(Dublin Core Metadata Initiative,簡稱DCMI)、《機器可讀目錄》(Machine Readable Catalog,簡稱MARC)、《文本編碼倡議》(The Text Encoding Initiative)等。
建立基于聯盟鏈與IPFS的史料數據庫技術構架
建立基于聯盟鏈與IPFS的史料數據庫技術構架,如下圖所示,共分為五個層次。
基礎層由操作系統、通信系統和其他系統軟件構成,是計算機運行的基礎設施。為了提高史料數據庫平臺的可移植性,操作系統、通信系統等系統軟件均采用遵循工業標準和國家信息安全規范的通用系統軟件。
全文層用于存儲數字史料原始文件,采用星際文件系統(IPFS)構建。星際文件系統以文件為整體處理對象,對文件內容的格式和文件類型要求不高,非常適合存儲各種格式的原始史料數字文檔,包括但不限于文本文檔、圖片、視頻、語音等多媒體格式。采用IPFS存儲數字史料原始文件有兩大好處:一是多站點冗余存儲,防止數據損毀或丟失;二是能夠提供數據唯一性驗證,即IPFS會根據文檔內容生成唯一的哈希索引,哪怕文件內容改變1個字節,都會使得哈希索引發生變化。所以可以將該哈希索引作為唯一性驗證信息存儲到摘要層的區塊中,如此即可實現數字史料的防篡改與權益證明。
摘要層使用區塊鏈技術存儲史料的著錄信息以及IPFS生成的哈希索引,這些信息存放在區塊鏈節點的區塊之中。所有區塊按照區塊哈希地址前后連接成相互依賴的鏈式存儲結構,并形成多節點冗余備份,從而實現數據防篡改。目前,區塊鏈主要有公有鏈、聯盟鏈和私有鏈三種構架形式。公有鏈擁有數量龐大的存儲節點,結合共識機制,在經濟和時間維度上可以確保數據不被篡改、抗抵賴,有效保護了數據內容安全。與公有鏈不同,聯盟鏈由有限個存儲節點搭建,數據篡改難度有所降低,但是可以通過CA認證、VPN等技術許可提高系統的安全水平,從而保護數據安全。因此,聯盟鏈比較適合行業的數據平臺建設。私有鏈是一種純粹的組織內部搭建的區塊鏈系統,一般很少大范圍應用。
支持層提供了重要的平臺管理功能,如賬戶管理、密鑰管理、節點管理、合約管理、支付管理等。
應用層則根據史料管理與應用的需要,提供各種實用操作,如史料檢索、史料上傳、用戶注冊等。
設計基于“分享經濟學模型”的史料數據庫共建共享
激勵機制
區塊鏈是一種新型數據分享平臺。在整個區塊鏈場景中,所有參與人平等參與數據交換,并從中受益。由于遼金史料數量匱乏與散佚分布,急需通過分享激勵機制,激發史料擁有者的史料貢獻意識、史料搜尋發掘積極性,降低史料庫建設和普及應用成本,加快史料數據庫建設進程。設計該激勵機制要重點考慮以下內容。
1.聯盟數據庫節點貢獻者的利益保障
該措施能為節點貢獻者發放一定數量通證(Token)。該通證既可以變現,也可以用于支付史料的訪問費用。
2.史料貢獻者的利益保障
該措施能為史料貢獻者提供數字資產證明,并提供史料的訪問定價機制,確定史料的流通價值,為史料貢獻者提供價值回報(仍以通證支付)。
3.基于通證的結算
該措施可以保障通證在史料貢獻者和史料使用者之間自由流動,完成史料使用的交易結算,同時扣除平臺服務費用,用于回報節點貢獻者,維持平臺的運營。
鑒于全球范圍內存在假借區塊鏈高科技名義進行所謂“數字貨幣”炒作,實施各類詐騙活動,甚至蓄意侵害國家貨幣主權,在進行共建共享激勵機制設計時需要以中國人民銀行會同市場監管總局、銀保監會、證監會聯合印發的《金融標準化“十四五”發展規劃》為指導,堅決厘清科技服務與金融業務邊界,防范借科技名義違法違規從事金融業務的現象。
考慮到遼金史料較為匱乏,史料數據庫建設在數據安全保障、權益分享等方面還存在諸多不足,本文提出了一種基于區塊鏈技術的遼金史料數據庫建設方案。該方案突破了基于文件處理技術和關系型數據庫技術的史料數據庫建設模式,顯著提升了史料發掘效率,解決了史料安全存儲及權益保護問題。根據該方案還開發了原型試驗系統,并在網絡環境中進行了模擬測試。測試結果表明,本方案可以較好地解決上述問題,達到預期設計目標。本文提出的基于區塊鏈技術的數據庫建設方案不僅適用于數字史料存儲與共享,還適用于當前各個領域的數字資產保護性存儲與合理分享,可以擴展為一種通用的數字資產開發與利用解決方案。
遼寧省社會科學規劃基金項目“基于區塊鏈技術的遼金史料數據庫構建研究”(L21BZS006)資助。
(作者單位:遼寧師范大學管理學院)