關鍵詞:厚數據;清代刑案:歷史典籍:融合圖譜;循證理論
文化是國家軟實力的象征,是國家綜合國力的重要組成部分。隨著信息技術的更新迭代,數字化技術與文化的全方位融合已經成為文化發展的必然趨勢。2019年8月,科技部等六部門印發《關于促進文化和科技深度融合的指導意見》,提出要不斷增強社會主義意識形態的凝聚力和引領力,促進文化和科技深度融合,全面提升文化科技創新能力,轉變文化發展方式,推動文化事業和文化產業更好更快發展。2022年5月,《關于推進實施國家文化數字化戰略的意見》正式出臺,標志著文化創造性轉化步人數字化轉型新階段,為新時代文化創造性轉化提供了戰略指引。相關戰略的發布不僅為科技與文化的融合發展帶來新的契機,也為歷史典籍的數字化轉型夯實了基礎。
新一代信息技術正在帶動群體性技術突破,機器學習、計算機視覺、自然語言處理、圖像處理等為歷史典籍的開發利用提供了新的方式與實踐路徑,但是受到歷史典籍數量龐大等條件的制約,對歷史典籍內容的細粒度描述面臨困境,深入文本的理想難以實現,只有對技術、方法、工具進行革新,才能實現效率提高、知識發現、多維呈現和記憶建構的目標。近年來,針對大數據分析方法存在的過度傾向定量研究、數據與情境脫離、難以真實還原復雜現象等問題,學者們提出了厚數據分析模式。厚數據分析模式的引入不僅能夠擴展數據分析方法的范圍,而且可以克服大數據分析的局限,形成與大數據分析互補發展的分析模式。將厚數據分析模式引入歷史典籍研究領域可以增強歷史典籍研究結果的可解釋性,對于歷史典籍的開發、傳承等提供有效助力。知識圖譜技術在歷史典籍的智能化開發中發揮了關鍵作用,但隨著文化大數據體系建設要求的提出以及用戶需求的多樣化和復雜化,單一類型的知識圖譜在知識服務中的不足日漸凸顯。因此,本研究提出了融合圖譜的概念,即依據一定邏輯與語義關系,采用一定的技術方法,將不同類型可視化圖譜進行融合,最后形成多維可視化圖譜。
清代作為中國歷史上最后一個封建王朝,其法律制度經過長期的演變,已經形成了中國古代歷史上最為系統和完善的法律制度,而以此為依據進行結果判定的刑案不僅體現了清代律例實施特點與司法裁斷程序,還蘊藏著古代司法的文化底蘊以及社會發展的時代印記。因此,本研究采用厚數據分析方法,以清代刑案為具體研究對象,借助數字人文工具,提出厚數據驅動下的清代刑案融合圖譜,以期為歷史典籍的數智化開發提供可借鑒思路。
1文獻回顧
1.1厚數據相關研究
厚數據起源于人類學中的厚描述,20世紀90年代,人類學家Clifford G對哲學家Gilbert R提出的“厚”與“薄”的哲學思想進行擴展后,將其引人人類學研究之中并提出“厚描述”的概念:厚描述不僅包括事實,還包括評論和解釋,并具有特定細節、概念結構和豐富含義。然而,國內外對于厚數據的研究尚處于起步階段,主要集中在厚數據定義研究、厚數據應用場景研究和厚數據分析方法研究等方面。
在概念辨析層面,Mannik L等認為,厚數據源于對用戶行為的觀察與發現,并基于與用戶的互動探索當時的社會背景與文化特征。Ang Y Y認為,厚數據包括從用戶行為中獲取的價值觀、目標等一系列相關信息。孫智中等認為,厚數據除簡單報告外,還能描述事實發生的原因、過程以及影響,能夠提供更多細節。袁曦臨指出,“厚數據”能夠更多地揭示表面數據背后的內在原因及其發生機制,即Why和How。
在分析方法層面,Bornakke T等針對混合大數據源和厚數據源方面的互補性問題,基于認知主義語言學術語“混合”建立了一個方法論框架,然后通過兩個案例展示了大數據獨特但經常被忽視的粒度如何在提供與厚數據的混合方面發揮關鍵作用。孫智中等通過對厚數據概念的梳理提出基于厚數據的信息分析新模式,并對其內涵和優勢以及基于厚數據的信息分析流程進行闡述。宋世祥在其著作《百工里的人類學家2:厚數據的創新課》中提出,基于民族志、田野調查等人類學方法獲得的數據,可以通過厚數據的文化觀實現有效的傳遞和創新。
在實踐應用層面.Mortati M等基于厚數據和大數據的分析方法,探討了數據在8個設計思維項目中的作用,研究數據對8種場景的實踐和理論意義,以期為學者和從業者如何利用不同類型的數據以及相關的原則展開實踐提供參考。李航通過對“厚數據”思維下圖書館館藏數字資源整合與服務的必要性進行剖析,提出圖書館館藏數字資源的整合方法、具體思路以及服務策略。鄭儒雅等以上海松江人樂花園為例,利用厚數據在用戶需求調查方面的優勢,采用漸進式調查方法,以迭代分析形式對行為需求數據進行挖掘與重構,提出基于社區共治的針灸式整治策略。
近年來,厚數據分析方法逐漸應用于多個領域,但在歷史典籍知識化開發中鮮有應用。本研究引入厚數據理論,拓寬了歷史典籍開發的路徑,增添了歷史典籍數智化開發的人文色彩,也是跨學科方法在歷史典籍領域的實踐探索。此外,雖然當前研究關于厚數據并未形成統一的定義,但是綜合目前學者們對于厚數據的理解,認為厚數據具有以下兩個特征:①厚數據強調數據的深度,能夠從少量樣本中挖掘數據背后的故事:②厚數據深化了數據的分析情境,將不可被數字捕獲的數據納入其中,包括社會背景、經驗等數據。而本研究使用的清代刑案相關數據不僅包含刑案案件發展的原因、經過等相關數據,還囊括了案件辦理過程中援引的參照案件等經驗性數據,進一步豐富了清代刑案案件的研究情境。因此,本研究收集的清代刑案數據符合厚數據特征,適用于厚數據分析方法。
1.2知識圖譜融合相關研究
知識圖譜的本質是揭示實體間關系的語義網絡,形式化地描述事物及之間的相互關系,是實現多源異構歷史典籍資源結構化處理的重要工具。學者們基于不同的研究目標以及不同的數據特征,構建了不同類型的可視化圖譜,如何解決不同可視化圖譜數據多源、語義異構以及實體不統一的問題,實現多種可視化圖譜的融合,是當前學者亟待解決的重要問題之一。
多知識圖譜融合不是簡單地把知識圖譜合并,而是要發現知識圖譜之間的等價實例、等價屬性或等價類,同時解決實體對齊等問題。王歡等提出一種基于多模態知識圖譜的中文跨模態實體對齊方法,該方法將圖像信息引入實體對齊任務,同時面向領域細粒度圖像和中文文本,設計單雙流交互預訓練語言模型,并基于自監督學習方法進行文本特征的提取,最終驗證了該方法的可行性。楊詩語等提出了一種基于實體、屬性和關系相似度的邏輯模型和物理模型實體自動對齊框架,融合了基于不同三元組類型的屬性嵌入方法和結構嵌入方法,并采用4個真實的知識圖譜驗證提出的實體自動對齊框架的有效性。Zhang Y M等基于預先對齊的實體對選擇對齊任務驅動的代表關系,采用預先對齊的實體來促進上下文信息在知識圖譜之間的傳遞,以期解決在統一的框架下同時解決實體嵌入和對齊的問題,最后在兩個多語言知識圖譜上進行了大量實驗,驗證提出的基于表示學習的知識圖譜嵌入和對齊實體算法的有效性。Wu FZ等針對通用情緒分類器目標域中的標記數據不足,以及注釋大規模樣本成本高且耗時的問題,提出通過融合來自多個來源的情感知識來訓練特定領域的情感分類器,并基于亞馬遜產品評論數據集和Twitter數據集開展實驗以驗證新方法的性能。
以上學者針對知識圖譜融合的技術方法進行了多種實踐探索,但知識圖譜融合理論層面的研究卻很少。因此,本研究根據清代刑案各部分數據特征和研究目的構建不同類型的可視化圖譜,并基于厚數據分析的理論體系,簡要闡述厚數據驅動的清代刑案融合圖譜的構建框架和運行機理,旨在從理論層面探索不同可視化圖譜融合的機理,增強清代刑案知識推理的精確度和可解釋性,創新清代刑案的研究范式,為歷史典籍相關研究中多學科融合理論體系的建立和應用提供參考。同時,本研究提出的厚數據驅動的清代刑案融合圖譜對于將清代刑案的表達場景延伸至司法制度溯源、社會歷史變遷等多個場景有重要助力,更利于清代刑案歷史典籍的傳承和利用。
2厚數據驅動的清代刑案融合圖譜設計
2.1厚數據驅動的清代刑案融合圖譜整體框架
《刑案匯覽》共八十八卷,收集了乾隆元年至道光十四年近百年間中央司法機關辦理的刑案5640余件,并按照六部進行分類匯總。其案件數據具有規范化、模板化的特點,并且記載了案件詳情、案件處理結果、依據的律例以及援引的參照案件,能夠充分展示案件的發展過程和論證依據,為本研究的順利推進提供可行性。
本研究以《刑案匯覽》為例,提出的厚數據驅動的清代刑案融合圖譜的構建流程具體如下:首先,對《刑案匯覽》以及相關歷史典籍中的相關數據進行篩選,提取符合要求的數據,并進行數字化處理,形成結構化文本;其次,對清代刑案數據的內容進行梳理,分別對清代刑案案件、清代刑案參照案件,以及大清律例中的概念、屬性、關系進行界定,形成不同的核心概念集合,在此基礎上結合不同的數據特征和研究目標構建不同的本體模型:第三,構建事理圖譜、知識圖譜以及元知識網絡3種可視化圖譜的本體,并通過概念層、本體層、知識網的擴充及合并,最終構建清代刑案融合圖譜的本體模型;最后,結合已經構建的本體模型,將不同類型的清代刑案數據映射到相應的可視化圖譜中,并以循證理論為紐帶,將不同類型的可視化圖譜聚合成一個多維的融合圖譜,具體框架如圖1所示。
2.2數據資源層
數據資源層是厚數據驅動的清代刑案融合圖譜構建的基礎,能夠為語義描述層提供數據來源,是厚數據驅動的清代刑案融合圖譜知識發現的底層構架,本層的主要任務是完成清代刑案數據的獲取以及結構化處理。當前,數據敘事研究多聚焦于故事內容的自動化生成與敘述方式,忽略了故事的數據來源與內涵,導致技術驅動下的數據故事結果難以考證,誘發公眾對敘事內容的不認可、不采納。而循證理論恰好彌補了這個缺點,循證理論強調,在數據敘事過程中要以歷史典籍記載的客觀事實為“本”,以證據鏈推導為佐證,還原客觀事實所含知識要素的復雜情境。因此,在數據資源層,本研究需要獲取的數據不僅包括清代刑案,還涉及刑案參照案件以及大清律例,為后續清代刑案證據鏈的形成奠定數據基礎,豐富清代刑案解讀的情境。
本研究的數據包括清代刑案案件、刑案參照案件以及大清律例,數據來源主要包括《刑案匯覽》《欽定大清會典事例》等。在數據提取過程中,由于《刑案匯覽》中對刑案案件的記載具有一定的規范性和模板性,因此,在數據抽取過程中可以采取基于模板的抽取方法,并加以人工方式進行輔助。同時,大清律例層次清晰,結構嚴謹,因此在數據抽取過程中可以以基于規則的抽取方法為主,以人工方式為輔,人機協調,能夠在一定程度上提高知識抽取的精確度和查全率。
2.3語義描述層
語義描述層是厚數據驅動的清代刑案融合圖譜構建的重要環節,本部分主要完成數據的描述、序化,并構建清代刑案案件、清代刑案參照案件、大清律例3類可視化圖譜的本體。在本體模型的構建過程中,先查找可復用本體,如果有可復用本體則可以直接利用,如果沒有可復用本體,則需要依據一定的規則手工建立本體。在自建本體的過程中,需要先對元數據進行抽取,并進行關系屬性的梳理。已經構建的本體模型可以選取部分數據進行實例展示。
具體而言,首先,以清代刑案案件為核心,進行事件情節、人物、事件、地點、類型等實體、關系及屬性的界定,結合可復用本體,實現清代刑案案件事理圖譜本體模型的構建;其次,對清代刑案參照案件數據中涉及的參照案件、案件、事件、地點等實體、關系及屬性進行標準化處理,構建清代刑案參照案件知識圖譜的本體模型;最后,通過對大清律例的梳理,定義語義實體、語義關系、層次實體以及層次關系,構建基于大清律例的元知識網絡本體模型。
根據已經建立的清代刑案檔案文獻資源融合圖譜本體模型,采取合適的方式從3類數據源中進行實體、關系、屬性的抽取,并建立實例與本體模型的映射,既可以檢驗本體模型的可行性和準確性,對發現的問題及時進行糾正和完善,又可以為后續的數據統一管理提供便利。
2.4語義融合層
語義融合的目的是指通過實體消歧、實體鏈接等操作實現多源異構數據的規范化、統一化,解決可能存在的實體沖突、語義沖突等問題。為了后續融合圖譜的構建,需要從概念層、本體層、知識網層對本研究中3個圖譜對應的本體模型進行融合,實現多源異構數據的關聯以及語義檢索的精準性、全面性。
本研究旨在還原清代刑案案件審理的具體歷史場景。其中,事理圖譜以清代刑案案件數據為數據源,目的是呈現清代刑案案件的邏輯關系和演化過程,清代刑案案件數據是案件審理時無明確律例可依、存在爭議的案件,事理圖譜不僅能夠將刑案案件相關的人物、時間、地點等因素展示出來,還可以呈現清代刑案案件的起因、情節等動態演變過程以及邏輯關系:知識圖譜則以清代刑案參照案件為數據源,目的是將清代刑案參照案件的相關因素以及因素間關系描述出來,清代刑案參照案件是案件審理時已經辦理過的成案,為清代刑案案件的審判提供主要的經驗性依據,知識圖譜能夠詳細展示清代刑案參照案件相關的人物、時間、處罰等全部因素:元知識網絡以大清律例為數據源,在無可直接借鑒的參照案件時,大清律例為清代刑案案件的審理提供輔助的客觀依據,具有結構嚴謹、層次鮮明的特征,元知識網絡能夠將文檔結構等異質性數據融人,強化大清律例的層次結構。因此,本研究選擇以上3種可視化圖譜進行融合。
清代刑案參照案件數據涉及社會背景、人物背景等大量不可量化的數據,在清代刑案案件事理圖譜的運行過程中,清代刑案參照案件數據借助厚數據分析方法提供的質性分析途徑,為清代刑案事理圖譜提供主要情境數據和參考依據。若未查詢到可直接依據的清代刑案參照案件,大清律例則可通過大數據分析方法為清代刑案案件事理圖譜的運行提供客觀依據,同時,大清律例也是對融合圖譜情境數據的補充。依據清代刑案案件事理圖譜、清代刑案參照案件知識圖譜以及大清律例元知識網絡之間的作用關系,從概念層、本體層、知識網3個層面進行逐步融合,最終構建清代刑案融合圖譜的本體模型。語義融合層能夠將多源數據進行有機融合,實現多源數據的規范性和統一性知識表達,確保融合圖譜構建的準確性。
2.5圖譜生成層
知識需要通過存儲,增加知識的可讀性,提供高速、高并發的查詢,使數據資源得到更高效的利用。圖譜生成層是厚數據驅動的清代刑案融合圖譜的實現層,其主要任務是將清代刑案中蘊含的知識以直觀、清晰的方式呈現,為后續知識挖掘以及知識發現奠定基礎。
圖譜存儲工具可以劃分為關系型數據庫和非關系型數據庫,圖數據庫是關系型數據庫的典型代表,因其較高的靈活性和兼容性受到學者的廣泛應用。當前常用的圖數據庫有Ne04j、OrientDB等多種。本研究選用擴展性較強、具有跨系統操作潛能的Ne04j圖數據庫。首先,在整理好的清代刑案中進行實體、屬性及關系的抽取,并進行知識融合操作,之后將抽取出的數據以三元組的形式進行存儲,結合已經構建的本體模型實現本體和Ne04j圖數據庫的映射,最終將研究數據引入,實現厚數據驅動的清代刑案融合圖譜的可視化展示。
3厚數據驅動的清代刑案融合圖譜的實現機理
3.1融合圖譜的結構要素及關系分析
厚數據驅動的清代刑案融合圖譜的實現不僅需要對結構要素進行融合探究,還需要對結構要素之間的關系進行深入剖析,要素之間相互作用,形成不斷演化和深入的知識組織體系,增加知識關聯的深度和廣度,在清代刑案融合圖譜的實現過程中充分發揮作用,具體如圖2所示。
3.1.1結構要素分析
清代刑案案件事理圖譜是清代刑案融合圖譜的核心內容,直觀、完整地呈現了清代刑案案件的發展過程以及動態特征,提供了清代刑案融合圖譜實現的主要驅動力:清代刑案參照案件是清代刑案案件審理的主要依據,借助厚數據分析方法,清代刑案參照案件能夠為清代刑案案件提供經驗性判據:大清律例則為清代刑案案件審理依據的補充,主要提供客觀的理論支撐。因此,清代刑案參照案件知識圖譜以及大清律例元知識網絡共同構成了清代刑案案件事理圖譜的可溯源證據,輔助清代刑案案件事理圖譜的運行。
3.1.2結構要素關系分析
循證理論指出實踐活動需要以相關證據為基礎,清代刑案參照案件知識圖譜以及大清律例元知識網絡,可以為清代刑案案件事理圖譜的運行分別提供經驗論據和客觀依據:清代刑案參照案件知識圖譜中的厚數據是清代刑案案件事理圖譜的首要證據源,為清代刑案案件事理圖譜的運行提供主要驅動力:大清律例元知識網絡能夠豐富清代刑案案件事理圖譜的可溯源證據,為清代刑案案件事理圖譜的運行提供輔助的客觀支持。清代刑案案件事理圖譜、清代刑案參照案件知識圖譜以及大清律例元知識網絡三者融通成為一個有機整體,清代刑案融合圖譜得以形成,呈現了以清代刑案案件事理圖譜為核心的完整證據鏈,在功能上滿足案件展示以及證據溯源等需求。
3.2融合圖譜實現的邏輯
通過對融合圖譜的結構要素及其關系進行分析,可以看出,清代刑案融合圖譜的實現需要三者協調配合,共同促進清代刑案資源的知識構建,但各結構要素之間的協同作用需要以理論方法為支撐。因此,本部分對融合圖譜構建過程中需要的理論方法及其具體作用進行分析,并以此為依據構建融合圖譜實現的邏輯框架,具體如圖3所示。
依據循證理論,清代刑案案件、清代刑案參照案件以及大清律例3種不同的數據實現了有機融合,提供清代刑案融合圖譜所需的數據源,但是3種數據在數據結構、研究目標等方面均存在差異,因此需要采用不同的方法進行知識表達。
相較于其他知識圖譜,事理圖譜不僅能夠展示清代刑案發生的全部細節,還可以展示清代刑案的動態演化過程,適合用于清代刑案案件的詮釋;知識圖譜則可以詳細展示清代刑案參照案件辦理的全部相關因素:元知識網絡將文檔結構等異質性知識融人,能夠使大清律例的層次關系更鮮明,邏輯關系更明確。據此,本研究構建了基于清代刑案案件的事理圖譜、基于清代刑案參照案件的知識圖譜以及基于大清律例的元知識網絡。
基于清代刑案案件的事理圖譜是清代刑案融合圖譜的核心內容,為清代刑案融合圖譜的實現提供關鍵節點數據,清代刑案參照案件知識圖譜是清代刑案案件事理圖譜運轉的主要依據,大清律例元知識網絡為清代刑案案件事理圖譜的運轉提供次要的輔助作用。清代刑案參照案件知識圖譜中的厚數據能夠為清代刑案案件事理圖譜的運轉提供可溯源的經驗論據,是清代刑案融合圖譜的主要情境要素;基于大清律例的元知識網絡則是清代刑案融合圖譜的補充性情境要素,輔助清代刑案案件事理圖譜的運轉,三者相互作用、協調運行,共同支持清代刑案融合圖譜的實現。
4厚數據驅動的清代刑案融合圖譜的實現
厚數據驅動的清代刑案融合圖譜的核心實現過程可以劃分為語義描述和語義融合兩個部分。
4.1語義描述
基于預處理后的清代刑案案件、清代刑案參照案件、大清律例3種相對規范的結構化文本數據,結合事理圖譜、知識圖譜、元知識網絡的理論方法進行核心概念的界定和提?。阂罁崛〕龅暮诵母拍罘謩e構建事理圖譜本體模型、知識圖譜本體模型、元知識網絡本體模型,實現3種數據的語義描述,凸顯不同的數據特征,具體的本體分類體系如表1~表3所示。
4.2語義融合
語義融合包含概念層、本體層以及知識網的融合3個部分。概念層的融合主要完成概念、關系以及屬性的統一,并形成有效的知識關聯,進而實現多源數據知識表示的統一,這也是本體層融合的基礎;本體層的融合旨在完成概念關系的合并與擴充,以及知識組織體系的唯一表達,形成規范的知識模式,為知識網絡的融合奠定基礎;知識網絡的融合是本體層與概念層融合的最終階段,目的是將建成的事理圖譜、知識圖譜以及元知識網絡進行融合,形成新的知識網絡,并基于新的知識網絡進行知識發現。
4.2.1概念層的融合
概念層的融合主要是對抽取的知識進行擴充,也就是將本體三元組擴充到構建的領域本體當中,主要包括概念的融合、概念上下位關系的融合、概念屬性定義的融合,在此過程中需要對實體間的相似度進行度量,具體如下:
1)大清律例條款的聚類。常用的聚類方法包括層次聚類、K-MEANS聚類等。在本研究中,層次聚類主要用于計算大清律例中各律例之間的相似度并劃分層次,從而形成樹形的聚類結構。以大清律例“強占良家妻女”為例,其下屬共包含7個法律條款,利用SPSS軟件,聚類方法選擇“組內聯接”,測量區間選擇“歐式距離”,最終可以得到兩個聚類,具體如圖4所示。
2)案件與參照案件之間的相似度計算。常用的相似度計算方法包括余弦相似度、Person相似度等。余弦相似度在本研究中被用于不同文檔以及不同可視化圖譜之間的語義相關度度量,不僅能夠減少數據冗余,提升融合圖譜構建的準確性,還可以減少孤立的節點,增加節點間的緊密程度以及融合圖譜的語義豐富性和層次性。例如,清代刑案案件中“李繼周等伙搶李貴買休之妻許氏已成”與清代刑案參照案件中“李繼周等伙搶李貴買休之婦許氏已成”的兩個節點,經調用Python中的Numpy庫,計算可得兩個節點余弦相似度約為0.86,可以認為兩個節點內容一致。
4.2.2本體層的融合
本體層的融合是概念層融合進一步的發展,在本研究中主要是指對刑案案件、刑案參照案件、大清律例進行本體抽取之后,進行實體消歧、共指消解、本體及關系的擴充等操作,主要目的是解決不同數據源中數據重復以及知識融合過程中產生新的屬性關系等問題。
在基于清代刑案案件的事理圖譜和基于清代刑案參照案件的知識圖譜中均涉及地點、人物名稱等實體,為了避免不同可視化圖譜中的同一實體帶來的困擾,需要通過實體消歧來確保實體的唯一性。實體消歧是融合多個來源數據時用于將重復信息進行刪除的有效方法。本研究在融合圖譜構建過程中,可能存在同一實體出現在多個數據源或者可視化圖譜中的情況,為避免造成數據的冗余或者混亂,需要進行實體消歧。如事理圖譜和知識圖譜均存在時間節點“嘉慶二十一年”,在具體過程中,為避免不同圖譜中存在時間、地點等相同節點造成的數據冗余等問題,僅保留1個實體即可,具體如圖5所示。
此外,在清代刑案案件數據以及清代刑案參照案件數據中均存在時間、地點、案件名稱等類型的實體,對于同一時間、地點、案件名稱等實體在不同數據集中可能存在不同名稱的問題,需要通過共指消解解決同一實體不同名稱的問題,確保本體模型的準確度,具體示例如表4所示。
清代刑案參照案件是清代刑案的經驗參考,大清律例是清代刑案的理論依據,在進行融合時不可避免需要建立新的關系,將清代刑案與清代刑案參照案件以及大清律例進行鏈接。本體及關系的擴充是為了解決3個不同的可視化圖譜在融合過程中產生的新的邏輯關系或者語義關系,以此確保知識圖譜融合的準確性,如在3種可視化圖譜融合的過程中,清代刑案案件名稱以及具體的清代刑案參照案件名稱之間需要新增“參照案件”這一新的關系,具體的清代刑案案件名稱以及具體的大清律例條款之間也應新增“應參考律例”這一新的關系,具體如圖6所示。
經過概念層以及本體層的融合,原先繁復的知識轉化為相對規范的形式,并以領域知識的形式存儲在數據庫之中。
4.2.3知識網絡的融合
知識網絡(Knowledge Network,KN)是由知識節點或知識元素與知識關聯構成的一種網狀結構,能夠結構化地展示實體間的關系。知識網絡是可視化圖譜的構建依據,在研究中,知識網絡的融合就是將事理圖譜、知識圖譜、元知識網絡3種可視化圖譜的知識網絡進行融合,并形成新的知識網絡,同時基于新的知識網絡構建融合圖譜。
數據、詳盡描述和背景文化等環境信息共同構成了厚數據分析的研究基礎。在本研究中,刑案案件數據能夠詳細地還原案件的全貌,例如,事件的時間、地點、起因、結果等具體信息,刑案參照案件是已經辦理的具體案件,能夠為刑案案件的處理提供經驗性論據,而大清律例則為刑案案件的處理提供科學依據?;?種不同的數據以及不同的階段性研究目標,本研究構建了3種不同的知識網絡。為了實現清代刑案的系統性研究,本研究以循證理論為紐帶,將3種圖譜的知識網絡進行融合,通過概念層和本體層的融合形成新的知識網絡,為清代刑案融合圖譜的構建提供依據。
4.3融合圖譜示例——以戶部刑案為例
為驗證本研究提出的厚數據驅動的清代刑案融合圖譜構建方法的有效性和可行性,本部分以戶部為例,構建厚數據驅動的清代戶部刑案融合圖譜。由于戶部案件數量在可控制范圍內,而且清代戶部刑案數據與現在文本的語義內容、語法結構等都存在很大差距,為確保知識抽取的準確率和完備性,本研究采取人工抽取的方式進行知識抽取,并以RDF三元組的形式進行存儲,最后借助Ne04j圖數據庫進行融合圖譜的可視化展示,具體如圖7所示。
相較于普通知識圖譜,本研究構建的清代戶部刑案融合圖譜不僅可以實現清代戶部刑案的系統性檢索(包括案件、參照案件、大清律例),如圖8所示,還可以實現刑案類型(圖8(a))、在相同地點或者相同時間發生的案件(圖8(b)和圖8(c))等單一維度的檢索。本研究構建的清代刑案融合圖譜能夠實現不同維度清代刑案知識的聚合與鏈接,形成以清代刑案為核心的完整敘事鏈條,豐富清代刑案研究的情境要素,提升清代刑案資源的可讀性和可信度,使得基于厚數據驅動的清代刑案融合圖譜的知識發現更有說服力。
本研究借助厚數據分析方法,以循證理論為指導,依據清代刑案各部分內容特點以及各階段的研究目標,對清代刑案數據進行知識化和結構化處理,構建厚數據驅動的清代刑案融合圖譜,以清代刑案為敘事核心,以清代刑案參照案件以及大清律例為敘事情境,形成以清代刑案為中心的敘事網狀結構,不僅更鮮明、直觀地呈現整個事件的發展概況,同時提供案件解讀的依據和推理過程,增加清代刑案知識傳遞的可信度和可溯源性。
5結語
明清時期的歷史典籍是對縱跨數百年的各主體的實踐活動的記錄,書寫材料和文字豐富,形制精美,文種多樣,具有價值獨特性、原始記錄性以及真實性。清代刑案詳細記載了清代時期與刑案發生相關的各類因素,包含豐富的事件、實體和關系,以及案件判定的經驗性論據和理論論據等,為本研究構建厚數據驅動的清代刑案融合圖譜提供了數據基礎。本研究結合清代刑案各維度數據特征,選取合適的技術和方法,以循證理論為紐帶,融合大數據和厚數據,將3個不同類型的可視化圖譜進行融合,提出厚數據驅動的清代刑案融合圖譜的構建方法,并以戶部刑案為例,驗證所提方法的有效性和可行性,為清代刑案的研究提供新的思路,有助于清代刑案的細粒度和具象化開發,同時也為數據敘事研究范式的創新發展提供參考,為國家文化大數據體系的構建助力。但是本研究提出的厚數據驅動的清代刑案融合圖譜只考慮了文本數據一種模態,沒有考慮圖片、視頻等其他模態的數據信息。因此,在今后的研究中,應該加強多模態、跨模態清代刑案數據的開發和利用,實現多模態、跨模態清代刑案的知識發現和知識推薦。