廖開明 施曉圓 王建剛
甘肅開放大學
隨著數字技術的發展,知識圖譜已經成為文化遺產數字化保護的重要手段之一。知識圖譜是一種用于表示和存儲知識的圖形化模型,可以將文化遺產的相關信息進行整合和歸納,為文化遺產的保護和傳承提供有力的支持。甘南地處青藏高原,是中國重要的藏族文化區域之一,具有豐富多彩的非遺。甘南藏族非遺的數字化構建可以幫助我們更好地理解和研究甘南藏族非遺的內涵和外延,為保護和傳承甘南藏族非遺提供有力的支持。
本文旨在探索甘南藏族非遺知識圖譜數字化構建的方法和技術,通過實踐探索,總結出適合甘南藏族非遺文化的數字化構建模式和經驗,為甘南藏族非遺的保護和傳承提供有力的支持。
本研究主要包括以下內容:
1.甘南藏族非遺知識圖譜數據的獲取方法和技術。
2.甘南藏族非遺知識圖譜中實體的識別方法和技術。
3.甘南藏族非遺知識圖譜中知識的表示方法和技術。
4.甘南藏族非遺知識圖譜的存儲架構和技術。
5.甘南藏族非遺知識圖譜數字化構建的應用與發展。
為了更好地保護、傳承和利用甘南藏族非遺,提高其價值和影響力,采用知識圖譜技術進行數字化構建是一種重要的方法。下面將探討甘南藏族非遺知識圖譜的數字化構建方法,包括數據獲取、實體識別、關系抽取、知識表示、存儲架構、數字化構建的應用與發展等方面的內容。
1.數據來源
(1)文獻資料:通過查閱相關文獻和資料,了解甘南藏族非遺的歷史、發展、分類、特點等基本信息。以“甘南藏族”“非物質文化遺產”“知識圖譜”為關鍵詞在CNKI 數據庫中共交叉檢索出相關文獻88 篇。從甘南州文化館、甘南州圖書館等收集相關圖書資料12 本,各類文件、資料156 頁。
(2)田野調查:通過實地走訪和觀察,收集第一手資料,了解甘南藏族非遺在現實生活中的表現、傳承方式、使用場景等信息。發放問卷80 份,收回78 份。專家訪談21 人。
(3)傳承人口述:通過采訪甘南藏族非遺的傳承人,了解非遺的制作工藝、傳承方式、歷史淵源等信息。走訪國家級非遺傳承人13 人,收集文字資料120 頁。
(4)數字化技術:在文獻查詢、田野調查和傳承人走訪的基礎上,通過數字化技術手段,將甘南藏族非遺的文字、圖片、視頻等數據進行采集和處理,形成數字化資源庫,便于后續的數據分析和知識圖譜構建。
(5)社交媒體和網絡資源:通過社交媒體和網絡資源,獲取甘南藏族非遺的相關信息,包括傳承人的動態、非遺項目的相關新聞和事件等。
2.數據獲取方法
(1)數據采集:通過田野調查、傳承人口述、文獻資料、數字化技術、社交媒體和網絡資源等多種渠道,收集與甘南藏族非遺有關的數據。
(2)數據清洗和處理:對采集到的數據進行清洗和處理,去除重復、無效、錯誤的數據,確保數據的準確性和完整性。
(3)知識抽取:從清洗和處理后的數據中提取有用的信息,包括非遺項目的名稱、分類、特點、歷史淵源、傳承方式、使用場景等,以及傳承人的基本信息、動態等。
(4)知識表示和學習:利用知識表示和學習算法,將抽取出的知識轉化為計算機可理解的形式,構建甘南藏族非遺知識圖譜。
(5)知識存儲和查詢:將構建好的知識圖譜存儲在數據庫中,并設計相應的查詢接口,方便用戶進行查詢和使用。
(6)知識更新和維護:定期對知識圖譜進行更新和維護,以保證其準確性和完整性。
實體識別是知識圖譜構建的第一步,其目的是從文本數據中識別出相關實體,包括名稱、簡介、特點、傳承人、非遺級別、類別、內容、地點、時間、保護措施等。針對甘南藏族非遺的實體識別,可以采用基于規則和機器學習的方法。
1.基于規則的實體識別
基于規則的實體識別方法是指通過一些預先定義的規則來識別文本中的實體。通過人工閱讀文本資料,確定出關鍵詞和實體的上下文特征,再根據這些特征定義規則,最后使用規則匹配的方式進行實體識別。這種方法的優點是可以快速、準確地識別實體,但其缺點是需要耗費大量人力來定義規則,而且對于不同的領域、不同的語言,規則也需要有不同的定義。
2.基于機器學習的實體識別
基于機器學習的實體識別方法是利用已有的標注數據進行訓練,得到實體識別模型,再用該模型對新的文本數據進行實體識別。這種方法的優點在于可以自動學習特征,不需要專業人員進行規則的定義和維護。對于甘南藏族非遺采用超星知識圖譜工具進行實體的識別與抽取。實體主要包含五種要素:類別、屬性、函數、關系、實例。
在本文中,我們采用基于正則表達式的方式來定義實體識別規則。正則表達式是一種用來描述字符串模式的語言,可以更方便地匹配文本中的實體。我們根據甘南藏族非遺相關文本的特點,定義了一系列正則表達式規則,如下所示:
文化遺產項目:我們使用了包含“傳統技藝”“傳統工藝”“傳統文化”“非物質文化遺產”等關鍵詞的正則表達式,來識別文化遺產項目實體。
傳承人:我們使用了包含“傳承人”“傳承者”等關鍵詞的正則表達式,來識別傳承人實體。
應用Spacy 自然語言模型,識別自然語句,將所得到的文本進行實體識別,下面以甘南唐卡片段為例:
首先加載Spacy 模型,定義抽取函數,定義測試文本為“甘南藏族非遺包括唐卡、藏戲、泥塑等項目。其中,甘南唐卡是具有代表性的藝術品之一。甘南唐卡通常由天然顏料繪制,如礦物顏料和植物顏料。甘南唐卡在繪制工藝上具有的特點,如色彩鮮艷、圖案精美等”。調用抽取函數,獲取實體知識點。
運行程序,輸出結果:' 甘南藏族非遺',' 唐卡','藏戲', '泥塑', '甘南唐卡', '礦物顏料', '植物顏料'。
關系抽取是知識圖譜構建的關鍵步驟之一,其目的是從文本數據中抽取實體之間的關系,包括層次關系、屬性關系和實體關系等。針對甘南藏族非遺的關系抽取,可以采用基于規則和基于機器學習的方法。
1.基于規則的關系抽取
基于規則的關系抽取方法是利用一系列人工定義的規則來抽取實體之間的關系。這種方法的優點在于準確率高,需要專業人員進行規則的定義和維護。
2.實體屬性定義和關系建立
在實體屬性定義方面,需要對每個實體進行屬性的定義,包括實體的名稱、簡介、傳承人、地點、時間、特點、保護措施等屬性。這些屬性可以根據實際情況進行調整和修改。
在關系建立方面,需要定義不同實體之間的關系,以便形成知識圖譜的結構。
以下代碼在描述概念與概念之間、關系與關系之間用到了散點圖的方式。在知識圖譜中,概念和關系是知識圖譜的核心元素。概念通常代表一個實體,而關系則描述了這些實體之間的關系。首先定義了一些概念(concepts),然后定義了一些關系(relationships)。這些關系是連接兩個概念之間的關系。
例如,在relationships 中定義了('甘南藏族非遺','唐卡'),這意味著甘南藏族非遺和唐卡之間存在某種關系。在知識圖譜中,這種關系可以是父子關系、兄弟關系、同類型關系等,具體的關系需要根據實際情況來確定。然后,這段代碼使用matplotlib 庫繪制了一個散點圖,表示了x 和y 之間的關系。在知識圖譜中,這種散點圖可以用來表示概念之間的關系。例如,如果x 和y 分別代表兩個概念,那么散點圖上的點就表示這兩個概念之間的關系。
最后,這段代碼還使用了matplotlib 庫的xlabel,ylabel,title 等函數來為圖形添加標簽和標題。這些標簽和標題可以幫助用戶更好地理解圖形所表達的含義。本代碼在描述概念與概念之間、關系與關系之間用到了散點圖的方式,這有助于更好地理解知識圖譜中的概念和關系。
我們定義概念和關系。定義概念為(concepts)= '甘南藏族非遺', '唐卡', '藏戲', '泥塑', '甘南唐卡', '礦物顏料','植物顏料'。得到關系('甘南藏族非遺', '唐卡'),('甘南藏族非遺', '藏戲'),('甘南藏族非遺', '泥塑'),('唐卡', '礦物顏料'),('唐卡','植物顏料'),('藏戲', '甘南唐卡'),('泥塑', '甘南唐卡')。
根據上述描述,以唐卡為實體節點,經過數據清洗后,可以建立以下實體間的關系:
唐卡—繪畫藝術:唐卡是一種繪畫藝術,因此它與繪畫藝術之間存在一種類型關系。
唐卡—天然顏料:唐卡通常由天然顏料繪制而成,因此它與天然顏料之間存在一種使用關系。
唐卡—礦物顏料:唐卡使用的顏料包括礦物顏料,因此它與礦物顏料之間存在一種包含關系。
唐卡—植物顏料:唐卡使用的顏料還包括植物顏料,因此它與植物顏料之間也存在一種包含關系。
唐卡—甘南藏族文化:唐卡是甘南藏族文化的重要組成部分,因此它與甘南藏族文化之間存在一種文化關系。
唐卡—非遺:唐卡是非遺的重要代表之一,因此它與非遺之間存在一種代表關系。
知識圖譜可視化展示是將知識圖譜以圖形的形式展示出來,方便用戶進行直觀的瀏覽和查詢。在甘南藏族非遺知識圖譜的可視化展示方面,采用萬方知識圖譜工具,通過調整節點大小、顏色、標簽等方式,呈現出直觀美觀的知識圖譜。
本文通過構建甘南藏族非物質文化遺產知識圖譜,探索了非遺數字化構建的方法和技術,并分析了在數字化構建中所面臨的問題和挑戰。通過本文的研究,我們得出了以下結論:
1.知識圖譜構建是非遺數字化構建的有效方法。通過知識圖譜的構建,可以將非遺多樣化、復雜化的知識和文化信息進行有效的整合和管理,為非遺傳承、保護和傳播提供了新的思路和方法。
2.甘南藏族非遺具有豐富多樣的文化內涵和歷史價值。通過知識圖譜的構建,可以更好地展示和傳承這些文化遺產的內涵和價值,促進其保護和傳承。
3.知識圖譜構建過程中需要克服的問題和挑戰包括數據來源、實體識別、關系抽取、知識表示和知識存儲等方面。未來需要通過更加先進的技術手段來解決這些問題,實現知識圖譜構建的高效性和可靠性。
基于以上結論,未來可從以下幾個方面展開研究:
1.加強非物質文化遺產數字化保護和傳承的研究。未來可以通過更加先進的技術手段來實現非物質文化遺產數字化保護和傳承,以更好地推動非遺的傳承和發展。
2.探索知識圖譜在其他領域的應用。知識圖譜不僅可以用于非遺數字化構建,還可以用于其他領域的知識管理和應用。未來可以通過跨學科的研究,推動知識圖譜在更多領域的應用。
3.加強對非遺數字化構建相關問題的研究。未來需要進一步研究非遺數字化構建過程中所面臨的問題和挑戰,并探索解決這些問題的方法和技術,以更好地推動非遺數字化構建的發展。
本文的研究為甘南藏族非遺數字化構建提供了一定的思路和方法,但也存在一些局限性。未來需要更多的學者投身于非遺數字化構建的研究中,不斷拓展研究領域,探索更加有效的研究方法和技術,為非遺的保護和傳承貢獻力量。