999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

少林文化大數據平臺關鍵技術研究

2022-07-14 09:49:01張麗娟張富
檔案與建設 2022年6期

張麗娟 張富

摘 要:少林文化大數據主要包括文化原生數據和文化衍生數據。利用相關關鍵技術,將文化原生數據轉換為文化衍生數據是弘揚少林文化、挖掘少林文化人文內涵的必要支撐,是少林文化大數據平臺實現技術經度和文化緯度交織融合的重要紐帶。文章在詳細剖析少林文化大數據的多維度多屬性特征基礎上,對自然語言處理、全文檢索、可視化引擎相關關鍵技術問題進行了探討,創新了具有少林文化屬性的相關技術應用,以期為相關研究提供借鑒。

關鍵詞:少林文化;文化大數據;數字人文;人文GIS

分類號:G270

Research on Key Technologies of Shaolin Culture Big Data Platform

Zhang Lijuan1 ,Zhang Fu2

( 1.School of Electrical Engineering and Automation of Luoyang Institute of Science and Technology, Luoyang, Henan 471023; 2.School of Surveying, Mapping and Geographic Information of North China University of Water Resources and Electric Power, Zhengzhou, Henan 450046 )

Abstract: Shaolin culture big data mainly includes cultural native data and cultural derived data. Using related key technologies to convert cultural native data into cultural derived data is the necessary support for promoting Shaolin culture and mining the humanistic connotation of Shaolin culture, and it is also an important link for the Shaolin culture big data platform to realize the interweaving and integration of technical longitude and cultural latitude. Based on the detailed analysis of the multi-dimensional and multi-attribute characteristics of Shaolin cultural big data, this paper discusses the key technical issues related to natural language processing, full-text retrieval and visualization engine, and innovates the application of relevant technologies with Shaolin cultural attribute, in order to provide reference for relevant research.

Keywords: Shaolin culture; Cultural Big-Data; Digital Humanities; Humanistic GIS

少林文化孕育千年、底蘊深厚,是中國優秀傳統文化的典型代表。2020年10月,中國嵩山少林寺召開了“檔案與少林文化大數據”論壇,開始以少林檔案工作為先導,探索少林文化大數據的發展路徑,并于次年通過了《少林文化大數據平臺建設方案》。

隨著平臺建設的持續推進,少林文化大數據已由單一少林檔案資源,拓展延伸至更為多樣、海量、分散、動態的更具廣泛意義的數據資產,少林文化大數據平臺將全面打造新時代少林文化發展的生產要素,夯實延續少林千年輝煌的基石。本文在少林文化大數據特性基礎上,分析少林文化大數據平臺技術框架及關鍵技術問題,以期為包含檔案在內的文化大數據建設與領域應用提供參考。

1 少林文化大數據的數據來源和分類

1.1 數據來源

少林寺藏檔案資源主要包括:文書檔案4萬余件,藏經閣圖書5萬余種、30萬余冊。包含北齊至明清時期拓片近萬件,古籍3萬多冊,其中善本近6千種2萬余冊。現代圖書約4萬種,大藏經20多種,武術典籍10多種,禪醫藥典籍3萬余卷。電子檔案資料數萬件,內容超過100T容量。據不完全統計,尚未收集整理的資料保守估計還有上百萬件,其中,實物檔案碑刻塔銘247種,各類塑像、壁畫、鐘鼓、石獅、匾額等關鍵附屬物約1200項。

少林寺歷史上飽經戰亂,諸多歷史資料留散民間,許多歷史資料至今仍然留存在海外,因此,國內外資料庫有關少林歷史的資料也是少林文化數據的主要來源之一。目前,僅對國內資源庫進行篩選,初步統計出大約10萬冊/卷/個/通。

伴隨少林文化大數據平臺的日漸完善,其數據來源也從以寺藏檔案資源為主擴展為泛檔案化的信息資源聚合,初步測算,平臺一期建成后預計數據量將達1.4PB,之后年自產數據量將達到0.8PB-1PB/年。

1.2 數據分類

少林文化大數據依據其產生方式不同可分為:少林文化原生數據和少林文化衍生數據。其中,少林文化原生數據是在少林寺歷史發展與實踐中,以自然的方式直接或間接產生的基礎原始數據,是少林文化大數據整合管理、開放共享、價值挖掘、知識發現的必要支撐。按照其承載的信息屬性不同,又可分為:少林文化內容數據和少林文化行為數據。少林文化衍生數據是在少林文化原生數據的基礎上,依托大數據處理技術對原始數據的屬性、結構、功能、關聯性等進行分析和加工所催生的新的、具有一定認知理解的其他文化數據類型,是推動文化大數據開發利用與技術發展的內在動力。按照其呈現場景不同,又可分為:少林文化時空數據和少林文化知識數據(如表1所示)。

2 少林文化數據的“多維度多屬性”特征

在梳理少林文化數據資源的過程中,筆者發現越久遠的歷史資料越具有獨特的文化屬性,而這些數據往往又在專業和時間維度上具有明顯的不連續性。如果把“時間、專業、類別”劃分為三空間維度,任何一種數據資源至少同時具有三個維度的多屬性特征(如圖1所示)。

比如:“三教九流石碑”碑刻時間是嘉靖四十四年(1565年),但在文化時間維度上可追溯到一百多年前的明朝成化皇帝;專業維度上又具有宗教、哲學和藝術等屬性;在少林文化類別維度上又屬于禪和藝等。

少林文化數據從單一維度很難完整地詮釋少林文化內涵。首先,在時間維度上,分散的各專業資料不僅連續性、完整性不夠,而且數據產生的“時間點”與其代表文化主題的時間跨度無法依據時間屬性直接關聯對應。這種時間維度特點,還直接導致數據以多種語言形式存在。其次,在專業維度上,少林文化涉及宗教、武術、建筑、書畫藝術、醫學、歷史和外交等多個領域,而且同一文化主題涉及的領域之間又交叉融合,數據的專業歸屬相對比較模糊。再次,在少林文化類別維度上,“禪、武、醫、藝”并非孤立存在,其深層的思想邏輯、文化內涵相輔相成,密不可分,數據與這種表象分類存在“多對多”的關聯關系。

因此,少林文化數據這種多維度多屬性特征,決定了從數據采集到價值挖掘,都需要依賴多種專業的高度融合,甚至還需要從時間、地點、人物、事件、事物、現象、場景中尋求碎片數據之間的隱含關聯性,以此相互印證、彼此粘連。這種典型的文化數據特征對大數據技術再一次提出了新的挑戰。

3 少林文化大數據平臺技術框架

少林文化大數據平臺是大數據技術經度和少林文化緯度相互交織的表現,試圖確保在不同應用場景之間,呈現出一個覆蓋全要素、全過程、全周期的“經緯圖”。在具有普適性大數據平臺基本功能的同時,需顧及少林文化數據特征,并滿足少林數據資產開發與利用、禪宗文化傳承與傳播、少林知識研究與發展、少林寺務管理與決策的四大需求。平臺的核心層為數據層、邏輯層、應用層,每層設計思想如表2所示。

4 少林文化大數據平臺關鍵技術

在少林文化大數據平臺建設過程中,不僅需要借用大數據相關技術,還需要充分顧及少林文化數據的獨特性。本文主要從文化大數據語義解析、數據檢索查詢和文化時空化呈現三個方面,對涉及的自然語言處理(Natural Language Processing,NLP)、全文檢索引擎、文化時空可視化技術進行闡述。

4.1 自然語言處理技術

自然語言處理(NLP)是對自然語言信息進行處理的技術[1-2],主要實現人機間自然語言交流[3],包含自然語言理解和自然語言生成兩個層面[4-5],二者互為逆過程。[6]

通常情況下,NLP分為五個步驟:①獲取自然語言語料數據。②數據預處理。主要進行數據清洗、謂語分詞、詞性標注等工作。③語言規則性表達。一種是基于傳統的自然語言處理建模,對語料數據結構化拆解與表達。另一種是基于神經網絡的深度學習建模。④模型訓練,可根據語料語種、語法特征、禁止約束規則等選擇樣本進行模型訓練。⑤結果評價。常用的評測指標有準確率、召回率、綜合評價指標等。

少林文化數據歷史跨度大,數據資料存在文字多樣(古文字、繁體、梵語等)、標點缺失(碑刻、古籍尤其突出)兩大問題。因此,無法直接使用NLP進行語義解析,而需要在上述第②、③步驟進行優化補充。

針對文字多樣問題,平臺采用多字庫自增量動態補充技術,統一轉為現代字詞庫,并由現代字詞庫映射到現代語義庫。初始狀態下,錄入各種詞典常用字(詞)數據作為多字庫基礎數據。后期根據語言模型,進行反復訓練,以此增補維護多字庫和現代語義庫。

針對標點缺失問題,主要基于現代研究成果,結合自學習算法進行處理。事實上,標點缺失與文字多樣問題密不可分,二者需要相互交叉處理,初始狀態需采用人工干預方式進行。

4.2 全文檢索技術

全文檢索技術是基于檢索資料的內容而非僅基于外表特征的一種檢索技術。少林文化衍生數據主要是加工處理后的數據,通常存儲在數據庫中,其檢索方式可以采用數據庫檢索方式。對少林文化原生數據實現全文檢索是本文討論的重點,經研究發現,少林文化原生數據最終都可以轉換為文本和圖片兩種表達形式(轉換路徑如表3所示)。

(1)基于文本數據檢索

針對文本類數據,全文檢索的實現過程可描述為:使用索引程序檢索文本資料中的每一個詞,對每一個詞建立一個索引(指明該詞在文中出現的次數和位置),當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找結果及其關聯的源資料內容一并反饋給用戶。因此,基于文本的全文檢索技術包括兩大核心內容:索引處理和查詢處理。[7-8]

建立索引的目的是減少后續查詢的平均耗時,但需要增加時間復雜度和空間復雜度。索引建立后,基于索引模型保存索引庫,索引模型通常分為正排索引和倒排索引兩類。如今,建立索引的算法模型已經比較成熟,本文不再贅述。

查詢處理是在索引建立之后完成。實際上針對大數據海量數據而言,傳統的檢索很難快速從數據集中查找到所需要的信息[9],目前較為常用的是模糊匹配查詢技術,如:動態規劃字符串匹配[10]、自動機模糊匹配。[11]

值得說明的是:少林文化大數據平臺針對文本全文檢索時,顧及文字多樣性問題,需從原始文本庫和現代語義庫中同時檢索,以彌補傳統文本全文檢索的不足。

(2)基于圖片數據檢索

少林文化大數據平臺提供文化圖形元素基因的檢索功能,因此,針對圖片數據實現檢索時,需要采用兩種技術:基于內容描述的圖片檢索和基于樣本的圖片匹配檢索。其中,前者是一種基于文本(語義)特征(如關鍵字、注釋等)的圖像檢索方法,可以理解為文本信息檢索技術在圖像檢索中應用擴展。[12]后者是一種基于視覺特征(如顏色、布局、紋理、形狀和結構等)的圖像檢索方法,也常稱為基于內容的圖像檢索技術。[13]

4.3 可視化引擎

可視化技術主要將可見、不可見或抽象的事物,采用符號、圖形、圖像、視頻等多種可視形式清晰直觀地呈現技術。從來源類型上可分為數據呈現和信息呈現兩種,前者主要針對數據本身進行可視呈現,而后者主要針對數據所承載的信息進行可視呈現,包括常用的空間信息可視化、地理空間信息可視化、時空信息可視化、地理時空信息可視化等。

從呈現形式上,可視化技術涵蓋包括:地理地圖可視化、文本可視化、多維數據可視化、動態時序可視化、網絡圖可視化和時空數據可視化。

如上所述,少林文化數據存在明顯的多維度多屬性特征,少林文化主線很難從某個單一維度進行可視化呈現,因此,少林文化大數據平臺面向不同文化主線的描述形式,采用不同的可視形式。本文把少林文化主線的描述形式歸納為五種(如表4所示)。

5 結 語

少林文化集禪修、功夫、禪醫等多種文化元素于一身,具有跨宗教、跨種族、跨國界、跨文化的特色,使得少林文化大數據在數據來源、結構特點等方面也有獨特的技術需求。少林文化大數據平臺作為少林文化價值的挖掘研究、作為傳播弘揚少林文化內涵的重要載體,在融合大數據通用技術基礎上,創新了具有少林文化屬性的相關技術,對同類型屬性的文化大數據研究具有借鑒意義。

*本文系國家社科基金一般項目“國家大數據戰略背景下檔案數據治理體系構建研究”(項目編號:19BTQ097)階段性研究成果。

注釋與參考文獻

[1]劉小安,賈杉杉,彭濤.卷積神經網絡在自然語言處理中的應用研究綜述[C]//.中國計算機用戶協會網絡應用分會2017年第二十一屆網絡新技術與應用年會論文集.《計算機科學》編輯部(Editorial Board of Computer Science),2017:31-34,49.

[2][4]趙京勝,宋夢雪,高祥.自然語言處理發展及應用綜述[J].信息技術與信息化,2019(7):142-145.

[3]羅梟.基于深度學習的自然語言處理研究綜述[J].智能計算機與應用,2020(4):133-137.

[5]李宜哲,王帥丁.自然語言處理的發展及應用前景綜述[J].IT經理世界,2020(5):210-211.

[6]Allen, J.自然語言理解 第2版[M].劉群,張華平,駱衛華,等譯.北京:電子工業出版社,2005:3-9.

[7]孫芳媛.基于倒排索引和字典樹的站內搜索引擎的設計與實現[D].哈爾濱:哈爾濱工業大學,2016:5-6.

[8]楊文清,黃宜華,張福炎.中文Web文檔庫全文檢索技術研究與實現[J].中文信息學報,1999(4):50-57.

[9]王靜帆,鄔曉鈞,夏云慶等.中文信息檢索系統的模糊匹配算法研究和實現[J].中文信息學報,2007(6):59-64.

[10]Ukkonen E. Algorithms for approximate string matching[J].Information and control,1985(1):100-118.

[11]Ukkonen E. Finding approximate patterns in strings[J]. Journal of Algorithms,1985(1):132-137.

[12]錢紀初.基于內容的圖片檢索研究[D].杭州:浙江工業大學,2007:2.

[13]杭燕,楊育彬,陳兆乾.基于內容的圖像檢索綜述[J].計算機應用研究,2002(9):9-13,29.

主站蜘蛛池模板: 亚洲无码熟妇人妻AV在线| 欧美亚洲欧美区| 亚洲人在线| 一级毛片免费播放视频| 中文字幕乱妇无码AV在线| 国产亚洲欧美另类一区二区| 亚洲AV一二三区无码AV蜜桃| 国产欧美日韩综合在线第一| 性欧美精品xxxx| 综合五月天网| 国产原创第一页在线观看| 久久精品最新免费国产成人| 久久国产精品嫖妓| 伊人AV天堂| 日韩无码白| 亚洲欧洲日产无码AV| 亚洲国产成熟视频在线多多| 91口爆吞精国产对白第三集 | 欧美亚洲中文精品三区| 国产精品一区二区不卡的视频| 伊大人香蕉久久网欧美| 日韩在线视频网| 免费看美女毛片| 91欧美在线| 好久久免费视频高清| 亚洲日本韩在线观看| 中文一级毛片| 在线观看亚洲成人| 午夜爽爽视频| 国产在线视频导航| 99久久精品国产综合婷婷| 亚洲伊人电影| 欧美亚洲一区二区三区在线| 茄子视频毛片免费观看| 老汉色老汉首页a亚洲| 97国产精品视频人人做人人爱| 亚洲综合经典在线一区二区| 国产va在线观看免费| 亚洲色图欧美激情| 久久国产亚洲欧美日韩精品| 少妇精品在线| 中文天堂在线视频| 国产视频大全| 亚洲综合中文字幕国产精品欧美| 亚洲精品无码高潮喷水A| 亚洲永久视频| 91在线一9|永久视频在线| 亚洲二三区| 国产美女自慰在线观看| 男女性色大片免费网站| 呦女亚洲一区精品| 国产色伊人| 国产女人18水真多毛片18精品| 国产福利一区二区在线观看| 精品一区二区无码av| 在线观看亚洲人成网站| 精品一区二区无码av| 香蕉99国内自产自拍视频| 欧美在线天堂| 男人天堂亚洲天堂| 天天做天天爱天天爽综合区| av免费在线观看美女叉开腿| 亚洲午夜久久久精品电影院| 欧美亚洲综合免费精品高清在线观看 | 国产视频入口| 亚洲国产精品无码久久一线| 成人韩免费网站| 国产爽歪歪免费视频在线观看 | 久久黄色毛片| 亚洲精品福利视频| a在线观看免费| 亚洲无码免费黄色网址| 国产一在线| 国产成人精品高清不卡在线| 欧美日韩91| 国产女人在线| 日韩中文字幕亚洲无线码| 国产精品自在拍首页视频8| 亚洲一区二区三区在线视频| 天天躁夜夜躁狠狠躁躁88| 毛片久久网站小视频| 福利国产微拍广场一区视频在线|