蔣姍姍 梁建偉 邸臻煒



摘要:大數據環境中,非物質文化的數據信息分析是以其信息建設、管理為前提?;诖?,提出基于大數據的非物質文化信息分析方法。首先利用數據挖掘對數據信息進行采集和加工,之后對其進行清洗、信息關鍵特征提取以及數據信息建設,從而有效實現對非物質文化信息的分析管理。實驗結果表明,本文提出的基于大數據的非物質文化信息分析方法,在非物質文化信息測試中可以有效實現錯誤信息文本的自動分析,從而減少了人工分析錯誤信息文本的工作量,且具備時間短,工作效率高的優勢。
關鍵詞:大數據;非物質文化;信息分析
中圖分類號:G350? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)04-0039-02
大數據作為數據在一種全新的處理模式下自動生成龐大的、海量的、多樣化的信息資產的現代代名詞[1]。其最關鍵的技術變革就是促使人們能夠利用更多海量數據,而非對某個數據的隨機取樣;人們不再過分苛求數據信息之間的因果關系,而轉變為對相關關系體系的重視[2]。非物質文化在數據信息分析上的研究是非常及時和有必要的。通過信息的智能化手段,對非物質文化的數據信息分析是在目前非物質文化應對嚴峻社會環境下生成的新方法、新手段。
1基于大數據的非物質文化信息分析方法
1.1數據的采集與加工
大數據在信息獲取過程上具備一定難度和復雜,是由于現代社會中生成的龐大數據,雖然人們基本上是將其所需信息儲存在計算機網絡之中,然而其中也存在著很多和自身發展并無多大關聯的冗雜信息,使得信息變得更為復雜多樣。數據信息只有被實際應用的前提下才可以完全發揮出其應有的功能,使用者在計算機網絡上按照關鍵詞對信息進行有用搜索,計算機對和關鍵詞有關的信息進行仔細的篩選和整理,最終將搜索結果具體展現出來,使用者按照這些搜索結果最終確定信息內容,這就是對信息的獲取和采集過程[3]。
加工過程:一般狀況下,假如使用者獲取到的數據信息較多,那么其就越需要利用計算機更為復雜多樣的程序來對檢索工具的準確度和嚴謹性進行提高,進而提升使用者獲取信息的精準性。計算機在為使用者加工信息的全過程中,為進一步保證信息的準確性,就需要對計算機的應用狀態進行實時監管,過濾掉垃圾信息,從而實現對數據信息的重點加工[4]。在對信息數據進行加工的時候,有必要利用計算機信息處理對使用者提供的信息關鍵點進行精準定位,并對數據庫信息進行二次歸類和整合,從而為客戶提供其所需的有效信息。加工環節中,將從CNKI導出我國非物質文化一系列的研究數據,依次保存為Refworks格式、Endnote格式[5]。Refworks格式內的數據可引入Cite space,借助轉換格式能夠生成有關作者、合作組織以及關鍵詞共現等加工而成的知識圖譜。Endnote格式內的數據可引入SATI,借助轉換格式能夠就作者、機構名稱、關鍵詞分別建立Excel格式的共現矩陣,之后將共現矩陣導進Ucinet從而生成**h文本格式,利用Netdraw選調能夠自動加工生成實際可需的可視化圖譜。也可以利用Ucinet轉換成.net格式下的文本矩陣,導進VOS viewer就能夠自動加工生成實際可需的可視化圖譜。如此一來,在數據完成采集和加工的基礎上就可以為后續數據清洗提供便捷。
1.2數據清洗
數據清洗的目的就在于將原始文本數據中出現的不規范、格式重復、語義歧義、冗余數據以及信息指向不明確的數據完全排除。數據清洗一般會利用空值、差誤值、不完整數據、干擾數據類型、異常數據等清洗方法。在以上手段的應用基礎上,還利用了以下數據清洗法:第一,增加限定狀語,如“形容詞+名詞”等;第二,按照發布者的具體IP地址,排除非限定地區搜索出來的信息;第三,按照微博上顯示的前后時間關聯,排除掉一些延續性信息的微博;第四,按照發布內容的有關性,排除和社會一般認識無關的評論、新聞等;第五,排除非人群特征類信息,譬如轉發的報紙、學報、期刊、官方新聞等。將所有數據清洗完畢后,獲取到的數據信息本身在格式、規范、語義以及指向性等方面是合格的,這在很大程度上可以為之后關鍵特征的提取減少阻力,降低操作環節的復雜性。
1.3提取信息關鍵特征
數據清洗后,將完成清洗的文本信息進行掃描,將計算機網絡中出現的關鍵詞以詞頻的方式,作為對應對象描述的主要內容。另外,文本利用tf-idf權重來確定關鍵詞的重要性,衡量非物質文化和一系列關鍵詞間的關系。tf-idf權重在基于大數據的基礎上在信息分析與管理等領域上已經有了成功案例,分析手段已經發展的比較成熟了。利用閾值設定和排序分列,篩選出權重比較高的關鍵詞。tf-idf值的計算公式表示為:
式中:[x]代表文檔[D]內所有的關鍵詞;[tf(x)]代表某一提取關鍵特征值在文檔中出現的實際次數;[idf(x)]代表某一提取特征值在整個文檔內的分布狀況;[N]代表文檔[D]數據內的文本數目,[D]代表某個非物質文化信息的數據集合;[d∈D:x∈d]代表文檔[D]內包括關鍵詞x在內的所有文本總數;[fx]代表關鍵詞出現的具體頻次;[Nd]代表關鍵詞出現的總數。
通過上列公式獲得tf-idf值來確定關鍵詞的重要程度后,就可以對后續數據信息的建設提供重要依據,從數據上增加非物質文化信息分析的在關鍵詞上的準確度。
1.4數據信息建設
在非物質文化的數據信息建設上,首先要務就是將原始數據進行細致分類,構建數據關系,以及對數據邏輯體系下的關鍵數據進行分析。在上述操作環節完成的基礎之上,將在非物質文化信息的前期調研中采集到的諸多海量的圖片、文字、視頻等信息加工在一起,因為受到技術、采訪環境、以及偶然因素等限制,還沒有形成一個統一的標準化組織形態。從非物質文化數據信息建設的立場上,利用技術標準的統一制定,對原始信息進行標準化處理。對于龐大的非物質文化信息資源,借助大數據技術,以數據統計學的手段,構建數據之間的邏輯關系結構,將會為非物質文化的深入發展奠定一定研究基礎。非物質文化信息資源在歸類整理上也能夠根據研究屬性來劃定。而在屬性研究上,對其劃分的主要依據就是根據非物質文化的信息門類,以各個領域內的具體內容為標準進行劃分。歸類構建數據庫時必須以非物質文化為一級目錄,以目錄類別為準構建二級目錄,比如民族舞蹈、民俗音樂、傳統曲藝、傳統手藝(如雜技、體育競技等)、傳統美術、傳統醫藥等,以具體內容構建三級目錄。另外一方面,對非物質文化信息資源來說,還需要利用信息建設、使用者分析、傳播途徑等角度對其進行進一步的研究,研究內容視研究視角不同而有所區別。完成一系列分類整理建設之后,我們就可以將信息分析交給元數據來實現。
1.5大數據信息分析
對于非物質文化而言,對其元數據進行設計前必須首先了解有關非物質文化館藏資料的部分特殊屬性,并對這些特殊屬性進行分析管理,不同類別的非物質文化遺產資料對應的元數據信息類型也各不相同,如此一來才可以實現對元數據的更好管理。非物質文化信息元數據管理分析設計的主要目標是為了便于對非物質文化信息資料的元數據進行精準分析與管理。這部分工作主要有兩方面來完成,即元數據數據庫和功能設計。
元數據數據庫設計:首先需要制作一張元數據表(Metadata),在元數據表中按照數據信息下不同類型的非物質文化添加不同信息,同時在非物質文化類別表中也需要按照添加的內容的不同自動添加元數據信息的新字段。向元數據總表內添加新的元數據以后,非物質文化類別表就會自動添加新信息,該信息對應了總表中元數據的全部記錄。
功能設計:非物質文化元數據管理主要是采取C/S構造,具體包括了非物質文化元數據管理、專業資料信息管理這兩方面內容。它能夠對元數據進行動態實時的管理,如信息刪改、增添和查看等一系列操作。其中自定義編號是為了進一步保證元數據在內容修改上的方便,如有助于增添新的元數據,同時表單將會按照自定義的編號順序排列,使用者在實際操作過程中,以非物質文化的具體類別為主,能夠自行查閱已經輸入和導入進去的元數據表單。還有利于增添新的元數據信息,也能夠對表格內的現有元數據進行刪改,如元數據的字段、長度、類別、實例、名稱等。
2實驗與效果分析
為了更加清楚、具體的看出本文提出的基于大數據的非物質文化信息分析方法的實際應用效果,特與傳統的非物質文化信息分析方法進行對比,對其信息分析的平均耗時進行比較。
2.1實驗準備
為保證試驗的準確性,以某地非物質文化信息數據庫的測試用例作為基本資料,將兩種非物質文化信息分析方法設計置于相同的硬軟件配置之中,進行錯誤文本信息的分析,實驗其信息分析平均耗時。配置參數見下表。
2.2實驗結果分析
試驗過程中,通過兩種不同的非物質文化信息分析方法設計同時在相同配置環境下進行工作,分析其信息分析平均耗時的變化。實驗效果對比圖1所示。
實驗結果表明,本文提出的基于大數據的非物質文化信息分析方法,在非物質文化信息測試中可以有效實現錯誤信息文本的自動分析,從而大大減少了人工分析錯誤信息文本的工作量,且具備時間短,工作效率高的優勢。
3結束語
對基于大數據的非物質文化信息分析方法進行分析,雖然大數據的非物質文化信息分析法的應用已經在社會各領域獲得了比較好的應用效果,然而影響非物質文化信息的建設因素是多種多樣的,要想完全了解各類人群對非物質文化信息的認知,就具備較大的挑戰。希望本文對非物質文化信息分析方法可以為未來有關大數據以及非遺保護和傳承提供一定價值的借鑒。
參考文獻:
[1] 馬思根,趙小明,吳勇.貴州非物質文化遺產的數據挖掘與分析[J].計算機時代,2020,10(5):41-45,49.
[2] 張一然,陳愛強.信息可視化設計下的非物質文化遺產保護和傳承——以北塘飛鈸為例[J].工業設計,2020,12(4):137-138.
[3] 余佳睿.非物質文化遺產數字化保護與開發——以南京為例[J].華夏文化,2020,1(1):41-42.
[4] 張軒宇.基于大數據的江南非物質文化遺產品牌網絡影響力實證研究[J].中國經貿導刊(中),2020,15(5):66-71.
[5]侯效彬.基于“大數據”時代的計算機信息處理技術探討[J].現代信息科技,2019,3(2):89-91.
【通聯編輯:張薇】