999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

貴州非物質(zhì)文化遺產(chǎn)的數(shù)據(jù)挖掘與分析

2020-06-04 09:39:03馬思根趙小明吳勇
計(jì)算機(jī)時(shí)代 2020年5期
關(guān)鍵詞:非物質(zhì)文化遺產(chǎn)數(shù)據(jù)挖掘貴州

馬思根 趙小明 吳勇

摘? 要: 貴州省非物質(zhì)文化遺產(chǎn)極為豐富,蘊(yùn)涵著貴州各民族特有的精神價(jià)值、思維方式、想象力和文化意識(shí),體現(xiàn)著貴州各民族的生命力和創(chuàng)造力。為了更好地發(fā)掘和保護(hù)貴州非物質(zhì)文化遺產(chǎn),通過對(duì)貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心網(wǎng)的數(shù)據(jù)挖掘,采用詞云分析、聚類分析和可視化技術(shù)等,對(duì)貴州非物質(zhì)文化遺產(chǎn)的文本數(shù)據(jù)進(jìn)行處理,并提取有價(jià)值的關(guān)鍵文本信息,為貴州非物質(zhì)文化遺產(chǎn)的傳承和發(fā)展提供依據(jù)。

關(guān)鍵詞: 聚類分析; 詞云分析; 數(shù)據(jù)挖掘; 非物質(zhì)文化遺產(chǎn); 貴州

Abstract: Guizhou Province is rich in intangible cultural heritage, which contains the unique spiritual value, mode of thinking, imagination and cultural consciousness of all ethnic groups in Guizhou, and reflects the vitality and creativity of all ethnic groups in Guizhou. In order to better excavate and protect the intangible cultural heritage of Guizhou, through data mining of Guizhou intangible cultural heritage protection center network, the text data of Guizhou intangible cultural heritage are processed by word cloud analysis, clustering analysis and visualization technology, and valuable key text information is extracted to provide basis for the inheritance and development of intangible cultural heritage in Guizhou.

Key words: clustering analysis; word cloud analysis; data mining; intangible cultural heritage; Guizhou

0 引言

非物質(zhì)文化是一種非物質(zhì)形態(tài)的文化,它常存在于民間并且世代相傳,具有濃厚的藝術(shù)價(jià)值和歷史價(jià)值,其主要的表現(xiàn)形式有工藝、文學(xué)形象、音樂和圖像等,通過身形和語言傳承并延續(xù)至今,是人類歷史發(fā)展進(jìn)程中不斷積累的珍貴財(cái)富[1]。貴州省非物質(zhì)文化遺產(chǎn)極為豐富,是我國非物質(zhì)文化遺產(chǎn)的重要組成部分,也極大地豐富了世界文化的多樣性。然而,由于各種因素的影響,貴州非物質(zhì)文化遺產(chǎn)在發(fā)掘、繼承、保護(hù)和發(fā)展等方面的缺失,導(dǎo)致一些非物質(zhì)文化遺產(chǎn)正面臨著不斷消亡的尷尬局面。為了改變這種窘迫的境況,更好地發(fā)掘、繼承、保護(hù)和發(fā)展貴州非物質(zhì)文化遺產(chǎn),就顯得非常迫切。雖然為了推動(dòng)非物質(zhì)文化地區(qū)經(jīng)濟(jì)的繁榮發(fā)展和非遺的保護(hù)工作,貴州省各地區(qū)以政府為主導(dǎo),積極打造以非物質(zhì)文化遺產(chǎn)為基礎(chǔ)的文化旅游經(jīng)濟(jì),力求在推動(dòng)地方經(jīng)濟(jì)發(fā)展的同時(shí),弘揚(yáng)非物質(zhì)文化遺產(chǎn)精神[2],但其效果極為有限。本文通過爬取貴州非物質(zhì)文化遺產(chǎn)現(xiàn)有文本數(shù)據(jù),然后進(jìn)行詞云分析、聚類分析以及可視化技術(shù)處理等對(duì)貴州非物質(zhì)文化遺產(chǎn)展開研究,力求為貴州非物質(zhì)文化遺產(chǎn)的有序傳承及其健康發(fā)展提供可靠的依據(jù)。

數(shù)據(jù)挖掘是對(duì)大型數(shù)據(jù)庫、數(shù)據(jù)構(gòu)件庫和其他大型信息資源中標(biāo)志知識(shí)含義的類型的自動(dòng)或便捷的提取,是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的模式的高級(jí)處理過程[3]。文化遺產(chǎn)的數(shù)據(jù)挖掘與云計(jì)算相結(jié)合,為文化遺產(chǎn)的感知、認(rèn)知和決策提供了基礎(chǔ)[4-5]。貴州非物質(zhì)文化遺產(chǎn)的網(wǎng)頁信息數(shù)不勝數(shù),要選取可靠的網(wǎng)頁信息源,并從這些海量的數(shù)據(jù)中提取有價(jià)值的信息,挖掘出貴州非物質(zhì)遺產(chǎn)的文本數(shù)據(jù)信息,分析這些數(shù)據(jù)之間的制衡關(guān)系,并為貴州非物質(zhì)文化遺產(chǎn)的發(fā)掘、保護(hù)和繼承提供依據(jù),這是本次研究的意義所在。

1 數(shù)據(jù)源的選取

網(wǎng)絡(luò)中關(guān)于貴州非物質(zhì)文化遺產(chǎn)數(shù)據(jù)信息數(shù)以億計(jì),而且魚目混珠,數(shù)據(jù)的爬取及收集首先需要選擇可靠的數(shù)據(jù)來源,本次研究選擇貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心官方網(wǎng)站作為文本數(shù)據(jù)來源。貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心是貴州省文化和旅游廳直屬的事業(yè)單位,是承擔(dān)全省非物質(zhì)文化遺產(chǎn)的普查、傳播和數(shù)據(jù)庫建設(shè),開展非物質(zhì)文化遺產(chǎn)理論研究、學(xué)術(shù)交流、科學(xué)實(shí)踐及保護(hù)工作,并負(fù)責(zé)進(jìn)行全省非物質(zhì)文化遺產(chǎn)保護(hù)的人才培訓(xùn)和相關(guān)咨詢服務(wù)的工作機(jī)構(gòu),其官方網(wǎng)站數(shù)據(jù)也是貴州省非物質(zhì)文化遺產(chǎn)領(lǐng)域最權(quán)威、最齊全的數(shù)據(jù)。本次研究通過對(duì)貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心官方網(wǎng)站解析其URL,并且運(yùn)用Python相關(guān)的庫,編寫代碼爬取貴州省非物質(zhì)文化遺產(chǎn)的相關(guān)文本數(shù)據(jù)并進(jìn)行分析。

貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心網(wǎng)站,網(wǎng)址為:http://www.gzfwz.org.cn/。網(wǎng)站分為導(dǎo)航和主體網(wǎng)頁兩大部分,網(wǎng)站主體頁面內(nèi)容包括通知公告、新聞動(dòng)態(tài)、遺產(chǎn)名錄、政策法規(guī)、學(xué)術(shù)論壇、傳承人、協(xié)會(huì)工作、非遺產(chǎn)品和工作機(jī)構(gòu)等十三個(gè)板塊;網(wǎng)頁的具體內(nèi)容包括標(biāo)題、作者、來源、正文、時(shí)間以及閱讀量等等。

2 數(shù)據(jù)的爬取及數(shù)據(jù)庫表設(shè)計(jì)

選定網(wǎng)絡(luò)文本數(shù)據(jù)源后,就可以利用網(wǎng)絡(luò)爬蟲抓取網(wǎng)站上有價(jià)值的文本信息,保存到本地文本或者數(shù)據(jù)庫中,為后續(xù)的研究提供基礎(chǔ)數(shù)據(jù)語料。基于Python的網(wǎng)絡(luò)爬蟲步驟為:

⑴ 首先建立URL列表,編寫腳本與網(wǎng)站進(jìn)行交互,利用Python庫(urlib、urllib和httplib),并獲取網(wǎng)頁中的相關(guān)內(nèi)容。

聚類分析是描述數(shù)據(jù)中對(duì)象之間的關(guān)系,進(jìn)行數(shù)據(jù)對(duì)象分組的過程。利用數(shù)據(jù)對(duì)象的相關(guān)性和不相關(guān)性聚類,差異越大,聚類效果越好。其中,K-means是常用的聚類方式,它是一種基于距離的迭代算法[7]。這里討論基于貴州非物質(zhì)文化遺產(chǎn)的聚類分析,主要包括TF-IDF、聚類分析、可視化分析等過程。

4.1 TF-IDF權(quán)重計(jì)算及結(jié)果分析

通過TF-IDF權(quán)重計(jì)算的方法,分析爬取的貴州非物質(zhì)文化遺產(chǎn)文本數(shù)據(jù),TF-IDF(Term Frequency-Inverse Document Frequency)是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù),用于評(píng)估一個(gè)字詞文本對(duì)于一個(gè)文件集或一個(gè)語料庫中的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)增加而增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率增加而下降。根據(jù)表9關(guān)于貴州非物質(zhì)文化遺產(chǎn)詞匯統(tǒng)計(jì)情況,做如下的計(jì)算。

⑴ 計(jì)算TF(詞頻)

由于文本大小不一樣,需要進(jìn)行詞頻標(biāo)準(zhǔn)化整理。計(jì)算方法如式⑴所示。

通過計(jì)算TF-IDF值可知,某文本中“表演”、“傳承”出現(xiàn)的次數(shù)很高,說明貴州非物質(zhì)文化遺產(chǎn)中“表演”、“傳承”方面的內(nèi)容比較豐富。同時(shí)計(jì)算剩余幾個(gè)詞語的TF-IDF值并相加,便可以得到整個(gè)文檔的值,并能用于信息檢索。

4.2 聚類分析

基于非物質(zhì)文化遺產(chǎn)的數(shù)據(jù)分析、挖掘技術(shù)越來越受到關(guān)注。K-Means聚類算法快速、簡單,適合大規(guī)模數(shù)據(jù)挖掘[8]。在聚類分析過程中,文本調(diào)用Sklearn機(jī)器學(xué)習(xí)擴(kuò)展包Kmeans,散發(fā)屬于歐式距離。基于貴州非物質(zhì)文化遺產(chǎn)的聚類分析中,首先對(duì)收集的貴州非物質(zhì)文化遺產(chǎn)語料集數(shù)據(jù)預(yù)處理,然后使用jieba工具對(duì)處理后的數(shù)據(jù)進(jìn)行中文分詞,接著使用Python包導(dǎo)入數(shù)據(jù),進(jìn)行K-means聚類分析,最后導(dǎo)入畫圖包,對(duì)數(shù)據(jù)進(jìn)行可視化展示。聚類分析的實(shí)驗(yàn)過程如下。

⑴ 導(dǎo)入KMeans聚類擴(kuò)展包,from sklearn.cluster import KMeans從機(jī)器學(xué)習(xí)聚類中導(dǎo)入KMeans聚類方法。采用clf=KMeans(n_clusters=10)設(shè)置類簇為10,因?yàn)榉俏镔|(zhì)文化一共有民間文學(xué)、民間音樂、民間舞蹈、傳統(tǒng)戲劇、曲藝、雜技與競技、民間美術(shù)、傳統(tǒng)手工技藝、傳統(tǒng)醫(yī)藥、民俗這10種類別。

⑵ 導(dǎo)入數(shù)據(jù)集進(jìn)行降維處理,data=pd.read_csv('shujuchuli.csv')為TF-IDF貴州非物質(zhì)文化文本處理結(jié)果的數(shù)據(jù)集,from sklearn.decomposition import PCA進(jìn)行降維處理。

⑶ 可視化,import matplotlib.pyplot as plt導(dǎo)入畫圖包,利用plt.scatter(x,y,c=pre,marker='o',s=200)繪制散點(diǎn)圖。

通過以上過程的代碼實(shí)現(xiàn)后,可得貴州非物質(zhì)文化遺產(chǎn)文本TF-IDF聚類分析結(jié)果如圖2所示。

如圖2,根據(jù)編號(hào)將文本內(nèi)容分為10類。整體來看除了1號(hào)和9號(hào)外,其他類的差異不大,主要集中在零點(diǎn)附近,也代表大多數(shù)文本之間的差異不大。其中只有1號(hào)和9號(hào)偏離較遠(yuǎn),表示1號(hào)和9號(hào)與2號(hào)、3號(hào)、4號(hào)、5號(hào)、6號(hào)、7號(hào)、8號(hào)和10號(hào)相比差異較大。

5 結(jié)束語

通過對(duì)貴州非物質(zhì)文化遺產(chǎn)的數(shù)據(jù)爬取以及文本數(shù)據(jù)處理和分析,可知貴州非物質(zhì)文化遺產(chǎn)的關(guān)鍵詞有“苗族”、“活動(dòng)”、“傳承”、“文化”、“表演”、“民間”、“侗族”和“民族”等,由此說明貴州非物質(zhì)文化遺產(chǎn)在這些方面所占的數(shù)量比較多,在將來貴州非物質(zhì)文化遺產(chǎn)繼承和保護(hù)過程中需重視這八個(gè)方面的內(nèi)容。通過計(jì)算詞頻最高的八個(gè)“關(guān)鍵詞”TF-IDF值,可知其中“表演”和“傳承”出現(xiàn)的次數(shù)更高,說明貴州非物質(zhì)文化遺產(chǎn)中“表演”和“傳承”方面的內(nèi)容比較豐富,說明將來貴州非物質(zhì)文化遺產(chǎn)的發(fā)掘和發(fā)展可以從這兩個(gè)方面入手,將能發(fā)掘出更多、更好的非物質(zhì)文化遺產(chǎn)。通過對(duì)貴州非物質(zhì)文化遺產(chǎn)的聚類分析可知,民間文學(xué)、民間音樂、民間舞蹈、傳統(tǒng)戲劇、曲藝、雜技與競技、民間美術(shù)、傳統(tǒng)手工技藝、傳統(tǒng)醫(yī)藥和民俗這10種類別中,除了兩種類別差異較大外,其他類別差異不大,說明對(duì)各種類別的貴州非物質(zhì)文化遺產(chǎn)的發(fā)掘和發(fā)展盡量平等看待,共同發(fā)展。

參考文獻(xiàn)(References):

[1] 曹瑞.互聯(lián)網(wǎng)商業(yè)信息中的非物質(zhì)文化數(shù)據(jù)挖掘及空間可視化[D].河北師范大學(xué),2012.

[2] 浦凱迪.關(guān)于貴州少數(shù)民族非物質(zhì)文化遺產(chǎn)保護(hù)的調(diào)查研究[D].北京印刷學(xué)院,2015.

[3] 李曉城,張?jiān)鼋埽挠旅鞯?基于Web數(shù)據(jù)挖掘的健康餐飲分析推薦系統(tǒng)的設(shè)計(jì)[J].微型電腦應(yīng)用,2011.27(1):44-46,5-6

[4] 馬楠,鮑泓,劉宏哲等.Web 3D圖像的存儲(chǔ)管理及在數(shù)字博物館中的應(yīng)用[J].北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2006.20(1):45-48

[5] 鮑泓,劉宏哲.大數(shù)據(jù)時(shí)代文化遺產(chǎn)數(shù)據(jù)挖掘的認(rèn)識(shí)[J].北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2015.29(3):1-4

[6] 周善.數(shù)據(jù)新聞:網(wǎng)站專業(yè)生產(chǎn)內(nèi)容(PGC)的可循之途——四大門戶網(wǎng)站的數(shù)據(jù)新聞實(shí)踐[J].編輯之友,2014.8:70-73,86

[7] 范生姣.黔東南非物質(zhì)文化遺產(chǎn)現(xiàn)狀及保護(hù)對(duì)策研究[J].凱里學(xué)院學(xué)報(bào),2014.32(5):37-40

[8] 張大虎.基于主題的文本數(shù)據(jù)采集系統(tǒng)的研究與實(shí)現(xiàn)[D].東北大學(xué),2010.

猜你喜歡
非物質(zhì)文化遺產(chǎn)數(shù)據(jù)挖掘貴州
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
貴州,有多美
沉醉貴州
多彩的貴州 多彩的茶
貴茶(2018年6期)2018-05-30 09:53:50
我與貴州茶一起
貴茶(2018年6期)2018-05-30 09:53:36
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
關(guān)于如何運(yùn)用吉林市非物質(zhì)文化遺產(chǎn)培樹核心價(jià)值觀問題研究
戲劇之家(2016年19期)2016-10-31 20:08:03
推動(dòng)沈陽市戲曲類非物質(zhì)文化遺產(chǎn)的生產(chǎn)性保護(hù)策略研究
戲劇之家(2016年19期)2016-10-31 19:51:26
淺論呂劇藝術(shù)的傳承與傳播
戲劇之家(2016年19期)2016-10-31 17:25:42
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 91精选国产大片| 亚洲Av综合日韩精品久久久| 婷婷色婷婷| 精品国产Ⅴ无码大片在线观看81| 欧美天堂在线| 久久精品国产在热久久2019| 婷婷亚洲视频| 国产精品亚洲日韩AⅤ在线观看| 91色国产在线| 91人人妻人人做人人爽男同| 香蕉精品在线| 精品无码一区二区在线观看| 国产在线观看第二页| 日韩少妇激情一区二区| 国产高清在线精品一区二区三区 | 在线综合亚洲欧美网站| 欧美中文字幕无线码视频| 97亚洲色综久久精品| 国产草草影院18成年视频| 动漫精品啪啪一区二区三区| 日韩小视频在线播放| 欧美福利在线| 美女国产在线| 五月丁香在线视频| 国产农村妇女精品一二区| 国产一级精品毛片基地| 六月婷婷综合| 亚洲第一极品精品无码| 日本免费一区视频| 成人在线亚洲| 伊大人香蕉久久网欧美| 日韩激情成人| 在线99视频| 亚洲精品国产首次亮相| 日本在线免费网站| 国产精品精品视频| 亚洲最新网址| 99er这里只有精品| 午夜精品区| 久久9966精品国产免费| 极品国产在线| 一本大道东京热无码av| 97国内精品久久久久不卡| 一级全免费视频播放| 亚洲中文字幕在线精品一区| 3p叠罗汉国产精品久久| 国产成人精品优优av| 好紧太爽了视频免费无码| 99视频精品全国免费品| 国产乱人免费视频| 日韩黄色大片免费看| 日本a级免费| 女人18毛片一级毛片在线| 91精品综合| 欧美性久久久久| 福利在线不卡| 天堂成人av| 亚洲国产AV无码综合原创| 狠狠色综合久久狠狠色综合| 日本免费精品| 真人免费一级毛片一区二区| 国产草草影院18成年视频| 国产aaaaa一级毛片| 四虎永久在线视频| 日本黄色a视频| 久操中文在线| 中文字幕欧美日韩| 日韩第九页| 一级香蕉视频在线观看| 日韩精品一区二区三区swag| 欧美在线导航| 亚洲精品波多野结衣| 在线国产你懂的| 日韩在线网址| 日本高清免费一本在线观看| 国产激情第一页| 9久久伊人精品综合| 国产激爽大片在线播放| 香蕉视频在线精品| h视频在线播放| 久久这里只有精品8| 国产色婷婷视频在线观看|