嚴(yán)鶴峰 袁麗



摘要:隨著大數(shù)據(jù)技術(shù)的不斷應(yīng)用,給企業(yè)和社會帶來了較大的效益。“非遺”作為我國的傳統(tǒng)文化信息,其形式多樣、內(nèi)容復(fù)雜化,采用傳統(tǒng)的口口相傳方式不適合“非遺”的發(fā)展。于是通過利用大數(shù)據(jù)技術(shù),設(shè)計(jì)一個(gè)應(yīng)用系統(tǒng),該系統(tǒng)能夠?qū)Α胺沁z”信息環(huán)境資源進(jìn)行規(guī)劃和大數(shù)據(jù)分析,從而提高“非遺”的發(fā)展和保存其價(jià)值。文章首先對大數(shù)據(jù)進(jìn)行介;然后闡述大數(shù)據(jù)技術(shù)的基本流程;最后通過對“非遺”信息進(jìn)行分析,利用大數(shù)據(jù)技術(shù)設(shè)計(jì)應(yīng)用系統(tǒng)。應(yīng)用系統(tǒng)能夠?qū)?fù)雜的“非遺”信息進(jìn)行存儲、查詢、分析等功能,有助于“非遺”的保存和發(fā)展。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);“非遺”;應(yīng)用系統(tǒng)
中圖分類號:TP27
文獻(xiàn)標(biāo)識碼:A
文章編號:1001-5922( 2020)09-0090-04
隨著計(jì)算機(jī)技術(shù)的廣泛使用和快速發(fā)展,數(shù)據(jù)呈現(xiàn)大規(guī)模暴增,大數(shù)據(jù)時(shí)代如期而至。通過大數(shù)據(jù)技術(shù)的應(yīng)用,各行各業(yè)越發(fā)的重視大數(shù)據(jù),利用大數(shù)據(jù)提升自身發(fā)展[1]。“非遺”作為一種文化信息,在民間通過口口相傳的方式進(jìn)行發(fā)展。然而在大數(shù)據(jù)時(shí)代,改變了“非遺”信息的處理模式,傳統(tǒng)代代相傳的方式已經(jīng)不再適用,而是將其變得更加數(shù)據(jù)化和信息化,使其更加符合現(xiàn)代的發(fā)展需求[2-3]。于是文章利用大數(shù)據(jù)技術(shù),設(shè)計(jì)一個(gè)應(yīng)用系統(tǒng),能夠?qū)Α胺沁z”信息環(huán)境資源進(jìn)行規(guī)劃和大數(shù)據(jù)分析,使其傳遞方式更加科學(xué)、合理、有效。
1 大數(shù)據(jù)的介紹
1.1 大數(shù)據(jù)的概念
隨著社會的發(fā)展,大數(shù)據(jù)變得愈發(fā)的流行,人們越發(fā)的認(rèn)識到大數(shù)據(jù)的價(jià)值,全球中很多機(jī)構(gòu)開始參與對大數(shù)據(jù)的研究,但是對于大數(shù)據(jù)的定義還沒有一個(gè)統(tǒng)一說法,不同機(jī)構(gòu)對于大數(shù)據(jù)的定義會有所不同,在眾多大數(shù)據(jù)定義中本文列舉了4種比較有代表性的定義,如圖1所示[4]。從這4個(gè)定義中可以得到大數(shù)據(jù)的特點(diǎn),即大數(shù)據(jù)不僅具有大的特點(diǎn),通過對其進(jìn)行分析還會存在利用價(jià)值,所以大數(shù)據(jù)的本質(zhì)特點(diǎn)在于大和具有價(jià)值。正因?yàn)榇髷?shù)據(jù)龐大的利用價(jià)值,所以全球?qū)τ诖髷?shù)據(jù)的研究愈發(fā)強(qiáng)烈。
1.2 大數(shù)據(jù)的基本處理流程
“非遺”信息環(huán)境資源中涉及到很多的數(shù)據(jù),并且由于其數(shù)據(jù)的形式比較多,會涉及到文字、視頻、圖片、音頻等,使用大數(shù)據(jù)技術(shù)能夠?qū)⑦@些數(shù)據(jù)進(jìn)行整理分析。圖2即為大數(shù)據(jù)價(jià)值轉(zhuǎn)換框架,從圖中可以看出,為了將大數(shù)據(jù)發(fā)揮作用,需要對各種數(shù)據(jù)類型進(jìn)行分析,只有對其進(jìn)行分析之后,才能夠體現(xiàn)出大數(shù)據(jù)的價(jià)值。
運(yùn)用大數(shù)據(jù)的基本流程如圖3所示,“非遺”信息環(huán)境資源存在大量的不同數(shù)據(jù),主要包含半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)包含著圖片或者圖片文本等。需要將這些數(shù)據(jù)利用大數(shù)據(jù)技術(shù)進(jìn)行采集,將不同結(jié)構(gòu)類型的數(shù)據(jù)進(jìn)行整合和提取。然后,這些數(shù)據(jù)會比較亂,然后大數(shù)據(jù)技術(shù)會將其進(jìn)行清洗等預(yù)處理,從而對龐大的數(shù)據(jù)進(jìn)行存儲。將數(shù)據(jù)進(jìn)行存儲就是為了以后利用,所以會通過數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等算法分析各種數(shù)據(jù),從而發(fā)揮存儲數(shù)據(jù)的利用價(jià)值。最后就是將分析的結(jié)構(gòu)使用人機(jī)互動的可視化方式展現(xiàn)給用戶。這就是大數(shù)據(jù)技術(shù)的主要基本流程。在“非遺”信息環(huán)境資源中利用大數(shù)據(jù)技術(shù)可以將其進(jìn)行完整的規(guī)劃,并且用戶還能夠得到得到反饋。
2 大數(shù)據(jù)分析應(yīng)用系統(tǒng)
建立應(yīng)用系統(tǒng)需要使用到Hadoop技術(shù),因?yàn)槠湫阅軆?yōu)異、應(yīng)用成熟,能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行存儲和分析。將其運(yùn)用于“非遺”信息的應(yīng)用系統(tǒng)中,因?yàn)椤胺沁z”信息的復(fù)雜性較高,該技術(shù)能夠?qū)Υ罅繌?fù)雜數(shù)據(jù)進(jìn)行分布式存儲。另外,Hadoop技術(shù)能夠包含大數(shù)據(jù)技術(shù)處理的基本流程。所以對該應(yīng)用系統(tǒng)進(jìn)行設(shè)計(jì)時(shí)選擇Hadoop技術(shù)是非常合理。
2.1 “非遺”的信息屬性
“非遺”信息屬于一種特殊的信息,它可以脫離物質(zhì)載體,其傳播方式就是通過原生態(tài)、傳統(tǒng)的方式,這種傳播的效率比較低,因?yàn)槠湫畔⑿问奖容^模糊,不像媒介能夠?qū)π畔⑦M(jìn)行清晰化,使其具有一定的信息結(jié)構(gòu),所以它的傳播比較快,“非遺”在原生態(tài)環(huán)境中沒有一定的結(jié)構(gòu),所以傳播的效率會比較低[5]。
隨著科學(xué)技術(shù)的不斷提高,新媒介和數(shù)字化傳播的方式逐漸被廣泛使用,從而提高了“非遺”信息的傳播效率。“非遺”信息通過數(shù)字媒介會有更好的發(fā)展,是一種能夠?qū)⑵涮岣咔逦龋3帧胺沁z”特性的作用,雖然口頭媒介也可以對其進(jìn)行傳播,但是口頭媒介容易出現(xiàn)誤差,并且沒有一個(gè)很好的清晰度。所以數(shù)字媒介更適合于“非遺”信息的發(fā)展,也有利于對其進(jìn)行“非遺”信息環(huán)境資源規(guī)劃[6]。大數(shù)據(jù)時(shí)代,提高了“非遺”信息的發(fā)展,能夠?qū)Α胺沁z”進(jìn)行及時(shí)的更新,并且保存大量復(fù)雜的“非遺”關(guān)系模式,還能夠?qū)@些信息數(shù)據(jù)進(jìn)行整理規(guī)劃,從而方便人們得到相關(guān)信息。
2.2 Hadoop技術(shù)的介紹
Hadoop技術(shù)的內(nèi)容比較多,如圖4所示,其中HDFS是一種存儲模塊,能夠?qū)Υ髷?shù)據(jù)進(jìn)行處理和存儲[7]。Hive的主要作用就是將語言轉(zhuǎn)換為傳統(tǒng)的任務(wù),然就將傳統(tǒng)的數(shù)據(jù)進(jìn)行集成。Mahout是一種對大數(shù)據(jù)進(jìn)行處理和分析的機(jī)器學(xué)習(xí)框架,從而能夠方便應(yīng)用系統(tǒng)的擴(kuò)展[8]。
2.3 應(yīng)用系統(tǒng)的模塊設(shè)計(jì)
應(yīng)用系統(tǒng)的的主要功能就是對“非遺”信息進(jìn)行存儲、規(guī)劃和利用,系統(tǒng)的存儲單元是HDFS系統(tǒng),它能夠?qū)ⅰ胺沁z”信息環(huán)境資源進(jìn)行存儲,然后對其進(jìn)行分類規(guī)劃,使得眾多的“非遺”信息數(shù)據(jù)更加明確、有條理,Hive還可以建立新的數(shù)據(jù)庫系統(tǒng),使得復(fù)雜的“非遺”信息能夠進(jìn)行歸類,從而有利于規(guī)劃。然后存儲分類完成之后,可以利用Kylin對存儲的數(shù)據(jù)進(jìn)行分析,只需要將其接到相應(yīng)的接口就可將信息傳遞到系統(tǒng)中,從而得到用戶需要的信息。其基本結(jié)構(gòu)如圖5所示。
通過利用Hadoop技術(shù)設(shè)計(jì)的應(yīng)用系統(tǒng)的基本結(jié)構(gòu)如圖6所示,其中主要包含三個(gè)部分,首先是登錄模塊,然后是數(shù)據(jù)選擇模塊,其中就會包含這多的“非遺”信息數(shù)據(jù),最后就是數(shù)據(jù)呈現(xiàn)模塊,用戶即可獲得自己需要的信息。
圖6中的登陸模塊設(shè)置了用戶登陸權(quán)限,只有訪問權(quán)限的用戶才能夠進(jìn)入到該系統(tǒng)中。其中數(shù)據(jù)選擇模塊中包含著不同類別的“非遺”信息,用戶可以根據(jù)自己的興趣愛好進(jìn)行選擇了解。數(shù)據(jù)呈現(xiàn)就會根據(jù)用戶的選擇,呈現(xiàn)出不同的“非遺”信息,其中可以會以文字的方式呈現(xiàn)、也可能會以表格、視頻、音頻等方式進(jìn)行呈現(xiàn)。
2.4 “非遺”信息環(huán)境資源數(shù)據(jù)庫
2.4.1 數(shù)據(jù)分類和存儲方式
“非遺”信息環(huán)境資源是包含大量的信息,而不是個(gè)別的信息,所以對其進(jìn)行建立數(shù)據(jù)庫時(shí)會以數(shù)字檔案的方式進(jìn)行存儲或者是數(shù)據(jù)信息建立。“非遺”包含的種類非常多,所以要根據(jù)信息的差異性將其劃分為不同的形式,每種類型的“非遺”其內(nèi)容會不同,但是“非遺”中至少需要包含“非遺”的發(fā)展歷史過程、表現(xiàn)方式和載體、傳承人、成果等。對“非遺”信息環(huán)境資源進(jìn)行劃分為三個(gè)大類,分別為實(shí)物檔案、記憶檔案和“申遺”檔案。 數(shù)據(jù)庫的建立首先是信息進(jìn)行分類,按照上述3種方式可以大致分為3個(gè)檔案。然后再對其進(jìn)行設(shè)置目錄,以“非遺”作為一級目錄,然后以不同類別作為二級目錄,比如曲藝、傳統(tǒng)手工藝、民間文學(xué)等。然后再根據(jù)具體的研究內(nèi)容將其劃分為三級目錄。
在利用Hive數(shù)據(jù)庫時(shí)采用的分類方式就如上所述,并且Hive中數(shù)據(jù)表采用的創(chuàng)建外部數(shù)據(jù)存儲方式,應(yīng)為這種方式更加的安全,能夠降低誤操作帶來的缺陷,另外不要移動數(shù)據(jù),而是采用存儲路徑指向數(shù)據(jù)的方式。并且,每個(gè)Hive數(shù)據(jù)表只會有一個(gè)文件路徑,不會存在其他的路徑,所以在后期的管理過程中只需要找到路徑即可將數(shù)據(jù)文件進(jìn)行管理。
2.4.2 數(shù)據(jù)庫部署
應(yīng)用系統(tǒng)中數(shù)據(jù)庫屬于重要的部分,必須要對其進(jìn)行選擇和建立。數(shù)據(jù)庫具有獨(dú)立的API,從而可以達(dá)到創(chuàng)建信息、管理信息、訪問信息、檢索信息等操作。由于將“非遺”信息環(huán)境資源進(jìn)行合理的分類,在訪問或者檢索信息時(shí)將會更加快捷,而且通過利用MySQL達(dá)到單獨(dú)索引功能,方便管理,方便對系統(tǒng)信息進(jìn)行及時(shí)更新,所以文章選擇的MySQL作為數(shù)據(jù)管理系統(tǒng),對“非遺”信息環(huán)境資源規(guī)劃進(jìn)行管理。
1)數(shù)據(jù)庫安裝的啟動。獲得MySQL數(shù)據(jù)庫的方式簡單,直接在官網(wǎng)中下載,本文選擇的版本為MySQL RPM,因?yàn)樵摪姹灸軌蚍奖銓?shù)據(jù)進(jìn)行管理,并且還能夠?qū)τ脩舻氖褂眠M(jìn)行控制管理,用于“非遺”信息環(huán)境資源規(guī)劃和分析更加合適。安裝完成之后,需要對其進(jìn)行檢查,是否能夠在該系統(tǒng)中進(jìn)行使用。只有檢測合格之后才能將其運(yùn)用于應(yīng)用系統(tǒng)中。
2)數(shù)據(jù)庫管理。“非遺”信息環(huán)境資源種類繁多,信息數(shù)據(jù)形式多樣、并且會出現(xiàn)不斷的更新,所以對其數(shù)據(jù)庫進(jìn)行管理十分重要。當(dāng)出現(xiàn)一個(gè)新的“非遺”信息之后,要能夠?qū)⑵湔_的加入到系統(tǒng)中,并且能夠進(jìn)行查詢和分析。
3)數(shù)據(jù)庫的鏈接。開啟數(shù)據(jù)庫的鏈接采用的方式為PHP,其函數(shù)為,其關(guān)鍵參數(shù)如表1所示,如果數(shù)據(jù)庫連接成功,則會自動返回到相對的標(biāo)志。完成數(shù)據(jù)庫的使用之后,需要使用mysql_close0函數(shù)將鏈接關(guān)閉。 對于“非遺”的應(yīng)用系統(tǒng)進(jìn)行建立,其主要就是數(shù)據(jù)庫的建立,因?yàn)橹灰獙?shù)據(jù)庫建立合理之后,只需要通過相關(guān)的方式對數(shù)據(jù)庫進(jìn)行訪問、管理等,這寫功能的實(shí)現(xiàn)比較簡單。通過利用Hadoop技術(shù)即可以完成。于是應(yīng)用系統(tǒng)建立完成之后,就可以對“非遺”信息環(huán)境資源規(guī)劃和大數(shù)據(jù)分析,能夠?yàn)橛脩籼峁┱5男枨蟆?/p>
3 結(jié)語
“非遺”信息復(fù)雜、內(nèi)容多樣化,存在不同的數(shù)據(jù)形式,通過大數(shù)據(jù)技術(shù)的應(yīng)用,設(shè)計(jì)一種應(yīng)用系統(tǒng),能夠有效解決對“非遺”信息環(huán)境資源的規(guī)劃和大數(shù)據(jù)分析,使得“非遺”的傳遞內(nèi)容更加準(zhǔn)確,并且有助于提高“非遺”的傳播速度和效率。文章設(shè)計(jì)的系統(tǒng)還不夠完善,其功能性不全面,有待后續(xù)加強(qiáng)。
參考文獻(xiàn)
[1]王元卓,靳小龍,程學(xué)旗,網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013( 06):1125-1138.
[2]陳明兵,大數(shù)據(jù)時(shí)代非物質(zhì)文化遺產(chǎn)資源數(shù)據(jù)庫建設(shè)的思考[J].圖書情報(bào)導(dǎo)刊,2014(21):104-106.
[3]楊子奇.大數(shù)據(jù)時(shí)代非物質(zhì)文化遺產(chǎn)保護(hù)途徑研究[J].凱里學(xué)院學(xué)報(bào),2015(04):59-62.
[4]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(01):146-169.
[5]戴嚦,周耀林.論非物質(zhì)文化遺產(chǎn)檔案信息化建設(shè)的原則與方法[J].圖書情報(bào)知識,2011(5):69-75.
[6]張旭,非物質(zhì)文化遺產(chǎn)的數(shù)字化展示媒介研究[J].包裝工程,2015(10):20-23.
[7]錢維揚(yáng),王俊義,仇洪冰.基于Hadoop的數(shù)據(jù)挖掘技術(shù)在測光紅移上的研究[J].電子技術(shù)應(yīng)用,2016,42(9):111-114.
[8]何沖.Hadoop集群調(diào)度優(yōu)化的研究[D].上海:上海師范大學(xué),2015.
作者簡介:嚴(yán)鶴峰(1983-),男,漢族,陜西部邑人,碩士研究生,講師,研究方向:遠(yuǎn)程教育教學(xué)、建筑給排水。
基金項(xiàng)目:陜西省教育廳2018年度重點(diǎn)科學(xué)研究計(jì)劃項(xiàng)目“開放大學(xué)視域下陜西“非遺”文化教育資源建設(shè)及應(yīng)用模式研究”階段性研究成果(18J2009)