郭偉偉 吳文臣 隋亮
摘要:在大數(shù)據(jù)時(shí)代背景下,各行各業(yè)受到大數(shù)據(jù)的影響,在數(shù)據(jù)應(yīng)用與共享上有了極大的便利。數(shù)據(jù)的價(jià)值在大數(shù)據(jù)時(shí)代下十分重要,不再單純是數(shù)字、額度,而是一種非物質(zhì)產(chǎn)物。而數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代下廣泛應(yīng)用于各行業(yè)之中,本文就從數(shù)據(jù)挖掘技術(shù)概念入手,分析幾種常見(jiàn)的數(shù)據(jù)挖掘技術(shù),然后提出數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域中的實(shí)際應(yīng)用,希望能夠給相關(guān)人員提供參考。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;技術(shù);應(yīng)用
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)08-0103-03
大數(shù)據(jù)技術(shù)能夠?qū)?shù)據(jù)實(shí)施集優(yōu)化處理與數(shù)據(jù)管理,但實(shí)際數(shù)據(jù)操作中還存在數(shù)據(jù)搜索不精準(zhǔn)等問(wèn)題,影響用戶對(duì)數(shù)據(jù)的使用情況。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)能夠有效解決該問(wèn)題,保證數(shù)據(jù)搜索的精準(zhǔn)性,同時(shí)還能對(duì)數(shù)據(jù)進(jìn)行必要的編輯處理。在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)挖掘技術(shù)已經(jīng)在各領(lǐng)域中有了廣泛應(yīng)用,為推動(dòng)社會(huì)進(jìn)步發(fā)展做出了巨大貢獻(xiàn)[1]。基于此,加強(qiáng)對(duì)大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)與應(yīng)用的研究具有十分現(xiàn)實(shí)的意義。
1 數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘主要是對(duì)隨意性強(qiáng)、模糊性質(zhì)數(shù)據(jù)的處理,能夠?qū)崿F(xiàn)對(duì)不是十分精確數(shù)據(jù)的深度挖掘。數(shù)據(jù)挖掘的過(guò)程相對(duì)復(fù)雜,且存在多種數(shù)據(jù)挖掘方法,不同挖掘方法在數(shù)據(jù)處理中相關(guān)步驟基本相同:第一,對(duì)待挖掘數(shù)據(jù)特點(diǎn)、形式等進(jìn)行前提判斷,并分析這些數(shù)據(jù)是否具有挖掘的意義;第二,確定數(shù)據(jù)衡量標(biāo)準(zhǔn),選擇恰當(dāng)標(biāo)準(zhǔn),將殘余數(shù)據(jù)進(jìn)行清理;第三,實(shí)施深度挖掘,最終得到數(shù)據(jù)挖掘的結(jié)果。
目前,在各領(lǐng)域中數(shù)據(jù)挖掘都發(fā)揮了重要作用,能夠?qū)崿F(xiàn)對(duì)行業(yè)所需數(shù)據(jù)實(shí)施精準(zhǔn)定位,將其中實(shí)用數(shù)據(jù)進(jìn)行挖掘。同時(shí),能夠?qū)?shù)據(jù)信息進(jìn)行深度挖掘,根據(jù)數(shù)據(jù)實(shí)施市場(chǎng)預(yù)測(cè),做出更加合理的判斷。基于數(shù)據(jù)挖掘技術(shù),從大數(shù)據(jù)庫(kù)中提取出有用的信息,其具有一定判定功能,通過(guò)對(duì)數(shù)據(jù)中變量動(dòng)態(tài)分析,客觀判定數(shù)據(jù),對(duì)根據(jù)數(shù)據(jù)情況將挖掘?qū)ο蟮奶卣髅枥L出來(lái)。
2 數(shù)據(jù)挖掘技術(shù)方法
現(xiàn)階段,經(jīng)過(guò)科學(xué)技術(shù)發(fā)展,數(shù)據(jù)挖掘技術(shù)方法呈現(xiàn)出不同類型,以便于適應(yīng)更多行業(yè)發(fā)展需求。大數(shù)據(jù)作為一個(gè)海量數(shù)據(jù)資源庫(kù),利用數(shù)據(jù)挖掘技術(shù)想要實(shí)現(xiàn)精準(zhǔn)分析,必須根據(jù)實(shí)際情況選擇針對(duì)性的數(shù)據(jù)挖掘技術(shù)。
2.1 聚類分析法
聚類分析法指的是將不同類型數(shù)據(jù)進(jìn)行有效的歸類處理,整理零碎的數(shù)據(jù)信息,提升數(shù)據(jù)信息的條理性。聚類和分類有所區(qū)別,不是簡(jiǎn)單的將數(shù)據(jù)進(jìn)行分類,在數(shù)據(jù)對(duì)象不清晰情況下,尋找數(shù)據(jù)組中具有價(jià)值意義的信息[2]。聚類分析法缺點(diǎn)也十分明顯,即無(wú)法準(zhǔn)確進(jìn)行數(shù)據(jù)分類,因此目前聚類分析法僅運(yùn)用于數(shù)據(jù)識(shí)別、心理學(xué)等領(lǐng)域中。
2.2 關(guān)聯(lián)分析法
根據(jù)相關(guān)理論發(fā)現(xiàn)任何事物之間都存在關(guān)聯(lián)性,這也是數(shù)據(jù)最為基本特征,為了在海量數(shù)據(jù)庫(kù)中提取有用的信息,必須能夠探索出數(shù)據(jù)和數(shù)據(jù)之間的規(guī)律。而關(guān)聯(lián)分析法即在這個(gè)背景下產(chǎn)生,利用數(shù)據(jù)之間關(guān)聯(lián)性進(jìn)行數(shù)據(jù)挖掘,利用諸多具有關(guān)聯(lián)的數(shù)據(jù)最終找到想要的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行辨別處理,最后將其運(yùn)用到行業(yè)分析中。
2.3 特征分析法
在我國(guó)產(chǎn)業(yè)發(fā)展中,數(shù)據(jù)類型不斷增多,且數(shù)據(jù)量呈現(xiàn)持續(xù)增多的趨勢(shì)。面對(duì)這些數(shù)據(jù)量龐大、結(jié)構(gòu)復(fù)雜、種類繁多的數(shù)據(jù),需要針對(duì)其特征加以分類。這個(gè)過(guò)程中需要借助于先進(jìn)的計(jì)算機(jī)設(shè)備,對(duì)數(shù)據(jù)加以虛擬分類,之后基于所需要數(shù)據(jù)的特征,對(duì)已經(jīng)分類數(shù)據(jù)深度挖掘,最終得到想要的數(shù)據(jù)結(jié)果。
隨著科學(xué)技術(shù)發(fā)展,數(shù)據(jù)挖掘方法會(huì)越來(lái)越豐富,也將發(fā)揮更大的作用。
3 大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用
現(xiàn)如今,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于不同領(lǐng)域中,是由于其能適應(yīng)各行業(yè),能夠?qū)κ袌?chǎng)進(jìn)行精準(zhǔn)預(yù)測(cè),對(duì)促進(jìn)企業(yè)發(fā)展,提高其生產(chǎn)效益具有重要意義。
3.1 在科研領(lǐng)域的應(yīng)用
在科學(xué)研究過(guò)程中,必須以大量數(shù)據(jù)為基礎(chǔ)。可以說(shuō),數(shù)據(jù)對(duì)科研領(lǐng)域具有重要的作用,包括原始資料數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)等,都關(guān)系到科研工作的成敗,不僅需要分析數(shù)據(jù)之間關(guān)系,同時(shí)需要對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析。因此,在科研領(lǐng)域中可以利用數(shù)據(jù)挖掘技術(shù),根據(jù)科研項(xiàng)目提供數(shù)據(jù)為基礎(chǔ),對(duì)所需要數(shù)據(jù)進(jìn)行深度挖掘,快速羅列出所需數(shù)據(jù),能夠?yàn)榭蒲泄ぷ魅藛T提供必要參考。
3.2 在電信領(lǐng)域的應(yīng)用
在計(jì)算機(jī)互聯(lián)網(wǎng)發(fā)展過(guò)程中,電信產(chǎn)業(yè)逐漸興起并發(fā)展起來(lái),成為人們?nèi)粘I钪胁豢扇鄙俚囊徊糠郑娦牌髽I(yè)發(fā)展中必須應(yīng)用海量數(shù)據(jù),才能為用戶提供更加優(yōu)質(zhì)的服務(wù)。電信數(shù)據(jù)往往具有較強(qiáng)的綜合性特點(diǎn),一旦受到限制,則嚴(yán)重影響服務(wù)質(zhì)量[3]。利用數(shù)據(jù)挖掘技術(shù),對(duì)相關(guān)數(shù)據(jù)條理化處理,更加全面的了解和記錄用戶信息,對(duì)服務(wù)過(guò)程中出現(xiàn)的各種問(wèn)題。利用數(shù)據(jù)挖掘?yàn)殡娦牌髽I(yè)提供精準(zhǔn)的用戶信息,對(duì)電信企業(yè)優(yōu)化、高效運(yùn)行提供便利。
3.3 在教育領(lǐng)域的應(yīng)用
新時(shí)期,現(xiàn)代化教育工作開(kāi)展中,對(duì)于學(xué)生個(gè)人發(fā)展情況、學(xué)習(xí)情況較為關(guān)注,而只有相關(guān)數(shù)據(jù)采用準(zhǔn)確反映學(xué)生個(gè)人情況。在學(xué)校中,學(xué)生成績(jī)、各科學(xué)習(xí)都會(huì)形成數(shù)據(jù),而在教育領(lǐng)域中使用數(shù)據(jù)挖掘技術(shù),能更準(zhǔn)確的分析學(xué)生各項(xiàng)素質(zhì),最終得到的分析結(jié)果能為教師教學(xué)、學(xué)校管理工作提供參考,對(duì)促進(jìn)現(xiàn)代化教育教學(xué)工作發(fā)展具有重要意義[4]。
3.4 在制造業(yè)領(lǐng)域的應(yīng)用
經(jīng)濟(jì)發(fā)展下,我國(guó)人民生活水平有了質(zhì)的飛躍,對(duì)產(chǎn)品的質(zhì)量、功能都提出更高要求。在制造業(yè)領(lǐng)域中,產(chǎn)品數(shù)據(jù)、消費(fèi)者需求數(shù)據(jù)等是制造業(yè)關(guān)鍵,通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)產(chǎn)品數(shù)據(jù)分類整理,并進(jìn)行統(tǒng)計(jì)學(xué)分析,能夠?qū)Ρ瘸霎a(chǎn)品的優(yōu)點(diǎn)與缺點(diǎn),根據(jù)數(shù)據(jù)結(jié)果對(duì)產(chǎn)品進(jìn)行改良,不僅能有利于提升產(chǎn)品生產(chǎn)的效率,同時(shí)也能保證產(chǎn)品更加符合消費(fèi)者需求,為制造商創(chuàng)造更大的經(jīng)濟(jì)效益,同時(shí)也制造出更多優(yōu)質(zhì)的產(chǎn)品。可以說(shuō),制造業(yè)領(lǐng)域中應(yīng)用數(shù)據(jù)挖掘技術(shù),對(duì)其自身的推動(dòng)作用是巨大的。
3.5 在醫(yī)療領(lǐng)域的應(yīng)用
新時(shí)期,醫(yī)學(xué)逐漸發(fā)達(dá)起來(lái),但要想精準(zhǔn)的進(jìn)行疾病診斷依舊是一項(xiàng)難度較大的工作。通過(guò)數(shù)據(jù)挖掘技術(shù),能在疾病診斷方面提供重要幫助,提升相關(guān)檢測(cè)精準(zhǔn)度,還能降低醫(yī)務(wù)工作者的勞動(dòng)量,提升疾病診治的效率,從疾病中拯救更多患者。在長(zhǎng)期積累下,醫(yī)院數(shù)據(jù)量十分龐大,且具有處理方式繁雜、類型復(fù)雜等,傳統(tǒng)數(shù)據(jù)處理方式并無(wú)法發(fā)揮這些數(shù)據(jù)價(jià)值[5]。應(yīng)用數(shù)據(jù)挖掘正好能解決該問(wèn)題,對(duì)醫(yī)生進(jìn)行疾病診斷提供重要幫助。
3.6 在計(jì)算機(jī)安全領(lǐng)域的應(yīng)用
通過(guò)數(shù)據(jù)挖掘技術(shù),能夠幫助用戶有效篩選、甄別網(wǎng)絡(luò)中存在的威脅計(jì)算機(jī)安全的軟件、病毒等。一些不法分子會(huì)利用偽裝,將一些病毒隱藏在軟件中,而一般殺毒軟件無(wú)法順利檢測(cè)出來(lái)。利用數(shù)據(jù)挖掘技術(shù)能夠輕松檢測(cè)出惡意軟件行為模式,并對(duì)其益害進(jìn)行判斷,對(duì)凈化網(wǎng)絡(luò)環(huán)境,維護(hù)計(jì)算機(jī)網(wǎng)絡(luò)用戶安全具有重要幫助。
4 大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的發(fā)展
發(fā)展至今,各行業(yè)都意識(shí)到數(shù)據(jù)挖掘技術(shù)在其發(fā)展中扮演的角色,也越來(lái)越重視數(shù)據(jù)挖掘開(kāi)發(fā)。基于大數(shù)據(jù)時(shí)代背景,數(shù)據(jù)挖掘技術(shù)必須有進(jìn)一步發(fā)展,才能更好迎合時(shí)代發(fā)展需求。
4.1 多媒體數(shù)據(jù)發(fā)展
多媒體指的是包括文字、圖片、音頻、視頻為一體的集合媒體形式,在計(jì)算機(jī)網(wǎng)絡(luò)發(fā)展中呈現(xiàn)出更多元化形式,多媒體數(shù)據(jù)類型更多、復(fù)雜程度更甚。為了能夠?qū)@些更加多元復(fù)雜數(shù)據(jù)分析,傳統(tǒng)數(shù)據(jù)收集、分析技術(shù)已經(jīng)無(wú)法滿足,需要采用新型的數(shù)據(jù)挖掘技術(shù),對(duì)多媒體數(shù)據(jù)實(shí)施即時(shí)精準(zhǔn)處理,探求到掩藏在數(shù)據(jù)下的真實(shí)信息。
4.2 改進(jìn)數(shù)據(jù)挖掘算法
算法是數(shù)據(jù)挖掘技術(shù)中關(guān)鍵環(huán)節(jié),大數(shù)據(jù)讓數(shù)據(jù)搜集更加便利,但同時(shí)也標(biāo)志著數(shù)據(jù)量呈現(xiàn)出幾何倍數(shù)增加。為了能夠快速處理海量數(shù)據(jù)信息,必須更精確的數(shù)據(jù)挖掘技術(shù),必須對(duì)算法加以創(chuàng)新、改進(jìn),提升數(shù)據(jù)挖掘技術(shù)效率,促進(jìn)其在更多領(lǐng)域能夠發(fā)揮更大作用。
4.3 與其他系統(tǒng)的集成
數(shù)據(jù)挖掘?qū)嵤┻^(guò)程中,并非只需要一種方法,很多時(shí)候需要多種計(jì)算模式共用,才能更加及時(shí)獲取有用信息。在應(yīng)用數(shù)據(jù)挖掘技術(shù)中,應(yīng)該保持更加靈活的原則,與各系統(tǒng)集成發(fā)展,保證數(shù)據(jù)挖掘發(fā)揮更大的價(jià)值。
5 結(jié)語(yǔ)
通過(guò)上述分析可知,在大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)的價(jià)值逐漸凸顯出來(lái),而面對(duì)種類繁多、數(shù)量龐大的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理技術(shù)已經(jīng)無(wú)法滿足需求。而數(shù)據(jù)挖掘技術(shù)在這一背景下應(yīng)運(yùn)而生,并廣泛運(yùn)用在各行各業(yè)中,無(wú)論是教育、醫(yī)療,還是電信、科研、制造,數(shù)據(jù)挖掘技術(shù)都發(fā)揮了重要作用。在市場(chǎng)經(jīng)濟(jì)發(fā)展環(huán)境下,數(shù)據(jù)類型還會(huì)不斷增多,必須加強(qiáng)對(duì)數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā)與應(yīng)用,保證其為社會(huì)進(jìn)步與發(fā)展做出更大貢獻(xiàn)。
參考文獻(xiàn)
[1] 李陽(yáng).基于Spark的并行數(shù)據(jù)挖掘研究及應(yīng)用[J].電子科技大學(xué)學(xué)報(bào).2018,14(8):69-70.
[2] 徐偉.基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)和應(yīng)用分析[J].安陽(yáng)師范學(xué)院學(xué)報(bào).2018,20(8):117-118.
[3] 裴海平.淺談數(shù)據(jù)挖掘技術(shù)在管理信息系統(tǒng)中的應(yīng)用[J].科教導(dǎo)刊.2018,24(2):119-120.
[4] 王長(zhǎng)林.大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)的應(yīng)用分析[J].現(xiàn)代信息科技.2018,13(1):28-30.
[5] 王娟.大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘在管理會(huì)計(jì)中的應(yīng)用探討[J].現(xiàn)代商貿(mào)工業(yè).2019,16(2):87-88.