宋晶晶
(長治學(xué)院,山西 長治 046011)
本文基于R 語言這一數(shù)據(jù)挖掘工具的研究背景,包括R 語言的數(shù)據(jù)總結(jié)和總結(jié)算法,對相關(guān)的數(shù)據(jù)準(zhǔn)確整理、統(tǒng)計、分析的作用及R 語言作為數(shù)據(jù)挖掘工具發(fā)揮的相關(guān)作用進(jìn)行研究。R 語言對建模數(shù)據(jù)的要求包括在建模過程或挖掘過程中進(jìn)行相關(guān)的數(shù)據(jù)處理。與此同時,對所分布的數(shù)據(jù)進(jìn)行分析,并對建模過程中的相關(guān)事件進(jìn)行分析,數(shù)據(jù)挖掘工具的相關(guān)應(yīng)用,包括在后文中所要介紹的設(shè)計方面,這些內(nèi)容都會在建模的基礎(chǔ)上來進(jìn)行。
R 語言現(xiàn)已成為數(shù)據(jù)的通用語言,它適用于數(shù)據(jù)整理。R 語言的數(shù)據(jù)挖掘工具也提供了許多數(shù)據(jù)統(tǒng)計分析的制圖方法,不僅滿足了人們對數(shù)據(jù)各式各樣的要求,還創(chuàng)造出了一條紐帶來構(gòu)建數(shù)據(jù)和數(shù)據(jù)之間的聯(lián)系。用戶可以通過下載的程序,或者加載更多的軟件包來滿足在其他方面的需求。此外,R 語言還有許多比較完善的相關(guān)擴(kuò)展作用。在R 語言總結(jié)方面的電子商務(wù)網(wǎng)站中,用戶完成數(shù)據(jù)下載后,對于當(dāng)前數(shù)據(jù)沒有透徹的了解,不能進(jìn)行下一步的挖掘工作,但是R 語言可以向用戶提供一系列的統(tǒng)計方法,以圖表的方式來反映數(shù)據(jù)的信息。這樣既可以幫助用戶對數(shù)據(jù)有一個非常直觀的了解,也能夠?yàn)榭蛻籼峁┨幚淼乃悸贰S脩暨€可以通過此軟件分析其他方面的數(shù)據(jù)問題,這些都是R 語言的有用之處[1]。
在直觀分布中,用戶可以借助R 語言以圖形的方式向客戶展示更多的數(shù)據(jù),有利于客戶更好地理解相關(guān)數(shù)據(jù)。這種方法不僅可以使用戶清楚加載數(shù)據(jù)中存在的錯誤,也可以輔助其更好地改正錯誤,指導(dǎo)用戶選擇不同的方式進(jìn)行變換變量,并且也選擇自己感興趣的數(shù)據(jù)內(nèi)容進(jìn)行分析。R 語言還提供了許多用于圖形方式呈現(xiàn)的數(shù)據(jù)選項。在某些方面,R 語言是最有能力將數(shù)據(jù)變?yōu)榭梢暬恼Z言之一,它能夠使用不同的圖形進(jìn)行變換,激發(fā)用戶的興趣,使呈現(xiàn)在顧客眼前的數(shù)據(jù)形式多種多樣。在直觀分布象中,用戶可以選擇感興趣的特定變量和不同的分布圖對數(shù)據(jù)進(jìn)行多元化分析。
在數(shù)據(jù)提取過程中,用戶會花費(fèi)更多的時間進(jìn)行數(shù)據(jù)匹配。為了提高數(shù)據(jù)的有效性,本設(shè)計提出改進(jìn)數(shù)據(jù)提取方式以實(shí)現(xiàn)目標(biāo),清除并且處理丟失的數(shù)據(jù)。數(shù)據(jù)分類組件能夠提供合適的方法來幫助用戶。數(shù)據(jù)錯誤、部分?jǐn)?shù)據(jù)丟失、異常數(shù)據(jù)值等這些都是用戶下載數(shù)據(jù)的過程中常遇到的問題。數(shù)據(jù)的整理在整個R 語言挖掘技術(shù)中有著非常重要的地位,是數(shù)據(jù)挖掘不可或缺的一步。
對用戶而言,不同的模型對數(shù)據(jù)有不同的要求,用戶可以根據(jù)已建立的模型選擇相應(yīng)的數(shù)據(jù)縮放方法來實(shí)現(xiàn)對數(shù)據(jù)的處理。數(shù)據(jù)縮放主要是根據(jù)用戶本身對數(shù)據(jù)的相關(guān)要求進(jìn)行縮放,它的可變性強(qiáng),可以根據(jù)用戶的要求改變。
數(shù)據(jù)插補(bǔ)就是填補(bǔ)數(shù)據(jù)空白或缺少值。數(shù)據(jù)丟失有各種原因,例如,數(shù)據(jù)在傳輸?shù)倪^程中會出現(xiàn)丟失的情況,這種情況會使數(shù)據(jù)之間的連接不連貫。因此就需要通過數(shù)據(jù)的插補(bǔ)進(jìn)行修復(fù),這樣可以引用用戶的數(shù)據(jù),使用戶掌握相應(yīng)的插補(bǔ)方式,保證數(shù)據(jù)的價值,使那些沒有足夠價值的數(shù)據(jù)被代替或被刪除。用戶也可以對沒有價值的數(shù)據(jù)進(jìn)行刪除、自我排查。
數(shù)據(jù)轉(zhuǎn)換是按數(shù)據(jù)類別、指令和類型進(jìn)行的。層次結(jié)構(gòu)允許將連續(xù)的數(shù)值變量明確轉(zhuǎn)換為特定值。數(shù)據(jù)的轉(zhuǎn)換對于數(shù)據(jù)的處理有著非常重要的作用,它不僅可以通過轉(zhuǎn)換的方式使數(shù)據(jù)變得更加完善,這對于數(shù)據(jù)的轉(zhuǎn)換起著很重要的作用。
在這個模型中,此技術(shù)為用戶提供群體分類、關(guān)聯(lián)分析、決策樹和景觀模型,使用戶能夠快速找到合適的模型。在顯示建模過程中優(yōu)化默認(rèn)設(shè)置的同時,用戶可以修改參數(shù)以滿足其需求,這就是建模的目的。
聚類分析是最常用的數(shù)據(jù)提取方法之一。在沒有數(shù)據(jù)錯亂的情況下,聚類分析可以將數(shù)據(jù)匯總到不同的類別中,這是用戶之間數(shù)據(jù)可比性的基礎(chǔ)。這一類別的數(shù)據(jù)盡可能相似,根據(jù)實(shí)際情況,在擴(kuò)展R 語言中選擇相應(yīng)的聚類計算方法。
關(guān)聯(lián)的相關(guān)分析作為數(shù)據(jù)挖掘中非常重要的一項技術(shù),用來發(fā)現(xiàn)這些數(shù)據(jù)或變量之間的相關(guān)性,包括對數(shù)據(jù)的關(guān)聯(lián)進(jìn)行相關(guān)分析,這些對后期處理數(shù)據(jù)有非常大的幫助。與此同時,這些相關(guān)性的表現(xiàn)為相關(guān)規(guī)則的一種結(jié)合方式。后關(guān)聯(lián)分析的時間算法較多,這樣可以根據(jù)R 語言的擴(kuò)展進(jìn)行相關(guān)算法的擴(kuò)展,這對關(guān)聯(lián)與算法之中的分析也有著非常重要的作用。因此,關(guān)聯(lián)分析在建模中是一項非常重要的內(nèi)容。
決策樹是經(jīng)典的數(shù)據(jù)挖掘和相關(guān)學(xué)習(xí)的一種算法。建模的過程存在許多決策樹的算法。根據(jù)R 語言的不同性和相關(guān)性,用戶可以進(jìn)行許多種不同的算法。同時,用戶也可以選擇相應(yīng)的擴(kuò)展包進(jìn)行相應(yīng)的算法,包括函數(shù)等算法,可以使用決策樹來進(jìn)行計算,這樣可以在建模過程中減少計算量[2]。另外一種就是隨機(jī)森林,決策樹雖然提供了非常簡單的模型,但是這種模型較簡單,不能過于具體。因此在許多情況下,設(shè)計要將這些簡單的模型組合在一起,這就是隨機(jī)森林。隨機(jī)森林是許多決策樹模型組成在一起的一個大模型,它的算法也很多,可以根據(jù)R 語言的擴(kuò)展來實(shí)現(xiàn)。隨機(jī)森林可以在函數(shù)中進(jìn)行隨機(jī)計算,它在許多方面發(fā)揮著巨大的作用。隨機(jī)森林能夠解決決策失誤這種簡單的問題,也可以實(shí)時解決一些大的問題。
對于此次建模的評價,在不同的模型中,要選擇最合適的模型,必須要對所選的模型進(jìn)行相關(guān)的評估與數(shù)據(jù)的計算,保證在建模的過程中可以更好地理解所建的模型,包括這個模型數(shù)據(jù)處理的能力也要在評估范圍之內(nèi)。模型的評價可以確定在模型創(chuàng)建時,比如,數(shù)據(jù)的標(biāo)量是否出現(xiàn)錯誤,建模時模型的好壞,這都是對于建模的評價[3]。
在建模過程中,用戶不僅要進(jìn)行關(guān)聯(lián)的分析,還要進(jìn)行相關(guān)R 語言的計算。以上是基于R 語言工具對這次數(shù)據(jù)加載模塊的方式總結(jié),這樣可以更直觀地了解R 語言在數(shù)據(jù)挖掘基礎(chǔ)之中的相關(guān)應(yīng)用。通過建模的方式,用戶可以更好地理解相關(guān)應(yīng)用的方式。由此看來,將R 語言挖掘工具技術(shù)用于數(shù)據(jù)研究未來會有更多的建模方式。這些建模方式會在以后的許多領(lǐng)域中得到應(yīng)用,并且發(fā)揮重要作用。