

[摘 要] R軟件集成了多種數據分析和可視化方法,具有強大的分析能力和出色的擴展性,因此被廣泛應用于數據挖掘之中。通過聚類分析和分類回歸樹方法給出了R軟件在數據挖掘中的應用。從簡潔的腳本設計和出眾的分析效果展示了 R 軟件的基本特點及其在數據挖掘中的優勢。
[關 鍵 詞] R軟件;數據挖掘;聚類分析;分類回歸樹
[中圖分類號] F407.67 [文獻標志碼] A [文章編號] 2096-0603(2017)18-0045-01
近年來,隨著電子商務、社交網站、移動終端應用開發的興起,企業對用戶基本數據、行為數據、網絡痕跡數據等信息的掌握逐漸成為其在信息領域的核心競爭力,“用數據說話、用數據決策”已成為企業未來發展的基石。然而,傳統數據在全樣抽取時存在時效性差、不適合處理實時數據的缺陷,因此,如何從數據中挖掘出有價值的信息就顯得十分重要。
一、數據準備
數據文件包括通用型文件如純文本文件、Excel等,通過加載不同的功能模塊,R軟件還可以讀取多種數據文件。通過安裝 RODBC、RJDBC和RMySQL可以獲取對 ODBC、JDBC和Oracle 數據源的訪問能力。由于實際應用中往往需要對異構數據源進行挖掘,R 軟件提供的針對各種數據源的訪問接口具有很強的適用性。
二、數據挖掘建模
(一)聚類分析
k-means是經典的基于劃分的聚類方法,其基本思想是使聚類性能指標最小化。所用的聚類準則函數是聚類集中每個樣本點到該類中心的距離平方之和,應使其最小化。為此,首先根據給定聚類數K,為每個聚類確定一個初始聚類中心;其次將樣本集里的各個樣本按最小距離原則分配到最鄰近的聚類,并使用每個聚類中的樣本均值作為新的聚類中心,如此重復直到聚類中心不發生變化;最后可獲得K個聚類。
R軟件中可以用k-means()函數來進行聚類。聚類可視化采用判別投影繪制函數plotcluster(),把數據對象映射平面空間,展示聚類之間的異構性。以數據集iris為例。所用代碼見表1。
(二)分類回歸樹分析
R軟件提供的分類回歸樹函數有很多種,為簡化獲得的分類回歸樹模型,避免產生過度擬合,常采用的分類回歸樹函數為rpart(),rpart()可以建立一個分類回歸樹,并且可以選擇最小誤差的預測。利用rpart包中的bodyfat數據集建立分類回歸樹,然后用該分類回歸樹預測,所用代碼見表2。
優秀的數據挖掘工具一方面要求豐富的數據挖掘功能,另一方面也需要優化的算法和用戶體驗,R軟件具備構建實用性強的數據挖掘系統的各種條件,且具有開源的特點,交互方式提供可視化界面,還支持數據挖掘工作流的任務定義與執行,簡化了編程人員的操作。此外,可通過自定義腳本來進行分析功能及其他諸如C語言、java語言的調用等。因此,R語言未來將在大數據的挖掘領域有更廣泛的應用。
參考文獻:
邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.