侯亞君
(山西管理職業學院,山西臨汾 041051)
隨著近年來電子商務、社交網站、移動終端應用開發等行業的興起,企業對于用戶基本數據、行為數據、網絡痕跡數據等信息的掌握逐漸成為其在信息領域的核心競爭力,“用數據說話”、“用數據決策”等已經成為各大企業倡導的未來發展基石。然而,傳統的數據全樣抽取、數據的隨機抽樣等分析統計方法不僅時效性差,不適應對實時數據的處理,且由于分析手段的局限性,預測結果數據往往存在有效性差的問題,因此,如何利用海量的數據挖掘出有價值的信息,對于企業來說,是挑戰,也是機遇。
圖1為自定義編寫的kmeans算法流程圖,首先生成繪制函數p.kmeans,然后為數據中的每個樣本分配聚類id號,通過mid是中心數據,c.core用于對數據進行聚類的分類,
各個聚類的中心坐標點位置由Mid.core函數來進行計算,通過多個聚類中心點的計算,如果多次計算出的中心點,則停止函數的循環,否則繼續循環,直到所有聚類的中心點都相同。
IGRAPH主要適用于社交網站、電商平臺等互動平臺,通過對站點的相關圖片信息進行分析處理,獲取有價值的決策數據。首先通過線段與結點構建圖片,并對線段和結點進行賦值:如線段的指向權重,或無方向的權重分別為多少。IGRAPH自帶多種圖片的創建策略。如“隨機算法”是針對將任意兩點進行連線生成圖片(如圖1所示),數據結構中的“最小生成樹算法”也可應用到圖片生成中,保證最小的連線權重。“穿插算法”會使得兩個結點的連接線也穿透第三個結點,對于帶方向的圖片來說,兩個結點連通的充分必要條件M指向N,在無向圖中,M和N必須互相指向才能稱之為連通。“最短路徑算法”是圖片創建中最常使用的一種算法,如果圖片中的權重值為負數,則會使用到Bellman-ford算法,如果圖片中的所有權重都一樣,或者都為正數時會使用到Dijkstra算法。大量的連線和結點處理創建圖片,對于圖片的信息統計處理后即可看到圖片包含的所有信息。如圖片的連接線和結點的數量、圖片的各個結點是連通還是孤立的狀態、圖片中任意結點之間的距離、圖片的對稱程度、圖片的結點分布情況等等。以上信息對于進行圖片的各類特征的統計提供基礎數據,如圖片的密集點分布特性、方向分布特性等,并找出之間的關聯性。
Weka技術源于1992年開始的一個關于機器學習的新西蘭政府項目,包含關于機器學習的多種算法介紹,并提供圖形可視化編程環境,便于網絡編程人員的學習,一方面可以將對數據的多個操作利用知識流功能進行組合,包括數據的輸入輸出、數據的初始化、處理、數據的分類和回歸、數據的聚類、數據的關聯設置、數據的預估、數據的可視化等操作,另一方面也提供用命令來執行另外一個命令的功能。

圖 1(a)隨機圖片 圖 1(b)偏好連接
數據初始化操作步驟是用來選擇數據的特征值,對數據進行格式的統一化。涉及的函數有Normalize(),Discretize(),分別用于對標準化數據和離散型數據進行處理。
數據的分類用classifer實現,通過訓練數據集、測試數據集、交叉校驗等方法進行數據評價模型的搭建,最后通過Result list提供的可視化圖面查看分類的歷史數據,最終通過classifer輸出分類結果,并對結果進行驗證,可清晰地查看正確分類與錯誤分類的樣本信息,這個過程中涉及的關鍵算法有最相鄰分類算法IBk()、源數據樣本提取算法 Bagging()、決策樹算法 J48()、向量分類算法SMO()。
數據的聚類中關鍵的算法有以下幾種:
1.Cobweb():建立聚類,然后通過查找數據來適應這個聚類,不適用于大型的數據庫。
2.FarthestFirst()、SimpleKMeans():均值算法。
3.XMeans():k均值優化法,能夠進行類別數自定義。
4.DBScan():對于將數據庫中含有噪聲的各類形狀形成聚類。
數據的關聯規則中關鍵的算法即Apriori(),可支持少量數據的處理。
預測和評估中的predict()算法用于基于分類和聚類分析結果預測新數據的情況。table()用于對任意兩個對象進行比較,evaluate_Weka_classifier()算法用于執行預估模型評估模型的執行。
Holt-Winters是數據挖掘中一種基于時間序列的指數平常算法,時間序列是指以某個時間段為周期構成的趨勢數據,如下降、保持或上升趨勢,而這些歷史數據則可以對未來的數據發展趨勢提供分析基礎。Holt-Winters算法是通過一次和二次指數平滑算法進預測數據走勢。一次指數平滑算法的遞推關系為:mx=cbi+(1-c)mx-1,其中c是平滑參數,mx是x個數據的平滑值,當c接近1的時候,計算后的數據就越接近當前的數值,通過一次和二次指數,即可在坐標相應位置進行記錄,通過累積三次指數的結果對于數據的季節性與趨勢能夠很好地保存,而通過將三次指數數據進行累積相乘所得的趨勢信息更準確。
無論是電子商務網站、門戶網站、在線游戲網站,還是社交網站,對于訪問網站的用戶群體、用戶訪問目的、訪問停留的時間、網站跳出比例、網站的流量、網站的投入產出比情況等通過信息匯總后進行全面的了解,一方面幫助網站為用戶提供更有針對性的服務,另外一方面也幫助網站運維人員發現問題。對于網站產生的大量數據,如果當在某個區間流量基本沒有變化時,我們需要進行哪些操作與統計分析來獲取決策數據呢。
第一步,我們需要對于搜集到的數據進行細分。此步驟可以使用專用分析工具Analytics,能夠對流量的來源、流量的類型(付費/免費)、自主搜索的流量/推薦鏈接流量均有細致的報告,同時還針對關鍵詞有細分數據報告,可對關鍵詞的搜索頻率有非常清晰的了解。
第二步,需要對訪問網站的用戶群體進行分析,包括老用戶的回訪率、新用戶的增長率,同時還可以自行創建用戶群體類別,如按照性別、年齡段、學歷、從事行業等。不同類別的比率對于新市場的開拓將有很大的幫助。
第三步,對網站的流量有效性進行評估。當不同的時間段內統計的訪問量相同的時候,需要對流量的有效性進行分析,即是部分老用戶的反復回訪造成,還是多個用戶進行初次訪問造成。這對于網站制定推廣宣傳政策將有所幫助。如果提高網站的有效性,R語言中提供了一種質量控制圖方法,名為P控制圖,這種方法適用于已經確定的數據類型的分析,且主要用于判斷“Yes/No”,例如某個時間段內訪問用戶是否老用戶、用戶是否完成了購買操作、流量是否由于老用戶的多次回訪生成……控制圖繪制成功后呈現的狀態判斷以上這些類型的比率是否正常,如出現異常,則找出造成異常的關鍵因子。這一方法要求數據足夠多,且分布情況趨于正太時,需要突出一點的是,對于提供的數據,針對每組數據都可以為其設置上、下限。P控制圖的計算公式如下:

第四步,對用戶訪問的目的進行分析,由于網站的訪問量這個數字單獨的意義并不大,例如有1萬次的訪問量,達成購買和只是咨詢訪問是大相徑庭的。因此需要對用戶訪問的目的進行詳細分析,一是針對網站的重點內容的訪問情況,二是對于站內的關鍵詞的搜索頻率情況,通過這兩者的綜合分析,將對網站改版、新服務的制訂有所幫助。
最后,需要對網站的投入產出比進行分析,即流量的成本與流量產生的價值的比率,在控制成本的前提下,最大限度地提高流量能產生的價值。
優秀的數據挖掘工具一方面要求豐富的數據挖掘功能,另一方面也需要優化的算法和用戶體驗,R語言集成了多種改進后的數據挖掘算法和工具包,且具有開源的特點,交互方式提供可神化界面,還支持數據挖掘工作流的任務定義與執行,極大地簡化了編程人員的操作,此外,可通過自定義腳本來進行分析功能及其它諸如C語言、java語言的調用等。綜合以上優勢,相信R語言未來將在大數據的挖掘領域有更為廣泛的應用。
[1][葡]Luís Torgo.數據挖掘與 R 語言[M].北京:機械工業出版社,2013.
[2]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[3]薛毅,陳立萍.統計建模與R軟件[M].北京:清華大學出版社,2007.
[4]謝益輝.基于R軟件的包的分類與回歸樹應用[J].統計與信息論壇,2007(5).
[5]WILIAMSG.Rattle:a datamining GUI for R[J].The R journal,2009(1).