999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

R語言在數據挖掘中的運用

2014-03-05 07:21:52侯亞君
晉城職業技術學院學報 2014年2期
關鍵詞:數據挖掘分類用戶

侯亞君

(山西管理職業學院,山西臨汾 041051)

一、前言

隨著近年來電子商務、社交網站、移動終端應用開發等行業的興起,企業對于用戶基本數據、行為數據、網絡痕跡數據等信息的掌握逐漸成為其在信息領域的核心競爭力,“用數據說話”、“用數據決策”等已經成為各大企業倡導的未來發展基石。然而,傳統的數據全樣抽取、數據的隨機抽樣等分析統計方法不僅時效性差,不適應對實時數據的處理,且由于分析手段的局限性,預測結果數據往往存在有效性差的問題,因此,如何利用海量的數據挖掘出有價值的信息,對于企業來說,是挑戰,也是機遇。

二、R語言在數據挖掘應用中的幾個主要技術

(一)kmeans

圖1為自定義編寫的kmeans算法流程圖,首先生成繪制函數p.kmeans,然后為數據中的每個樣本分配聚類id號,通過mid是中心數據,c.core用于對數據進行聚類的分類,

各個聚類的中心坐標點位置由Mid.core函數來進行計算,通過多個聚類中心點的計算,如果多次計算出的中心點,則停止函數的循環,否則繼續循環,直到所有聚類的中心點都相同。

(二)IGRAPH

IGRAPH主要適用于社交網站、電商平臺等互動平臺,通過對站點的相關圖片信息進行分析處理,獲取有價值的決策數據。首先通過線段與結點構建圖片,并對線段和結點進行賦值:如線段的指向權重,或無方向的權重分別為多少。IGRAPH自帶多種圖片的創建策略。如“隨機算法”是針對將任意兩點進行連線生成圖片(如圖1所示),數據結構中的“最小生成樹算法”也可應用到圖片生成中,保證最小的連線權重。“穿插算法”會使得兩個結點的連接線也穿透第三個結點,對于帶方向的圖片來說,兩個結點連通的充分必要條件M指向N,在無向圖中,M和N必須互相指向才能稱之為連通。“最短路徑算法”是圖片創建中最常使用的一種算法,如果圖片中的權重值為負數,則會使用到Bellman-ford算法,如果圖片中的所有權重都一樣,或者都為正數時會使用到Dijkstra算法。大量的連線和結點處理創建圖片,對于圖片的信息統計處理后即可看到圖片包含的所有信息。如圖片的連接線和結點的數量、圖片的各個結點是連通還是孤立的狀態、圖片中任意結點之間的距離、圖片的對稱程度、圖片的結點分布情況等等。以上信息對于進行圖片的各類特征的統計提供基礎數據,如圖片的密集點分布特性、方向分布特性等,并找出之間的關聯性。

(三)Weka

Weka技術源于1992年開始的一個關于機器學習的新西蘭政府項目,包含關于機器學習的多種算法介紹,并提供圖形可視化編程環境,便于網絡編程人員的學習,一方面可以將對數據的多個操作利用知識流功能進行組合,包括數據的輸入輸出、數據的初始化、處理、數據的分類和回歸、數據的聚類、數據的關聯設置、數據的預估、數據的可視化等操作,另一方面也提供用命令來執行另外一個命令的功能。

圖 1(a)隨機圖片 圖 1(b)偏好連接

數據初始化操作步驟是用來選擇數據的特征值,對數據進行格式的統一化。涉及的函數有Normalize(),Discretize(),分別用于對標準化數據和離散型數據進行處理。

數據的分類用classifer實現,通過訓練數據集、測試數據集、交叉校驗等方法進行數據評價模型的搭建,最后通過Result list提供的可視化圖面查看分類的歷史數據,最終通過classifer輸出分類結果,并對結果進行驗證,可清晰地查看正確分類與錯誤分類的樣本信息,這個過程中涉及的關鍵算法有最相鄰分類算法IBk()、源數據樣本提取算法 Bagging()、決策樹算法 J48()、向量分類算法SMO()。

數據的聚類中關鍵的算法有以下幾種:

1.Cobweb():建立聚類,然后通過查找數據來適應這個聚類,不適用于大型的數據庫。

2.FarthestFirst()、SimpleKMeans():均值算法。

3.XMeans():k均值優化法,能夠進行類別數自定義。

4.DBScan():對于將數據庫中含有噪聲的各類形狀形成聚類。

數據的關聯規則中關鍵的算法即Apriori(),可支持少量數據的處理。

預測和評估中的predict()算法用于基于分類和聚類分析結果預測新數據的情況。table()用于對任意兩個對象進行比較,evaluate_Weka_classifier()算法用于執行預估模型評估模型的執行。

(四)Holt-Winters

Holt-Winters是數據挖掘中一種基于時間序列的指數平常算法,時間序列是指以某個時間段為周期構成的趨勢數據,如下降、保持或上升趨勢,而這些歷史數據則可以對未來的數據發展趨勢提供分析基礎。Holt-Winters算法是通過一次和二次指數平滑算法進預測數據走勢。一次指數平滑算法的遞推關系為:mx=cbi+(1-c)mx-1,其中c是平滑參數,mx是x個數據的平滑值,當c接近1的時候,計算后的數據就越接近當前的數值,通過一次和二次指數,即可在坐標相應位置進行記錄,通過累積三次指數的結果對于數據的季節性與趨勢能夠很好地保存,而通過將三次指數數據進行累積相乘所得的趨勢信息更準確。

三、R語言在數據挖掘中的應用實例

無論是電子商務網站、門戶網站、在線游戲網站,還是社交網站,對于訪問網站的用戶群體、用戶訪問目的、訪問停留的時間、網站跳出比例、網站的流量、網站的投入產出比情況等通過信息匯總后進行全面的了解,一方面幫助網站為用戶提供更有針對性的服務,另外一方面也幫助網站運維人員發現問題。對于網站產生的大量數據,如果當在某個區間流量基本沒有變化時,我們需要進行哪些操作與統計分析來獲取決策數據呢。

第一步,我們需要對于搜集到的數據進行細分。此步驟可以使用專用分析工具Analytics,能夠對流量的來源、流量的類型(付費/免費)、自主搜索的流量/推薦鏈接流量均有細致的報告,同時還針對關鍵詞有細分數據報告,可對關鍵詞的搜索頻率有非常清晰的了解。

第二步,需要對訪問網站的用戶群體進行分析,包括老用戶的回訪率、新用戶的增長率,同時還可以自行創建用戶群體類別,如按照性別、年齡段、學歷、從事行業等。不同類別的比率對于新市場的開拓將有很大的幫助。

第三步,對網站的流量有效性進行評估。當不同的時間段內統計的訪問量相同的時候,需要對流量的有效性進行分析,即是部分老用戶的反復回訪造成,還是多個用戶進行初次訪問造成。這對于網站制定推廣宣傳政策將有所幫助。如果提高網站的有效性,R語言中提供了一種質量控制圖方法,名為P控制圖,這種方法適用于已經確定的數據類型的分析,且主要用于判斷“Yes/No”,例如某個時間段內訪問用戶是否老用戶、用戶是否完成了購買操作、流量是否由于老用戶的多次回訪生成……控制圖繪制成功后呈現的狀態判斷以上這些類型的比率是否正常,如出現異常,則找出造成異常的關鍵因子。這一方法要求數據足夠多,且分布情況趨于正太時,需要突出一點的是,對于提供的數據,針對每組數據都可以為其設置上、下限。P控制圖的計算公式如下:

第四步,對用戶訪問的目的進行分析,由于網站的訪問量這個數字單獨的意義并不大,例如有1萬次的訪問量,達成購買和只是咨詢訪問是大相徑庭的。因此需要對用戶訪問的目的進行詳細分析,一是針對網站的重點內容的訪問情況,二是對于站內的關鍵詞的搜索頻率情況,通過這兩者的綜合分析,將對網站改版、新服務的制訂有所幫助。

最后,需要對網站的投入產出比進行分析,即流量的成本與流量產生的價值的比率,在控制成本的前提下,最大限度地提高流量能產生的價值。

四、總結

優秀的數據挖掘工具一方面要求豐富的數據挖掘功能,另一方面也需要優化的算法和用戶體驗,R語言集成了多種改進后的數據挖掘算法和工具包,且具有開源的特點,交互方式提供可神化界面,還支持數據挖掘工作流的任務定義與執行,極大地簡化了編程人員的操作,此外,可通過自定義腳本來進行分析功能及其它諸如C語言、java語言的調用等。綜合以上優勢,相信R語言未來將在大數據的挖掘領域有更為廣泛的應用。

[1][葡]Luís Torgo.數據挖掘與 R 語言[M].北京:機械工業出版社,2013.

[2]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.

[3]薛毅,陳立萍.統計建模與R軟件[M].北京:清華大學出版社,2007.

[4]謝益輝.基于R軟件的包的分類與回歸樹應用[J].統計與信息論壇,2007(5).

[5]WILIAMSG.Rattle:a datamining GUI for R[J].The R journal,2009(1).

猜你喜歡
數據挖掘分類用戶
分類算一算
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产精品19p| 在线视频精品一区| julia中文字幕久久亚洲| av在线无码浏览| 国产真实乱了在线播放| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲AV电影不卡在线观看| 色综合天天操| 五月婷婷激情四射| 中国一级毛片免费观看| 一级毛片免费播放视频| 香蕉网久久| 精品久久久久成人码免费动漫| 日韩高清一区 | 国产美女一级毛片| 亚洲自偷自拍另类小说| 啪啪免费视频一区二区| 天天干天天色综合网| 成人午夜福利视频| 女人毛片a级大学毛片免费| 欧美一区二区三区不卡免费| 国产日韩欧美一区二区三区在线| 呦女亚洲一区精品| 欧美a级完整在线观看| a级毛片免费看| 久久久久久国产精品mv| 国产成人91精品免费网址在线| 啊嗯不日本网站| 亚洲一区二区无码视频| 国产高清又黄又嫩的免费视频网站| 小蝌蚪亚洲精品国产| 午夜视频免费试看| 亚洲黄色片免费看| 精品福利一区二区免费视频| 久久情精品国产品免费| 国内精品久久人妻无码大片高| 欧美一级大片在线观看| 18禁高潮出水呻吟娇喘蜜芽| 国产精品视屏| 成年人免费国产视频| 亚洲精品日产AⅤ| 欧美亚洲一区二区三区在线| 日本三级欧美三级| av在线5g无码天天| 国产一区二区三区免费观看| 国产丝袜啪啪| 在线观看91香蕉国产免费| 国产精品伦视频观看免费| h网站在线播放| 国产美女一级毛片| 亚洲无码91视频| 久久福利网| 激情六月丁香婷婷四房播| 日韩精品中文字幕一区三区| 亚洲国产精品无码AV| 国产亚洲高清在线精品99| 日韩欧美国产三级| 婷婷六月综合| 亚洲精品桃花岛av在线| 亚洲美女AV免费一区| 白浆视频在线观看| 国产美女视频黄a视频全免费网站| 欧美日韩一区二区在线免费观看 | 日本精品一在线观看视频| 91成人在线观看| 亚洲 日韩 激情 无码 中出| 超薄丝袜足j国产在线视频| 亚洲中文制服丝袜欧美精品| 亚洲国产天堂在线观看| 夜夜操国产| 午夜视频免费试看| 欧美精品影院| 天堂久久久久久中文字幕| 国产欧美视频综合二区| 国产欧美日韩综合一区在线播放| 久久综合五月婷婷| 亚洲视频四区| 国产一级视频久久| 91久久偷偷做嫩草影院精品| 亚洲人成网站在线播放2019| 色综合婷婷| 91视频99|