楊偉光
摘要
隨著信息數據時代的到來,實現了海量數據的存儲與計算人們統計和分析的數據量越來越大,因此這就給數據的存儲設備以及存儲方式提出了相應的挑戰,數據處理的速度已經成為大數據技術的關鍵所在。在傳統的大數據數據分析過程中,決策樹方法是最為常用的大數據分析方法,但是隨著海量數據的出現,傳統的決策樹方法已經不能夠滿足信息時代的需求,必須要對決策樹算法進行一定參數的優化,以此來滿足現代信息社會對海量數據的處理要求。本文對基于決策樹算法分析的大數據研究進行了闡述,并且深入淺出的介紹了全速算法的運行平臺,并且分析了決策樹方法,在大數據分析中未來的發展方向,希望相關研究人員借鑒和參考。
【關鍵詞】大數據 決策樹 算法研究
21世紀是互聯網信息時代,網絡信息時代最為明顯的特征是海量數據融入到人們的社會生活各個角落,對這些海量數據進行提取和加工進行分析,從中得到相應的規律符合現在社會對于數據分析的要求。大數據由于其海量數據特征,因此傳統的存儲設備已經不能夠滿足現代信息的需求,由于信息數據處理的方式發生了巨大的變革,傳統處理數據的技術已經不能夠應用于大數據分析處理中。傳統的決策樹算法適用于數據集合較大的特征值計算,因此利用決策樹算法可以作為進行大數據分析的重要武器。傳統的決策樹算法由于其自身架構的局限性,在處理海量數據特征是仍然存在相應的缺陷,不能夠達到充分分析數據特征的需求,因此在傳統的決策樹算法上必須要對其參數進行優化,然后得到相應的特征值,最終求得大數據的整體特征。
1 決策樹算法的境界
決策樹算法是一種離散函數的逼近方法,它是一種比較典型的數據分類與處理的技術手段,決策樹算法首先對數據進行分類,然后利用歸納原則生成可讀的決策樹規則,最后對決策數據進行分析和判斷。從本質上來講決策樹算法是一種通過歸類來解決數據特征的技術手段。
在決策樹算法中蘊含的規律的原理,必須要達到訓練程度較高以及規模較小的核心模型。在決策樹算法中主要分為兩步,第一步是生成決策樹;第二部是決策樹的減枝過程。決策樹的減枝過程就是對上一階段的決策樹進行檢驗,然后通過得到新的測試機來產生初步的規則。
2 基于決策樹算法的大數據處理技術優化
2.1 特征值優化算法
特征值優化算法是指在原有的集合中將數據重新分類,然后形成一個數據子集,對數據子集進行處理分析。特征值優化算法原理較為簡單,并且在實踐中應用較為簡便。利用特征選擇值進行算法計算主要可以分為兩類,一種是篩選器,一種是封裝器。篩選器是指集合內部信息衡量,然后獨立于分類算法,這是一個預處理過程。通過相關系數標本進行評價,以達到數據處理的目的。
2.2 集中優化算法
集中優化算法適用于處理數據集合等較為龐大的計算模式,對其內存進行計算過程中沒有方法將全部數據內容一次性處理完畢,因此許多數據需要暫時存放在存儲器之中。由于決速算法自身的讀寫操作,因此讀寫速度比較緩慢,比較適合對這種決策樹算法采取優化措施。減少其讀寫操作的程序成為了決策樹算法進行優化的主要方向。在這其中SICU就是一種主要的優化算法,這種優化算法通過使用廣度排序以及優先原則來達到減少存儲器內部讀寫出生的目的,并且極大提高拳速算法的整體效率,除此之外還有boat算法的優化。
2.3 分布式的計算方法
分布式計算方法對其子集進行了擴展,因此在數據處理能力上達到了空前的提高,他能夠有效加快數據讀取數據的整體能力,并且提高運行的整體速度,因此分布式算法開發比較早。此后谷歌開發了相應的可擴展式的計算機框架,這個計算機框架以控制器作為其整體的核心,然后對決策樹進行調控。調控的主要目的是利用大數據模型來進行整體的訓練。同時控制器能夠有效接入計算機群中,在學習決策樹模型中集成方法也可以解決大數據分布式的問題。
2.4 面向流數據的整體優化算法
流數據整體優化算法可以作為大數據的源頭,同時對于葉子階段相關的統計信息能夠有效進行處理,用于代替中間的決策節點,形成新的決策樹。在數據整體路以后實現節點分類處理。它能夠有效實現統計信息的更新。面向流數據的整體優化算法使得時間成本得到優化,但是其自身的缺點也很明顯,缺乏連續處理素質的能力,同時還可能出現數據的漂流情況。最終的情況會導致大數據信息處理數據準確度有所降低。但是隨著現代研究的深入,面向流數據的整體優化算法能夠有效支持數值屬性的優化處理,因此預測的整體準確性得到了充分的提高,在大數據分析和處理中得到了廣泛的應用。
3 大數據處理的相關服務平臺
大數據數據處理基本上為開源的服務軟件,因此許多服務平臺都是非營利的組織,能夠提供不同組織的大數據開發平臺服務工作。當前比較流行的開源計算機集群系統中計算機集成系統的核心是機器的整體學習庫,并且在數據生成與預測方面有著廣泛的應用。總體數據大數據處理中能夠簡化其機制,并且提供免費的開源式的計算機系統,同時在機器學習方面能夠提供在線學習的模式。但是由于數據呈現整體多流失的模式發展,因此決策樹算法本身平臺不斷拓展,是其一個較為良好的選擇。
4 結束語
基于決策樹優化算法,能夠有效解決大數據存儲以及分析的問題,它能夠有效加強數據的相關屬性質量。在大數據存儲過程中經常會出現屬性缺失,這些現象對于計算結果有很大的影響,可能會導致決策算法出現錯誤。對于缺失的數據處理一直是機器學習的相關重點研究內容,因此也是決策樹算法重點研究關注的對象;必須要對于樣本的比例進行調整,在對數據進行分析處理時,由于樣本整體相差過大,可能會導致樣本數據分類被忽略,利用少數據進行分析是整個決策樹模型的關鍵所在;需要更新決策的模型,隨著時間的變化數據的匹配規律可能不能較好的匹配原有的參數,必須要對新的模型進行改變,同時單一模型缺少對于數據的全面闡述,因此需要根據數據的變化來及時更新決策模型,這也是未來全是模型的相關發展研究方向。
參考文獻
[1]張棪,曹健.面向大數據分析的決策樹算法[J].計算機科學,2016(S1):374-379+383.
[2]杜麗英.基于數據挖掘的決策樹算法分析[J].吉林建筑工程學院學報,2014(05):48-50.