紀兆華 張曉華 閆新惠
摘? 要:該文探討了基于大數據技術的機器學習算法,基于大數據進行機器學習的模型提高了算法的準確性,機器學習實現分析更高級別的數據,基于Spark+Hadoop處理技術的機器學習適應迭代式機器學習模型的特定需求,機器學習分析數據中的關系獲得規律預測新樣本。對數據進行收集、統計和分析的大數據系統引入機器學習進行大數據計算,機器學習的深度和廣度也提升了大數據分析效率。
關鍵詞:機器學習? 大數據技術? 算法
中圖分類號:TP181 ? ?文獻標識碼:A 文章編號:1672-3791(2020)05(c)-0024-02
數據分析的基礎是統計學,統計學最早用于大規模數據分析處理中;人工智能可以自動完成一些功能性操作,可以實現人類的部分智慧;作為人工智能分支的機器學習,其目標是機器不通過編程就能通過自學習并對特定對象實現問題的解決。大數據分析和人工智能以及機器學習,這3種技術之間有著高度的依賴,在相應領域中應用中實現其特定功能。大數據處理分析同人工智能和機器學習技術,來解決現實世界中不同領域的同一性質問題[1]。
1? 大數據分析
Hadoop技術在分布式平臺開發和運行處理大規模數據功能強大,Mahout為一些機器學習算法框架庫,但Mahout基于MapReduce計算框架,不適合處理迭代算法。基于內存的Spark框架在大數據處理領域具有關鍵的作用,Spark讀寫過程都是基于內存,減少了I/O時間的消耗,提高了運算速度。Spark技術是開源集群計算系統,是基于內存計算的,在數據分析時速度快,Hadoop能通過移動計算到這些存放數據的機器上能夠提高效率。因此,基于Spark和Hadoop框架結合的機器學習算法,要解決Mahout在處理迭代算法處理數據時消耗資源過多和系統整體性能下降的缺陷,提高數據處理分析的速度。
2? 機器學習
機器學習是人工智能的核心,是多領域交叉學科融合,能夠利用自我學習算法對人類的學習行為進行模擬或者實現人類的學習行為。機器學習通過自我學習算法可以對原有的知識結構進行重新組織,從而獲得新的知識,得到新的性能。機器學習是通過對機器模擬人類學習活動的研究,對現有知識進行理解,并獲取新的知識和新的技能。
數據量規模越來越大,原有的單機計算機系統已經不能夠完成對大數據進行數據分析的需求,云計算技術由此應運而生。基于MapReduce框架編寫的Mahout機器學習庫,使用HDFS技術在云基礎架構上能夠實現對大數據的存儲要求,但I/O資源消耗過大造成系統整體性能降低。
3? 基于大數據技術的機器學習
3.1 大數據進行機器學習的模型提升準確性高
大數據分析描述的重點是數據應用,機器學習主要是描述方法,要從大量完整而真實的原始數據中尋找到潛藏的有價值的知識和規律。機器學習要從大量數據中獲取經驗并且改善性能的方法,是數據挖掘要常采用的學習方法,從而實現某種程度的人工智能。大數據主要描述數據,是從數據量、數據類型和數據增長速度等角度,采用基于分布式架構進行一致性、資源調度和性能優化等對數據進行描述。大數據是要利用數據的價值,其關鍵技術為機器學習。數據的量越大,進行機器學習的模型提升的準確性越高。數據量越大、模型越復雜,機器學習算法的計算時間復雜度也就越高,也越離不開分布式計算與內存計算等大數據的關鍵技術,二者相輔相成,互相促進。
3.2 機器學習實現分析更高級別的數據
機器學習中是比較實用的,能夠進行自學習數據挖掘的數據分析處理應用算法解決相關問題。通常沒有設定好主體,主要是基于統計學習SVM、分類算法NaiveBayes、聚類算法Kmeans等各種算法,主要使用Hadoop的Mahout為工具,計算現有數據,對計算結果進行分析,并實現預測趨勢,實現分析更高級別的數據。
3.3 基于Spark+Hadoop處理技術的機器學習適應迭代式機器學習模型的特定需求
隨著大數據時代的到來,基于Spark+Hadoop處理技術的機器學習使得樣本數量實現較大的增加,以大量的樣本作為基礎實現問題的分類求解。數據規模的爆炸式增長,單一服務器已經不能滿足機器學習的需要,從單一服務器到成千上萬臺服務器擴展,就需要Hadoop技術來實現。在Hadoop技術架構下,本地計算和存儲等功能可以由每臺機器來實現。類似于Hadoop MapReduce通用并行計算框架的Spark,不僅具有Hadoop MapReduce的優點,而且Spark能更好地適用于數據處理與機器學習等需要迭代MapReduce算法。
基于彈性分布式數據集的Spark能夠降低機器學習數據處理時I/O資源消耗和容錯能力的開銷,Spark+Hadoop處理技術的機器學習擴充了樣本的數量,使數據價值能夠最大化地發揮出來,從大規模、復雜結構的數據中通過大數據處理分析處隱藏在數據中的內在規律,適應了迭代式機器學習模型的特定需求。Spark常用機器學習算法的實現庫Mlib,MLib基于彈性分布式數據集與Spark SQL實現無縫集成,以RDD為基石,可以構建大數據計算中心。通過大數據技術Spark+Hadoop進行全量數據分析,解決統計/機器學習依賴于數據抽樣不能精準反映全集的現象,揭示其全量數據分析而能精準反映全集的機理。
3.4 機器學習分析數據中的關系獲得規律預測新樣本
機器學習在語音識別、自動駕駛、圖像檢索、自然語言處理等各個領域中都有著很多方面的應用。機器學習讓計算機進行自“學習”,通過這樣的算法,分析數據中的關系,并獲得規律,分析其內在規律,再預測新的樣本。以自動駕駛為例,實現自動駕駛,就需要識別交通標志。首先,通過機器學習算法學習交通標志,這包括數據集中的數百萬張交通標志圖片,可以采用機器學習中深度學習的卷積神經網絡進行圖像識別訓練,并生成模型。自動駕駛系統讓生成的模式,使用攝像頭對實施交通標志反復驗證、測試,并不斷進行調優,從而實現較高的識別精確度。
4? 結語
結合可以進行大數據分析技術的機器學習技術如模式識別、個性化推薦系統、智能控制等在淘寶、京東等網店購物時有著經典的應用。從原始數據的提取、轉換、加載等形成一系列的處理,最終成為信息或知識,作為決策判斷的標準。隨著數據規模的擴大,對數據進行收集、統計和分析的大數據系統引入機器學習進行大數據計算,機器學習的深度和廣度也提升了大數據分析效率。大數據和機器學習關聯度大,二者聯系緊密,大數據處理分析能夠從大量數據里面發現隱藏的、有邏輯關系的準確的知識,并通過決策來執行。大數據分析算法有較多的算來源于機器學習,機器學習通過大數據的理論分析,在實際應用中進行優化,從而實現數據分析的目標,機器學習也成為大數據分析的重要支撐技術。
參考文獻
[1] 劉興建.基于大數據的機器學習趨勢分析[J].信息與電腦:理論版,2019(13):121-122,125.
[2] 姜娜,顧慶傳,楊海燕,等.大數據下的機器學習算法[J].電腦與信息技術,2019,27(3):30-33.
[3] 張素芳,翟俊海,王聰,等.大數據與大數據機器學習[J].河北大學學報:自然科學版,2018,38(3):299-308,336.
[4] 宋雯博.大數據下的機器學習的應用趨勢[J].電腦迷,2018(9):158.