大數據背景下機器學習算法的綜述

2019-04-25 17:15:18歐華杰

中國信息化 2019年4期

歐華杰

機器學習是由模式識別、人工智能計算學習理論為基礎所轉變的一類計算機科學分支，此也為人工智能核心，被廣泛應用至各相關領域中。據研究表明，多數狀態下，處理數據規模越大，機器學習模型效率越高。所以，機器學習為大數據智能分析主要方式。于大數據背景下，本文針對機器學習算法予以探討，提升數據處理價值。

一、機器學習算法概念及重要性

（一）機器學習算法概念

機器學習即Machine Learning，為一項多領域綜合學科，涉及算法復雜度理論、逼近論、統計學及概率論等多項理論。此學科將計算機如何模擬及實現人類學習行為作為主要研究內容，探究計算機獲取新知識、技能方式，將已存在知識結構予以重新組織，實現自身性能不斷優化。機器學習為人工智能核心，也為使計算機擁有智能的基本方式，現已逐漸應用至與人工智能相關的各領域中，主要為綜合及歸納而并非演繹。

（二）機器學習算法重要性

機器學習為現階段大數據重要處理方式，可將多種優勢予以結合，針對具體問題選取最為適宜處理方式，如以2017年AlphaGO與柯潔所開展的圍棋比賽中，AlphaGO以3：0比分贏得比賽，此正為機器學習重要標志。此算法可將人為因素所造成的局限性予以突破，借助深度學習、決策樹及神經網絡等，將數據予以科學處理，并將數據運算速度予以有效提升。現階段統計調查、商業活動及信息網絡等均會產生大量數據，而傳統數據處理手段已難以滿足此類數據處理需求，急需機器學習予以處理。

二、機器學習典型算法分析

（一）C4.5算法

C4.5算法為目前此領域中較為著名的一類算法，將基于Quinlan所設計的ID3算法予以優化后得到的一種分類決策樹算法。決策樹為一項預測模型，為對象值、對象屬性二者間映射關系的表現方式，樹中各節點分別代表不同對象，各分叉路徑則為某項可能屬性值。由數據所構成的決策樹機器學習方式即被稱作決策樹學習，通常稱為決策樹。C4.5算法借助決策樹模型，針對不同數據以樹形結構方式予以分類，于此基礎上，使計算機可針對數據開展智能處理、選擇，實現自我學習。

（二）K-MEANS算法

機器學習中數據相似度為一項重要概念，借助大量數據分析，找尋同原有數據具備高相似度的數據集合，為機器學習重要基礎。僅有將數據間相似度予以精準分析，方可對計算機數據處理、自我學習效率予以保證。K-MEANS算法即將數據間相似度量為基礎的一類間接聚類方式，將n個對象結合自身屬性分至k個分割，k

（三）SVM支持向量機算法

針對大量數據處理、分析，除需對數據開展相應分類外，也應于此基礎上開展統計工作。此算法為一類監督式學習方式，以統計學理論中VC維理論、結構風險最小原理為基礎，結合有限樣本信息于模型復雜性、學習能力間找尋最優處理路徑，以獲取最佳泛化能力。支持向量機方式為近幾年所提出的數據算法，主要思想包括以下兩層面：一為針對線性可分狀態予以分析，而線性不可分狀態則借助非線性映射算法，實現樣本間轉化，即由低維輸入空間線性不可分變為高維特征空間，實現線性可分；二為將結構風險最小化理論為基礎，于特征空間中創建最優分割平面，實現全局優化。

三、機器學習算法于大數據處理中的主要方式

（一）數據并行算法

傳統數據處理方式難以充分滿足大數據處理需求，主要導致原因為各機器學習方式并未實現并行化數據處理，單獨數據處理難以自主實現大數據處置，為滿足大數據處理需求，聯合各數據處理機制，開展并行化運轉，方可實現大數據整體處置。此方式主要運行理念即為將大數據行“碎片化”處理，拆分為可交由機器獨立處理的模塊，借助各數據綜合實現大數據整體掌握。如以圖像處理平臺為例，主要算法為并行算法，將各數據處理壓力不斷降低，提高數據運算能力。并行算法需同分治算法及聚類算法等予以有效綜合，實現三類算法的有效融合，方可提升數據處理速度，也可于一定程度上保障機器學習精準性。

（二）聚類算法

數據處理、數據挖掘中最為常用的一類算法便為聚類算法，于大數據處理中具備良好應用成效。聚類算法首先將數據結合不同類型予以劃分，將大型數據劃分至多項子數據節點中。其次，針對所劃分完成的數據節點開展針對性處理，提升數據處理效率。此算法于機器學習中實際應用途徑可分為三類：一為借助非迭代化數據擴展方式，即通過模糊集理論，針對數據開展FCM均值聚類分析，將數據予以精準分離；二為持續擴充子集合方式，于空間層面提升數據集合精準性；三為抽樣均值算法，有效提升數據處理效率。

（三）分治算法

分治算法于大數據處理領域而言，具備良好優勢，可被引用至并行運算、分布式計算中。將大數據作為對象開展機器學習，因樣本的數據差異將會對數據處理質量造成一定影響，除會增加數據運算量外，也會對機器學習效率形成制約，增加數據精準分析難度，影響數據判斷質量。而借助引用分治算法，可對原始樣本開展預處理，挑除冗余及無效數據，提升原始樣本數據集合質量。于此處理手段下，可明確機器學習目標并降低學習難度，輔助機器生成準確判斷。選取樣本數據集合時，通常使用約減法及壓縮近鄰法等方式，數據處理原理即為尋找同大數據所相應的最小數據集合，借助一系列測試對子集予以不斷優化、完善。此時，計算機所找尋數據樣本可表示全部樣本且具備高科學性，以此為開展數據判斷、決策提供參考。引入分治算法前，需具備滿足要求的置信范圍，于規定范圍內開展數據剔除、數據篩選工作，如可利用Bag of Little Bootstraps，縮減因抽樣所導致的數據失誤，提升數據處理精準性。

四、結束語

大數據為現階段研究熱點，需配備科學、合理機器學習算法滿足社會需求，并提升數據處理效率。結合大數據特點，借助聚類算法及分治算法等，增強數據處理條理性，降低數據分析、數據處理難度，增強機器學習能力。此外，為于大數據領域有所突破，還應將傳統機器算法予以優化升級，全面提升數據處理能力。