歐華杰
機器學習是由模式識別、人工智能計算學習理論為基礎所轉變的一類計算機科學分支,此也為人工智能核心,被廣泛應用至各相關領域中。據研究表明,多數狀態下,處理數據規模越大,機器學習模型效率越高。所以,機器學習為大數據智能分析主要方式。于大數據背景下,本文針對機器學習算法予以探討,提升數據處理價值。
一、機器學習算法概念及重要性
(一)機器學習算法概念
機器學習即Machine Learning,為一項多領域綜合學科,涉及算法復雜度理論、逼近論、統計學及概率論等多項理論。此學科將計算機如何模擬及實現人類學習行為作為主要研究內容,探究計算機獲取新知識、技能方式,將已存在知識結構予以重新組織,實現自身性能不斷優化。機器學習為人工智能核心,也為使計算機擁有智能的基本方式,現已逐漸應用至與人工智能相關的各領域中,主要為綜合及歸納而并非演繹。
(二)機器學習算法重要性
機器學習為現階段大數據重要處理方式,可將多種優勢予以結合,針對具體問題選取最為適宜處理方式,如以2017年AlphaGO與柯潔所開展的圍棋比賽中,AlphaGO以3:0比分贏得比賽,此正為機器學習重要標志。此算法可將人為因素所造成的局限性予以突破,借助深度學習、決策樹及神經網絡等,將數據予以科學處理,并將數據運算速度予以有效提升。現階段統計調查、商業活動及信息網絡等均會產生大量數據,而傳統數據處理手段已難以滿足此類數據處理需求,急需機器學習予以處理。
二、機器學習典型算法分析
(一)C4.5算法
C4.5算法為目前此領域中較為著名的一類算法,將基于Quinlan所設計的ID3算法予以優化后得到的一種分類決策樹算法。決策樹為一項預測模型,為對象值、對象屬性二者間映射關系的表現方式,樹中各節點分別代表不同對象,各分叉路徑則為某項可能屬性值。由數據所構成的決策樹機器學習方式即被稱作決策樹學習,通常稱為決策樹。C4.5算法借助決策樹模型,針對不同數據以樹形結構方式予以分類,于此基礎上,使計算機可針對數據開展智能處理、選擇,實現自我學習。
(二)K-MEANS算法
機器學習中數據相似度為一項重要概念,借助大量數據分析,找尋同原有數據具備高相似度的數據集合,為機器學習重要基礎。僅有將數據間相似度予以精準分析,方可對計算機數據處理、自我學習效率予以保證。K-MEANS算法即將數據間相似度量為基礎的一類間接聚類方式,將n個對象結合自身屬性分至k個分割,k (三)SVM支持向量機算法 針對大量數據處理、分析,除需對數據開展相應分類外,也應于此基礎上開展統計工作。此算法為一類監督式學習方式,以統計學理論中VC維理論、結構風險最小原理為基礎,結合有限樣本信息于模型復雜性、學習能力間找尋最優處理路徑,以獲取最佳泛化能力。支持向量機方式為近幾年所提出的數據算法,主要思想包括以下兩層面:一為針對線性可分狀態予以分析,而線性不可分狀態則借助非線性映射算法,實現樣本間轉化,即由低維輸入空間線性不可分變為高維特征空間,實現線性可分;二為將結構風險最小化理論為基礎,于特征空間中創建最優分割平面,實現全局優化。 三、機器學習算法于大數據處理中的主要方式 (一)數據并行算法 傳統數據處理方式難以充分滿足大數據處理需求,主要導致原因為各機器學習方式并未實現并行化數據處理,單獨數據處理難以自主實現大數據處置,為滿足大數據處理需求,聯合各數據處理機制,開展并行化運轉,方可實現大數據整體處置。此方式主要運行理念即為將大數據行“碎片化”處理,拆分為可交由機器獨立處理的模塊,借助各數據綜合實現大數據整體掌握。如以圖像處理平臺為例,主要算法為并行算法,將各數據處理壓力不斷降低,提高數據運算能力。并行算法需同分治算法及聚類算法等予以有效綜合,實現三類算法的有效融合,方可提升數據處理速度,也可于一定程度上保障機器學習精準性。 (二)聚類算法 數據處理、數據挖掘中最為常用的一類算法便為聚類算法,于大數據處理中具備良好應用成效。聚類算法首先將數據結合不同類型予以劃分,將大型數據劃分至多項子數據節點中。其次,針對所劃分完成的數據節點開展針對性處理,提升數據處理效率。此算法于機器學習中實際應用途徑可分為三類:一為借助非迭代化數據擴展方式,即通過模糊集理論,針對數據開展FCM均值聚類分析,將數據予以精準分離;二為持續擴充子集合方式,于空間層面提升數據集合精準性;三為抽樣均值算法,有效提升數據處理效率。 (三)分治算法 分治算法于大數據處理領域而言,具備良好優勢,可被引用至并行運算、分布式計算中。將大數據作為對象開展機器學習,因樣本的數據差異將會對數據處理質量造成一定影響,除會增加數據運算量外,也會對機器學習效率形成制約,增加數據精準分析難度,影響數據判斷質量。而借助引用分治算法,可對原始樣本開展預處理,挑除冗余及無效數據,提升原始樣本數據集合質量。于此處理手段下,可明確機器學習目標并降低學習難度,輔助機器生成準確判斷。選取樣本數據集合時,通常使用約減法及壓縮近鄰法等方式,數據處理原理即為尋找同大數據所相應的最小數據集合,借助一系列測試對子集予以不斷優化、完善。此時,計算機所找尋數據樣本可表示全部樣本且具備高科學性,以此為開展數據判斷、決策提供參考。引入分治算法前,需具備滿足要求的置信范圍,于規定范圍內開展數據剔除、數據篩選工作,如可利用Bag of Little Bootstraps,縮減因抽樣所導致的數據失誤,提升數據處理精準性。 四、結束語 大數據為現階段研究熱點,需配備科學、合理機器學習算法滿足社會需求,并提升數據處理效率。結合大數據特點,借助聚類算法及分治算法等,增強數據處理條理性,降低數據分析、數據處理難度,增強機器學習能力。此外,為于大數據領域有所突破,還應將傳統機器算法予以優化升級,全面提升數據處理能力。