肖堅
摘? 要:近年來,隨著我國經濟的不斷發展,信息技術的快速更新,使互聯網社交、衛星導航、電子商務及交通運輸等多個領域都取得了較快的發展,并產生了大量的數據信息。隨著數據的不斷積累,會逐漸形成大數據的同時也開始受到各個企業的關注。而數據在進行分析的過程中,機器學習是數據分析的常用方法之一,而本文則主要對大數據下的在線機器學習算法研究與應用進行詳細分析和介紹。
關鍵詞:大數據? 機器學習? 數據分析? 算法? 研究
中圖分類號:TP181? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A文章編號:1674-098X(2020)08(b)-0134-03
Abstract: In recent years, with the continuous development of China's economy and the rapid update of information technology, Internet social networking, satellite navigation, e-commerce, transportation and other fields have achieved rapid development and generated a large amount of data information.As data continues to accumulate, it will gradually form big data and begin to attract the attention of various enterprises. In the process of data analysis, machine learning is one of the common methods of data analysis, and this article mainly analyzes and introduces the research and application of online machine learning algorithms under big data.
Key Words: Big data; Machine learning; Data analysis; Algorithm; Research
隨著計算機的問世,人類開始進入信息化時代,而信息化產業得到空前發展的同時數據量也出現前所未有的增長,從而使大數據應運而生。實際上,大數據指的是一種利用傳統IT技術及軟硬件工具對數據進行有感知、獲取、管理、處理及存儲的收集,或指的是一種無法裝載到計算機內存儲器的數據集,機器學習算法初期相當于一架模式分類器,可將樣本間的距離和分類面積進行有效擴大,降低判斷失誤的幾率,從而使數據風險降到最低,而其中的支持向量是將一個數據空間轉變為另一個高維度空間,并通過分類而得到更加精準的數據。
1? 大數據的特點與分類
1.1 大數據的特點
大數據在發展過程中,已從最初的3V模式發展到4V模式。其中,3V模式在速度、容量及多樣性方面具有一定優點,4V模式則具有各種不同的說法,如價值性、時效性、虛擬性、變化性及效率性等等。想要對于大數據的這些特性進行分析和理解,有關專家一般認為,應將計算機技術與智能化技術進行融合,使數據流的順暢性得到保證。而對于大數據的知識分析和處理,則人類智能和機器智能起到了十分關鍵的作用。此外,隨著人們對數據信息需求的不斷增加,使大數據在收集、傳遞、處理及應用等有關技術得到不斷改變,從而讓一些半結構化、結構化及非結構化數據的自身價值得到有效發揮。
1.2 大數據的分類
1.2.1 支持向量機分類
若對大數據應用傳統機器學習方法進行分類的話,一方面計算機會存在密集現象,對信息的大規模收集和處理較為不利;另一方面非參數空間模擬形式等方面會存在隨機性問題。因此,想要避免以上問題的出現,就有了在線機器學習的方法。在線機器學習方法根據順序原理對數據進行處理,使計算速度變得更快的同時也具有更加廣泛的收集能力,但這種方法有可能會降低支持數據的處理數量,所以在對大數據進行大規模分類時,可以增量算法和最小二乘支持向量算法為基礎,然后利用大數據分類算法對數據進行提取,以此減少內存需求量,同時也能使大數據得到更好分類。
1.2.2 神經網絡和極端學習機
極限學習機(ELM ,Extreme Learning Machine),是由南洋理工大學黃廣斌教授提出來的求解單隱層神經網絡的算法。 ELM最大的特點是對于傳統的神經網絡,尤其是單隱層前饋神經網絡(SLFNs),在保證學習精度的前提下比傳統的學習算法速度更快。在傳統的神經網絡中,其通過梯度下降算法來對權值參數進行相應調整,但該算法具有泛化性差、效率低及計算速度慢等缺點。而想要對這些問題進行解決,可通過ELM算法,隨機賦值神經網絡中的偏差項及輸入權值,從而在一定程度上計算出網絡輸出權值。因此,ELM算法與傳統算法相比,計算效率可得到顯著提高。
1.2.3 決策樹分類
因傳統決策樹處理方法具有占用內存過大的缺點,所以在對大數據進行處理時,可通過新型大數據處理方式,對大數據構造決策樹思路加以利用,使機器學習算法的限制性條件得到有效解決,同時計算速度與之前相比也有了一定的提升。另外,通過增量優化方法,也能使決策樹算法的效率有效提高,并且這種方法具有一定的精確度,可確保數據精準性的同時還能對帶有噪音的大數據加以處理。