上海警備區 殷倩倩 申鑫欣 夏祎
在互聯網信息技術飛速發展的今天,互聯網信息化技術已經滲透在人們工作、學習與生活的方方面面,促進了社會生產力水平的顯著提升。在信息技術應用過程中,會形成海量的數據信息,為加強對各項數據信息的管理與利用,需要采用科學、高效的數據處理技術對其價值進行全面發掘。故此,本文針對現階段大數據背景下機器學習在數據挖掘中的應用情況展開分析,首先介紹了大數據應用背景,然后對機器學習與數據挖掘技術進行簡要介紹,最后就大數據背景下機器學習在數據挖掘中的應用展開一系列分析,希望對于大數據技術的發展有所助力。
數據挖掘技術的應用和大數據的發展是相輔相成的,在發展過程中,通過對數據挖掘技術的有效應用可以逐步提高系統對各種數據信息的處理能力,同時還能夠進一步降低數據信息管理成本的投入。但是,隨著各行業的發展與數據規模的暴增,對于數據挖掘技術的應用也提出了更為嚴格的要求。機器學習作為一門交叉學科,應用計算機處理技術對人類行為進行智能化模擬,以此進行知識和技能的獲取,同時還能夠不斷進行知識結構的調整和優化,將機器學習應用在數據挖掘中可以進一步提高大數據處理效率,因此得到廣泛應用。為了能夠在數據挖掘中充分發揮機器學習的應用價值,相關從業人員還需對機器學習的應用問題展開深入分析,使其更好地助力社會的進步與發展。
近年來,隨著互聯網信息化技術的應用和發展,每天所生成的海量數據需要采用更加高效的管理措施進行處理,提高數據信息的管理質量。但是,隨著信息化技術應用的加深,生成的各種數據類型更為豐富,信息數據也更加龐大,顯然采用傳統的處理方式已經無法適應當前的數據處理需求。在這種情況下,需要采用更為先進的數據處理方式以滿足各行業的數據信息處理工作需求,大數據技術則應運而生。與傳統的數據處理技術相比,大數據技術下的信息儲存、分析等方式發生了明顯變化,在數據的運算方面也采用了更為先進的處理方式,為數據處理和決策系統提供了更大的助力。大數據的主要特點在于其數據信息內容豐富及種類繁多等,同時還有著更為快速的信息傳輸速率,因此得到了更為廣泛的應用與深入的發展。
在數據挖掘技術中,機器學習和統計算法均為重要組成內容,其中機器學習屬于人工智能技術的一種,能夠在樣本集訓練與學習中快速地明確其中各項參數與運算模式[1]。而統計算法則為通過對概率等數據的分析以及數據相關性等進行運算,對于不同的研究領域需要應用不同的算法也不盡相同,在實際應用中還可以結合其計算目標選擇各種算法的單獨應用或者結合應用。對于機器學習而言,其中的人工神經網絡技術得到了廣泛的應用,其具有高效的自主學習能力與數據處理能力,同時,其對于各類型的數據能夠進行快速、精準的識別。通過對數據挖掘的應用能夠結合具體情況進行科學建模,且模型具有精度高及描述能力強等特點。但是在訓練數據時需要花費較多時間,對數據進行理解時也不是很智能,伸縮性和開放性仍存在一定的提升空間。
2.2.1 主要任務分析
作為現代信息化技術體系當中的重要內容,機器學習的重要任務主要體現在以下幾點:(1)數據的快速分類。在系統運行中,可根據數據信息的處理要求進行數據建模,在此過程中實現對數據的快速、高效分類處理。(2)數據的回歸分析。通過技術手段對各種類型的數據變量及其相互間的關系進行全面性的護理與總結,在此基礎上獲得表現數據關系的公式。在數據處理工作當中,通常需要對統計學相關知識加以應用,借此進行數據的估測等,繼而實現數據挖掘效率的提升。(3)數據的關聯規則。無論是在任何一種行業領域當中,都會面臨對于事務型數據信息的處理需求,在此方面,可以通過機器學習實現數據樣本空間的建立,便于對將來某些事件的發生情況進行科學預測。(4)數據的聚類。這里我們所說的聚類主要指將數據按需聚集到各自的數據簇中。
2.2.2 大數據中對于機器學習的應用優勢
傳統機器學習算法的應用需依賴內存容量,在存儲數據信息時,計算機無法對PB與TB級別的數據信息予以存儲,所以,部分算法是無法滿足大數據背景下的數據挖掘需求的,在這種情況下,就需要加強實踐并逐步進行算法的優化,進一步滿足數據處理要求。人工神經網絡為大數據背景下機器學習計算方法中的一種,能夠通過人工神經網絡模型的構建而體現出多元化的描述能力,并且其數據處理精度較高。在當今時代對大數據技術應用日益深入的環境下,對于機器學習的應用也提出了更加個性化的要求。一方面,隨著各行業的發展,所生成的數據信息更為海量,數據類型也更為繁復;另一方面,在系統運行過程中,各類型數據的分布情況較為復雜,若是始終應用傳統的機器學習方式根本無法全面滿足數據信息的獨立與分布需求。通過對機器學習的有效應用能夠使得大數據的功能性顯著強化,且將數據分類器設置在數據樣本分布較為密集的區域可以進一步提高數據分類處理工作質量[2]。在當前大數據背景之下,機器學習顯然已與傳統的概念發生脫離,且不斷向知識學習及處理的復雜化方向演變,成為數據挖掘技術不斷優化的重要途徑。
2.3.1 樸素貝葉斯算法
常規條件下,該算法可細化分為以下幾個步驟:(1)按照特定的操作指令去采集數據信息的樣本,并且標記好集合中的不同元素,為后續操作中元素的提取做好鋪墊。(2)進行數據信息樣本的統計,借此明確數據集合中各類別所出現的概率,便于后續進行分類器的獲取。(3)將待處理的樣本置入分類器內,借此獲取樣本處理結果。該算法雖然目前得到了廣泛的應用,但其在應用過程中也體現出一定的缺陷,例如,該算法認為分類的樣本特征本身與其他特征值不相關,所以無法進行樣本各個特征間的相關性計算。而該算法在計算應用中具有顯著的便捷性特點,可有效提升計算速度。
2.3.2 K-Means法
在機器學習算法當中,該算法具有較高的普及度。與其他算法相比,該算法的應用較為方便,K-Means法需以對距離度量算法的應用作為基礎,因此,在數據聚類的條件之下,若數據樣本數量越多,那么該算法應用的錯誤率則會降低,若數據聚類的訓練集越大,該算法也就會顯示出更為明顯的分類性特點。
設k是K-Means聚類算法的輸入參數,表明算法在數據集中進行k個聚類簇目,并且輸出計算結果的聚類簇目。數據集合是由n個模式組成,模式也代表數據點的意思。在K-Means聚類算法數據初始化時,依據輸入參數k隨機地從n個模式{i1,i2,…in}中找出k個原型{W1,W2,…Wk}。因此Wj=it,j∈{1,2,…,k},t∈{1,2…,n}。Cj是第jth個聚類,Cj的值是輸入模式即數據點之間互不相交的子集,而想要對其結果展開質量評價則需以下述函數進行:

在該函數中,E即為各數據點和簇的質心距離和,因此,若E的數值較小,那么簇的緊湊性就越大,所以,在機器算法的應用中需通過E這一數值的優化以獲取更優的數據類聚方案,直至E的數值極小,其所獲得的方案可行性則為最佳。
2.3.3 決策樹算法
該算法在應用中實則為對于數據輸入空間的分割,通過分割獲得若干區域,而各個區域都具有各自相對獨立的參數。在算法的實際應用中,通常是以數據的樹形模型為基礎而展開相應的分析,其中全部的數據葉子節點以及根節點均為分類化的路徑規則,并且其中所有的葉子階均為一種判斷類別。在該算法的應用中,通常是先對數據樣本實施分割處理,使其劃分為樣本的子集,隨即再進行分割的遞推,從而使得所有的子集均可以得到同類數據樣本并進行其類別的預測。與其他類型的算法相比,該算法的突出特點在于其結構相對簡單,對于數據信息的處理速率較高。
機器學習的類型具有一定的豐富性,其涉及的內容也比較廣泛,結合以下幾方面領域的應用情況對數據挖掘的應用原理展開分析:
機器學習的主要應用原理為通過特定的算法展開數據建模,借此來模擬人類的大腦系統,并對其中所有神經系統的作用進行分析,同時明確各神經所處位置,從而明確各個神經系統在大腦中的運行過程。在進行建模的過程中,機器學習通過對不同的神經單元進行處理而形成相應的數據信息層級序列[3]。在上述過程當中,其應用的邏輯原理主要為:通過對特定算法的應用進行模擬刺激,在系統接收到刺激信號之后,對數據信息進行篩選和處理而得到的最終結果。
向量機也是數據挖掘技術中的重要組成部分,在進行向量機的應用中,對各項數據的處理均需用到數學思維,利用回歸算法來處理各種數據信息問題,借此推測相應的未知結果。利用算法的有機結合與三維空間的數據多維分析來進行特定算法的推演。
在數據挖掘的機器學習當中還存在一種被廣泛應用于商務領域的算法,也就是推薦算法。該算法可以將系統用戶的瀏覽信息為條件對其感興趣的信息進行分析,例如淘寶,在淘寶用戶進行各種商品的瀏覽時,即可通過推薦算法的運行對用戶在平臺中的商品瀏覽頻率等對其商品購買偏好等信息進行分析,確定用戶喜歡的商品種類。
在進行向量機的應用中,主要是通過其定位理論原則對待處理數據信息加以分類,完成待處理數據的區域化選擇,該部分的大體流程為:(1)對鎖定區域的經緯度實施首次定位,明確具體位置后再對其進行劃分,實現該位置的柵格化。(2)完成位置的劃分后,還需將其根據具體的位置信息細化為兩部分,并對二者展開精確計算。但是,這兩部分的數據信息計算方式存在一定差異,其中一部分在計算中需對待測數據樣本實施向量計算,而另一部分則應以回歸函數計算方式對數據樣本進行計算分析。借助對差異算法的應用得到個性化的定位方案。但是需要注意的問題是,在對向量機進行應用時應嚴格遵循最小化原則。除此之外,在通過向量機來采集數據樣本的時候,一定要做好多維度的點積計算,只有這樣才能夠充分保證其中非線性問題的妥善解決。在人們的日常生活方面,向量機多被用在各行業領域的人臉識別系統以及汽車發動機的故障問題檢測等方面。
卷積神經網絡可以利用算法學習對海量的數據進行特定的處理,并且可以展開高效的自我學習。卷積神經網絡的主體結構和常規性的神經元大致相同,具體而言,卷積神經網絡在計算層級上先是通過對數據輸入的求和,然后再利用函數計算來展開神經網絡系統建模。在對卷積神經網絡進行實際應用中一定要注意其中的三個重要參數,即數據區域大小、神經元之間的聯系以及神經元的數量。現階段卷積神經元多用于計算機自然語言數據信息的處理方面以及計算機視覺語言的處理方面,在計算機識別過程中,通過對該網絡系統的應用可以實現光譜特征以及光譜建模的可視化。前饋神經網絡CNN作為一種深度學習方法,可以使用沒有經過光譜預處理的原始光譜進行建模,改進了光譜分析的流程,比如卷積神經網絡可用于分析實驗室中山羊角水解過程中的拉曼光譜。
隨著時代的進步與科技的迅速發展,大數據時代悄然而至,在大數據技術在各行業領域的應用逐步深入的背景之下,想要充分發揮大數據技術的應用優勢,對于數據挖掘技術的掌握、研究與應用是必不可少的。機器學習作為當前數據挖掘中的重要內容,通過對其應用能夠更加準確、快速地處理各種復雜性問題。對此,相關人員還需加強對機器學習的應用實踐與深入研究,加強技術應用與優化,進一步發揮機器學習在數據挖掘中的應用優勢,為社會的進步與發展提供更大的助力。
引用
[1] 黃心依.機器學習在數據挖掘中的應用研究[J].信息記錄材料,2021,22(8):121-123.
[2] 譚成兵,周湘貞,朱云飛.基于Weka和協同機器學習技術的數據挖掘方法研究[J].長春大學學報(自然科學版),2020,30(6):5-9.
[3] 戴惠麗.大數據背景下機器學習在數據挖掘中的應用研究[J].呂梁教育學院學報,2019,36(3):20-21.