機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用研究

2021-09-10 12:24:20黃心依

信息記錄材料 2021年8期

黃心依

（安徽科技學(xué)院信息與網(wǎng)絡(luò)工程學(xué)院安徽滁州 233100）

1 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展，存在于互聯(lián)網(wǎng)中的數(shù)據(jù)量大幅增長，故需要有更快的信息數(shù)據(jù)處理速度才能夠?qū)Ａ啃畔?shù)據(jù)進行處理。從當(dāng)前信息數(shù)據(jù)處理實際情況來看，傳統(tǒng)的信息數(shù)據(jù)處理算法已經(jīng)不能夠滿足大規(guī)模數(shù)據(jù)的處理[1]，因此需要對數(shù)據(jù)進行深度數(shù)據(jù)挖掘。機器學(xué)習(xí)作為一種能夠從數(shù)據(jù)中進行學(xué)習(xí)的算法，能夠更加快速地處理數(shù)量巨大的數(shù)據(jù)信息，解決好數(shù)據(jù)問題。

2 數(shù)據(jù)挖掘及機器學(xué)習(xí)概述

2.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是當(dāng)前一種新興的研究領(lǐng)域，主要是以新的方式方法以及新的理論來挖掘數(shù)據(jù)中潛在價值。在數(shù)據(jù)挖掘中，主要通過以下4個步驟來完成數(shù)據(jù)的分析和處理：（1）選擇或者構(gòu)造具有一定格式以及內(nèi)容的數(shù)據(jù)集，這樣能夠方便之后的數(shù)據(jù)處理；（2）信息數(shù)據(jù)的預(yù)處理，這一步驟主要是為了將選擇或者構(gòu)造的數(shù)據(jù)集處理成為統(tǒng)一的內(nèi)容格式，主要的處理內(nèi)容有數(shù)據(jù)集成、清洗、離散化等；（3）數(shù)據(jù)建模和篩選，這一步驟主要通過對數(shù)據(jù)需求和模型等因素進行考量，選擇出相對最優(yōu)特征集；（4）形成結(jié)論，這一步驟能夠促使數(shù)據(jù)反饋出一些有價值的信息，在這些有價值信息的基礎(chǔ)上，工程師可以得出結(jié)論。

2.2 機器學(xué)習(xí)

機器學(xué)習(xí)是一門涉及多個領(lǐng)域的交叉學(xué)科，包括統(tǒng)計學(xué)、算法、概率學(xué)等。在大規(guī)模數(shù)據(jù)中，機器學(xué)習(xí)能夠在異構(gòu)數(shù)據(jù)中進行規(guī)律總結(jié)，找到不同數(shù)據(jù)之間的聯(lián)系，從而實現(xiàn)對數(shù)據(jù)的深度挖掘。機器學(xué)習(xí)的主要任務(wù)包括以下幾個方面：（1）對不同的數(shù)據(jù)進行分類；（2）對數(shù)據(jù)進行回歸分析；（3）通過模型建構(gòu)完成對數(shù)據(jù)的回歸分析；（4）對數(shù)據(jù)進行關(guān)聯(lián)規(guī)則；（5）將不同的數(shù)據(jù)集合到一起，實現(xiàn)聚類。機器學(xué)習(xí)系統(tǒng)結(jié)構(gòu)圖，見圖1。

圖1 機器學(xué)習(xí)系統(tǒng)結(jié)構(gòu)圖

3 機器學(xué)習(xí)的相關(guān)算法

3.1 樸素貝葉斯算法

在通常情況下，樸素貝葉斯算法主要包括以下幾步：（1）通過選取操作來獲取關(guān)于信息數(shù)據(jù)的完成樣本集合，同時對集合中的元素進行標記，保障元素的提出。（2）對樣本集合進行統(tǒng)計，以此來獲得樣本集合中所有類別出現(xiàn)的概率，并以此為基礎(chǔ)獲得分類器。（3）將需要分樣的分樣本導(dǎo)入到分類器中，通過分類器獲得樣本的結(jié)果。整體來看，樸素貝葉斯算法在性能方面缺陷較多[2]，比如樸素貝葉斯算法認為分類的樣本特征本身和其他特征的值不相關(guān)，因此不會計算不同特征之間的相關(guān)性。但是樸素貝葉斯算法本身有著計算方便的特點，因此也具有一定的優(yōu)勢。

3.2 K-近鄰法

K-近鄰法在機器學(xué)習(xí)算法中是一種有著較高普及度的算法之一。相較于其他算法，K-近鄰法的操作更加簡單，性能也更為優(yōu)秀。K-近鄰法從本質(zhì)上來看，是一種基于集中樣本特征以及區(qū)分樣本特征，通過距離度量這一計算方式來進行訓(xùn)練的算法。所以，在數(shù)據(jù)集中的情況下，如果樣本的數(shù)量越多，K-近鄰法出現(xiàn)錯誤率的概率就會越低。因此，相較于其他算法，如果數(shù)據(jù)集中的訓(xùn)練集趨向于無限大，K-近鄰法就會有更加優(yōu)秀的分類性。

3.3 決策樹算法

決策樹算法以及其本身的變種算法都是一種對輸入空間進行分割，形成不同區(qū)域，并且其中的每一個區(qū)域都有不同的獨立參數(shù)的算法。決策樹算法主要是以樹形模型為基礎(chǔ)來進行計算，在樹形模型中，每一個根節(jié)點到葉子節(jié)點都是一個分類的路徑規(guī)則，同時每一個葉子節(jié)點都是一個判斷類別[3]。在決策樹算法中，主要是先將樣本進行分割，促使樣本分為不同的樣本子集，在此之后再進行分割的遞推，最終促使每一個樣本子集都能夠得到相同類型的樣本。之后，再從根節(jié)點開始，直到每一個葉子節(jié)點，形成路徑規(guī)則，最終得出預(yù)測類別。決策樹算法相較于其他算法，其優(yōu)勢在于整體結(jié)構(gòu)較為簡單，同時數(shù)據(jù)處理也更加高效。

4 機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用原理

機器學(xué)習(xí)有著較為廣泛的分類，涉及了很多領(lǐng)域，在下面的內(nèi)容中主要是通過對當(dāng)前機器學(xué)習(xí)涉及的3個領(lǐng)域來介紹機器學(xué)習(xí)算法中的應(yīng)用原理。

4.1 神經(jīng)網(wǎng)絡(luò)

機器學(xué)習(xí)在神經(jīng)網(wǎng)絡(luò)領(lǐng)域中，主要的原理是通過算法來進行數(shù)據(jù)建模，從而實現(xiàn)對人大腦的神經(jīng)進行模擬，分析出其中每一個神經(jīng)中的作用以及位置，進而分析出神經(jīng)在腦中的工作過程。在實際構(gòu)建中，機器學(xué)習(xí)通過對不同的神經(jīng)單元進行處理，創(chuàng)建出層級序列。在這一過程中涉及到的邏輯原理為：以算法為基礎(chǔ)接受模擬刺激，在網(wǎng)絡(luò)接收到信號刺激之后，通過數(shù)據(jù)的分析、處理以及總結(jié)等過程得到結(jié)果。

4.2 向量機

機器學(xué)習(xí)還可以在向量機上做出相應(yīng)的研究。在向量機領(lǐng)域中，首先需要以數(shù)學(xué)處理思維為基礎(chǔ)，通過回歸算法對數(shù)據(jù)問題進行處理。在這樣的基礎(chǔ)上，能夠?qū)崿F(xiàn)對所有未知結(jié)果進行推測。通過算術(shù)之間的相互結(jié)合以及三維空間進行多維度分析，從而實現(xiàn)算法的推演。

4.3 推薦算法

在機器學(xué)習(xí)中，還存在一種電子商務(wù)領(lǐng)域喜歡的算法，即推薦算法。這一種機器學(xué)習(xí)算法能夠以用戶本身的瀏覽信息為基礎(chǔ)，分析出用戶所喜歡的內(nèi)容。比如，在淘寶這一電子商務(wù)平臺中，用戶在瀏覽各種商品的過程中，算法就可以根據(jù)用戶所瀏覽過的商品和瀏覽同類商品的頻率來計算用戶喜歡的商品類型。再比如在今日頭條中，算法能夠檢測到用戶瀏覽了哪些信息等，之后算法就會根據(jù)這些信息進行計算，為用戶貼上一定的標簽，然后用戶再次進入到今日頭條之后為用戶推薦那些用戶喜歡的信息。

5 機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用

5.1 機器學(xué)習(xí)中向量機的應(yīng)用

機器學(xué)習(xí)中向量機的應(yīng)用，主要是通過支持向量機的定位原則來將數(shù)據(jù)信息進行分類，實現(xiàn)區(qū)域化選擇。具體步驟為：（1）對一定區(qū)域內(nèi)的經(jīng)緯度進行第一次定位，在確定位置之后對該位置進行劃分，促使該位置實現(xiàn)柵格化。（2）在進行劃分之后，區(qū)域還需要按照經(jīng)度和維度分為兩個部分[4]。在這兩部分中，都需要進行計算，但是所使用的計算方式不同，其中一部分需要將該部分之內(nèi)的所有待測樣本以及向量進行科學(xué)計算，另一部分則是需要通過回歸函數(shù)邏輯思維進行計算。通過不同的計算能夠得出不同的定位方案是否可行。在應(yīng)用向量機的過程中需要嚴格遵守最小化原則[5]。另外，向量機在數(shù)據(jù)樣本的采集中，只要把握好多維度的點積計算，就能夠解決很多非線性的問題。向量機通常應(yīng)用于人臉識別和汽車發(fā)動機故障檢測中。以人臉識別為例，在人臉識別過程中，由于人臉圖像屬于高維樣本，如果將人臉圖像直接進行處理識別，其計算難度將大大提高，所以需要采用向量機進行圖像預(yù)處理，圖像經(jīng)過小波分解后達到降維目的，然后經(jīng)過向量機算法中的核函數(shù)確定將圖像進行分類，最終與人臉數(shù)據(jù)庫中的圖像進行對比，確定圖像信息。

5.2 機器學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

機器學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)，能夠通過算法學(xué)習(xí)來處理大量信息數(shù)據(jù)，同時還能進行精確的自我學(xué)習(xí)。相較于一般性的神經(jīng)元，卷積神經(jīng)網(wǎng)絡(luò)的基本組成和一般性神經(jīng)元相一致。具體來說，卷積神經(jīng)網(wǎng)絡(luò)在計算層級上先是通過對數(shù)據(jù)輸入的求和，再通過函數(shù)進行計算，從而實現(xiàn)對數(shù)據(jù)的輸出，進而實現(xiàn)神經(jīng)網(wǎng)絡(luò)建模。在應(yīng)用過程中，還需要注意卷積神經(jīng)網(wǎng)絡(luò)中3個參數(shù)，具體為數(shù)據(jù)區(qū)域大小、神經(jīng)元之間的聯(lián)系以及神經(jīng)元的數(shù)量[6]。在實際應(yīng)用過程中，需要修訂其中的權(quán)值，主要使用的方法是充分利用計算過程中所產(chǎn)生的誤差，進行初始化。同時，在對不同層級的誤差進行計算時，要鎖定不同神經(jīng)元的權(quán)值。總的來看，機器學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用主要是通過建立神經(jīng)元模型，再通過該模型來對數(shù)據(jù)的特征進行觀察分析，最終得到精確分析結(jié)論。卷積神經(jīng)網(wǎng)絡(luò)主要在計算機視覺以及自然語言處理中得以應(yīng)用，其中在計算機識別中，卷積神經(jīng)網(wǎng)絡(luò)主要能夠進行光譜建模和光譜特征可視化。作為深度學(xué)習(xí)方法之一的前饋神經(jīng)網(wǎng)絡(luò)CNN，可以使用沒有經(jīng)過光譜預(yù)處理的原始光譜進行建模，改進了光譜分析的流程，比如卷積神經(jīng)網(wǎng)絡(luò)可用于分析實驗室中山羊角水解過程中的拉曼光譜。除了計算機視覺和自然語言處理以外，卷積神經(jīng)網(wǎng)絡(luò)還在大氣科學(xué)、物理學(xué)以及遙感科學(xué)中有所應(yīng)用。

6 結(jié)語

綜上所述，在互聯(lián)網(wǎng)時代，要想更好地掌握數(shù)據(jù)信息，數(shù)據(jù)挖掘是必不可少的，因此機器學(xué)習(xí)顯得十分重要。在大數(shù)據(jù)時代，信息呈現(xiàn)出指數(shù)級增長趨勢，使得很多數(shù)據(jù)挖掘應(yīng)用不斷出現(xiàn)，很多數(shù)據(jù)問題更加復(fù)雜和難以把控。當(dāng)前機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用主要是機器學(xué)習(xí)中向量機以及卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用，但是這樣的應(yīng)用對計算機性能要求很高，不過相信在未來計算機性能會不斷提升，逐漸打破限制，從而更好地應(yīng)用到不同的領(lǐng)域之中。