數據挖掘中的數據預處理

2022-04-29 22:13:30許輝

電腦知識與技術 2022年4期

摘要：該文講述的是如何從現有的數據中獲取新的知識，但是現有的數據中會存在不集中、雜亂，甚至還不完整數據。雖然使用數據挖掘機模型進行微調和開發還會出現一些雜音，但仍然可以從中獲取到有用的數據，保證數據的質量。主要數據挖掘流程：獲取數據、清洗數據、探索數據、建模數據、轉換數據。

關鍵詞：數據挖掘;數據預處理;獲取數據;清洗數據;探索數據;建模數據

中圖分類號：TP311? ? ? ? 文獻標識碼：A

文章編號：1009-3044（2022）04-0027-02

1 數據挖掘

1.1數據挖掘模型的介紹

數據挖掘是獲取知識的經過，數據挖掘模型是從種種數據源來獲取所需要的數據，然后再將這些數據轉換成知識，把這些知識再提供給所需要的區域。數據挖掘的流程是從需求的開始到需求的滿足，意思就是將所挖掘的數據的精華知識以數據源形式發送到人們的手中。

1.2提前處理數據

提前處理數據的目的是使數據能夠更加容易地進行挖掘處理。提取數據的質量對數據挖掘模型可能會產生很大的影響，比如應景設置了數據和特點能夠獲取的最大上限，但是數據挖掘模型也只是近似于上限。如果提升對各種數據的提前處理技術，那么不論是數據的要求、質量還是預測目標的相關性都會得到很大的提高，而且可以使模型能夠得到更好的優化[1]。

1.3通常數據的缺陷

從現實生活中獲取的數據格式往往是不正確的，這樣就會引起數據庫出現各種各樣的問題，所以這就需要我們研究對各種數據的預處理技術，現在的數據預處理技術還不是很完善，但是解決一些小問題和提升一些技能還是可以的。

1.4數據縮減技術

數據挖掘模型如果輸入量較多，它們就會有較多的維度和巨大的數量，這樣會使數據挖掘模型傳送數據的時候會遇到前所未見的困難。這時候我們就要通過數據縮減技術來進行維度縮減或者對數據進行縮減采樣和選擇這些技術來減少以上帶來的問題[2]。

2 數據挖掘的過程

2.1數據挖掘的流程

數據挖掘的流程就是把需要挖掘數據的任務中所有數據集中一起。盡管它們的大多數據都存在數據庫或者其他存放數據的數據源中。為了讓人們更加明白，更加容易理解我們使用模型把里面的數據挖掘出來展示給人們。數據挖掘的主要流程是獲取數據、數據清理、數據探索、數據建模，知識可視化（如圖1所示）。這個流程在現實世界中不是一次性的過程，而是長久性的任務[3]。因為清理數據和數據建模必須進行不斷地測試和改進，獲取的數據必須適應不同類型的數據源。數據的可視化和解釋也必須不斷地改變，不斷地調整，從而滿足人們的需求。

2.2數據的獲取

獲取數據挖掘的基本做法就是獲取所需要的數據。因為所需要的數據中本身就有自己所需要的知識數據資源。大多數據來源就是從數據庫和數據倉庫中獲取的，也可以使用語言來查詢結構化數據，數據倉庫就是用來組織數據，理解和利用數據而形成的，它們一般和運營數據庫是分離的系統，為的是讓后續分析工作更容易一些，而且大多數的數據都很重要，這樣也不會容易丟失。可以將獲取到的數據存放到一個文件夾中，以便后續的過程中用到它。它們可以一起存儲到數據庫和數據倉庫中，為以后數據挖掘任務做備用。有一組有起點和有終點的有序數據我們稱它數據流的概念，數據流的概念比收集數據更重要。數據流可以很好地開發在線運行的模型和算法，數據收獲的不再是數據集，而是實際輸入源[4]。

3 數據的清洗

3.1數據清理的步驟

數據清理和數據的預處理都屬于數據清洗，把數據再進行一遍審查和校驗一遍。目的就是把重復的、錯誤的信息刪除掉，提供一樣的數據。

3.2發布清理技術

有時在科學研究所得到的數據格式不準確，有一些問題影響模型的誤差結果，比如說，離群值會使數值分布但實際上失真值影響聚類算法。如果不處理問題將無法通過模型來解析數據。為了解決這個問題科學研究所發布了數據清洗技術來處理失真值的處理和離群值的檢測[5]。

3.3缺失值的處理

缺失值是數據集中一種常見的不完整的一種典型。這些缺失值不能用來做比較、分類和算數。所以，必須要推算數據挖掘模型之前處理掉這些缺失值。缺失值的處理辦法很簡單，就是把整個樣本刪掉。如果缺失值有的數據不能忽略或者缺失值的屬性的比例不同，我們可以減少數據集的數量，刪掉沒有利用價值的信息。還可以利用其他方法來填補缺失值。比如可以通過得數值來表示缺失、統計信息、預測屬性值和分配所有的可能值。用數據集來補充缺失值是最好的技術了，忽視缺失值的樣本來分配所有可能值表現得技術也不錯，根據數據集的不同要求，缺失值技術也大有不同。大部分的數據都需要數據挖掘任務來進行實驗，來進行檢測。

3.4異常值的檢測

和大部分的樣本數據巨大差距的數據樣本就是離群值，雖然這種離群值出現的概率很小，但它不一定會出錯，一半的錯誤異常值是通過錯誤的測量和錯誤的記錄組成的，所以它不會帶來很大的影響。雖然有些模型會對異常值出現沖突，但是在數據處理工作中仍然需要使異常值來測試。離群值檢查算法是最常見的算法之一，在一般的情況下分布是未知的，正態分布就是最好的替代，可以從它的平均值和誤差來估算馬氏距離是兩個樣本的中間和標度的距離無關我們可以利用馬氏距離來和每個樣本的平均值來確定異常值。

平均值和誤差來估算方式：

4 數據的轉換

4.1 數據轉換的優勢

不同屬性的數據表示不同的形式，有的數據分類，有的是不分類的。對于分類的數據值被稱作標稱值;對于不分類的數據可以根據不同的統計特征來算平均值和誤差。但是，不是所有的數值都可以通過模型的需求。數據之間的差別還會對模型的工作帶來麻煩，數據轉換可以使數據挖掘機讓算法更容易成功。

4.2數字化

分類自然界中用得最多的數據，比如計算組之間的熵，它就可以在分類數據上完成，但是還是有一半的數據不適合用于分類數據，因此就將分類數據編碼數據，采用編碼數據來進行數據，比如一鍵編碼、順序編碼、定制編碼來編輯這些數據，它也不會在設計上花費很多的精力。

4.3歸一化

不同的屬性用的單位制也不同，它們的平均值就會有差距也會有誤差，但是數值上的差距會比更重要，而它沒有屬性這種數值會對某些數據制造麻煩，比如KNN：大一些的數值會影響距離的比較，這就要考慮模型的屬性是傾向大一些的數值。除此之外，神經元網絡模型就對梯度優化就產生了不好的影響，被迫使用較小的學習率，為了解決這些問題還發布了很多標準化的方法比如Min-max規范化（1）、Z分數歸一化（2），還有十進制縮放規范化（3）等，在各種情況下有不同的屬性有相同和相似的單位，比如數據預處理的RGB彩色成像就沒必要進入標準化。如果不能對單位系統保證，還是建議進行數據挖掘模型來進行標準化。

4.4數值變換

其他數據的屬性也可以在數據集上變換，通過轉換得到的數據和其他數據挖掘出最優的數據擬合（比如神經網絡）可能這些都不重要。可是，對于簡單的參數較少的數據模型（比如線性回歸），轉換后的是數據就很好地幫助模型獲取更優的數據，它們之間的屬性轉換關系對科學發現和對機器的控制是必不可缺的。

5數據的建模

數據建模通常在挖掘任務當中會將數據分為訓練集和測試集，再從中獲取新的數據集上對數據模型的正確性進行評分。數據模型中包括超參數，比如KNN模型K的選擇就創建了驗證集并獲取了最好的超參數集。大多數的數據挖掘模型都是要定損失含義的。一般，數據挖掘模型質量是優損失函數值就低，它都有特殊的功能，比如凸度，它就比梯度算法得到的結果就好。經過訓練得到的參數在進行模型訓練步驟來調整參數，使它的訓練數據損失更低。數據挖掘模型的復雜性也各個都不相同：簡單的模型僅有少量的參考數，少量的參考數會將訓練的步驟降低，復雜的數據挖掘模型數據有上百萬個參考數，要是訓練它們需要巨大的數據集，但是復雜并不是代表它?們更好，應該根據數據挖掘模型任務來評測目標，數據集的大小，數據的類型等來確定模型，有的是時候一個數據集可以運行多個不同的數據模型，并且還能找到最適合數據挖掘模型。

6結束語

數據挖掘技術是從數據集中發現更多的信息，從中獲取自己所需要的數據資料。相對于以前的傳統數據分析方法，有了數據挖掘技術不但可以采集海量的信息，還可以提高學習方法。從獲取數字、到清洗數據、再到探索數據、再到建模數據、再到挖掘知識可視化這幾個步驟缺一不可，因此每個基礎方法都需要學習。

參考文獻：

[1] 解二虎.數據挖掘中數據預處理關鍵技術研究[J].科技通報，2013，29（12）：211-213.

[2]張治斌，劉威.淺析數據挖掘中的數據預處理技術[J].數字技術與應用，2017（10）：216-217.

[3] 董師倢.數據挖掘中的數據預處理技術[J].信息與電腦，2016（19）：144-145.

[4] 梁婷.券商經紀業務發展現狀及轉型淺析[J].當代經濟，2020（5）：35-37.

[5] 趙陽，江雅文.金融科技賦能證券經營機構財富管理轉型研究[J].金融縱橫，2019（10）：36-45.

收稿日期：2021-08-18

作者簡介：許輝（1979—），女，江蘇鎮江人，副教授，工程碩士，研究方向：軟件技術。