基于數據挖掘技術的相關模型與算法研究綜述

2023-06-24 17:24:45張君秋趙建光孟凡明陳麗敏

中國新通信 2023年2期

張君秋?趙建光（通訊作者）?孟凡明?陳麗敏

一、引言

在大數據時代的背景下，早期的一些傳統的技術算法已得到了新的改進，同時也衍生出一些新的算法模型，推動著工業(yè)生產和互聯網行業(yè)的發(fā)展。新技術的不斷發(fā)展也伴隨著新問題的出現，如今現有的技術難以滿足海量數據的處理需要，因此進一步改進模型算法是攻克當前問題的關鍵。

二、數據挖掘技術

（一）數據挖掘的概念

數據挖掘[1]是一種處理海量數據的技術，是適用于信息社會從大量數據中提取有用信息的需要而產生的新科學，是傳統統計學、人工智能、模式識別、數據庫等領域的交叉，其結合了傳統的分析方法和復雜的統計學算法，應用越來越廣泛。

（二）數據挖掘的功能

數據挖掘可以完成數據的總結、分類、關聯、聚類[2]等任務。它通過對大量的數據信息進行獲取分析，提煉出隱藏的規(guī)律，這便體現了描述和預測[3]的性能。表1詳細介紹數據挖掘功能。

三、決策樹算法

決策樹[4]是數據挖掘技術中常用的算法之一，主要解決實際生活中的分類回歸問題。任何一棵決策樹都由三個部件組成，分別是有指明方向的有向邊、內部的分節(jié)點和沒有后端的葉子節(jié)點。每一個內部節(jié)點分別表示該數據集的某一個特征指標用于測試；每一個葉子節(jié)點代表一個編號，用于區(qū)分編號。本文將介紹ID3算法、C4.5算法和CART算法。

（一）ID3算法

從統計學理論知識看，信息熵值[5]和樣本的純度成反比。ID3算法的思想是根據信息增益來對特征指標進行選擇，從中選取信息增益值最大的特征指標進行分類，算法采用自頂向下的搜索過程，將可能經過的決策樹空間全部遍歷完成。

ID3算法使用的分類指標是信息增益，它表示已知特征A的信息情況下使得樣本集合不確定性降低的程度。

數據集的信息熵：

（1）

其中Ck這個符號代表D這個集合中的樣本子集，該子集屬于第k類樣本。如果要求某個特征A相對于數據集D的條件熵H（D|A），可以根據下面的公式來計算：

H（D|A）（2）

在上面的公式中，Di表示樣本子集，特指集合D中特征屬性A的第i個值的子集，Dik表示Di中屬于第k的樣本子集。

信息增益=信息熵-條件熵。公式如下Gain（D，A）= H（D）-H（D|A），如果所得到的信息增益值[5]越大，則表示使用特征屬性A來劃分后，得到的結果值的提升純度就越高。

（二）C4.5算法

C4.5算法是ID3的改進算法，該算法不會對特征值的選取有自己的偏好，該算法進行分類時所采用的標準引入了新的概念：信息增益率。

C4.5算法將訓練樣本數據集進行綜合排序，每兩個相鄰的樣本求平均數，同時分別計算出每個樣本的信息增益值，將信息增益值最大的點挑選出來。另一方面，在缺失值這個問題上，我們在研究過程中提出以下兩點：一是怎樣準確的得出特征屬性值的信息增益率；二是怎樣劃分樣本節(jié)點最恰當。針對這兩個問題，C4.5給出了答案，有的屬性特征有缺失值，導致屬性不全，該樣本會用它自身部分沒有缺失值的樣本子集進行訓練，然后按所占整體比例進行換算。

C4.5有自己的劃分標準，它會自己利用得出的信息增益率來克服信息增益的缺點，計算表達式為：

（3）

（4）

HA（D）被稱為特征A的特定屬性固定值。可以清楚地看出，信息的增益率在選取特征值的過程中也不是隨機的，它所選取的特征屬性能夠被選取的數值范圍比較少，也就是說當特征值分母越小時，所得的結果就越大，因此C4.5算法在對特征屬性進行分類時并不是直接靠增益率來進行衡量，而是在其中加入一種方法：先把所有的特征屬性都為信息增益值的統計計算得出，分別進行對比，找出信息增益值高于平均值的特征屬性，然后進一步從較高的信息增益值中選擇增最高的特征指標。

（三）CART算法

ID3和C4.5這兩種算法在科學理論研究和生產實際中較為常用，但是其生成的決策樹組織結構和數據規(guī)模都比較大，CART算法有效地避免了這一問題，該算法可以簡化已生成的決策樹大小，利用二分法大大提高了一棵決策樹的工作效率。

CART算法在實施過程中包括三個環(huán)節(jié)，分別為剪枝、分裂和樹的選擇。分裂過程是類似一棵二叉樹遞歸的過程，利用該算法工作時輸入和測出的數值既可以是連續(xù)型也可以是離散型的，對數據集的類型沒有很嚴格的要求，CART算法會一直生長下去，沒有停止生長的節(jié)點或準則。剪枝過程從最大的子樹開始，每次選擇下一個剪枝對象都遵循一個原則，便是找出那個對訓練數據熵作用發(fā)揮最弱的那個節(jié)點，一直到遍歷到只剩下根節(jié)點，則過程完成。

一般情況下，對數運算對我們的研究過程不算友好，計算量大且復雜，為了將更多的時間用于模型評估上，我們很少使用熵模型。該模型導致在訓練過程中很費力，基尼指數很好地避免了復雜的數學運算，同時還簡單化了模型的整體結構?；嶂笖涤脕砼袛嗄Ｐ偷募儩嵍?，基尼系數比較低，則表示純度越好，其模型的特征值越好，該指標和信息增益的判別是相反的。

（5）

（6）

其中k代表類別屬性。

基尼指數[5]本質是一個概率，基尼指數越大，則表明數據集純度越低。和信息增益類似，基尼系數可以用來衡量所有不均勻的數值分布，基尼指數是一個介于零和一之間的常數，0代表完全相等，1代表完全不相等，當CART為二分類，其表達式為：

（7）

介于零和一之間的數則由上述公式計算得出。如果是在二分類和平方運算中，它的運算過程會更加簡單，而且性能也會越來越好。即使基尼指數和熵模型性能很接近，但畢竟二者還是存在差距的，由高等數學理論知識我們知道，ln（x）=-1+x+o（x），則可以將基尼系數[5]理解為熵模型的一階泰勒展開式，即

（8）

四、BP神經網絡算法

（一）隱含層的選取

在構建一個BP神經網絡[6]時，需要我們做好隱含層的選取工作。神經網絡中各個輸出層的節(jié)點和輸出層的各個節(jié)點之間的位置都是已知而且不能隨時增減，基本上不會發(fā)生改變；而隱含層中各節(jié)點的個體由研究者根據自己喜好和訓練集的實際情況選擇。隱含層中節(jié)點的個數要重點把握，不可過多也不可過少，如果設置不當會影響神經網絡的訓練能力，一般通過這個經驗公式可以算出該網絡中隱含層節(jié)點的數目。如下：，經驗公式不是唯一的，我們需要根據自己的需要自行挑選，在這個公式中，h表示此神經網絡中隱含層有多少個節(jié)點，m代表該網格的輸入層中有多少個節(jié)點，n代表該網絡的輸出層中有多少個節(jié)點，a是一個常數，作為調節(jié)常數，它有一個范圍是人為規(guī)定的，通常選取十以內的常數。

（二）正向傳遞

在這種傳遞方式的訓練過程中，輸出值的大小受到很多因素的影響。例如上一層當中所有節(jié)點的最終輸出值之和的大小就會直接影響到最終的輸出值結果；在我們訓練這個數據集時也許我們會特別注意到，網絡中當前的節(jié)點和上一層所有節(jié)點之間的權值和每一個節(jié)點的閾值也是一個直接影響其輸出的閾值，還涉及激活函數的選取，都會對最后的輸出結果造成影響。下面的公式可以得出結果：

（9）

xj=f（Sj）? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（10）

這里的f為人為挑選的激活函數，激活函數一般挑選S型的函數，也有研究學者選擇線性函數，不管激活函數怎樣選取，正向傳遞的過程不算很難，按照上述公式計算即可得出結果。下面我們將詳細介紹一下反向傳遞的復雜推導過程。

（三）反向傳遞

在神經網絡算法當中，誤差信號的反向傳遞子過程相對正向傳遞來說比較復雜，此過程是基于Widrow-Hoff學習算法規(guī)則的。假設該神經網絡的輸出層所有分層結果之和為dj，其中n代表學習率，選取的誤差函數如下公式：

（11）

BP神經網絡在做數據訓練時最關鍵的便是反復的修改連接權值和神經元的閾值，使訓練結果達到最優(yōu)，誤差降到最低。Widrow-Hoff法則所選擇的訓練方式主要是依據相對誤差梯度下降，連續(xù)反復地調整網絡當中的閾值和神經元之間的權平方，在進行這一調整的過程中，注意應該沿著相對誤差平方上的偏移方向和相對誤差下降速度最快的方向進行調節(jié)。在修改一個權值時，要特別注意的是修改向量，不要忽略方向上的修改，需要和當前所在位置上的一個梯度E（w，b）大小成正比，例如，對于第j個神經元的一個輸出節(jié)點來說。

（12）

假設選擇的激活函數是（由人為決定的激活函數選擇）：

（13）

接下來需要對所選取的激活函數求導，具體計算過程如下：

（14）

那么針對有如下計算過程：

（15）

其中有

（16）

同樣對于dj可以得出如下結果，此推導過程同上，不再進行具體的公式推導。

（17）

以上過程也就是δ學習規(guī)則的研究和推導過程，通過改變兩個神經元之間的權值關系來減少和降低誤差，該權值的主要目標是統計系統中實際輸出的結果與預期估計時的輸出結果之間的誤差，這個法則也叫做Widrow-Hoff學習規(guī)則。以上內容就是其中針對輸出隱含輸入層和對于輸出第一層之間的輸入權值價格調整合理計算操作過程和對于輸出第一層的輸入閾值價格調整合理計算過程工作原理過程的詳細操作說明，而其中針對隱含輸入輸出層和對于隱含輸出層之間的輸入閾值合理調整和對于輸出輸入層以及隱含層等地區(qū)的輸出閾值[7]合理調整則與數據分析相比，這兩種計算方法的閾值計算量和工作過程相對來說較為繁雜，本文不再進行細致研究。

五、算法比較

決策樹算法操作簡單，分類調度時工作速度快，可用于大量數據的處理。決策樹算法是以實際樣本作為基礎進行歸納學習，從一堆毫無規(guī)律、毫無順序的數據中推測出以決策樹展現出來的模型規(guī)則，然后使用得出的決策對新的樣例進行分析預警，其算法本質是利用一系列的規(guī)則對數據信息進行分類預判。

而在神經網絡算法中，其機器學習的過程中就是訓練過程，就是將數據信息集合手動輸入到神經網絡中，并且按照一定的算法去調節(jié)神經元之間的權值數據，使得在網絡中接收時可以得出合適的輸出值。

BP神經網絡實現了一個從輸入到輸出的映射過程，數學理論證明了三層的神經網絡就可以以任意精度逼近任何非線性連續(xù)函數，體現了其具有較強的非線性映射能力。同時，該算法能夠通過學習自適應性地將學到的內容記憶于網絡的權值中，具有較高的自學習能力和自適應能力。BP神經網絡在它的局部或者部分的神經元受到破損后不會對整個訓練結果造成很大影響，具有一定的容錯能力。

基于以上優(yōu)點，人們在逐漸對BP神經網絡的研究中也逐漸發(fā)現該算法的局限性。如果從統計學的角度分析，BP神經網絡的改進只改善了局部，如果使用此網絡解決線性算法之外的問題，網絡中神經元之間的權值和閾值會根據局部數據的改變自行變化并調整，導致造成局部極值的現象，從而造成此模型的訓練失??；BP神經網絡的結構目前還沒有統一的選擇標準，一般都根據實驗者的經驗來選取定義，如果結構建立過大，會造成訓練的時間過長，導致效率不高；若選擇過小，則有可能導致網絡結構不夠收斂。

六、結束語

本文通過介紹數據挖掘算法可以從大量的數據中找到有價值的信息從而解決相關問題外，還對決策樹和BP神經網絡算法的結構和優(yōu)缺點進行闡述，希望本文能夠為相關探究基于數據挖掘技術的算法模型提供參考。

作者單位：張君秋趙建光孟凡明陳麗敏河北建筑工程學院信息工程學院

參? 考? 文? 獻

[1] 劉彥戎，楊云. 一種矩陣和排序索引關聯規(guī)則數據挖掘算法[J]. 計算機技術與發(fā)展，2021，31（02）：54-59.

[2] 潘巍. 對數據挖掘算法的優(yōu)化及應用探析[J]. 電子元器件與信息技術，2020，4（07）：91-93.

[3] 盛夏. 數據挖掘算法研究[J]. 決策與信息（下旬刊），2010（06）：163.

[4] 魚先鋒，耿生玲. 模糊智能決策樹模型與應用研究[J]. 計算機科學與探索，2022，16（03）：703-712.

[5] 謝鑫，張賢勇，楊霽琳. 融合信息增益與基尼指數的決策樹算法[J]. 計算機工程與應用，2022，58（10）：139-144.

[6] 張敏，彭紅偉，顏曉玲. 基于神經網絡的模糊決策樹改進算法[J]. 計算機工程與應用，2021，57（21）：174-179.

[7] 王忠，萬冬冬，單闖，等. 基于反向傳播神經網絡的拉曼光譜去噪方法[J]. 光譜學與光譜分析，2022，42（05）：1553-1560.

基金項目：河北建筑工程學院碩士研究生創(chuàng)新基金項目“基于YOLO改進算法的城市交通標識檢測”（項目編號：XY202237）。

張君秋（1999-），女，漢族，河北唐山，碩士研究生，研究方向：計算機視覺；

通信作者：趙建光（1978-），男，漢族，河北大名，博士，教授，研究方向：感知互聯與智能計算。