劉靜瑞,潘東陽
(信陽職業技術學院,數學與計算機科學學院,信陽 464000)
數學模型在我們的日常生活中運用的地方是非常廣泛的,不論是我們的日常生活還是有關通信數據智能挖掘算法的運用上都是非常重要的。所謂的數學模型是為現實世界的特殊目的而提出的更抽象和簡化的結構模型。具體一點來說,數學模型就是通過一些字母、數字及數學符號等等而組成的一些式子、圖表或圖像用來描述客觀事物及其內部關系特征,從而達到一種特定的目的而建立起來的數學結構表達式[1]。數學模型是對具體問題以數學思維來解決,通過數學中的概念、方法和思路來深入思考與分析,從精密的邏輯思維對現實問題進行分析與研究,為解決現實問題提供精確地指導與數據。
傳統的算法需要將處理查詢機制下的全部數據進行載入,再將全部數據按照一定的分類規則進行切割計算,大大限制了通信數據智能挖掘算法的速度,效率低下。因此本文提出基于數學模型提出一種新型的通信數據智能挖掘的加速算法,這種新型的算法對于分類的條件匹配和全部數據的精確查找可以以較高的速度實現,并且保證準確率,這種新型的加速算法與傳統的算法相比有性能上的優越。
基于數學模型提出的通信數據智能挖掘加速算法在速度上有明顯的提升,原因如下。假設在某一時刻t,將某個增量數據集的全部數據載入系統,用公示表示如下:

假設在某個時長為T 的時間段內,將某一個小時刻標記為t=1,2,…,T,全部數據將被采集到數據塊DT中,對其公式表示如下:

H(.)用于表示啟發式算法的功能[2]。在傳統算法中,貪婪式算法通常被用作啟發式算法的主要內容,以實現最優數據樹(TRGLOBAL)的目標。全局最優樹源自數據集中的所有數據,因此絕對是全局最優的。然后,啟發式算法H(.)的功能是從最大的信息增量從上到下排序標簽的每個分支點的邊界,然后選擇關于分類的最佳屬性。對于每一個最佳的屬性Xi,對i(i ≤M)和j(j ≤N)進行檢索,其中M 代表的是最大的屬性個數,那么N 代表最大接收實例的個數,也就是xij的分支值。因此,從xi1到xij的分支值中根據條件xij=argmaxH(xij)來選取函數的功能最大屬性Xi。以上所描述的信息在DT 中已經全部包括了。要保證輸入結果是全局最優結果的前提就是要在這個處理過程中保證所有的數據都在數據集DT中,用公式可表示為以下形式:

在對于未來某一任意的時刻t,Xt,將要到達的全部新數據集,該模型全部數據都可以安排在新集合{ ytk }中。在這一集合中,k 表示的是在可能集合K 中的一個可能的集合序列號。
根據目前已經收集到的所有數據集,基于數學模型的啟發式算法H(.)的建立是根據最優分類的錯誤類型為目標的,用公式可表示為[3]:

在時間t 內,數據已經積累到DT,并在全部數據的分類模型TRGLOBAL中表現良好。在時刻t+1時間內,數據已經到達了新的數據集,分類模型TRGLOBAL要基于新的數據集合,并重復公式(3)和(4)的運算來實現自我更新。隨著時刻t 和DT的上升,更新時間延長,在每次更新時都需要重新載入集合DT的歷史數據。
在運用本文算法進行數據的挖掘時,所采集到的數據量龐大并且數據頻繁更新,新數據不斷出現。如何在新數據不斷更新的情況下仍保持挖掘算法的速度,仍然沒有解決方案,在不斷更新的數據模型中,對歷史數據進行多次計算是不可行的做法,因此,對于此類數據庫的更新必須采用增量分類的方法來保證算法的速度。
為了解決數據庫更新數據龐大的問題,本文提出的加速算法將通過在候選屬性數據集中選擇最可靠的數據集來實現候選集屬性的輸出。加速算法的數據提取過程只需執行一次即可讀取數據,因此可稱為任意算法。該加速算法將根據每個屬性值的出現次數構建決策分支樹。在計算加速算法的過程中,屬性Xi的值的出現頻率和屬性Xi的類yk由Hoffding 邊界在下面的公式中檢查[4-5]。其公式如下:

在公式中分類屬性由R 來確定,屬于同一個數據集合中的個數用n 來表示。與傳統的算法不同,這一新型的加速算法對于屬性Xi的檢測是根據對推薦前的兩組高值的集合項來確定的。在任意時刻中,xi存在兩個最大集合值項,分別為xia和xib,這兩個值都滿足xia=argmaxH(xij)和xib=argmaxH(xij),其中j ≠a。至此完成通信數據智能挖掘的加速算過程。為了測試本文算法的加速效果進行仿真實驗。實驗建立在Maglab 仿真環境中。實驗的硬件環境為:IntelCole5-540 1G 內存,操作系統為Windows 7。假設在通信環境下光纖網絡通信節點分布3000m×3000m 的均勻陣列區域,光纖通信采用頻帶為3kHz 至11 kHz,載頻時寬為 2 ms[6]。本文在傳統算法中選取3種常見算法進行比較分析[7-8]。分別為混合通道,HP 的每個分類的建立都依靠于這個分離內所有的數據的實現。測試的數據根據包含最多實例的數據庫的原則選??;貝葉斯,NB 基于訓練數據進行分析。其分類器并不進行更新。貝葉斯網絡學習通過不同的搜算算法和結果質量評估方法來組成;決策樹,DT生成C45決策樹。
此實驗所運用到的環境和數據參數如上所述,對通信智能挖掘加速算法模型的運用首先進行數據時間的序列采樣,并以采集到的數據進行對比。
將基于數學模型的新型加速算法與傳統算法進行性能的對比,得到的通信數據智能挖掘算法的速度對比結果。

圖1 新型加速算法與傳統算法的速度對比
如圖1所示。通過實驗的對比結果表明,采用基于數學模型的新型通信數據智能挖掘加速算法的速度快于傳統的算法,提高了算法的效率,具有較高的推廣度。
本文提出的新加速算法是基于數學模型的智能挖掘加速。新型的加速算法排除掉了全部數據重新載入的過程,實現通信數據智能挖掘算法的加速查詢。為測試新型加速算法的性能,將新型算法與其他的三種傳統算法進行對比實驗,結果表明新型算法在查詢準確度與速度上有更為明顯的優勢,具有推廣價值。但是本文提出的新型加速算法有一定的限制,在今后的研究中將繼續研究有關加速算法,為通信智能挖掘算法效率的提高做出理論支撐。