


【摘 要】數據挖掘是處理大批量數據常用的手段,為了進一步掌握數據的發展規律,筆者基于微分數學模型開展了數據挖掘方法的設計,按照微分數學模型中的聯合分布函數以及隨機分布函數,構建數據的高緯度相空間,并以數學模型中微分數據的存儲節點為特征獲取依據,獲取矢量數據集合的特征。為了減少數據擬合的工作量,在完成數據收集的基礎上,進行空間維度的調整,將高緯度矩陣轉變為低緯度矩陣。在數據收斂的作用下,通過對信息測度的調控,采用高斯核函數進行離散數據流挖掘,以此完成數據挖掘方法的設計。此外,提出仿真實驗,建立實驗仿真操作平臺,使提出驗證的方法更具備有效性,不僅對挖掘數據的命中率更高,還可適應不同環境下的數據挖掘方式,更具備實際應用價值。
【關鍵詞】微積分;數據挖掘;數學模型
數據挖掘是指借助輔助性計算工具,在大批量的數據集合中,采用指定算法找出隱藏在數據集合中的某種規律性。隨著當下社會生產的迅速發展,環境中數據監測量同步增大,可明顯地發現傳統數據挖掘方法在大批量數據處理及分析下的壓力增大,雖然在指定時間內完成的數據挖掘量依舊較大,但數據的命中率較低,挖掘的數據層次較淺[1]。為了更好地解決這一問題,本文引入了微分數學模型。此模型是按照微分數學計算中的邏輯方法,利用數學語言構成的科學工程。目前數學模型已經是數學計算過程中不可缺少的計算工具[2]。本文基于微分數學模型的應用,設計數據挖掘方法,以期加大對數據集合的處理,提高處理數據集合的完整性與規范性。
1? ?數據挖掘方法
1.1? 基于微分數學模型獲取數據信息流的互信息特征
對于在不同渠道獲取的數據集合,根據信息資源來源的不確定性,按照微分數學模型中的聯合分布函數以及隨機分布函數構建數據的高緯度相空間[3]。假設將點模型中分布的微分數據集合表示為 L={ l1,l2,l3,…,ln },應控制模型中的微分數據與空間維度數據 N={1,2,3,…,x }集合具有一一對應的特點[4]。設定 T 為云環境下數據流的互信息特征表達方式,根據上述提出的對應特點,對 N 維度數據進行空間重構。重構的過程如下。
公式(2)中:F 表示在混合數據流環境下,與微分數學模型相匹配的有限矢量數據集合; f 表示集合中的子數據,E 表示模型中的微分動態化數據,s 表示數據在空間中的嵌入方式。根據上述計算公式,對獲取的數據流集合進行樣本壓縮,以此獲得聚合后數據信息流的互信息特征,以數學模型中微分數據的存儲節點為特征獲取依據,對上述計算的矢量數據集合進行特征提取。計算過程如下。
公式(3)中:表示數據信息流的互信息特征,p 表示數據分布存儲階段,q 表示數學模型中微分數據的存儲節點,k 表示特征提取的云環境,i 表示獲取行為的發生次數,f 表示數據的非線性時間排序。通過上述公式的計算,整合云數據的初始值,完成對數據信息流互信息特征的提取。
1.2? 離散數據的擬合與挖掘
使用上述獲取的數據信息流互信息特征,分析不同層面數據之間的關聯性,并采集數據中最大指數的頻譜特征集合。在此過程中,可使用 Lyapunove 算法建立高緯度數據矩陣,將完整型數據與離散型數據一并列入矩陣集合中。為了減少數據擬合的工作量,在完成收集數據的基礎上,進行空間維度的調整,將高緯度矩陣轉變為低緯度矩陣。此過程可用如下公式表示。
公式(4)中: k 表示數據頻譜特征,c 表示數據流適度值,表示矩陣空間維度。在完成矩陣降維的同時,進行離散型數據的擬合,擬合過程如下。
公式(5)中:J 表示數據流擬合中心矢量,m 表示數據在擬合過程中的非線性擾動誤差,O 表示擬合特征目標函數,W 表示數據擬合關聯規則。在完成數據的擬合后,根據離散數據的表達方式,對其執行層次挖掘指令。在最小迭代次數和收斂的作用下,調控測度信息,采用高斯核函數進行離散數據流挖掘,核函數表達式如下。
公式(6)中:β 表示關聯數據排列順序,Q 表示數據挖掘最大調整量,S 表示數據子序列,R 表示數據逆變。根據計算公式,完成基于微分數學模型的數據挖掘方法設計。
2? ?仿真實驗
2.1? 實驗準備
結合當下社會數據量的增長趨勢,在此提出一個簡單的仿真測試,檢驗本文提出數據挖掘方法的有效性。為了確保實驗結果的準確性,采用搭建仿真實驗操作臺的方式,模擬此次實驗的發生環境。使用4核8線程的計算機 CPU 作為實驗的仿真平臺,并將 Matlab7.0作為測試軟件,數據挖掘的樣本選擇國家大型數據庫開放性網絡平臺為本文實驗提供的數據(MP IL 25.0中的數據集合)。本文實驗選擇數據庫中的隨機20組數據作為研究數據對象集合。要求這20組數據集合的規模從500.0Mbit 到 5000.0Mbit ,呈逐步上升趨勢。實驗過程中,為同組數據提供不同的挖掘環境,分別使用本文設計的基于微分數學模型的數據挖掘方法及傳統數據挖掘方法,對選擇的數據集合進行挖掘,以數據命中率為方法評估的指標,根據對挖掘環境的監測與分析,設計本次實驗的相關指標參數,如表1所示。
根據表1的實驗參數及實驗環境,將本文數據挖掘方法定義為實驗組,將傳統數據挖掘方法定義為本次實驗的對照組,分別使用兩種挖掘方法進行不同環境下的數據挖掘工作,控制影響實驗結果的相關變量,以此完成此次仿真實驗的實驗準備。
2.2? 實驗結果分析
根據上述的實驗準備進行此次數據挖掘實驗,記錄實驗過程數據,整理數據,并將其繪制成表2所示的實驗結果。
根據上述表1中統計的數據可知,在不同的數據挖掘環境下,無論是傳統方法或是本文設計的方法,均可執行對應的數據挖掘工作。但進一步分析表格中的數據發現,本文數據挖掘方法對于挖掘數據的命中值均在命中范圍內,傳統方法在環境1與環境3的實驗中的數據命中值超出了實際范圍,表明挖掘的數據結果不具備研究價值。因此根據上述實驗結果得出此次實驗的結論:相比傳統的數據挖掘方法,本文提出的基于微分數學模型的數據挖掘方法更具備有效性,不僅挖掘數據的命中率更高,同時還可適應不同環境下的數據挖掘方式,更具備實際應用價值。
基于微分數學模型的應用,本文開展了數據挖掘方法的設計。采用設計對比實驗的方式驗證了提出的方法在不同狀態下具備一定的可使用性。但由于本文進行的實驗受到實驗場地及實驗設備的限制,實驗的最終結果可能與實際結果存在一定偏差,為此在后期的研究中,可應用本文實驗提出的環境,重構實驗過程,完備實驗中需要的設備,提高數據挖掘方法檢驗結果的真實性與準確性。
【參考文獻】
[1]陳志雄.基于hadoop平臺的分布式數據挖掘系統的設計探討[J].數字技術與應用,2017(1).
[2]梅毅,熊婷,羅少彬.復雜屬性環境下NoSQL分布式大數據挖掘方法研究[J].科學技術與工程,2017(9).
[3]熊亞軍,孫兆彬,李梓銘,等.基于數據挖掘算法和數值模擬技術的大氣污染減排效果評估[J].環境科學學報,2019(1).
[4]李曉峰,李東.基于SOM聚類的多模態醫學圖像大數據挖掘算法[J].西安工程大學學報,2019(4).
【作者簡介】
常天興(1982~),男,漢族,山西晉中人,碩士研究生,講師。研究方向:基礎數學。