曹西林
(西安鐵路職業技術學院陜西西安710026)
目前,數據庫已經滲入到社會各行業數據處理中,并且數據技術的發展及數據量的增長使現代人們進入了信息及數據大爆炸的時代中。對于大量的信息及數據,如何實現有效處理,從而找到其中蘊含的知識,是現代相關研究人員的主要研究方向[1]。只是根據數據庫查詢檢索技術已經無法滿足人們對于數據信息處理的需求。數據挖掘技術屬于能夠自動且智能的將未知數據及數據中的隱藏信息轉變成為有用知識及技術,并且幫助人員從數據庫提取人們感興趣的知識,對數據進行分析,從而充分使用大量數據中的價值[2]。在對數據不斷挖掘的過程中不僅能夠掌握傳統數據發展的過程中,并且還能夠實現未來數據發展趨勢的預測。數據挖掘屬于全新的學科,其融合多種技術。關聯規則屬于知識模式中較為活躍的分鐘,其在數據挖掘中具有重要的作用,屬于數據挖掘技術的研究方向,被廣泛應用到行業中[3]。
數據的關聯挖掘目標就是利用大量具有噪聲及不完全數據集合尋找具有用處的知識及信息處理過程,其主要包括準備數據、挖掘數據及知識評估3個步驟[4]。圖1為關聯規則挖掘基本的模型。

圖1 關聯規則挖掘基本的模型
此過程主要包括準備數據并且進行整理的過程,比如就業數據具有大量屬性,在研究數據模型的過程中,學生的就業信息主要包括性別、民族、專業等,以描述數據庫模型,就能夠得到學生的就業信息[5],詳見表1。

表1 學生的就業信息數據
因為此研究對象源于某三本院校,其中女生較多,所以學生屬性主要包括性別及專業,處理不相關的和數據,表2為處理之后的就業數據。

表2 處理之后的就業數據
關聯規則算法屬于數據挖掘算法中主要的分析方式,其能夠實現數據關聯的重點挖掘,尋找滿足條件的多個領域依賴關系,廣泛在行業領域中使用,尤其包括制造業、零售業及保險業。關聯算法的思想就是尋找支持度比最小支持度要大的頻繁項集,從此項集中尋找期望規則,此規則要能夠滿足最小置信度及支持度[6]。在實現關聯挖掘的過程中,首先要對事務集記錄進行掃描,尋找頻繁候選集,然后算出頻繁項,以此產生與用戶感興趣的關聯規則,圖2為關聯規則的算法流程。
通過Bochner空間實現二階滯偏微分方程的創建:

圖2 關聯規則的算法流程

二階時滯偏微分方程的邊界穩定平衡點特征向量為:

基于雙邊界條件平衡約束,將原點領域N(0)解向量作為初始條件[7],得出二階時滯微分方程穩定解的參量:

全面考慮二階時滯微分項雙周期性孤立波解,通過穩定解心涼屬于大數據分類聚類中心矢量,實現數據分類數學模型的創建。
使用基于偏微分分類數學模型實現關聯挖掘,創建關聯規則集數學模型,使用漸進有理積分逼近的方法[8],得出偏微分分類一階偏導函數:

通過二項-泊松模型實現全局漸進穩定性泛涵,以支持向量機模型相互結合實現二階時滯偏微分數學分類。以凸優化定理,使用隨機泛函函數實現一階導數的求解,從而得出自回歸線性的最優解。
利用以上規則集約束能夠得出偏微分分類數學模型規則集約束條件,從而降低在大數據分類過程中出現漏分及錯分的情況[9]。
遺傳算法屬于高效全局搜索的方法,其具有一定的魯棒性、隨機性及隱含并行性,能夠有效實現全局優化搜索。在關聯挖掘優化過程中使用遺傳算法及偏微分分類數學模型,能夠縮短大項集尋找的時間[10],圖3為改進關聯挖掘的模型結構。

圖3 改進關聯挖掘的模型結構
關聯挖掘改進的主要問題就是編碼,基于實數的編碼較為簡單,并且便于實現,本文以事務數據庫實現數據編碼,表3為決策信息表。

表3 決策信息表
在改進關聯規則挖掘的約簡屬于創新點,但是只是根據關聯規則有效性及重要性指標無法實現精準數據挖掘。所以就要提出改進屬性約簡方式實現屬性約簡,刪除對結論沒有效果的屬性,之后實現數據關聯規則挖掘[11]。
適應度函數屬于關聯挖掘改進過程中的接口,其是面向應用問題進行設計,其根據不同的解決問題實現不同適應度函數的選擇。因為支持度屬于關聯規則中的主要衡量指標,其表示了規則所有事物中的代表性意義,那么將關聯規則支持度實現其適應度函數的定義[12]。
在確定適應度函數之后就要計算個體適應值,之后以適應值為基礎從目前群體中對個體進行選擇實現交配池的生成。為了避免因為選擇誤差導致群體最佳個體丟失,可以使用精英保留輪盤賭的方式進行[13]。
表4為多種挖掘算法的結果,通過表4表示,本文所研究的關聯挖掘改進技術能夠解決傳統算法效率較慢的問題,并且在最小支持度閾值增加的過程中,規則數在不斷的降低。

表4 多種挖掘算法的結果
利用Quset實現大型綜合數據庫的生成,之后從中取樣實現區分數據庫的取樣,為了能夠降低不同實驗過程中的依賴性,取樣數據庫規模要比原始數據庫小。為了避免挖掘過程中出現危險,就要實現minFreq值的掃描,對通信負載進行測量,假設支持數編碼為4字節,項項目集數編碼為2字節[14]。圖4~6為不同數據庫通信負載,以此表示,3個算法的對比,其中兩個使用通信比較少。對于負載數據庫,DDM和PDDM行為相同,并且DDDM最好。

圖4 傳輸字節數、分區書、最小支持度和通信負載的聯系
首先對緩沖區大小變化進行檢查,通過結果表示其和理想網絡環境和緩沖區中的網絡結果沒有太大的差別。結果表示,算法在字節數發送方面良好[15]。
圖6中表示了緩沖區發小和字節數發送的關系,對緩沖區來說,假如具有大量的候選基,那么算法發送字節及信息要低于FDM。假如候選基集小,那么發送信息為半空,FDM就會具有一定的競爭力。

圖5 支持度、節點數、分區書和發送字節的關系

圖6 發送信息數、字節數和信息使用率與緩沖區的變化聯系
通過實驗結果表示,本文提出的基于偏微分分類數學模型的關聯挖掘改進技術能夠解決通訊復雜性問題,此算法和其他算法相比,能夠保證同一增長率。
在現代信息不斷增加的過程中,網絡數據域數據庫創建的需求也在不斷的增加,以此擴大了數據信息處理的規模。所以,如何實現高效其快速的數據挖掘,屬于現代領域中需要解決的問題。本文所設計的關聯規則挖掘優化,能夠提高算法的效率,降低對象掃描數據集的共工作量,能夠在企業刪選評估中使用。