張軍+劉文杰



摘 要: 網絡數據通常以爆炸式的聚集形式出現,導致曾提出的關聯規則挖掘方法挖掘性能不好。基于上述原因,提出一種關聯規則中基于模糊遺傳算法的挖掘方法,此方法通過構建挖掘模型,將關聯規則與模糊遺傳算法融合在一起,進而給出待挖掘數據的適應度函數,并使用閾值對其進行限制。模糊遺傳算法將對適應度函數進行交叉分配和編譯分配,以改進方法的隸屬度線性狀態,獲取更為有效的挖掘結果。實驗結果表明,改進后的方法挖掘穩定性較強,挖掘精度較高,且挖掘時間較少。
關鍵詞: 關聯規則; 模糊遺傳算法; 挖掘技術; 挖掘精度
中圖分類號: TN911?34; TP311.13 文獻標識碼: A 文章編號: 1004?373X(2017)14?0023?03
Abstract: Network data usually appears in the form of explosive gather, which may lead to a bad performance of the association rule mining method proposed in the past. Based on the above reasons, a kind of association rule mining method based on fuzzy genetic algorithm (GA) is put forward in this paper, in which the mining model is built to fuse association rules and fuzzy genetic algorithm, and then give to the fitness function of the waiting mining data, and use threshold to limit it. Fuzzy genetic algorithm is used for cross distribution and compiling allocation of the fitness function to improve the method′s membership degree linear state, and get more efficient mining results. The experimental results show that the improved method has strong mining stability, high mining precision and less mining time.
Keywords: association rule; fuzzy genetic algorithm; mining technology; mining accuracy
隨著數據庫技術的迅猛發展,網絡用戶手中的數據不斷增多。數據庫系統通常只能對數據進行統計和查詢,為了充分利用這些數據中所蘊含的有用信息,網絡用戶渴望一種能夠進行數據信息高效提取的技術的出現[1]。上述情況激發了數據挖掘技術的出現,而關聯規則是數據挖掘技術中最為重要的分支之一。網絡數據通常以爆炸式的聚集形式出現,導致曾提出的關聯規則挖掘方法的挖掘性能不好,高性能的關聯規則挖掘方法仍待開發[2]。
1 關聯規則中基于模糊遺傳算法的挖掘技術研究
數據挖掘技術中的關聯規則是一種能夠從網絡用戶數據中提取高頻特征集群,并從中挖掘出重點關聯項目的方法[3]。模糊遺傳算法則是一種高能、全面的項目搜集算法。為此,利用構建挖掘模型的方式將關聯規則與模糊遺傳算法融合在一起,并對模型進行研究。圖1為所提關聯規則中基于模糊遺傳算法的挖掘方法模型結構。
圖1中,將網絡用戶的待挖掘數據輸入到所提關聯規則基于模糊遺傳算法的挖掘方法模型中,數據庫會首先對其進行接收,并給結構化查詢器發出挖掘信號。隨后,模型中的處理芯片開始使用關聯規則計算待挖掘數據的支持度,數據列表將以數字編碼的形式顯示這一計算過程。
用表示網絡用戶待挖掘數據中的正數,表示負數,,的取值范圍均為。在網絡用戶待挖掘數據中選取一個數據集群,將其設為映射集群,那么,和在映射集群中同時出現的幾率可表示為:
便可用來表示待挖掘數據的初始支持度,為了更好地進行數據挖掘,需要對初始支持度進行加權,用來突出待挖掘數據的各項特征,增強所提關聯規則中基于模糊遺傳算法的挖掘方法的挖掘精度。
賦予待挖掘數據中所有項目一個權值,并且,用表示所提方法中最終的支持度,其函數表達式為:
使用模糊遺傳算法根據式(2)中給出的支持度,對網絡用戶待挖掘數據的適應度進行計算,適應度計算公式可表示為:
再綜合利用關聯規則和模糊遺傳算法對式(3)中的適應度進行優化,便可挖掘出網絡用戶待挖掘數據中的關聯規則。首先使用模糊遺傳算法將待挖掘數據轉換成遺傳基因,并對其進行編碼,此時將產生個位數為的模糊遺傳項目,將這些項目以染色體的規則串聯成一個新的集群,此時的待挖掘數據適應度可表示為:
2 關聯規則中基于模糊遺傳算法的挖掘技術改進
隸屬度線性狀態是評價關聯規則挖掘方法穩定性的重要指標。曾提出的關聯規則挖掘方法挖掘性能不好的一項重要原因是,這些方法所給出的待挖掘數據適應度沒有對模糊區間中的重復數據進行合理篩選,導致自身的隸屬度線性狀態過于分散或分布不均,且線條數不多,方法穩定性不高。為此,任意給定一個待挖掘數據集群,使用第1節中未進行改進的方法進行數據挖掘,并使用處理芯片對挖掘結果的隸屬度線性狀態進行虛擬輸出,如圖2所示(圖中隸屬度的單位為1)。
由圖2可知,所提方法的隸屬度線性狀態為(213,461,730),該狀態雖然分布較為均勻,但過于分散,故應對所提關聯規則中基于模糊遺傳算法的挖掘方法進行改進,以使方法的隸屬度線性能夠呈現出一種平均并適度緊湊的分布狀態。
將第1節中的挖掘結果設置為含有個染色體的數據遺傳集群,集群中的每個數據均可被看作一個隸屬度編碼。使用式(4)計算出數據遺傳集群的適應度,再通過模糊遺傳算法對其適應度進行交叉分配和編譯分配,以獲取適應度的最大和最小值。交叉分配是指將遺傳集群適應度看作一維直線,令任意兩個一維直線進行交叉的過程;編譯分配則是對交叉分配中獲取到的交叉點進行編碼重組的過程。
將適應度的最大和最小值逆向輸入到式(4)中,得出一個與數據遺傳集群相對應的集群。則為改進后的挖掘結果,使用處理芯片挖掘結果的隸屬度線性狀態進行匯總和輸出,如圖3所示,可以看出,改進后方法的隸屬度線性狀態已變成(98,312,579,853),比改進前分布更加均勻、緊湊,并且隸屬度線性狀態的線條數(即圖中的垂直虛線)更多。
3 實驗分析
3.1 實驗環境
對關聯規則挖掘方法來說,其挖掘性能主要包括挖掘穩定性、挖掘精度和挖掘時間三個方面。現給出一組大型自然界噪音數據集群,對本文改進方法、關聯規則中基于結構化研究的挖掘方法和關聯規則中基于特征加權的挖掘方法的挖掘性能進行實驗對比分析,實驗環境如圖4所示。所給集群中含有15個監控節點,共監控到600條噪音特征[4?5]。
3.2 方法挖掘穩定性分析
關聯規則挖掘方法的挖掘穩定性主要體現在方法的隸屬度線性狀態,過于分散并且分布不均的隸屬度線性狀態均是不佳的,由此可確定出方法的挖掘穩定性。使用本文改進方法、關聯規則中基于結構化研究的挖掘方法,以及關聯規則中基于特征加權的挖掘方法對大型的自然界噪音數據集群進行數據挖掘。
為了方便記錄,將實驗結果中隸屬度線性狀態的分散程度標記為1級、2級、3級、4級和5級,級數越高,隸屬度線性狀態就越分散[6?7],方法的挖掘穩定性就越強,最佳的分散程度為4級。并且隸屬度線性狀態的線條數越多,方法的挖掘穩定性也會相應變強。表1為三種方法隸屬度線性狀態對比表。
由表1可知,與其他兩種方法相比,本文改進方法的隸屬度線性狀態分散程度最佳,并且線條數最多,證明本文改進方法擁有挖掘穩定性強的優點。
3.3 方法挖掘精度和挖掘時間分析
實驗中,使用相同規格、型號的處理芯片將三種方法所挖掘出的噪音特征,與大型自然界噪音數據集群中固有的噪音特征進行對比,并輸出三種方法的挖掘精度(單位為1)對比曲線,如圖5所示。與此同時,使用計時器對三種方法的挖掘工作計時,并記錄于表2中。
由圖5和表2可知,與其他兩種方法相比,本文改進方法的挖掘精度更高、挖掘時間更少。
分析實驗結果能夠得知,本文改進方法擁有較高水平的挖掘性能。
4 結 論
本文提出一種關聯規則中基于模糊遺傳算法的挖掘方法。數據挖掘技術中的關聯規則是一種能夠從網絡用戶數據中提取高頻特征集群,并從中挖掘出重點關聯項目的方法。模糊遺傳算法則是一種高能、全面的項目搜集算法。本文方法利用構建挖掘模型的方式將關聯規則與模糊遺傳算法融合在一起,并對模型進行了重點研究。方法還使用模糊遺傳算法改進了自身的隸屬度線性狀態。實驗通過對比本文改進方法、關聯規則中基于結構化研究的挖掘方法和關聯規則中基于特征加權的挖掘方法的各項挖掘性能,證明了本文改進方法擁有較高水平的挖掘性能。
參考文獻
[1] 黃宏本.基于改進關聯規則的危險Web信息挖掘技術研究[J].現代電子技術,2016,39(6):14?17.
[2] 楊啟昉,馬廣平.關聯規則挖掘Apriori算法的改進[J].計算機應用,2008,28(z2):199?200.
[3] 黃毅杰,張藝雪.基于遺傳算法的關聯規則挖掘研究[J].九江學院學報(自然科學版),2014,29(3):45?48.
[4] 鄭玉柱,李建,李珂.基于改進遺傳算法的關聯挖掘方法研究[J].重慶科技學院學報(自然科學版),2015,17(5):72?76.
[5] 陳艷,褚光磊.關聯規則挖掘算法在股票預測中的應用研究:基于遺傳網絡規劃的方法[J].管理現代化,2014,34(3):13?15.
[6] 王慧,張翠羽.基于改進遺傳算法的網絡差異數據挖掘算法[J].計算機仿真,2015,32(5):311?314.
[7] 郝海濤,馬元元.應用Aprion算法實現大規模數據庫關聯規則挖掘的技術研究[J].現代電子技術,2016,39(7):124?126.