加權Apriori算法優化及其在商品銷售數據分析中的應用①

2019-09-10 13:34:51邵婷婷

中國商論 2019年4期

邵婷婷

摘要：針對數據挖掘中項目權重的模糊性問題，通過引入直覺模糊數表示項目的權重，并采用項目的權重和支持數計算事務的加權支持度、可能度、置信度，提出了一種基于直覺模糊數的加權Apriori算法。闡述了算法的改進思想，描述了算法步驟，并采用優化后的Apriori算法對商品銷售數據進行挖掘分析。研究結果表明：改進算法解決了權重信息的模糊性問題，其挖掘結果更具價值。

關鍵詞：Apriori算法直覺模糊數數據挖掘

中圖分類號：F1274

文獻標識碼：A

文章編號：2096-0298（2019）02（b）-245-03

關聯規則挖掘是經典的數據挖掘技術，近年來應用廣泛且發展迅速。關聯規則挖掘算法是從大量、模糊、有噪聲、隨機的實際數據中，得出人們隱含在其中的、有用的關聯信息和知識的過程。Apriori算法是一種典型的關聯規則挖掘算法，主要用來在大型數據庫上進行快速挖掘關聯規則。該算法的核心思想就是對目標事務庫采用逐層迭代搜索的方式進行挖掘k階頻繁項目集，直至找到最高階的頻繁項目集即止，最后通過獲得的頻繁項目集進行關聯規則挖掘，從而實現挖掘目標數據間關聯關系的最終目標[1-4]。

在經典的Apriori算法中，假設各個項目的重要程度是相當的，但事實上現實生活中項目的重要性具有差異（例如商品利潤）。其次，即便用引入權重來解決項目重要程度的差異性，項目的權重信息中仍然包含了不確定信息。柴巖等研究者將區間數引入Apriori算法，將權重設置為區間數，并提出了最小支持度為區間數的加權Apriori算法[5]。徐頊將三角模糊數引入Apriori算法，提出了一種基于三角模糊數的Apriori算法[6]。雖然區間數、模糊集、三角模糊數的引入解決了Apriori算法中權重信息的模糊性，但仍不能表達權重信息的猶豫程度。例如，模糊集只能表達隸屬度，而不能表達非隸屬度。由于Apriori算法只考慮交易出現的概率，沒有考慮不同項及交易中每一個項目具有不同的重要性，因此挖掘具有一定的局限性。而且，在實際應用中，項目的權重用直覺模糊數更加合適，它不僅可以更好地模擬生活，而且引入了猶豫度的概念，可以幫助改進置信度的計算方法。

基于此，引入直覺模糊數來表示項目的權重，對Apriori算法進行改進。

1 基本概念

1.1 數據項與數據項集

假設，={I1、I2，……，I）是所有項目的集合，每個I（k =1，2，...，m）稱為數據項，集合I稱為數據項集，簡稱為項集，其中項目的個數稱為數據項集的長度，長度為k的項目集稱為k維數據項集，簡稱k-項集。

1.2 事務

2 權重為直覺模糊數的加權Apriori算法

2.1 算法改進思想

將項權重設為直覺模糊數，根據項目的權重和項目的支持數應用式（7）得到加權支持度并引入可能度概念，根據可能度進行剪枝。通過引入可能度，改變Apriori算法僅根據支持度剪枝的策略，對于可能度小于0的項集進行減枝，對于可能度大于0小于1的項集，還根據置信度大小進行剪枝，因此該算法兼顧了規則的重要性和可靠性，加大了剪枝力度，提高了算法運行速度，提取了更多有價值的規則，并根據實驗證明了算法的合理性。

2.2 算法步驟

步驟3：通過L1自身連接，得到候選2一項目集C2，計算各項目集的加權支持度、可能度，刪除可能度小于0.5的項目，對于可能度大干0.5小于1的項目，再計算確信度，刪除確信度小于0.5的項目，得到頻繁2一項集L2。

步驟4：循環執行連接步驟和減枝步驟，直到產生的項目集為空時，算法停止，輸出那些頻繁項集，并根據頻繁項集產生關聯規則。

步驟5：計算各關聯規則的置信度，設最小置信度為0 5，則通過與最小置信度進行比較，得到強關聯規則。

2.3 算例

以超市中商品的銷售數據為例說明算法的步驟，表1為商品出售數據庫，表2為項目權重。

計算這6種商品的支持數分別為6、5、6、5、2、2，則對應6種商品權重如表2所示。設已經給出最小支持度為<0，1，0，2，0.7>，根據式（7）和式（8）計算1-項集的加權支持度及其大于最小支持度的可能度，如表3所示。

由于1、2、6的可能度小于0.5，因此刪除1、2、6，并計算3、4、5的確信度，均大干等于0 5，得到頻繁1一項集{3，4，5}，由頻繁1一項集自身連接得到候選2一項集為{{3，4}，{3，5}，{4，5}}，計算候選2-項集的加權支持度和可能度如表4所示。

由于項集{4，5}可能度小于0.5，刪除項集{{4，5}}得到頻繁2-項集{{3，4}，{3，5}}，2一項集進行自身連接得到候3一項集{3，4，5}，由于{3，4，5}的子集出現非頻繁項集，因此刪除項集{3，4，5}，這樣頻繁3項集為空，算法停止，得到頻繁2一項集{{3，4}，{3，5}}。

接著根據式（10）計算以下規則的置信度：

由此可知，第3種商品=>第4種商品，第4種商品=>第3種商品，第5種商品=>第3種商品，是具有強關聯關系的。這對于商品的管理、合理的設置商品的擺放順序等方面都很有幫助。

3 結語

本文提出了一種改進的Apriori算法，將項目屬性設置為直覺模糊數，這樣同時表達了隸屬度、非隸屬度、猶豫度三個方面的信息，通過自身連接得到候選項集，通過用每個項目的支持數與權重相乘，得到加權支持度，并與最小支持度進行比較，結合可能度與猶豫度進行剪枝，得到頻繁項集，循環執行連接與剪枝步驟，直到頻繁項集為空，結束算法。再通過比較所得規則的置信度來得到強關聯規則。算例表明，與經典Apriori算法比較，改進的Apriori算法具有一定的優勢，它可以挖掘出更具價值、更有意義的強關聯規則，且項目權重的表示方式更貼近商品銷售數據的特征，更容易得出各個項目的權重值。

參考文獻

[1]佘朝兵.關聯規則挖掘算法在校園超市營銷的應用研究[J].數字技術及應用.2018，36（7）.

[2]阮夢黎，吳磊.基于雙閾值Apriori算法和非頻繁項集的關聯規則挖掘方法[J].2018，35（12）.

[3]唐杰，程云章.Apriori算法在醫療設備健康管理中的研究與應用（J].生物醫學工程學進展，2016，37（3）.

[4]賈克斌，李含婧，袁野.基于Apriori算法的數據挖掘在移動醫療系統中的應用[J].北京工業大學學報，2017，43（3）.

[5]柴巖，張京輝，魯新新.最小支持度為區間值的加權Apriori算法[J].遼寧工程技術大學學報，2016（12）.

[6]徐頊.基于三角模糊數的關聯規則方法研究[D].蘭州交通大學，2007.