摘要:在介紹關聯規則概念和常用算法的基礎上,文章討論了數據挖掘技術在影院會員信息管理系統中應用的必要性,找到兩者的結合點,探索如何在會員管理系統中應用數據挖掘技術。重點分析了關聯規則Apriori算法應用到會員管理模塊中,對已有數據進行分析挖掘,提出數據所隱藏的有價值的信息,為指導和輔助影院管理決策提供參考。
關鍵詞:信息管理系統;數據挖掘;關聯規則;支持度;置信度
一、關聯規則及算法概述
若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯規則挖掘技術用于發現數據庫中屬性之間的有趣聯系,旨在尋找在同一事件中出現的不同項的相關性。關聯規則技術適用于購物籃分析,可以找出潛在的令人感興趣的產品組合,從大量的事務記錄中發現潛在的關聯關系,幫助管理者做出正確的商務決策。
最典型的例子就是“啤酒和尿布”的故事,在美國,一些年輕的父親下班后經常要到超市去買嬰兒尿布,超市也發現一些規律,在購買嬰兒尿布的年輕父親們中,有30%-40%的人同時要買一些啤酒。超市隨后對貨架擺放做了調整,把尿布和啤酒放在了一起,增加了銷售額。
Apriori算法是一種最有影響的挖掘布爾型關聯規則頻繁項集的算法。Apriori使用一種稱作逐層搜索的迭代方法,經典的關聯規則挖掘算法是兩步走算法Apriori,即連接步和剪枝步。
算法使用頻繁項集性質的先驗知識,即頻繁項集的所有非空子集必為頻繁項集(稱為下封閉特性)。利用這一性質可以有效的壓縮搜索空間,使用一種稱作逐層搜索的迭代方法,k-項集用于探索k+1-項集來逐層的找到所有用戶感興趣的頻繁項集。具體地說,首先尋找1-頻繁項集L1,利用1-頻繁項集L1兩兩組合產生 2-候選項集C2,在C2中尋找2-頻繁項集L2,再利用2-頻繁項集L2中有重疊部分的兩頻繁項集的兩兩組合產生3-候選項集C3,依次下去直到某個CK+1為空。該算法能夠快速、有效的挖掘出數據庫中蘊含的用戶感興趣的頻繁項集,進而產生用戶想要的關聯規則,
二、Apriori算法在影院資料管理系統中的應用
(一)運用Apriori算法確定會員選擇電影間的關聯關系
根據中的會員購買影票及預選電影的數據,挖掘數據間的關聯規則,確定會員所選電影間的關聯關系,為宣傳規劃,電影時間安排提供依據。
(二)確定數據挖掘的類型
假定全域是電影總局影片提供商可提供的電影的集合,則每個影片有一個布爾變量,表示該影片的有無。每個選擇影片序列則可用一個布爾向量表示。可以分析布爾向量,得到反映電影頻繁關聯的觀賞模式。這些模式可以用關聯規則的形式表示,因此,可以確定:要找出數據之間的關聯關系,可以通過挖掘會員資料管理數據庫中觀看電影的關聯規則。因為只需考慮會員所選電影的單維數據,本文采用的方法是:先使用Apriori算法找出頻繁項集,再由頻繁項集產生關聯規則。
(三)過程
1、確定數據挖掘的目標數據—會員資料管理數據庫(Movi_mangeDB)中的會員選擇影片和預選影片數據,包括影片名稱(movi_name)以及放映時間(movi-time)。
2、通過如下關系查詢,收集任務相關的數據集。
3、確定最小支持度閾值min_sup。
4、使用Apriori找出頻繁項集。
假定選中的元組數為9,即D=9,元組標識符TID表示,按字典次序存放。
5、由頻繁項集產生關聯規則。
L=