崔蘋 宋麗 張振雷 上海師范大學
改進的關聯規則挖掘算法在個性化推薦系統中應用
崔蘋 宋麗 張振雷 上海師范大學
本文采用改進的Apriori聚類算法進行用戶興趣模型的建立,對于用戶閱讀雜志的行為進行收集并行分析建模,依據Apriori聚類算法實現推薦方法,為用戶感興趣的雜志進行推薦。并對數據庫進行優化提高運行效率,取得了很好的推薦效果。
推薦系統 Apriori 數據庫優化 關聯規則
隨著互聯網技術的快速發展,推薦系統目前已廣泛應用于商業領域。常用的推薦算法有協同過濾推薦、內容推薦、關聯規則推薦和混合推薦。在個性化推薦上,WebWatcher是最早開始個性化推薦服務的。2004年,Kevin創辦了Digg新聞網站,Digg對用戶的興趣進行了研究,通過歷史數據對用戶的興趣相似度進行了計算,通過個性化的推薦,提升了Digg網站的瀏覽量。同年Findory建立,實現了用戶的定制新聞。
在對數據進行關聯的挖掘時,需要對其中的互斥項進行約束,降低生成頻繁項集的速度,因此要避免互斥項的連接,利用互斥的標志是否相等來判斷項目之間是否互斥,若相等則為互斥項,則不進行連接。算法的具體步驟為:
①掃描數據庫,生成布爾矩陣以及1階頻繁項集,掃描一次數據庫之后,生成布爾型矩陣,布爾型矩陣的第i行就是原事務數據庫的項目,第j列就是原事務數據庫的項目Tj,若Tj包含,則布爾型矩陣對應的位置為1,否則置為0。并統計事務中項目出現的次數,若滿足最小支持度計數,則項目為 1階頻繁項集。
③產生K階頻繁項集,利用(k-1)階頻繁項集的最后一項與事務數據庫中的相容項目進行擴展,獲得k階頻繁項集。具體的步驟為:取出(k-1)階頻繁項集的最后一項,從項目集中取出項目進行擴展,若且量項目為相容項目時,則擴展為k階頻繁項集。然后對該k階頻繁項集的k個項與布爾型矩陣的行向量進行“與”運算,若得到的1個數滿足最小支持度計數,則加入到項目中。
3.1 歸檔報表數據
在數據的統計階段,需要對數據進行歸檔,若數據較大時,歸檔的時間就很多,則等待反饋結果需要確保較少的時間。因此需要規定好存儲過程,降低工作量,提升響應的速度。
3.2 創建索引
當系統的數據量很大時,用戶在操作數據庫時用到的數據量也比較大,此時又不便進行歸檔時,則可以創建索引進行解決,降低工作量,提升響應的速度。
3.3 建立緩存機制
建立緩存機制,對于經常使用的數據保存在緩存中,用戶再次使用時,在緩存中獲取,而不去對數據庫進行操作,提升了查詢的速度,減少了響應時間,提聲了用戶的體驗感。
以某雜志網站的1000名用戶為例,對各種雜志文章瀏覽信息進行挖掘,設定80分以上的最小支持度為0.04。輸出用戶瀏覽行為的關聯性分析如表所示:

0 . 3 6 時尚先生→中國兒童畫報支持度 置信度 規則1 0 0 . 6 3 當代扣籃→足球周刊1 0 0 . 6 5 純1 6年→時尚先生1 0 0 . 6 1 足球周刊→旅行家9
當代扣籃對足球周刊的置信度為0.63,也就是說,如果這名用戶瀏覽了當代扣籃,則他瀏覽足球周刊的可能性很大。純16年對時尚先生的置信度為0.65,即若該用戶瀏覽了純16年,則他瀏覽時尚先生的可能性很大。綜上所述,用戶之間的瀏覽行為是有關聯的,因此針對用戶的瀏覽行為,利用Apriori算法對用戶興趣信息進行挖掘,對雜志進行合理的配置,增加雜志的瀏覽量與銷量。
[1]Balabanovic M,Shoham Y.Fab:content-based,collaborative recommendation[J].Communications of the ACM.1997,40(3):66 72
[2]花青松.個性化推薦系統用戶興趣建模研究與實現[D].北京:北京郵電大學,2013
[3]閆艷.基于多Agent技術的電子商務個性化推薦系統的設計與實現[D].北京:首都師范大學,2009
[4]張恒瑋.基于協同過濾技術的電子商務推薦系統的研究與實現[D].北京:華北電力大學,2012
[5]劉建國,周濤,汪秉宏.個性化推薦系統的研究進展[J].自然科學進展,2009(01)