基于數據挖掘下的自動化推薦系統

2020-07-23 06:28:29陳利軍

現代電子技術 2020年5期

陳利軍

摘? 要：針對傳統的推薦系統中獲取關鍵詞傾向性單一的問題，設計數據挖掘下的自動化推薦系統。系統在原有的硬件結構基礎上，在接口模塊中設置頁面跳轉攔截器和會話控制攔截器，將其與中心處理模塊相連，在中心處理模塊中使用nRF905無線芯片，形成新的系統硬件構造。數據挖掘下，依據用戶信息挖掘關聯規則，確定相似量度，搜索出近鄰信息，獲得最終推薦內容。利用軟件程序代碼實現自動化推薦，至此自動化推薦系統設計完成。測試結果表明，在使用相同的用戶信息情況下，與傳統的推薦系統相比，數據挖掘下的自動化推薦系統獲得的推薦詞匯多了3～5種，關鍵詞的傾向性更廣泛，適合應用在實際項目中。

關鍵詞：推薦系統; 攔截器設置; 數據挖掘; 關聯規則; 近鄰信息搜索; 推薦內容獲得

中圖分類號： TN911?34; TP311? ? ? ? ? ? ? ? ? ? ?文獻標識碼： A? ? ? ? ? ? ? ? ? ? 文章編號： 1004?373X（2020）05?0113?03

Automatic recommender system based on data mining

CHEN Lijun1， 2

（1. Information Engineering University， Zhengzhou 450000， China;

2. School of Computer Engineering， Henan Institute of Economics and Trade， Zhengzhou 450018， China）

Abstract： In view of the single tendency to obtain keywords in traditional recommender systems， an automatic recommender system based on data mining is designed. On the basis of the original hardware structure， the page skip interceptor and session control interceptor are set in the interface module， which are connected with the central processing module. The nRF905 wireless chip is used in the central processing module to form a new system hardware structure. On the basis of user information mining association rules for data mining technology， the similar measures are determined and the neighborhood information is searched out to get the final recommended content. Then， the software program code is used to realize automatic recommendation. So far， the design of automatic recommender system is completed. The test results show that， in comparison with the traditional recommender system， the automatic recommender system based on data mining obtains extra 3～5 kinds of recommended words under the condition of using the same user information， which has more broader keyword tendency， and is suitable for the application in actual projects.

Keywords： recommender system; interceptor setting?up; data mining; association rule; neighborhood information search; recommended content acquisition

0? 引? 言

隨著現代網絡技術的發展，使用互聯網的用戶越來越多，網絡上充斥著越來越多分散的信息，當這些信息同時呈現在互聯網用戶前時，若不考慮用戶的需求，就導致大量重復無用的信息和服務出現在用戶面前，用戶不能在第一時間發現自己真正感興趣的內容[1]。這種情況下，使用自動化推薦系統，以用戶的興趣和偏好特征為依據，向用戶提供滿足他們需求的內容和服務，使用戶擁有良好的體驗，感受到服務的人性化。傳統的推薦系統中，通常使用的是協同過濾推薦或混合推薦，協同過濾方法能夠過濾掉沒有價值的信息，留下用戶感興趣的信息;混合推薦是混合多種推薦算法，能夠克服推薦系統的冷啟動問題。但是使用這兩種算法的推薦系統存在一個通病，就是獲取關鍵詞傾向性比較單一，造成向用戶推薦的內容和服務過于單一，不能滿足現今人們的生活節奏[2]。

針對上述情況，本文設計數據挖掘下的自動化推薦系統。數據挖掘能夠實現從大量數據集中識別出有效、具有潛在價值的數據，多角度歸納出用戶所需的潛在數據。數據挖掘下，利用關聯法則算法和程序代碼實現自動化推薦，完成自動化推薦系統設計。

1? 自動化推薦系統硬件設計

1.1? 系統硬件結構設計

數據挖掘下的自動化推薦系統的目的是針對用戶提供的信息和網絡行為，幫助用戶解決需求問題，這需要大量的數據做基礎[3]。主要通過硬件結構獲取用戶與項目之間的相關信息，反饋推薦結果，通過應用模塊推薦給用戶，用戶可通過瀏覽器觀察推薦結果，也可通過移動終端查看結果[4]。其系統硬件結構設計如圖1所示。

利用信息收集模塊獲得用戶信息后，將其保存在存儲模塊內。利用接口模塊將信息傳遞給中心處理模塊，之后將推薦結果傳遞到應用模塊中，同時反饋給信息收集模塊保存推薦結果[5]。為了更好地實現自動化推薦，在接口模塊設置兩種攔截器：一種是會話控制攔截器;另一種是頁面跳轉攔截器。會話控制攔截器的目的是判斷在存儲模塊中是否存在該用戶信息，若沒有，創建會話控制信息寫入到文本文件中，并將用戶所有行為信息保存在存儲模塊中。設置頁面跳轉攔截器的目的是，用戶在進行一定操作時，存在一定的時間差，將用戶的動態請求信息完整的記錄下來，完成頁面跳轉攔截，及時獲取用戶行為信息[6]。其中，在接口模塊完成攔截任務后，將信息傳遞給中心處理模塊，在數據挖掘下，利用關聯法則離線處理獲得的用戶相關信息，將結果傳遞給應用模塊，顯示在用戶界面。

1.2? 中心處理模塊設計

在該模塊中使用nRF905無線射頻芯片，該芯片擁有高效率傳輸數據的能力，不需要昂貴的高速MCU來處理數據。同時，芯片內部512個通信頻道滿足多點通信、跳幀等需求，其頻道切換的時間[≤]6 μs，在422.4～4 473.5 MHz工作頻段內，工作電壓的范圍在1.9～3.6 V，接收時工作電流為12.5 μA，存在多種低功率工作模式，并且能夠同時接收到兩個不同頻道的數據[7]。中心處理模塊的外圍接口電路如圖2所示。

2? 自動化推薦系統軟件設計

2.1? 挖掘關聯規則

關聯規則可表示為，當用戶購買一種產品的同時購買另一種產品，這種情況就說明兩種產品之間存在關聯規則。如果數據集合[Q]在數據集合[W]中出現的次數比較多，就可以說明存在關聯規則[W?Q]，[W]表示規則頭，[Q]表示規則體[8]。

假設[E=e1，e2，…，en]表示所有信息塊集合，定義數據集[R]是數據庫事務的集合，其中，任意事務[am]是單一信息塊的集合，[?m，am?E]。假設[W]表示某個信息塊集合，事務[am]包含[W]，當且僅當[W?am]，其蘊含形式就是關聯規則[W?Q]，其中，[W，Q?I]，并且[W?Q=?]。

關聯規則[W?Q]在數據集[R]中具有支持度，定義數據集[R]中事務包含[W?Q]的比例：

[supW?Q=PW?Q=countW?QR] （1）

式中：[sup]表示數據的支持度;[count]表示統計集合;[P]表示概率;[W]和[Q]表示存在關聯規則的兩種數據集[9]。定義關聯規則[W?Q]在數據集[R]中的置信度，[R]中包含[A]的事務，同時也包含[B]的事務的比例為：

[conW?Q=PQW=supW?QsupW] （2）

其中：

[supW?QsupW=countW?QcountW] （3）

式中[con]表示置信度。當不同的數據集符合上述事務比例要求，說明其滿足了最小支持度[min_sup]。以此為前提，從支持度最小的數據集中開始搜索規則體，也就是待推薦的對象，確定產生的推薦。

2.2? 搜索推薦內容

自動化推薦系統以關聯算法為基礎，挖掘不同信息塊之間存在的相關性和隱式因果性，從而通過關聯規則的支持度和置信度作為相似量度，搜索出近鄰信息，形成最終推薦信息集[10]。

假設存在[i]個信息塊和[j]個事務，設置信息塊按照支持度從大到小排列為[s1，s2，…，si]，[s]表示信息塊中的數據源[11]。使用FP?Growth算法中的模式樹，將空值插入模式樹樹根，按照一定的順序提取事務記錄，將其插入模式樹中，將新插入的界限的支持度計數賦值為1，若插入事務[j1]時產生了新的路徑，在之后的插入操作中，當經過某個節點時，將其支持度計數加1，如事務[j2]插入模式樹中，產生了新的路徑，一直執行到所有事務插入到模式樹中，最后產生的模式樹如圖3所示。

獲得模式樹后，從最小支持度的信息塊中開始搜索，也就是從模式樹最深的葉子節點向上搜索[12]。觀察圖3，[s3]可以生成的信息塊集及其支持度計數為[s2，s1，s3：1]和[s2，s1，s4，s3：1]，從中去掉[s3]，進一步提取出[s2，s1：1]，稱為[s3]的條件模式基，若最小支持度計數閾值是2，則可以得到以[s3]結尾的信息塊集，也就是推薦集[13]。獲得推薦集后，利用程序代碼實現自動化推薦。

2.3? 自動化推薦的實現

利用程序代碼實現自動化推薦，設置userdir為所需推薦的用戶，將用戶行為信息保存在list filelist 中，推薦集保存在Map中，通過DateProcess.predict將推薦集推薦給userdir[14?15]。在數據挖掘下，依據用戶行為信息挖掘關聯規則，搜索因果關系最強的近鄰信息，形成推薦集，利用程序代碼實現自動化推薦。至此數據挖掘下自動化推薦系統設計完成。

3? 自動化推薦系統性能測試

3.1? 搭建自動化系統測試環境

為了更好地測試系統的性能，搭建一個小型的局域網范圍的計算機集群，使用6臺計算機，其中，1臺計算機作為服務器，另外5臺作為客戶端，通過瀏覽器完成對服務器的訪問。測試環境如圖4所示。

圖4中，服務器和客戶端都運行在Windows 10操作系統上，其相關配置為內存4 GB以上，硬盤300 GB以上，用Java語言開發和實現。

3.2? 系統測試過程

通過計算機軟件模擬用戶行為信息數據，利用數據挖掘下的自動化推薦系統處理用戶相關數據，獲得向用戶推薦的關鍵詞信息。同時，采用傳統的協同過濾推薦系統以及混合推薦系統設計對比實驗，測試在同時獲得相同的用戶行為信息時，不同的推薦系統獲得的用戶推薦關鍵詞信息是否一致，獲得結果后具體分析。

3.3? 測試結果與分析

系統測試中獲取的用戶數據關鍵詞為快餐食品，不同的推薦系統測試的結果如圖5所示。

觀察圖5中三種不同的測試結果，結果1使用的是傳統基于協同過濾的推薦系統，根據關鍵詞快餐食品，獲得的相關推薦詞匯只有三種，這三種都是與關鍵詞具有關系的詞匯，傾向性較單一;結果2為傳統基于混合推薦系統測試結果，與結果1相比，與關鍵詞相關的詞匯多了兩種，這兩種詞匯與關鍵詞沒有直接聯系，是關聯出的詞匯，但是也同屬于快速食用的范圍內。結果3使用的是數據挖掘下的自動化推薦系統，與前兩種結果相比，推薦詞多出了3～5種，除了快速食用類別外，還有料理包和便當盒等輔助性詞匯，其關鍵詞的傾向性比較廣泛，提高了用戶感興趣的可能性。

4? 結? 語

現如今人們長期處于快節奏的生活中，用戶使用多種多樣的搜索方式，尋找自身感興趣的內容和服務，但是很多用戶不能使用準確的關鍵詞搜索自己所需的內容，甚至有的用戶對自己的需求也不明確。使用推薦系統就可以主動地向用戶推薦可能感興趣的商品。數據挖掘下的自動化推薦系統解決了傳統推薦系統的問題，通過關聯規則搜索推薦內容，多角度、多方面地向用戶推薦有可能需要的內容，提高用戶搜索效率。同時，通過測試證明該系統具有良好的推薦效果，具有良好的發展空間。

參考文獻

[1] 張婷婷.基于大數據的Web個性化推薦系統設計[J].現代電子技術，2018，41（16）：155?158.

[2] 謝康.基于讀者個性化特征數據挖掘的圖書館書目推薦[J].現代電子技術，2018，41（6）：34?36.

[3] 梁建勝，黃隆勝，徐淑瓊.基于視頻內容檢測的協同過濾視頻推薦系統[J].控制工程，2018，25（2）：305?312.

[4] 何明，劉毅，常盟盟，等.基于上下文項目評分分裂的協同過濾推薦[J].計算機科學，2017，44（3）：247?253.

[5] 張戈一，胡博然，常力恒，等.基于大數據分析挖掘的地質文獻推薦方法研究[J].中國礦業，2017，26（9）：92?97.

[6] 黃立威，江碧濤，呂守業，等.基于深度學習的推薦系統研究綜述[J].計算機學報，2018，41（7）：191?219.

[7] 張時俊，王永恒.基于矩陣分解的個性化推薦系統研究[J].中文信息學報，2017，31（3）：134?139.

[8] 何明，劉偉世，張江.支持推薦非空率的關聯規則推薦算法[J].通信學報，2017，38（10）：18?25.

[9] 許曉飛，常健，楊重柱，等.基于用戶臉部信息的推薦系統設計[J].高技術通訊，2018，28（11）：92?99.

[10] 李瑞遠，洪亮，曾承.多層聚簇中基于協同過濾的跨類推薦算法[J].小型微型計算機系統，2017，38（4）：657?663.

[11] 何明，常盟盟，吳小飛.一種基于差分隱私保護的協同過濾推薦方法[J].計算機研究與發展，2017，54（7）：1439?1451.

[12] 何明，孫望，肖潤，等.一種融合聚類與用戶興趣偏好的協同過濾推薦算法[J].計算機科學，2017，44（z2）：391?396.

[13] 盛偉，王保云，何苗，等.基于評分相似性的群稀疏矩陣分解推薦算法[J].計算機應用，2017，37（5）：1397?1401.

[14] 孔欣欣，蘇本昌，王宏志，等.基于標簽權重評分的推薦模型及算法研究[J].計算機學報，2017，40（6）：1440?1452.

[15] 沈晶磊，虞慧群，范貴生，等.基于隨機森林算法的推薦系統的設計與實現[J].計算機科學，2017，44（11）：164?167.