金詩思 盧翰霖 李凱 金海潮 譚寓元 黃淳嵐 樂光學


摘要:針對電商網站上的廣告質量和用戶需求不匹配的問題,提出基于協同過濾在個性化方面的公平廣告推送算法,在海量數據中挖掘對用戶有價值的廣告內容。通過收集用戶的瀏覽日志,建立單個用戶評分矩陣,利用關鍵字權重和相似度算法分析用戶行為,最后通過協同過濾算法綜合推薦給用戶。根據MovieLens數據集對該算法進行實驗,得出此算法具有較高的準確度,能夠實現對用戶個性化推薦。
關鍵詞:廣告推送;相似度;協同過濾;基于用戶
中圖分類號:TP391 ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2019)13-0017-02
目前,我國互聯網廣告規模已有千億級,人們正面臨著“信息過載”(information overload)的問題。為此我們需要建立一個推薦系統(recommender systems)來解決這些問題[1-3]。正如Jeff Bezos(Amazon的CEO)所言:“如果我在網絡上有三百萬個用戶,我就應該有三百萬個網上商店”,講的正是推薦系統在提供消費者個性化建議的重要性。在一定程度上,精準的推薦有助于用戶對于物品的篩選,提高用戶對網站的體驗。如日常生活中,人們對于一些感興趣的事物猶豫時,如何幫助用戶挑選合適的產品,就需要個性化推薦系統的運用。
目前將個性化精準推薦的設計主要分為三個步驟:建立用戶數據集,添加各用戶基本的特征屬性(如:年齡、性別、社會職位等),再通過用戶對各類商品的評分得到一個初步的用戶偏好。最后根據網站后臺中的歷史數據進行比對,過濾出相似用戶行為集合,并進行相關操作,通過深度學習、數據挖掘等方式,自行給用戶推薦商品或服務。
根據以上情況,提出基于用戶的協同過濾推送算法T-B-A(Terms-Behavior-AD)是根據目標用戶的瀏覽行為、歷史數據來匹配有相似興趣的鄰居用戶,而目標用戶的推薦依據鄰居用戶的一些行為或評價。其核心內容在于:用相似度算法來獲取用戶的推薦信息,通過歷史記錄在數據集中找到相似的鄰居用戶,而忽略詳細的行為記錄。這是由于,一般情況下,如果不同用戶對一些項目給出的評價相近,那么這些用戶對其他項目的評價也會相似相鄰[4]。本文以電影推薦為實驗數據集,是由于電影推薦所具備的生命周期較長,變化趨勢較小的特性,分析不同用戶的行為特征,實現對每個不同用戶的個性化精準推薦。
1 算法介紹
基于用戶的協同過濾算法是根據用戶的瀏覽內容等為用戶推薦感興趣的內容,主要考慮用戶的需求。建立關于用戶共有電影的評分矩陣,歸一化處理得到用戶的評分,采用TF-IWF算法對關鍵詞權重進行初步的計算后,計算不同用戶之間的相似度,運用迭代方式選取相似度較高的k個用戶,實現個性化的協同過濾推薦。具體流程如圖1所示。
1.1 基于詞語的逆文本頻率(Term Frequency-Inverse Words Frequency)
在文本預處理階段,最常用的是逆文本頻率“TF-IDF”。但這種算法本質上只是簡單將小概率出現的單詞作為特征詞。關于TF-IDF算法的改進,文獻[5]提出的BOR-TFI-DF權重函數,文獻[6]提出的WA-DI-SI算法,文獻[7]提出的TF-LDF方法,在一定程度上修正TF-IDF方法的不足,但對改進TF-IDF算法而言,引入詞位權重和詞跨度權重是比較少見的。因此目前推薦系統常用詞語逆頻率方法“TF-IWF”來計算關鍵詞權重,具體公式如下:
本文通過選取的七組訓練集,通過逐漸累加的方法來驗證該算法的性能。我們分別在0、20、40、60、80、100、120個鄰居數下對30多個用戶進行預測,并將所有結果做均方根誤差的處理,經多次測試后得出的實驗結果如圖3所示。
從結果顯示,在一定程度上,當k取值越大,準確率就越高,平均誤差率就越低,并隨著k值的增大逐漸趨于平穩狀態。
3 結語
本文分別從算法的設計角度,分析了電影的個性化精準推薦,并根據用戶的平均評分結果對用戶的興趣愛好展開分析,利用相似度為用戶推薦電影。進而引申基于用戶行為的協同過濾廣告推送算法也可通過本算法對用戶-廣告評分矩陣,將用戶行為與需求的廣告掛鉤。幫助用戶在信息超載的互聯網上找到真正屬于自己的廣告內容,節約用戶的時間成本,提高了網站的流量的同時還增加收益。在處理用戶信息時,結合了多種加權方法降低矩陣的稀疏性,達到了不錯的準確推薦和大范圍的覆蓋效果。
參考文獻:
[1] 樓藝嬋. 電子商務網站的媒介特性研究[J].中國管理信息化,2014,17(15).
[2] 龐海龍. 基于協同過濾的個性化推薦技術研究[D].上海:復旦大學,2003.
[3] 王一晴, 陳羽舒. "雙十一"各大電商廣告宣傳及消費者購物行為分析[J].全國商情·理論研究,2016(31):24-25.
[4] 魏慧娟, 戴牡紅, 寧勇余. 基于最近鄰居聚類的協同過濾推薦算法[J].中國科學技術大學學報,2016(09):29-35.
[5] 董晨露, 柯新生. 基于用戶興趣變化和評論的協同過濾算法研究[J].計算機科學,2018.
[6] 李玉翔,周杰,許斌,等.基于用戶關系挖掘的多策略推薦算法[J].信息工程大學學報,2013,14(4):492-498.
[7] 陳小輝, 高燕, 劉漢燁. 基于歸一化方法的協同過濾推薦算法[J].電子設計工程,2014(14):17-20.
【通聯編輯:唐一東】