鮑慶森 董艷雪

摘 要:問卷發布者由問卷用戶獲取海量調研數據,通過分析用戶的以往行為記錄,使用Jaccard相似系數計算用戶之間的相似度,應用基于用戶的協同過濾算法,并輔以問卷的類別限制對推薦進行調整,從而實現問卷的定向推薦。將協同過濾算法應用于問卷用戶的問卷定制,可以有效提高問卷平臺的問卷回收率和有效率,明顯提升問卷平臺的使用效率。
關鍵詞:問卷平臺;協同過濾算法;Jaccard系數
近年來,隨著我國網絡信息化的發展,各種網絡調查問卷平臺應運而生。網絡調查問卷平臺是提供給調研人員,在網絡上通過制定詳細周密的問卷,要求被調查者據此進行回答以收集資料的工具。經調研發現,市面上的調查問卷平臺存在以下幾點不足:
1.問卷不能有指向性地推薦給目標人群,發布者也就不能高效獲取到準確的調研數據;
2.問卷平臺缺乏良好的運營模式,無法實現問卷發布者與被調研者間的“共贏”;
3.對于手機等移動端的適配不夠便捷完善。
目前,許多平臺如亞馬遜網站、豆瓣網、今日頭條等都采用了頁面定制的功能,即采用過濾算法,向用戶實現個性化頁面呈現,其中應用較廣泛的算法是基于領域的協同過濾算法。
本文主要探討協同過濾算法在網絡調查問卷平臺中的研究與應用。
1、相關研究
1.1協同過濾算法
協同過濾算法分為基于用戶的和基于物品的兩種:
(1)基于用戶的協同過濾(User CF,User Based Collaborative Filtering)
算法思想包含兩步,首先,計算登錄用戶a與其他用戶之間的相似度,依據相似度進行排序后得到與用戶a相似度最高的用戶集合;然后,找出這個集合中的用戶做過的,且用戶a沒有做過的問卷進行推薦。任意兩個用戶a,b之間相似度的計算可以通過Jaccard相似度系數求得,公式如下:
考慮到系統中存在大量并無交集的用戶,為了提高計算效率,首先排除與被推薦用戶a沒有交集的用戶,得到U(a,k),其中k表示用戶數量,a表示被推薦用戶;其次,利用相似度公式(式1-1)計算用戶相似度 Wab;最后,通過(式1-2)計算問卷的推薦指數,其中,i表示問卷編號,N(i)表示完成問卷i的用戶集合,表示用戶b對i問卷的興趣度,在這里默認為1。
它同樣需要兩步,首先計算出問卷與問卷之間的相似度序列,從中得到用戶做過問卷的相似度集合;然后,排序后找出問卷相似最高的問卷集合,排除掉用戶已經做過的問卷之后給出推薦。與User CF不同的是,Item CF是以問卷為計算的主體,其相似度計算同User CF。
2、基于用戶的協同過濾推薦問卷的實現
2.1 問卷平臺推薦模型
2.2推薦算法應用
通過對協同過濾算法的研究,筆者認為用戶對問卷的行為記錄是實現推薦功能的關鍵信息,所以選擇了基于用戶的協同過濾算法和使用Jaccard相似度系數來計算用戶之間的相似度。
前臺設置推薦按鈕,用戶登陸后點擊,進入推薦問卷頁面。后臺設置存儲推薦問卷號的數組Recommend,存儲相似度的數組Similar,存儲交集問卷數的數組In與存儲并集問卷數的數組Unt。首先使用SQL查詢語句到數據庫查詢登錄用戶有過行為記錄的問卷號,和與登錄用戶有交集的用戶號,并存入User數組中。然后使用Jaccard相似度系數計算出用戶相似度存儲在數組Similar中,對Similar排序后取出前五位用戶號。再次到后臺數據庫分別查詢該五位用戶和目標用戶有過行為記錄的問卷號,進行差運算后,將目標用戶沒有做過的問卷號放入數組Recommend中,最后使用公式1-2來進行問卷推薦值的計算。
平臺在運用協同過濾算法的同時,加入了問卷的類別限制。創建問卷時,問卷發布者可以選擇問卷的目標人群基本信息,比如性別,職業,年齡等,先對用戶群體進行初步的過濾,因為每位用戶在注冊時都填寫了用戶信息存儲在數據庫中,所以系統輔以對這些條件的限制,對推薦的結果進行了進一步的修正。推薦界面使用bootstrap提供的星級評價插件:bootstrap-star-rating來顯示問卷的推薦指數,從而形象地提示用戶問卷的推薦值。
2.3 結果分析
驗證推薦算法應用到問卷平臺的效果,筆者從數據庫中隨機選取若干用戶登錄平臺進行測試,登錄后,進入問卷推薦頁面,頁面可展示推薦問卷以及問卷的推薦指數,點擊問卷可進入問卷調研。說明問卷類別限制與推薦算法可以正確運行,從而實現了基本的個性化推薦功能。
3、結語
進入大數據時代,數據顯得尤為重要,哪一個企業掌握了更加準確全面的市場信息,哪個企業就掌握了競爭的主動權,因此,能否準確及時方便地找到目標人群,獲取到需要的數據信息成為了各個企業之間競爭的關鍵。本平臺對用戶問卷行為進行挖掘,通過基于用戶的協同過濾算法,實現了問卷的推薦,并加入生成問卷二維碼的功能,來方便移動用戶。對于推薦算法,筆者只是剛剛打開這扇大門,有關推薦系統的冷啟動問題與如何提高推薦算法的性能還有待筆者進行進一步的研究。
參考文獻:
[1]項亮. 推薦系統實踐[M]. 人民郵電出版社, 2012.
[2]潘麗芳, 張大龍, 李慧. 基于用戶的協同過濾(UserCF)新聞推薦算法研究[J]. 山西師范大學學報(自然科學版), 2018, 32(04):31-35.
[3]邱均平, 張聰. 高校圖書館館藏資源協同推薦系統研究[J]. 圖書情報工作, 2013, 57(22):132-137.
作者簡介:
鮑慶森(1996-),男,山東泰安人,本科在讀,計算機科學與技術專業.董艷雪(1979-),女,山東淄博人,碩士研究生,講師,研究方向為計算機應用技術