石方夏



摘 要: 在內容推薦中根據用戶的瀏覽偏好進行內容排序對提高用戶的點擊率具有至關重要的作用。推薦流中內容隨著時間變化呈現出流動性,分析歷史數據中用戶和推薦內容的點擊信息進行回歸分析,提取用戶在內容點擊時特征的相關性,并對特征進行歸一化,擬合出在當前特征分布下的點擊率,以線性回歸作為擬合模型進行用戶點擊率預測。實驗以今日頭條中用戶瀏覽點擊日志為測試數據集,采用改進算法進行內容排序時截取單領域下用戶點擊內容作為點擊率進行驗證,實驗結果表明,改進算法能夠較為準確地推薦用戶傾向點擊的內容。
關鍵詞: 用戶點擊率; 線性回歸; AUC; 特征抽取; 回歸分析
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)17?0135?03
Application of linear regression based on user clicks rate in content recommendation
SHI Fangxia
(School of Information Engineering, Xizang Minzu University, Xianyang 712082, China)
Abstract: The content ranking according to users′ browsing preference in content recommendation plays an important role in improvement of the user clicks rate. The content in recommendation flow changes with time. The clicks information of user and recommendation content in historical data is analyzed for regression analysis. The feature correlation while user clicks the content is extracted. The features are normalized to fit the clicks rate of current features distribution. The linear regression is used as the fitting model to predict user clicks rate. The logs browsed and clicked by users are taken as the test dataset in the experiment. The content clicked by users in the single field is cut out with the improved algorithm as the clicks rate for verification. The experimental results show that the improved algorithm can recommend clicks content of user preference accurately.
Keywords: user clicks rate; linear regression; AUC; feature extraction; regression analysis
0 引 言
目前,國內新聞類產品如今日頭條、一點資訊和微博頭條等都以內容推薦為主,如何提高內容推薦的準確性,從而提升用戶對推薦內容的點擊率,提升用戶對平臺的粘性,對提升平臺的用戶留存具有非常重要的意義。
用戶在內容瀏覽時的用戶行為至關重要,用戶對內容的點擊、評論和轉發等行為都能很明顯地反映用戶對內容的偏好程度,分析抽取用戶在內容瀏覽時的反饋行為能夠很好地幫助提升平臺內容排序的準確性。本文嘗試以用戶在內容瀏覽時對各個領域點擊分布為出發點,抽象出用戶對各個領域的興趣度,進而分析提取用戶對各個領域的點擊傾向性,并結合內容的時間因素和熱度因素進行綜合回歸分析,基于線性回歸中各個特征的強解釋性,采用線性回歸進行各個特征的回歸系數擬合。
1 線性回歸
線性回歸模型作為業界的常用模型,對于趨勢分析有非常好的效果。因其模型簡單并且對特征可解釋性強,因此在工業界得到了廣泛應用。線性回歸可描述為:對于一系列的給定特征,分析給定特征和實際值之間的一種組合關系,假設實際值總能夠根據一定的組合方式由給定的一系列特征擬合得到,稱這種組合方式為線性回歸。實際值和特征之間的組合關系可表示為:
(1)
式中:表示實際值;表示給定的各個特征值;表示組合方式,組合方式可以表示為向量形式的回歸系數。回歸分析是一種近似的分析,通過大量的數據訓練,不斷地對當前最優的回歸系數進行再調整,以一種迭代收斂的方式最小化損失函數,從而獲得最優解,損失函數表示如下:
(2)
2 用戶點擊率回歸擬合
用戶的點擊具有一定的局部性,即用戶在一段時間內瀏覽的內容主題是相對固定的,通過截取分析用戶一段時間的點擊日志進行回歸分析,擬合最佳的回歸系數,從而提高內容排序的準確性,提升用戶的點擊欲望。
假設截取時間段為對于用戶,用戶歷史推薦的內容為,表示給用戶推薦的第條內容,從內容角度可以劃分的領域集合為,對于用戶假設給用戶總共推薦條內容,用戶共點擊條內容,則認為用戶在時間段內對內容集合的點擊率為記為對于領域而言,同理,根據點擊次數和總推薦次數比值得到對于領域的點擊傾向性對于時間特征和內容本身的熱度特征,取平均值后進行歸一化。假設在線性回歸時選取各個領域、時間和內容熱度三個維度的特征,用戶的點擊率作為實際值,則可以將線性回歸公式歸納為:endprint
(3)
式中:表示各個領域的回歸系數;和分別表示時間衰減的回歸系數和內容熱度的回歸系數。其中時間衰減的特征計算方式如下:
(4)
內容熱度的計算方式采用邏輯函數進行歸一化:
(5)
假設在時間段內共有用戶個,則個用戶對應會產生個點擊率以及點擊率對應的各個維度特征,可表示為:
(6)
3 實驗與分析
實驗選取今日頭條中用戶瀏覽和點擊的測試數據集,測試數據集截取時間段為2016年3月10日上午8:00—22:00之間14個小時共計1億條瀏覽記錄,對該1億條記錄進行分析處理,根據內容信息提取內容從屬的領域信息,領域列表采用今日頭條公開的領域分類集合,內容的領域提取策略采用文本匹配的方式,即內容中有文本能夠和領域相匹配,則該內容從屬于該領域,可能存在當前內容從屬于多個領域的情況。與此同時,可以獲得內容的熱度信息(即該條內容的評論數)、內容的時間特性。測試數據集的樣例格式如表1所示。
在表1中,第一列表示用戶是否點擊該條內容,第二列表示用戶設備號,第三列表示推薦內容,第四列表示時間。今日頭條對內容領域的分類包括財經、軍事、國際、時尚、游戲等不到100個領域的分類。
3.1 評價指標
ROC和AUC是評價分類器的指標。ROC是受試者工作特征曲線(Receiver Operating Characteristic Curve) 的簡寫,又稱為感受性曲線(Sensitivity Curve)。得此名的原因在于曲線上各點反映著相同的感受性,它們都是對同一信號刺激的反應,只不過是在幾種不同的判定標準下所得的結果而已。ROC是反映敏感性和特異性連續變量的綜合指標,用構圖法揭示敏感性和特異性的相互關系,它通過將連續變量設定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標、(1?特異性)為橫坐標繪制成曲線。AUC是ROC曲線下面積(Area Under ROC Curve)的簡稱,顧名思義,AUC的值就是處于ROC Curve下方的那部分面積的大小。通常,AUC的值介于0.5~1.0之間,AUC越大,診斷準確性越高。在ROC曲線上,最靠近坐標圖左上方的點為敏感性和特異性均較高的臨界值。
AUC計算常用方式是統計所有的(為正類樣本的數目,為負類樣本的數目)個正負樣本對中有多少個組中的正樣本的score大于負樣本的score。當二元組中正負樣本的score相等時,按照0.5計算,然后除以計算公式如下:
(7)
回歸的一個重要特性是提高用戶預測的準確性,因此采用訓練之后的模型進行回歸預測時,一個重要的指標是評判模型的預測是否能夠提高用戶的點擊率,即是否能夠將用戶傾向點擊的內容挑選出來。此處的點擊率驗證可以轉化為用戶推薦的準確率,即給用戶推薦的條內容中,用戶點擊的條數量,則推薦準確率可以表示為:
(8)
3.2 實驗分析
實驗選取測試數據集的1億條數據,其中70%作為模型的訓練數據,30%作為測試數據,其中30%的測試數據可以用于驗證模型的AUC和準確率。準確率的驗證方式采用單領域按小時進行時間切分,具體見實驗對比部分。
為了對比不同方式下在測試數據集上的AUC表現,分別選取本文的線性回歸模型、基于時間和熱度序的模型以及純熱度序的模型,采用三種方式分別計算在測試數據集上的AUC體現,如圖1所示。
從圖1可以看出,本文的點擊回歸模型在AUC上表現良好,均值都保持在0.7以上,相對于時間熱度模型和純熱度模型,本文的模型在AUC上有較為明顯的提升。同時,將數據分布的14個時間段以兩個小時為間隔進行AUC對比,可見,本文模型在AUC上的表現也較為穩定。
如前所述,采用訓練模型對比用戶在數據集上的準確率(點擊率)表現。采用單領域下分時段的準確率分析。具體做法為:以領域和時間片為劃分,時間片的分割單位為h,選取單領域下時間片為某1 h內的30%測試數據,用三種模型(點擊回歸模型、時間熱度模型和純熱度模型)分別計算得分排名Top100的內容,根據實際情況下Top100中用戶點擊內容的占比來定義準確率。具體的數據表現如圖2所示。
從圖2可以看出,本文的點擊回歸模型在點擊準確率上同樣表現良好,在某些峰值點,點擊率能達到60%以上,這在內容推薦流中對提高用戶的點擊率是非常有效的。基于時間熱度序和純熱度序的模型則相對較為欠缺,熱度序在某些點會和時間熱度序持平,這可以解釋為熱度序在一定程度上能夠反映用戶的點擊傾向性受到群體的影響。
4 結 語
本文通過在內容推薦流中擬合用戶的點擊信息進行回歸分析,通過提取用戶歷史的點擊領域信息以及推薦內容本身的時間信息和熱度信息,并對測試數據集以AUC和點擊率進行指標評估。實驗結果表明,本文的模型相比于時間熱度序和純熱度序能較為明顯地提升用戶的點擊欲望。下一步的工作應當是考慮提取深層次的信息進行補充,同時,基于用戶協同過濾的思想,提升群體智慧。
參考文獻
[1] 黃斌,彭志平.基于級聯過濾的多模型融合的推薦方法[J].小型微型計算機系統,2016(1):33?37.
[2] 余永紅,陳興國,高陽.一種基于耦合對象相似度的項目推薦算法[J].計算機科學,2014(2):33?35.
[3] 陳珂,鄒權,彭志平,等.異質社交網絡中協同排序的好友推薦算法[J].小型微型計算機系統,2014(6):1270?1274.
[4] 朱亮,陸靜雅,左萬利.基于用戶搜索行為的query?doc關聯挖掘[J].自動化學報,2014(8):1654?1666.
[5] 華曉芳,楊緒兵.隱目標回歸算法設計研究[J].計算機工程與設計,2014(9):3113?3118.
[6] 聶卉.基于內容分析的用戶評論質量的評價與預測[J].圖書情報工作,2014(13):83?89.
[7] 王萍,王毅,文麗.優化用戶滿意體驗的數字資源建設探究[J].中國圖書館學報,2014(5):98?109.
[8] 陳潔敏,湯庸,李建國,等.個性化推薦算法研究[J].華南師范大學學報(自然科學版),2014(5):8?15.
[9] 李廣利.科技查新用戶滿意度影響因素分析[J].現代情報,2014(10):162?165.
[10] 李忠俊,周啟海,帥青紅.一種基于內容和協同過濾同構化整合的推薦系統模型[J].計算機科學,2009(12):142?145.endprint