胡箐妍
(河南日報報業集團,河南 鄭州 450001)
20年以來,報業經歷了一場巨大的變革。計算機和互聯網技術的發展允許出版商實時發布新的內容,從而提高發布速度。移動互聯網的迅速普及,讀者可以通過便捷的移動設備獲得各種新聞信息,由此導致各種在線新聞平臺的用戶數量不斷增加。萬維網無處不在的特性導致了在線新聞文章的激增,越來越多的人習慣于閱讀在線新聞,訪問他們喜歡的報紙網站或瀏覽新聞聚合網站。
然而,不斷產生的大量新聞信息和不斷提高的更新頻率可能會使用戶越來越難以找到他們真正感興趣的內容。網絡新聞媒體順應時代發展需要,不斷創新報道形式和推送方法,為用戶帶來更加直觀、翔實的新聞。于是新聞推薦系統就應運而生了,其目標是以個性化的方式向用戶推薦新聞,在合適的時間推薦合適的新聞文章。[1]由于其實用性,在過去20年中,研究者提出了各種方法來構建此類推薦系統。
信息過載,面對互聯網上海量的新聞信息,用戶難以獲得自己真正感興趣的信息,新聞推薦系統的研究正是為了解決用戶的這一痛點。依據個人的興趣偏好而量身定制的個性化新聞推薦系統則更好地改善了用戶的使用體驗,成為新聞推薦的主流技術。
推薦系統主要由三部分構成,它們分別是用戶、項目(即推薦對象)和推薦算法。收集整理用戶和項目數據是推薦系統的第一步工作,接下來通過數據挖掘算法,分析數據之間隱含的關聯性,獲得用戶的興趣偏好,最后推薦算法把用戶真正感興趣的項目推送給用戶。如何利用用戶和項目數據來為用戶建立完善的興趣模型,采用什么推薦算法來精準匹配項目和用戶興趣十分關鍵,在整個推薦系統中推薦算法最為重要。
不同于一般的推薦系統,新聞推薦技術有其獨有的特點: 一是時效性強,更新速度快,即其生命周期短暫,可能只有幾天或幾個小時甚至更短;二是新聞領域的用戶很容易受到流行和熱點新聞的影響;三是用戶興趣一直處于不斷變化之中。目前常見的新聞推薦方法包括:基于內容的推薦、協同過濾推薦、混合推薦和基于深度學習的推薦。
基于內容的推薦算法直觀易懂,推薦用戶喜歡的項目。其基本原理是:首先依據用戶的個人基本信息和歷史點擊行為,提取關鍵詞,經過分析統計,進而獲得用戶的喜好,然后過濾出與用戶感興趣內容相似度較高的項目,即嘗試推薦類似于給定用戶過去喜歡的項目。[1]常用的方法是在同一特征空間下表示用戶和項目,利用項目信息和用戶個人信息,了解用戶和項目的潛在特征,用戶個人信息包括人口統計信息(如性別、種族、年齡、地域、收入、受教育程度、健康狀況和愛好等)和用戶對項目的操作行為(如評論、收藏、點贊、觀看、瀏覽、點擊等)。接下來利用上一步獲得的信息計算用戶和項目之間的相似度。最后基于相似度值為用戶推薦相似度得分高的項目。常用的相似性度量標準有重疊系數(Overlap Coefficient)、杰卡德相似性(Jaccard Similarity)和余弦相似性(Cosine Similarity)。當用戶有大量歷史記錄可供學習時,基于內容的過濾方法通常表現良好。通過這種方式,即使交互行為很少的用戶,他的偏好仍然可以以某種方式被挖掘出來。通常基于內容的推薦算法只依賴于用戶自身的行為,不涉及其他用戶。最早被應用于工程項目的就是基于內容的推薦算法,并有大量的成功應用案例。
基于內容的推薦算法被大量應用是因為其具備以下三個優點:一是不存在冷啟動的問題;二是提高了推薦系統工作方式的透明度,并且推薦很容易解釋;三是算法不需要用戶評分數據,數據稀疏性不會影響到推薦結果。因此,用戶對算法提供的建議有很高的接受度。
然而,基于內容的推薦算法也有其自身的缺點,它只會推薦相同類型的項目,存在過度專業化的問題,不能適應用戶興趣的變化,推薦的新聞往往因為過于相似而缺乏進一步挖掘用戶潛在興趣的能力,這被稱作泡沫效應。當訪問新聞網站時,用戶可能正在尋找他以前不知道的新信息,缺乏新聞多樣性可能導致用戶體驗差。對新聞多樣性進行建模是解決過度專業化問題的典型方法,為用戶推薦主題多樣的新聞文章。
協同過濾推薦技術通過收集群體偏好為用戶自動提供推薦結果。它使用用戶過去與項目的交互行為來預測最相關的內容,而與被推薦新聞的內容無關。通過收集來自多個相關用戶的交互行為,對用戶興趣進行自動預測(即過濾)。[2]
根據算法模型計算的相似性主體的不同,協同過濾推薦又可以分為兩種,基于用戶的協同過濾推薦和基于項目的協同過濾推薦。
一是基于用戶的協同過濾推薦算法,其基本思想是:首先根據用戶對項目的評價數據,發現目標用戶的相似用戶,然后把相似用戶感興趣的項目推薦給目標用戶。由于具備挖掘用戶興趣偏好和項目間關聯度的能力,該方法推薦的準確度較高。但是隨著用戶量的增加會導致計算量的增加,從而降低推薦的效率。另外該算法很容易忽略新聞的本身特性,如時效性,通常新聞服務中90%的文章在兩天后就不再推薦給用戶。
二是基于項目的協同過濾推薦算法,其基本思想是:根據目標用戶所屬的群體對項目的交互行為,發現相似項目,并為目標用戶推薦相似度高的項目。僅僅根據用戶對項目的交互行為來挖掘項目的相似性,特征維度太低,導致推薦精度不夠理想。由于算法沒有考慮到用戶的個性特征,從而會出現把大量同一種相似的新聞推薦給用戶的現象。
協同過濾方法的主要瓶頸是數據稀疏性問題和冷啟動問題,這對新聞閱讀場景尤其如此。在提供高質量的推薦之前,它需要相當多的交互歷史數據,而對那些以前沒有交互的用戶,協同過濾方法往往無法生成合理的建議,于是就會出現冷啟動問題和數據稀疏性問題。此外,基于協同過濾的方法不會利用用戶閱讀文章的順序中存在的時間信息,而該序列對分析用戶的總體興趣以及不斷變化的興趣具有十分重要的意義。
混合推薦系統是隨著各種推薦策略的成熟而出現的,它將兩種或兩種以上的推薦算法組合成復合系統,理想情況下,復合系統是基于其組件算法的優勢來實現某種協同互補。[3]典型的例子是將協同過濾與基于內容的過濾相結合。
實際應用中通常不會單獨使用協同過濾來推薦新聞,僅使用用戶行為,而忽略文章內容。在協同過濾算法中引入基于內容的過濾技術,可以減少冷啟動問題。對于新聞推薦,混合模型結合了基于內容的過濾和協同過濾各自的優勢,比單純使用協同過濾模型效果更好。
推薦系統經常面臨探索和利用這兩個推薦目標的權衡問題,兩個相互競爭的目標必須平衡:利用用戶以前的選擇來提供準確的推薦,以及探索用戶其他可能的興趣,與用戶以前的歷史行為無關,以減少過度專業化。雅虎!研究人員將新聞推薦建模為一個上下文Bandit問題,這是一種原則性方法,其中學習算法根據用戶和文章的上下文信息順序選擇文章為用戶服務,同時根據用戶點擊反饋調整文章選擇策略,以最大限度地提高長期用戶點擊總量。
研究者提出融合兩種及以上推薦技術優勢互補的方法,解決了基于內容的新聞推薦技術中存在的過度專門化的問題,但是挖掘出用戶潛在興趣的問題依然難以解決。因為用戶在不同的時間和地理位置,閱讀興趣也不相同,一些研究人員通過引入時間特征[4]和位置(GPS)特征[5]來改善推薦效果。
近些年來,深度學習已逐漸發展成為人工智能領域解決問題的首選技術。在計算機視覺、音頻、語音識別和自然語言處理等方面,深度學習都取得了巨大的成功。然而,在推薦系統中深度學習的應用尚未得到廣泛研究。深度學習在推薦系統中的應用進展相對較為緩慢,直到2016年才在ACM RecSys舉辦第一次針對推薦系統深度學習的研討會。近年來,許多研究人員嘗試在推薦系統利用深度學習技術,利用神經網絡來挖掘出潛藏在信息背后的深層特征。[6]
基于深度學習的推薦系統具有如下優勢:①非線性轉換——對數據中的非線性建模的能力,不同于矩陣分解、分解機和稀疏線性模型等線性技術;②表示學習——減少手工特征設計的工作量,使模型能夠包含文本、圖像、音頻甚至視頻等異構內容信息;③序列建模——RNN和CNN都可以有效地建模序列數據,如會話點擊;④靈活性——神經網絡可以模塊化組合,形成功能強大的混合推薦模型。
遞歸神經網絡(RNN)具有一些特性,使其特別適合用戶會話序列的建模,它們能夠合并來自過去新聞事件的輸入,從而可以導出范圍廣泛的序列到序列映射。Moreira GSP[7]等基于CHAMELEON(一種用于新聞推薦的深度學習元體系結構)構建了一個混合推薦系統,支持基于會話的新聞推薦場景,使用遞歸神經網絡對用戶點擊序列進行建模。系統利用新聞文章的文本內容、文章上下文(例如,最近的流行性和最近性)和用戶上下文(例如,時間、位置、設備、以前的會話點擊)來解決新聞領域中的用戶興趣遷移和項目冷啟動問題。
公開數據集。國內常用財新網數據集。該數據集源自財新網,曾經公開用于2014 年“第二屆中國大數據技術創新大賽”。包括10,000個用戶一個月時間內對6,183條新聞的瀏覽歷史行為,以及由此產生的116,228條閱讀日志。日志所記錄的信息包括:用戶ID、新聞ID、瀏覽時間和該新聞的文本內容。國外常用數據集包括:UCI 知識庫、Digg數據集、Plista新聞推薦數據集和Adressa 數據集。
自建數據集。根據收集數據的方法不同,又可以分為問卷調查和網上爬取兩種方式。問卷調查方法采用紙質或者電子調查問卷的形式,收集研究對象的相關數據構建數據集。該方法構建的數據集具備較強的真實性,但是由于實施困難,一般來說,得到的數據集規模都比較小,再加上高昂的成本,導致該方法并不適用于大規模復雜推薦系統。如陶永才等[5]組織30名學生使用帶有GPS功能的智能手機等移動設備收集并構建的自有實驗數據集。網上爬取方法則是利用工具從網絡上抓取數據并構建實驗數據集,這些工具通常是已有的或者自編的爬蟲程序或抓取軟件。采用這種方式收集并構建的數據集的優點是具備較強的客觀性,缺點在于其中存在的臟數據極有可能會把誤差引入實驗,使用前需要進行較好的數據清洗工作。
常用的評測指標有:點擊率(HR)[2,7]、準確率(Precision)[3,4,5]、召回率(Recall)[4,5]、F-score[1,5]、平均絕對誤差(MAE)、均方根絕對誤差(RMSE)[3]、AUC、LogLoss、Spearman相關性、Pearson相關性[1]、NDCG[3]、Success@k[7]、多樣性[1]、驚喜度[1]等。
雖然新聞推薦系統已經被廣泛使用,并且取得了較好的效果,但是除常見的冷啟動和數據稀疏性問題以外,新聞推薦系統還存在以下幾個問題有待進一步研究。
項目數量增長過快的問題。網絡新聞無限制地海量增長導致信息過載,與個人需求量之間產生嚴重失衡。人們想要從體量無比龐大的數據中快速并精準地找到所需要的信息變得特別困難。為了閱讀到自己真正關心的新聞,閱讀者只能浪費大量時間到新聞的海洋中去搜索,但是用戶很難快速有效地從大量無關冗余信息中獲取所需內容。新聞的海量增長也加劇了冷啟動問題,影響到推薦系統的可擴展性和實時性,可以引入分布式計算(如MapReduce)和并行計算來解決這一問題。
項目價值加速衰減的問題。在新聞領域尤其如此,有別于一般的商品(如電影、書籍等),新聞的時效性太強,每條新聞的保質期都很短,因為大多數用戶僅僅對新鮮新聞感興趣。通常情況下,每篇新聞文章并不是彼此孤立的,正在閱讀的新聞可能會影響隨后的閱讀,需要充分挖掘出隱藏在新聞背后的潛在關聯性。針對新聞推薦的時效性,有研究人員通過增加時間衰減因子進行了改進,但效果依然不太理想。[4]
興趣偏好易變的問題。除穩定的長期興趣外,用戶也有容易改變的短暫興趣。當前興趣可能受到其上下文(如位置、訪問時間)或全局上下文(如突發新聞或重要事件)的影響。如果更新不及時,在為用戶推薦信息或服務時仍然使用陳舊的偏好,則無法達成個性化需求,推薦系統的性能也會由此而降低,并最終導致客戶流失。
安全問題。移動網絡環境下進行新聞推薦時安全問題尤為重要,妥善保護好用戶的個人資料,防止惡意侵入和泄露,甚至篡改偽造推薦結果,給用戶帶來風險以及傷害。個性化的新聞定制服務需要有用戶的注冊信息和網頁瀏覽記錄等個人隱私數據的支撐,但是這些敏感數據一旦被泄露出去,會對個人和社會帶來災難性的后果。
隨著網絡新聞量的爆發式增長,如何從海量信息中為讀者推薦合適的新聞成為迫切需要解決的問題。本文介紹了個性化新聞推薦技術的四種常見方法,闡述了各種方法的基本思想、分析了每種方法的優點和不足之處。當前,研究人員對新聞推薦技術的研究取得了一些成果,并在一些現實案例中得到成功應用。實踐表明,一個好的新聞推薦系統可以節省讀者的時間,提升讀者的黏度。但隨著移動互聯網的迅猛發展,海量新聞信息的產生,給研究人員帶來新的挑戰和機遇。希望本文能夠為個性化新聞推薦技術研究提供有價值的參考。