張俊生
【摘要】:近年來,迅速發展的互聯網使得信息量增加迅速,大數據技術也應運而生。并且已經應用到我們日常生活的各個方面,而基于大數據挖掘、分析、聚合的用戶個性化推薦算法幾乎是所有信息平臺標配。而以“今日頭條”為代表的算法類新聞資訊平臺,憑借著內容分析、用戶標簽、評估分析、內容安全四大方面的算法運作邏輯,有效的降低了用戶的閱讀成本,提高了信息的搜索效率。
【關鍵詞】:個性化推薦算法 興趣標簽 信息繭房 今日頭條
一、前言
隨著互聯網的大眾化,人們同時享受著網絡資源的極大便利,也受到了“信息碎片化”和“信息超載”的諸多困擾,盡管基于【關鍵詞】的搜索引擎,大體上可以滿足用戶的需求,但很難滿足用戶的個性化需求,因此,基于數據挖掘、分析和聚合的個性化推薦系統應運而生,它也成為解決“信息過載”難題的主流方式。自然而然,作為智能媒體時代下的個性化新聞推送的“今日頭條”客戶端,面對其龐大的用戶群,無時無刻不產生著巨大的數據量,這些數據量則依靠著其強大的推薦系統支撐,利用其算法的優越性,進行個性化新聞的推送。本文將通過系統概覽、算法實現原理等探討“今日頭條”的個性化推薦算法的基本運作邏輯,并反思其局限,提出相應的優化措施。
二、系統概覽
若用一個非感性思維的方式去理解推薦系統,則可以通過擬合一個用戶對內容滿意度的函數Q=F(X,Y,Z),這個函數需要輸入三個維度的變量。第一個維度則是內容,眾所周知,“今日頭條”現在已經成長為一個綜合性內容的平臺,文章、圖片、視頻、UGC小視頻、問答、微頭條,每一種內容都有各自的很多特征,這就需要系統考慮如何提取不同內容特征做好推薦。第二個維度是用戶的特征,每位用戶都有其特殊的標簽,職業、年齡、性別、愛好等等,不僅如此,還有許多通過模型刻畫出的隱式用戶興趣等。第三個維度是環境特征。這也是目前移動互聯網時代推薦的特點,用戶不可能只處于一種環境下,在工作、吃飯、旅游,游戲等不同的場所,用戶的信息偏好也會改動。根據這三個維度的變量,模型會給出一個預估,推測系統所推薦的內容是否適合當前場景的當前用戶。在推薦模型中,點擊量、閱讀時長、點贊、轉發、評論等不同的用戶行為都是可以定量的行為,并且能夠用模型直接擬合做推估。然而,大體量的推薦系統服務于大量的用戶,這不能僅靠幾項量化的指標來評估,用戶的某些反常行為如刷評論、大量轉發等可能會“迷惑”后臺計算機的分析,因此,僅依賴這些樣本統計量進行推薦是錯誤的,因此,“今日頭條”采用了數據指標以外的要素來輔助衡量。例如有的文章很“熱”,但是熱點已過,不會因為文章的點擊率大而繼續推送給用戶;還有一些關于國內外形勢與政策的,如果其有所改變,文章內容不符合未來方向的也不會再次被推薦。
三、主要算法實現
(一)層次化文本推薦算法
在推薦系統中,文本分析的一個很重要的作用就是用戶興趣建模(userprofile),沒有內容及文本標簽是無法獲取用戶的興趣標簽。例如,只有知道文章的標簽是明星,用戶看了明星標簽的文章,才能知道用戶有明星的標簽,其他【關鍵詞】亦是如此。“今日頭條”的個性化推薦系統的線上分類采用了非常典型的層次化文本推薦算法,其主要算法模型如下圖所示:
最上面根分類器(ROOT),下面第一層的元分類器就像體育、科技、娛樂、財經等這樣的大類;然后再進行元分類器細分,例如將體育細分羽毛球、足球、乒乓球等體育項目,足球還可以細分為國際足球和中國足球,依此類推下去,相比于一般的分類器,層次化文本推薦算法能更好的解決數據傾斜的問題。
(二)基于內存的協同過濾算法
1992年,Goldberg、Nicos、Oki和Terry首次明確提出了協作過濾的概念。協同過濾的算法是一種典型的聚類智能算法,其可以描述為:假設以前擁有同類興趣標簽的用戶將來也會有同類的興趣標簽,基于假設,其則不需要考慮網絡數據資源,只要從該系統中選取與目標用戶具備相同特征的用戶或項目信息,即可通過分析計算獲得推薦依據。其基本工作原理是:根據系統中用戶的歷史活動,即其在之前瀏覽的文章,看過視頻,回答的問題等記錄,無論是點贊、評論還是轉發都可以作為其活動記錄和偏好信息。然后分析目標用戶和其他用戶之間的相似性,并為活動用戶選擇近鄰集。最終,分析近鄰用戶對候選推薦文章媒體的反饋信息,預測目標用戶對候選推薦項目的得分,確定推薦的用戶。算法分為三個步驟:
1.收集用戶信息
搜集能夠代表用戶興趣的信息集合,進而構建用戶-項目的二維評分矩陣。
2.相似度計算
協同過濾算法的基本步驟是相似度計算,通過計算,可以得到用戶的興趣偏好或兩個用戶之間的相似度,這里有兩種常用的相似性計算方法。
3.生成推薦列表
有兩種方法可以生成最近的鄰居集。一種是設置相似性閾值,類似的用戶只有在高于閾值時才會確定,另一個是指定目標用戶的最近鄰居數。
(三)冷啟動問題
關于這個問題主要考慮兩鐘情況:
1. 在推薦系統中,對于新用戶,沒有用戶的閱讀記錄,很難計算相關性。因此,很難找到近鄰集,進而系統很難個性化推薦。
2.在推薦系統中,當向系統添加新的媒體資源時,該媒體資源并不會有相應的評分記錄,無法找得到最近鄰居并進行推薦或評分推測。
推薦系統使用協同過濾存在的問題被稱為冷啟動問題,“今日頭條”的推薦系統使用了數據相通和用戶模型建立的方法去解決這個問題。比如通過關聯的社交賬號獲取其基本信息如性別、年齡、所在地、職業等基礎標簽,進而獲取用戶的最的基本畫像。
四、主要弊端和優化建議
個性化推薦帶來“智媒時代”的同時,但由于其過于依賴算法,極致的了解用戶而帶來了一定的不足,其主要為片面的強調個性化推薦所帶來的弊病。
(一)碎片化閱讀嚴重和新聞閱讀深度不夠
“今日頭條”新聞客戶端擁有廣泛的新聞媒體資源來源,其中包含著大量的“頭條號”創作者,所以個性化推薦系統捕獲的新聞量非常大,可以不斷向用戶推薦。但是,在這個“快餐文化”的時代,人們很難擁有大量的耐心和細心精細化閱讀,因此算法迎合用戶,大量推薦碎片化新聞,導致用戶閱讀的深度不夠,了解往往都是片面的,很難系統化了解一間事情,而那些真正做到由深度的新聞文章由于初期用戶相關度較低,推薦系統往往不再進行推送或者推送很少,導致優秀文章的沒有充分發揮其所在價值。
(二)易造成“信息繭房”現象
通過推薦系統個性化推薦算法量化用戶行為,正如我們所想象的那樣,客戶端成為了“一份私人化定制的個人報紙”于是,這很容易導致美國學者尼古拉斯·內格羅蓬特預言的“我的日報”(the daily me)的局面。在“今日頭條”用戶的“個人日報”中,將以算法為導向的用戶體驗放在首位,算法不斷推薦符合用戶興趣的內容,然而其所了解的世界是他希望看到的,卻不是這個世界本來的樣子,逐漸導致用戶接受信息越來越窄,最后用戶不得不受困于“信息繭房”中,對其他領域漸漸變得無知。
(三)優化建議
個性化推薦其實就是信息的把關傳遞從“人工”轉換為“機器”,但機器對信息的判斷不具備理性和感性認知,一些虛假和不利于社會的內容往往會順利進入新聞生產之中,而且一些營銷號所創作的“三無”文章往往也會影響使用體驗。因此“今日頭條”信息平臺在傳遞信息的過程中要主動將自己獨立的立場和價值觀攝入其中。不能夠完全交由機器和算法去實現,首先要組織一批具有新聞專業素養的人工編輯嚴格把關信息流動,對不合格內容定期整理和清除,提高內容多樣性,減少不良內容對健康媒體生態環境的侵蝕;其次,通過樹立專業領域“大V”的意見領袖地位,搭建一個客觀權威的信息渠道,保證公眾能獲取公正、真實的信息。此外,內容平臺在根據用戶興趣標簽精準發放信息的同時,應注重豐富公共領域內容,通過向用戶提供不在其標簽內的信息,使其接觸到不同領域的內容、了解多維觀點,跳脫出禁錮思維。通過這種方式使得用戶從封閉的“信息繭房”中走出,主動規避自我受限的現象,成為機器與技術的主宰。
【參考文獻】
【1】張志威.個性化推薦算法綜述[J].信息與電腦,2018,(17):28-29.
【2】張瑜燁.信息繭房:“智媒時代”個性化推薦系統運作邏輯與反思[J].現代視聽,2018.(11):18-24.