潘旭偉 王瑞奇
關鍵詞 過濾氣泡;新聞;推薦系統;用戶視野
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2021)05-0030-03
隨著個性化推薦系統的發展與應用,人們開始擔心推薦系統對用戶帶來的負面作用。其中一個越來越受人關注的便是“過濾氣泡”問題[1],即推薦系統是否會因為總是推薦相似內容而使得用戶視野被窄化。如Poulain通過對音樂平臺的研究發現了內容多樣性的缺失[2]。然而也有研究對該問題進行了否定,如moller通過數據科學實驗更進一步地提出推薦系統不僅無負面影響,反而增加了用戶推薦集的主題多樣性[3]。如今,隨著“今日頭條”等新聞平臺不斷使用推薦系統,更多的學者也將“過濾氣泡”問題聚焦到在線新聞平臺,本文則針對新聞領域探究推薦系統是否導致“過濾氣泡”現象。
為探究個體用戶過濾氣泡現象基于時間的變化,本文采用改進的三分圖作為研究框架,如圖1所示,底層v表示單個用戶,中間層為該用戶按時間順序排列的瀏覽記錄,上層為所有新聞所涵蓋的主題。其中,所有文章所涵蓋的主題以及單個文章所涉及的主題采用LDA建模算法得出。
最終可得到單個用戶v與主題之間的權重關系為

其中,ω(v,Ti)為用戶在主題Ti下的權重,表示對該主題的喜愛程度;ω(v,Nj)為用戶對所瀏覽新聞的喜好程度,根據該用戶對新聞項目采取的行為決定,如瀏覽記1分,點贊記2分,轉發記3分;ω(Nj,Ti)為新聞j在主題i下的權重,由LDA算法得出;J為該用戶瀏覽的所有新聞項的個數。

另外,為刻畫用戶“過濾氣泡”本文采用基尼系數和信息熵作為測量指標,計算公式分別為


其中,I為LDA所劃分的所有主題的個數。
本研究選取平臺DeskDrop產生的新聞數據集,包含對2 000個用戶為期一年的取樣(2016.3—2017.2),且清晰記錄了所瀏覽文章的項目特征(如文章原始URL、標題、內容)、項目上下文特征(用戶瀏覽時間、點贊分享等行為)。
2.1 數據預處理
對所選取的數據進行預處理,包括:對原始數據內容進行整理;時間戳轉換;篩選英文數據;交互記錄數量篩選。
2.2 LDA主題建模
為計算不同新聞所涵蓋的主題,以及單個新聞所設計的主題及權重,本文采用LDA算法進行主題建模。其中主題數Ktopic的選取十分重要,為保證建模質量,采用困惑度指標進行評估,并按照困惑度最小的Ktopic進行主題劃分。



圖2展示了主題個數與困惑度之間的關系,當主題個數選取55時困惑度最低,因而將所有新聞劃分為55個主題。表1呈現了主題建模后所得到的結果,匯總了每篇新聞在每個主題下的權重。
為按照時間順序觀測所有用戶熵和基尼系數的變化,需要將每個用戶的瀏覽記錄進行分塊處理,以月為單位,計算每個月內用戶的基尼系數和熵,并統計所有用戶的指標值。圖3和圖4分別展示了不同月份下基尼系數和熵的分布圖。首先,我們統計了1013個用戶初始(首月)、中間時期(7月和11月)和最終時期基尼多樣性和熵多樣性的密度分布。我們發現在初期用戶指標普遍較小,而隨著時間推移,指標值分布開始出現出一種分化的趨勢:即部分用戶更小,而部分用戶更大,這一現象在基尼系數指標下反應為尾部突起越加明顯,而在熵指標下表現更明顯,從形狀上由原來的近似倒U形逐漸變為近似M形。

這反映了在推薦系統參與下,所存在的分化作用使得原先集中在較小視野范圍的用戶慢慢分為兩類:一類視野更加開闊,而另一類則趨于狹窄。然而這一結果只針對了分布的變化,未能明確表明個體用戶視野的縱向變化,如無法解釋原先視野較寬的用戶后期視野是更大還是更小,是更加狹窄還是更加開闊。因此我們測試了所有用戶從起始階段到最終階段基于時間的縱向指標變化,并基于不同時間段對所有用戶求均值,繪制出用戶平均視野隨時間的變化曲線,如圖5所示,可以發現平均用戶指標變化表現為“S”形上升的變化規律,即平均用戶視野雖然在前期有輕微下降,但是從整個時間上看最終視野是比初始視野更高的,即用戶的視野并非被窄化,反而得到了一定程度的拓展。

通過上述實證分析,發現在推薦系統參與下的新聞平臺中,指標表現出了與“用戶被陷進過濾氣泡”相反的趨勢。圖5結果表現出用戶“視野”總體上出現被擴展的情形,而非下降的情形。因此我們認為,新聞推薦系統產生的副作用或許被過分夸大了,用戶視野在推薦系統參與下不僅沒有出現視野上的縮減,反而出現很大程度的拓展。該結果表示,在新聞平臺瀏覽新聞時,可以較放心地使用推薦算法所列舉的項目以提升自己的視野。
該結論與我們直覺上認為的“推薦算法會因為推薦相似項目而窄化用戶視野”不同,其原因存在如下幾種可能:首先,每天所發生的事件存在很大的隨機性,這導致平臺每日提供的新聞項目之間往往存在很大的差異性,推薦算法雖致力于推薦與用戶偏好相似的項目,但由于不同項目之間固有的差異性和隨機性[4],導致所推薦的項目也只能時盡可能相似。另外,用戶在心理上存在“幸存者偏差”[5]可解釋這一現象,用戶所瀏覽的新聞內容中往往或多或少存在與自身認知相近的信息片段,這些重復的信息片段會使用戶在結束瀏覽后產生一種“仍在原有知識體系中徘徊”的錯覺,而與用戶原有知識體系不接近或用戶原先不關注的信息片段卻在潛移默化中提升了用戶視野,只不過用戶“視而不見”并將這一誤解歸咎于推薦系統。
參考文獻
[1]薛堯云.算法推薦機制下的短視頻“過濾氣泡”問題研究:以抖音為例[J].新媒體研究,2019,5(14):21-22.
[2]Poulain,R.,F.Tarissan.Investigating the lack of diversity in user behavior:The case of musical content on online platforms:Information Processing & Management,2020,57:102169.
[3]M?ller,J.,D.Trilling,N.Helberger,B. van Es.Do not blame it on the algorithm:an empirical assessment of multiple recommender systems and their impact on content diversity:Information,Communication & Society,2018,21:959-977.
[4]黃昌林.新聞敘事:確定性與隨機性[J].成都大學學報(社會科學版),2011(4):68-71.
[5]常江.互聯網與幸存者偏差[J].青年記者,2019(19):92.