張晶晶 劉燁



摘? 要: 通過分析新聞傳播推薦技術現狀,發現傳統技術在相關分析計算時,未處理缺省值,導致推薦結果覆蓋率低。為了解決這一問題,提出基于在線評論和改進LDA模型的新聞傳播推薦技術。運用余弦距離計算法計算在線評論新聞傳播特征關聯度,再運用LDA模型設定閾值,用于預測LDA新聞傳播主題相似度。完成上述操作后,選擇最大相似用戶群,并得到用戶群特征詞權值,再采用協同方法將該值代入到推薦模型當中,生成推薦結果。由此,完成基于在線評論和改進LDA模型的新聞傳播推薦技術設計。實驗數據集選自DataCastle,將數據集分成訓練集和測試集,每次實驗都要從測試集中隨機抽取10組用戶,并選取最后傳播的15篇記錄作為實驗數據,最后,使用提出技術與傳統技術測試這10組數據集生成推薦結果的覆蓋率。實驗結果顯示,提出技術的覆蓋率更好,且符合設計需求。
關鍵詞: 新聞傳播; 在線評論; LDA模型; 推薦結果生成; 相似度預測; 關聯度計算
中圖分類號: TN911.1?34; TP391.3? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)19?0115?03
Abstract: After analyzing the current situation of news propagation recommendation technology, it is found that the traditional technology did not process the default value in correlation analysis and calculation, which leads to low coverage rate of recommendation results. Therefore, the research of news propagation recommendation technology based on online comment and improved LDA (latent Dirichlet allocation) model is put forward. The cosine distance method is used to calculate the news propagation feature correlation degree based on online comment, and then the LDA model is used to set the threshold value for the prediction of topic similarity of LDA news propagation. After completing the above operations, the largest similar user group is selected to get the feature word weight of the user group, and then the weight is introduced into the recommendation model with the coordinative approach for the generation of recommendation results. On the basis of the above, the design of news propagation recommendation technology based on the online comment and improved LDA model is completed. The experimental data sets are selected from DataCastle and divided into training set and test set. In each experiment, 10 groups of users are randomly selected from the test set, and the last?propagated 15 records are selected as the experimental data. The coverage rate of the recommended results generated by the 10 groups of data sets is tested with both the proposed technology and the traditional technology. The experimental results show that the coverage rate of the proposed technology is better and can meet the design requirements.
Keywords: news propagation; online review; LDA model; recommendation result generation; similarity prediction; correlation degree calculation
0? 引? 言
新聞傳播推薦技術屬于數據挖掘與信息檢索等領域,學術界對于該技術的相關研究主要有主題檢測與跟蹤項目。跟蹤項目是通過識別新聞傳播數據流主題得到推薦結果,該技術具有兩種功能,可分析多語言文本和語音形式的新聞報道;可完成主題自動跟蹤和檢測突發性新聞主題等相關任務。
常用的三種推薦技術有:
1) 基于協同過濾模型的推薦技術,這是由Das提出的,先對用戶進行聚類,在類內確定目標用戶,這樣可以有效提高該技術的可擴展性。但該技術存在一個漏洞,在相關分析計算時,無法很好地處理缺省值[1]。
2) 基于內容的新聞傳播推薦技術,通過分析用戶感興趣的項目,運用相關算法得到推薦結果,再將相似度較高的項目推薦給用戶。但該技術存在一些無法規避的問題,它只能推薦文本,無法推薦音樂和視頻。
3) 結合協同過濾模型和內容的一種推薦技術。但該技術有一些固有缺陷,無法精準地篩選出用戶感興趣的新聞主題。
為此,針對上述現狀,本文提出基于在線評論和改進LDA模型的新聞傳播推薦技術。詳細設計過程如下。
1? 在線評論新聞傳播特征關聯度計算
首先獲取在線評論新聞傳播的突發情況,再計算特征關聯度,計算過程如下:
當某一新聞事件發生時,相關特征的軌跡上就會表現出一定程度的突發事件,若這些特征出現在同一新聞主題中,就要遵循以下兩個原則:
1) 新聞傳播特征、突發事件和突發軌跡具有一定相似性[2]。
2) 新聞傳播特征與特征軌跡所在文檔的重合度較高。
依據上述兩個原則,采用余弦距離計算法求新聞傳播特征與突發軌跡的關聯度,表達式為:
式中:[fi]表示第[i]個新聞傳播特征;[fj]表示第[j]個新聞傳播特征所在文檔的突發軌跡;[b]表示約束條件,文檔重合度為[t]的環境下的特征值[3]。
應用式(1)計算新聞傳播特征與突發軌跡的相似性。記[Di]和[Dj]是[fi]和[fj]的文檔特征集合,定義[fi]和[fj]的集合最優關系最小值為:
應用式(2),在取得最小值的條件下,得到[fi]和[fj]的集合最優關聯度[4?5]。
2? LDA新聞傳播主題相似度預測
基于在線評論得到的新聞傳播特征關聯度可能是稀疏的,為了提高新聞傳播特征關聯度,提出LDA模型預測,這樣可以縮小兩個新聞傳播主題的相似度,擴大兩者的集合范圍。
運用LDA模型設定一個閾值,LDA模型框架圖如圖1所示。
將余弦切換法引入LDA模型當中,用于切換不同的相似度:
式中:[a]表示相似度比重;[T]表示主題評分矩陣相似度;[u]表示評分數量;[v]表示評價個數[6]。運用式(3)得到新聞傳播主題評分矩陣的相似度,[a]是用來控制相似度所占比重的。在計算的過程中,若[a]的取值大于0.5,說明得到的相似度矩陣是不可用的,無法完成切換;若[a]的取值為0,說明得到的相似度矩陣是可用的,可以切換不同的新聞傳播主題;若[a]的取值為1,說明未求解到合適的相似度矩陣,無法用于新聞傳播相似度預測[7]。
3? LDA新聞傳播推薦模型
基于在線評論計算新聞傳播特征關聯度,再根據關聯度定義公式,求得關聯度值[8]。因新聞傳播特征關聯度是稀疏的,會影響推薦結果,在LDA模型中引入余弦切換法預測新聞傳播主題相似度。最后,為解決上文所說的缺陷,基于在線評論和改進LDA模型構建新聞傳播推薦模型[9],建模過程如下。
首先,通過式(1)求得目標用戶與其他用戶的最優關聯度作為相似度,選擇目標用戶相似度中最大的相似用戶群[10]。再將所有的用戶興趣模型看作一個特征詞權值矩陣,用于計算目標用戶的興趣度,由此,得到目標用戶的潛在推薦模型,如圖2所示。
設目標用戶相似用戶群為[U=v1,v2,…,vi],其中,[U]表示目標用戶。設[w]表示任意用戶的相似度[11]。運用式(4)計算[U]在推薦模型中的特征詞權值:
得到特征詞的權值后,采用協同方法構建推薦模型為:
上述變量同式[12](2)。考慮到推薦模型中目標用戶在多樣性上的需求,在推薦模型中選取最大的特征詞[13]。LDA新聞傳播推薦模型運行流程如圖3所示。
得到LDA新聞傳播推薦模型后,用改進的LDA模型生成推薦結果[14]。采用LDA模型中的余弦相似度計算公式,求得推薦模型與新聞傳播文本特征的相似度后,會得到兩種結果:一種是通過相似度排序得到的;另一種是根據先前的反饋得到的[15]。這兩種結果皆可使用。
由此,完成基于在線評論和改進LDA模型的新聞傳播推薦技術研究。
4? 仿真實驗
為測試所提的基于在線評論和改進LDA模型的新聞傳播推薦技術設計的合理性,設置對比實驗,實驗過程如下。
4.1? 實驗數據
實驗中所選取的數據集是DataCastle提供的,該數據集中包含10 000名用戶,在本次實驗中,隨機選取這10 000名用戶在3月的新聞瀏覽記錄,記錄中包含用戶的編號和瀏覽時間等。數據集詳細內容如表1所示。
在實驗過程中要統一處理,將數據導入數據庫當中,數據提取與推薦結果是使用Java語言編寫程序完成的。將推薦結果導入數據庫后,要對比用戶實際瀏覽情況,實驗指標是采用改進的LDA模型計算得出的。
4.2? 實驗過程
將選取的數據集分割成兩個部分,分別為訓練集和測試集,將新聞傳播數量大于15篇的用戶取出來,作為測試集,剩下的作為訓練集。每一次實驗都要從測試集中隨機抽取10組用戶,一組包含400名用戶,實驗選取這10組用戶最后傳播的15篇傳播記錄,將傳統的新聞傳播推薦技術與基于在線評論和改進LDA模型的新聞傳播推薦技術推薦出來的結果相對比,得到所用技術與傳統技術的覆蓋率,實驗次數設置為10次,實驗結果取平均值作為最終的實驗結果。覆蓋率越高,說明該技術的推薦效果越好。
4.3? 實驗結果
基于在線評論和改進LDA模型的新聞傳播推薦技術與傳統的新聞傳播推薦技術覆蓋率對比結果,如圖4所示。
由圖4可知,使用本文提出的基于在線評論和改進LDA模型的新聞傳播推薦技術相比傳統的新聞傳播推薦技術的覆蓋率更高,證明帶有LDA模型和在線評論的新聞傳播推薦技術的有效性。
5? 結? 語
通過概述新聞傳播技術的現狀,提出基于在線評論和改進LDA模型的新聞傳播推薦技術。本文選用的LDA模型具有兩種個性化推薦功能:一種是自適應導航功能;另一種是自動推薦功能。故選用該模型設計新聞傳播推薦技術。基于在線評論和改進LDA模型的新聞傳播推薦技術的主要貢獻在于:該技術可針對新聞傳播列表建立特征數據流集合;可檢測不同突發時間的特征和軌跡;可計算出新聞傳播特征與突發軌跡的關聯度;可以預測突發事件的相似度。
在設計過程中,發現本文技術依然存在以下幾個問題:未考慮用戶興趣與時間變化的相關性;未考慮當前時間與未發布時間的誤差;用戶矩陣的稀疏性仍然是一個很大的問題,這會嚴重影響本文技術的推薦效率。在后續研究中,要針對上述問題開展進一步研究。
參考文獻
[1] 蔣建洪,王珂.基于SA?LDA模型的美食熱點發現研究[J].美食研究,2017,34(4):32?37.
[2] 何旭峰,陳嶺,陳根才,等.基于LDA主題模型的分布式信息檢索集合選擇方法[J].中文信息學報,2017,31(3):125?133.
[3] 劉暢,張一珂,張鵬遠,等.基于改進主題分布特征的神經網絡語言模型[J].電子與信息學報,2018,40(1):219?225.
[4] 許騰騰,黃恒君.一種改進的Supervised?LDA文本模型及其應用[J].計算機工程,2018,44(1):69?73.
[5] 馮勇,屈渤浩,徐紅艷,等.融合TF?IDF和LDA的中文FastText短文本分類方法[J].應用科學學報,2019,37(3):378?388.
[6] 郭亞,宮葉云,張奇,等.基于主題模型的微博轉發行為預測[J].中文信息學報,2018,32(4):130?136.
[7] 程磊,高茂庭.結合時間加權和LDA聚類的混合推薦算法[J].計算機工程與應用,2019,55(11):160?166.
[8] 盧竹兵,李玉州.基于網絡評論情感信任分析的推薦策略[J].計算機科學,2019,46(6):75?79.
[9] 原淵.Mahout策略下礦井監控視頻異常行為推薦[J].煤炭技術,2017,36(10):218?220.
[10] 姚凱,涂平,陳宇新,等.基于多源大數據的個性化推薦系統效果研究[J].管理科學,2018,31(5):3?15.
[11] 謝振平,金晨,劉淵.基于建構主義學習理論的個性化知識推薦模型[J].計算機研究與發展,2018,55(1):125?138.
[12] 李樹青,莊光光,秦嘉杭,等.借閱場景下圖書專業性質量測度方法和圖書個性化推薦服務方法[J].圖書情報工作,2018,62(11):53?63.
[13] 余永紅,高陽,王皓,等.融合用戶社會地位和矩陣分解的推薦算法[J].計算機研究與發展,2018,55(1):113?124.
[14] 李裕礞,練緒寶,徐博,等.基于用戶隱性反饋行為的下一個購物籃推薦[J].中文信息學報,2017,31(5):215?222.
[15] 丁夢曉,畢強,許鵬程,等.基于用戶興趣度量的知識發現服務精準推薦[J].圖書情報工作,2019,63(3):21?29.