999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習和詞匯相似度的個性化新聞推薦系統設計

2021-09-10 19:36:38江濤
無線互聯科技 2021年7期
關鍵詞:深度學習

江濤

摘 要:對網絡上龐大的新聞資訊,如何發展一個個性化的新聞推薦系統,自動地推薦使用者感興趣的新聞,是一個備受重視的課題。文章提出一個個性化新聞推薦系統,此系統將建立一個新聞本體,并通過深度學習計算使用者偏好,以此達到推薦個性化新聞的目的。此新聞本體以分析新聞的詞匯為基礎,并參考專家的分類。其中,每個類別包含特定數量的代表性詞匯,而這些詞匯以時事新聞進行TF-IDF統計而得。對每一則新聞,系統將計算該則新聞所包含的詞匯與新聞本體中代表性詞匯的相似度,定義為新聞的特征向量,并將此特征向量輸入多層次類神經網絡進行深度學習計算得出新聞推薦值。實驗結果顯示,相較于隨機推薦,文章所提出的方法可以較大地提升推薦成功的比率,神經網絡將由推薦值來判斷是否推薦給使用者,若是使用者未點擊閱讀此新聞,判斷為使用者不喜歡此篇新聞,神經網絡將會進行修正,使之越來越接近真實的使用者偏好。

關鍵詞:使用者偏好;新聞推薦;深度學習;TF-IDF

0 引言

在網絡新聞普及的今天,大量的新聞網站如騰訊新聞、網易新聞、中國青年電子報等眾多媒體平臺的普及,配合智能手機、平板與5G網絡技術的發展,人們也越來越依賴智能型設備在任何時間、地點,通過網絡來從事各式各樣的活動,例如:可以使用手機瀏覽器閱讀網絡新聞,部分新聞媒體也推出專屬手機 APP 以供閱讀,新聞的即時性已然與過去的一日一報大不相同。也就是在這新聞資訊爆炸的時代,人們有太多新聞可以瀏覽閱讀,因此一個好的個性化新聞推薦系統,對大多數使用者將是非常有用的。

本文將以詞匯相似度為基礎結合深度學習推薦個性化新聞:首先,參考專家分類,將新聞分為多個類別,并將其對應的時事新聞進行分析,取出其中的代表性詞匯,加入其對應的類別,以此作為新聞本體。之后,由網絡爬蟲獲取新聞,利用中文斷詞系統將該新聞的詞匯取出,然后利用TF-IDF(Term Frequency-Inverse Document Frequency)方法來計算出本文代表性的詞匯,再將這些詞匯與新聞本體中的代表性詞匯進行 NGD(Normalized Google Distance) 相似度計算,其結果定義為此新聞的特征向量。最后,將新聞的特征向量輸入多層次類神經網絡進行深度學習計算,依據使用者真實的點擊記錄修正各層神經元傳導路徑的權重值以及神經元偏權值,從而由神經網絡判斷是否推薦給使用者。

1 相關研究

1.1? 新聞本體

“本體”源自于哲學,是一個探討物體存在的哲學分? ? ? ?支[1]。在信息科學中,本體論的觀念被應用在知識表達上,也就是對特定領域之中某套概念及其相互之間關系的形式化表達,通過描述一項事物與其他詞匯的從屬關系來代表該事物。在本研究中所建立的新聞本體由數個類別組成,各類別下又具有特定數量的代表性詞匯,這些代表性詞匯是通過TF-IDF統計方法計算而得。

1.2? Term Frequency–Inverse Document Frequency (TF-IDF)TF-IDF是一種用來評價詞匯與文章關聯程度的統計方法[2]。詞匯的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

單一詞匯ti的詞頻(Term Frequency, TF),可由式(1)計算得知,其中ni,j,nk,j分別表示詞匯ti,tk在文件dj出現的次數,分母即為文件dj中所有詞匯出現次數之總和。

逆向文件頻率(Inverse Document Frequency,IDF)是一個計算詞匯重要性的方法。某一特定詞匯的IDF,可以由(2)式得到,其中∣D∣是語料庫中的文件總數,表示包含詞匯ti的文件數目。

1.3? Normalized Google Distance(NGD)NGD是一種詞匯相似度的計算方式,利用搜索引擎搜尋詞匯后,回報的搜尋結果數來計算兩個詞匯之間的相關度。兩個相似的詞匯會有較小的NGD值,而較不相關的詞匯會有較大的NGD值。NGD的計算公式如下:

(4)

其中x,y是欲計算相似度的兩個詞匯,f(x)是詞匯x的搜索結果,f(x,y)是合并詞匯“x”“y”搜尋的結果數,N是Google 搜尋引擎的總索引數。

2? ? 關鍵問題

2.1? 系統架構

新聞推薦系統架構如圖1所示,推薦系統主要分為兩部分:新聞分析系統及深度學習。

2.2? 新聞分析系統

2.2.1 網絡爬蟲

網絡爬蟲是一種自動瀏覽探索網絡的程序,被廣泛用于網際網絡搜尋引擎或其他類似網站,以取得或更新這些網站的內容和檢索方式。它們可以自動采集所有其能夠存取到的頁面內容,以供搜尋引擎做進一步處理,而使得用戶能更快地檢索到他們需要的信息。本研究利用爬蟲快速地搜集新聞數據,用以建立新聞本體以及深度學習訓練。

2.2.2? 斷詞系統

斷詞系統是一種將一句話或一段文章分成詞匯以便后續處理的系統。通過斷詞系統可以將前述網絡爬蟲所獲得的新聞數據,使用TF-IDF統計方法取出該篇新聞的代表性詞匯[3]。

3? ? 深度學習

本研究采用深度神經網絡,使用反向傳播算法進行學習訓練,以新聞的特征向量作為輸入,隱藏層的激活函數是采用線性整流函數(Rectified Linear Unit),ReLU相較于其他激活函數能更快收斂,也可以有效處理梯度消失的問題,并依據使用者真實的點擊記錄修正各層神經元傳導路徑的權重值以及神經元偏權計算,以得出使用者是否對一篇新聞有興趣。

4? ? 建立新聞本體

參照搜索引擎新聞分類的方式,系統先用網絡爬蟲從固定的幾個中文網絡新聞平臺擷取相關類別的新聞。另外,在參考Google新聞平臺的建議詞匯及百度搜尋熱門詞匯后,發現大部分詞匯都屬于名詞,因此收集完新聞文章,利用斷詞系統斷詞后,將只取名詞詞類來進行下一步計算。利用TF-IDF把該類別中最常出現的多個代表性詞匯記錄下來,與原本的類別連接,建構新聞本體。如:假設旅游類別的新聞中最常出現的詞匯是“故宮”“廬山”“九寨溝”,則將其定為旅游類別下的3個代表性詞匯。

5? ? 計算新聞特征向量

在建立了新聞類別與代表性詞匯之間關系的新聞本體之后,假設所建立的新聞本體中有n個類別(如旅游、體育等),其分別以C1,C2,…,Cn表示,而每個類別有m個代表性詞匯,并以TCi,j,1≦i≦n,1≦j≦m表示第i個類別的第j個代表性詞匯。對某一新聞N,假設經過斷詞分析后,得到其內含有s個代表性詞匯(以TNh,1≦h≦s來表示),目標是利用這些詞匯來得出此新聞N與新聞本體每個類別C1,C2,…,Cn的相似度,因為NGD值代表詞匯之間的相似度,所以可以通過新聞N中所有詞匯(TNh,1≦h≦s)與某類別Ci中的所有代表性詞匯(TCi,j,1≦j≦m)任兩者間的NGD值,來計算出新聞N與Ci的相似度,其公式定義如下:

經由(2)的計算可得出一新聞N與本體中所有類別Ci(1≦i≦n)之間的相似度,這些值可以用來定義新聞N的特征向量,亦即假設U代表新聞N的特征向量,則

6? ? 進行深度學習訓練

由(5)式可以得到一篇新聞的特征向量,以此特征向量代表新聞,并取數則新聞分批作為深度學習的訓練數據輸入神經網絡,然后依每次通過神經網絡所輸出結果,由反向傳播算法計算其值與真實使用者選擇之間的誤差有多少,來修正神經元路徑權重值以及神經元偏權,經過不斷訓練來學習使用者興趣。

7? ? 試驗以及評估

表1為實驗初步訓練成果,實驗采用3層隱藏層。

準確率計算如(7)式,計算結果為85%,由此可以看出深度學習具有較好的推薦效果。

(7)

8? ? 結語

本文考察了現今新聞平臺多數區分類別的特性,并建立新聞本體,新聞本體能夠將新聞內容的抽象概念具體化,再通過NGD計算新聞詞匯與新聞本體的相似度,來建立一則新聞的特征向量,讓計算機可通過數值化的新聞來進行深度學習訓練,從而計算新聞推薦值,并依照推薦值進行推薦,由于深度神經網絡是可以不斷訓練的,本系統可以不斷進行學習,根據實驗證明,采用深度學習,已具備不錯的推薦效果,未來研究也將進一步調整深度學習網絡的各項參數,使新聞推薦系統推薦出更符合使用者偏好的新聞。

[參考文獻]

[1]黃立威,江碧濤,呂守業,等.基于深度學習的推薦系統研究綜述[J].計算機學報,2018(7):1619-1647.

[2]彭菲菲,錢旭.基于用戶關注度的個性化新聞推薦系統[J].計算機應用研究,2012(3):1005-1007.

[3]鄧存彬,虞慧群,范貴生.融合動態協同過濾和深度學習的推薦算法[J].計算機科學,2019(8):28-34.

(編輯 王永超)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 国产精品亚洲а∨天堂免下载| 无码国产偷倩在线播放老年人| 伊人成人在线视频| 99久久国产自偷自偷免费一区| 国产精品视频公开费视频| 538国产视频| 国产视频久久久久| 成人韩免费网站| 91亚洲免费| 国产99久久亚洲综合精品西瓜tv| 亚洲日韩高清无码| 99草精品视频| 91欧美亚洲国产五月天| 丁香亚洲综合五月天婷婷| 国产AV无码专区亚洲A∨毛片| 免费毛片网站在线观看| 在线观看亚洲精品福利片| 一区二区三区在线不卡免费| 尤物国产在线| 99精品一区二区免费视频| 国产成人精品第一区二区| 宅男噜噜噜66国产在线观看| 亚洲大学生视频在线播放| 中文国产成人精品久久| 日本成人在线不卡视频| 国产1区2区在线观看| 五月婷婷综合网| 91娇喘视频| 麻豆国产精品一二三在线观看| h视频在线观看网站| 国产69精品久久| 欧美一区日韩一区中文字幕页| 国产一区二区三区免费| 福利国产微拍广场一区视频在线| 爆操波多野结衣| 国产在线观看精品| 久无码久无码av无码| 欧美日韩在线第一页| 精品国产aⅴ一区二区三区| 国产一级在线观看www色 | 91精品aⅴ无码中文字字幕蜜桃| 国产噜噜在线视频观看| 另类重口100页在线播放| 丝袜无码一区二区三区| 久久综合九色综合97网| 国模沟沟一区二区三区| 欧美国产日产一区二区| 国产成人精品免费av| 亚洲成人一区二区三区| 26uuu国产精品视频| 欧美精品xx| 欧美亚洲国产一区| 国产xx在线观看| 国产杨幂丝袜av在线播放| 老司机久久99久久精品播放| 91免费国产在线观看尤物| 国产网站在线看| 日韩小视频网站hq| 色香蕉影院| 91精品人妻互换| 无码一区中文字幕| 亚洲欧美日韩中文字幕在线一区| 国产精品久久久精品三级| 中文字幕在线不卡视频| 全部免费毛片免费播放| 国产69精品久久久久孕妇大杂乱| 国产在线一区视频| 在线免费不卡视频| 三级国产在线观看| 丰满人妻久久中文字幕| 亚洲国产成人精品无码区性色| 国产女人综合久久精品视| 色偷偷综合网| 精品日韩亚洲欧美高清a| 91极品美女高潮叫床在线观看| 国产精品三级av及在线观看| 亚洲国语自产一区第二页| 萌白酱国产一区二区| 国产精选自拍| 亚洲天堂区| 久久综合亚洲色一区二区三区| 91毛片网|