999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內(nèi)容的新聞推薦系統(tǒng)設(shè)計研究

2021-02-14 08:23:54朱若馨李研偉
信息記錄材料 2021年12期
關(guān)鍵詞:分類文本用戶

朱若馨,李研偉

(陜西國防工業(yè)職業(yè)技術(shù)學(xué)院 陜西 西安 710300)

1 引言

近年來,很多用戶都喜歡使用在線新聞網(wǎng)站和手機(jī)APP來進(jìn)行新聞閱讀[1]。但是,由于每天都有大量新聞產(chǎn)生和發(fā)布,用戶難以在有限的時間內(nèi)從大量新聞中找到自己感興趣的內(nèi)容,面臨嚴(yán)重的新聞信息過載[2]。個性化新聞推薦可以根據(jù)用戶個人興趣對候選新聞進(jìn)行排序展示,是提升用戶在線新聞閱讀體驗(yàn)的一項重要技術(shù)。如何設(shè)計一個高效、精準(zhǔn)的個性化推薦系統(tǒng)是新聞平臺的關(guān)鍵問題[3]。

2 系統(tǒng)推薦流程及設(shè)計

個性化新聞推薦的簡化流程見圖1[4-5]:從用戶閱讀歷史中挖掘用戶興趣,再根據(jù)用戶興趣對候選新聞進(jìn)行個性化排序,最終將排名靠前的新聞?wù)故窘o用戶。雖然對推薦系統(tǒng)已開展了廣泛的研究,但現(xiàn)有推薦算法仍然存在局限性:(1)新聞有強(qiáng)時效性。新聞平臺每天會產(chǎn)生大量新的新聞,而舊的新聞會快速消失。這帶來了嚴(yán)重的冷啟動問題,導(dǎo)致許多如協(xié)同過濾等依賴用戶行為的推薦方法無法使用;(2)新聞文章具有豐富的文本,這些文本包含重要信息未被利用,不能簡單地使用ID等特征來表示新聞;(3)準(zhǔn)確地建模用戶對新聞的興趣存在挑戰(zhàn)。用戶的興趣通常比較多樣并隨時間動態(tài)演化,需要基于大量的用戶反饋行為來挖掘和建模。然而新聞平臺上往往不具有顯式的用戶反饋,甚至隱式反饋也十分稀疏。因此,新聞推薦是一個重要并具有挑戰(zhàn)性的研究課題。

圖1 個性化新聞推薦流程

推薦系統(tǒng)設(shè)計主要可以分為3個部分:數(shù)據(jù)信息層、數(shù)據(jù)處理層和用戶交互層。在數(shù)據(jù)信息層,主要將用戶的行為,如在APP上的閱讀新聞、停留時間等信息存儲到Hadoop集群中,作為離線日志使用;在數(shù)據(jù)處理層,主要使用深度學(xué)習(xí)的方法從離線日志中提取用戶的興趣,同時在新聞庫中使用用戶的興趣進(jìn)行匹配,生成候選新聞集;在用戶交互層中,我們將候選新聞集反饋給用戶,當(dāng)用戶產(chǎn)生瀏覽、點(diǎn)擊等行為后,再將日志落地到Hadoop集群中,以此來優(yōu)化推薦系統(tǒng)。

在本文中,我們利用新聞豐富的文本信息來實(shí)現(xiàn)用戶的個性化新聞推薦。

3 基于內(nèi)容的新聞推薦

在基于內(nèi)容的推薦系統(tǒng)中,我們通過對新聞標(biāo)題進(jìn)行文本分類,對已閱讀及未閱讀的新聞打上相應(yīng)標(biāo)簽。基于新聞標(biāo)簽進(jìn)行推薦的核心就是如何對文本進(jìn)行準(zhǔn)確的自動化分類。本文的推薦系統(tǒng)中,我們使用TextCNN模型對文本進(jìn)行分類。

3.1 TextCNN模型

Kim首先提出了TextCNN模型。網(wǎng)絡(luò)結(jié)構(gòu)見圖2。

圖2 TextCNN網(wǎng)絡(luò)結(jié)構(gòu)

其中,b是偏置,f是一個非線性函數(shù)。將卷積核w應(yīng)用在當(dāng)前句子所有的可能位置{x1:h,x2:h+1,…,xn-h+1:n},會得到一個特征向量:

然后我們在得到的特征向量上,使用max-pooling操作,在特征向量中取最大值,max-polling操作是獲取對當(dāng)前卷積核響應(yīng)最大的值,同時還可以將變長的向量長度變?yōu)槎ㄩL的特征,這樣我們就可以得到卷積核對應(yīng)的特征值。

在實(shí)際使用中,我們可以使用多個卷積核與多層卷積網(wǎng)絡(luò)進(jìn)行深度特征的提取,最后利用全連接網(wǎng)絡(luò)使輸出特征數(shù)與分類類別匹配,來實(shí)現(xiàn)文本分類。

3.2 新聞分類模型實(shí)驗(yàn)

本文實(shí)驗(yàn)環(huán)境的設(shè)置和實(shí)驗(yàn)平臺的搭建如下:

(1)硬件方面:Windows10系統(tǒng)、CPU Inter(R) Core(TM) i7-8750H 2.20 GHz、內(nèi)存8 GB。

(2)軟件和依賴的庫:Python3.7、Tensorflow_gpu-1.13.1等。

3.2.1 TextCNN模型可調(diào)參數(shù)設(shè)置

在采用TextCNN模型進(jìn)行文本分類時,需要對參數(shù)進(jìn)行選擇。對于模型中的可變參數(shù),我們選擇了表1所示的參數(shù)。

表1 TextCNN可調(diào)參數(shù)設(shè)置

3.2.2 實(shí)驗(yàn)設(shè)計

在實(shí)驗(yàn)中,我們使用THUCNews數(shù)據(jù)集進(jìn)行測試。THUCNews數(shù)據(jù)集是根據(jù)新浪新聞RSS訂閱頻道2005-2011年間的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),劃分出14個候選分類類別:財經(jīng)、彩票、房產(chǎn)、股票、家居、教育、科技、社會、時尚、時政、體育、星座、游戲、娛樂。

我們選擇多個基準(zhǔn)驗(yàn)證TextCNN 模型的分類性能,將TextCNN與傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行對比。其中,TextCNN采用一層卷積層稱為TextCNN-1,TextCNN-2采用兩層卷積網(wǎng)絡(luò),傳統(tǒng)機(jī)器學(xué)習(xí)方法包括樸素貝葉斯(NB)、最近鄰(KNN)和支持向量機(jī)(SVM)。使用各分類整體平均精確率(precision)、召回率(recall)和 F1值(F-measure)評價不同模型的分類效果,作為衡量分類器性能的標(biāo)準(zhǔn)。

3.2.3 結(jié)果分析

在訓(xùn)練過程中,我們隨機(jī)選取90%作為訓(xùn)練集,5%作為測試集,5%作為驗(yàn)證集,結(jié)果見表2。

表2 模型分類結(jié)果比較

通過表2可以發(fā)現(xiàn):(1)采用預(yù)訓(xùn)練詞向量,作為模型的特征輸入分類模型,在相同的數(shù)據(jù)集上各個分類模型均取得了80%以上的精確率,說明預(yù)訓(xùn)練詞向量表的的文本信息基本可以滿足分類需要。(2)無論單層卷積神經(jīng)網(wǎng)絡(luò)還是多層卷積神經(jīng)網(wǎng)絡(luò),取得的分類效果都優(yōu)于3種傳統(tǒng)機(jī)器學(xué)習(xí)算法,說明CNN模型在文本分類上有巨大的提升,相比于Naive Bayesian、KNN和SVM,TextCNN-2的F1值分別提升了9.97%、6.38%、4.52%。因此,我們可以得出,使用TextCNN能夠提取更加全面的局部文本塊特征信息,在文本分類效果上有很好的提升。

4 新聞推薦系統(tǒng)實(shí)現(xiàn)

網(wǎng)頁前端使用CSS和HTML完成頁面布局,Java Script實(shí)現(xiàn)新聞的動態(tài)效果。根據(jù)預(yù)先設(shè)定的新聞分類標(biāo)簽,我們將相應(yīng)的新聞歸類到不同的欄目。同時,在首頁根據(jù)用戶興趣實(shí)現(xiàn)個性化推薦,使網(wǎng)頁實(shí)現(xiàn)千人千面,不同的用戶看到的是自己感興趣的新聞。

在網(wǎng)站后端,我們使用Hadoop存儲用戶的瀏覽日志,然后通過個性化推薦模塊產(chǎn)生候選新聞后,將其存儲在Redis中,在前端發(fā)送請求給后端后,可以迅速將推薦候選新聞反饋給前端,實(shí)現(xiàn)高并發(fā)條件下的高可用性。此外,我們在后端部署基于Tensorflow的深度學(xué)習(xí)模型,使系統(tǒng)獲取的新聞可以實(shí)現(xiàn)實(shí)時分類打標(biāo)簽。

5 結(jié)論

本文針對現(xiàn)有推薦系統(tǒng)的局限性,提出一種基于內(nèi)容的新聞個性化推薦算法。該算法利用新聞豐富的文本信息,引入自然語言處理中的文本分類技術(shù),使用TextCNN模型對新聞自動標(biāo)注,實(shí)現(xiàn)新聞的個性化推薦。相較于傳統(tǒng)的編輯推薦模式,可以省去大量的人工操作,還可以根據(jù)不同的用戶推薦不同的內(nèi)容,做到千人千面。調(diào)查顯示,基于內(nèi)容的個性化推薦系統(tǒng),受到用戶的廣泛好評。

猜你喜歡
分類文本用戶
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲成年人片| 国产精品九九视频| 中文字幕首页系列人妻| 国产欧美日韩综合一区在线播放| 精品伊人久久久久7777人| 在线观看视频一区二区| 黄片在线永久| 国产精品无码AⅤ在线观看播放| 亚洲va视频| 亚洲国产亚洲综合在线尤物| 欧洲成人在线观看| 日韩毛片免费观看| 一级毛片在线免费看| 内射人妻无套中出无码| 蜜臀av性久久久久蜜臀aⅴ麻豆| 色综合久久88色综合天天提莫 | 女人av社区男人的天堂| 成人午夜福利视频| 亚洲大尺码专区影院| 国产成人h在线观看网站站| 色噜噜在线观看| 精品夜恋影院亚洲欧洲| 日本三级精品| 国产成人精品无码一区二| 999国内精品视频免费| 国产毛片不卡| 一级做a爰片久久毛片毛片| 亚洲综合一区国产精品| 激情无码视频在线看| 国产日韩欧美视频| 婷婷六月综合网| 全部免费毛片免费播放| 欧美精品二区| 蜜臀AV在线播放| 亚洲床戏一区| 久久亚洲欧美综合| 亚洲精品午夜天堂网页| 女同国产精品一区二区| 亚洲美女一级毛片| 亚洲品质国产精品无码| 国产微拍一区| 午夜国产理论| 日韩大乳视频中文字幕 | 无码高潮喷水专区久久| 免费一级无码在线网站| 好紧好深好大乳无码中文字幕| 亚洲熟妇AV日韩熟妇在线| 国产精品香蕉在线观看不卡| 波多野结衣第一页| 玖玖免费视频在线观看| 午夜毛片福利| 91精品国产综合久久香蕉922| swag国产精品| 国产特级毛片aaaaaaa高清| 国产麻豆精品久久一二三| 国产视频 第一页| 国产美女无遮挡免费视频网站 | 欧美色伊人| 四虎永久在线视频| 91精品视频网站| 日韩毛片免费| 亚洲精品自拍区在线观看| 欧美精品亚洲日韩a| 91午夜福利在线观看| 91热爆在线| 色噜噜综合网| 激情無極限的亚洲一区免费| 亚洲人成网站在线观看播放不卡| 国产福利一区在线| 青青草国产精品久久久久| 女同国产精品一区二区| v天堂中文在线| 国产亚洲精久久久久久久91| 国产一级毛片网站| 全色黄大色大片免费久久老太| 久久香蕉国产线看观看精品蕉| 亚洲无线一二三四区男男| 欧美成人免费午夜全| 久久久噜噜噜| 99视频在线免费观看| 国产一区二区三区夜色| 欧美成人a∨视频免费观看 |