999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于情感分析的個(gè)性化電影推薦

2020-11-14 11:31:54黃劍波陳方靈丁友東吳利杰
關(guān)鍵詞:特征情感用戶

黃劍波,陳方靈,丁友東,吳利杰

(上海大學(xué),上海 200072)

0 引 言

近年來(lái),移動(dòng)互聯(lián)網(wǎng)飛速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)過(guò)載,生活節(jié)奏加快,如何實(shí)現(xiàn)精準(zhǔn)高效推薦成為亟待解決的問(wèn)題。傳統(tǒng)的推薦方法,將用戶評(píng)分作為評(píng)判用戶傾向性的重要指標(biāo)。其假設(shè)相似評(píng)分的用戶具有類似喜好,而近鄰用戶并不能完全客觀、真實(shí)地反映用戶自身的偏好[1]。用戶評(píng)分?jǐn)?shù)據(jù)在一定程度可以代表用戶對(duì)商品的態(tài)度,但用戶評(píng)分產(chǎn)生差異的原因得不到合理解釋,而評(píng)論為心中所想,更能反映用戶心理。且心理學(xué)研究表明大多數(shù)人都有從眾心理,人們對(duì)物品的喜好或情感狀態(tài)會(huì)受多數(shù)人的情感影響[2]。因此,為了實(shí)現(xiàn)精準(zhǔn)推薦,挖掘用戶評(píng)論的情感就變得尤為重要。

文中運(yùn)用自然語(yǔ)言處理等技術(shù),分析電影評(píng)論文本,將其應(yīng)用到個(gè)性化電影推薦中,挖掘用戶情感信息,提高推薦的準(zhǔn)確性。具體方法如下:首先抓取網(wǎng)絡(luò)公開(kāi)電影基本信息和影評(píng)數(shù)據(jù),然后使用多人人工交叉標(biāo)注部分影評(píng)數(shù)據(jù)集,為影評(píng)情感傾向性打分,訓(xùn)練情感分析模型。將情感值與用戶評(píng)分結(jié)合,作為用戶的喜好程度,消除用戶評(píng)分標(biāo)準(zhǔn)不一的影響,能更加真實(shí)地反映用戶的偏好。最后,使用點(diǎn)擊率預(yù)測(cè)模型,對(duì)用戶觀影歷史行為進(jìn)行訓(xùn)練,并預(yù)測(cè)每個(gè)用戶對(duì)未觀看的電影的點(diǎn)擊率,排序選取前N個(gè)數(shù)據(jù)為用戶推薦。實(shí)驗(yàn)結(jié)果表明此方法有更好的性能。

1 相關(guān)工作

Resnick等[3]在20世紀(jì)90年代首次提出個(gè)性化推薦的概念,經(jīng)過(guò)了二十多年的積累和沉淀,推薦系統(tǒng)逐漸成為一門獨(dú)立學(xué)科在學(xué)術(shù)研究和業(yè)界應(yīng)用中取得了很多成果。其背后的技術(shù)大致可以劃分為三類:基于內(nèi)容的模型、基于協(xié)同過(guò)濾的模型,以及混合模型[4]。

基于內(nèi)容的推薦模型主要在于分別建立用戶和物品的檔案資料,計(jì)算用戶或物品之間的相似度[5]。物品的檔案通常由它的各種屬性資料構(gòu)成,以服裝領(lǐng)域?yàn)槔▋r(jià)格、品牌、類別、顏色、風(fēng)格、款式、尺寸等。內(nèi)容推薦雖然是推薦系統(tǒng)的孩童時(shí)代,但依然適用于各個(gè)領(lǐng)域,主要原因在于,首先只要得到物品或者用戶的檔案,就可以處理冷啟動(dòng)問(wèn)題,其次,檔案都是顯式特征,模型有很好的可解釋性。

協(xié)同過(guò)濾的提出,極大地推動(dòng)了推薦系統(tǒng)的研究和發(fā)展[6]。基于協(xié)同過(guò)濾的推薦模型不需構(gòu)建任何檔案資料,只收集用戶的歷史行為記錄,就可挖掘用戶與用戶、物品與物品之間潛在的相似性,并基于這種群組相似性完成推薦。其包括基于鄰居的方法和基于模型的方法。基于鄰居的方法核心在于根據(jù)歷史行為記錄,構(gòu)建用戶與用戶,或者物品與物品的相似度矩陣,能在廣泛的興趣范圍中推薦出熱門物品,但缺少個(gè)性化。基于模型的推薦最常用的是隱因子模型,典型的是Koren Y等[7]提出的矩陣分解。在這類模型中,用戶和物品都被嵌入到一個(gè)低維向量表示,用戶和物品的相關(guān)性體現(xiàn)于它們對(duì)應(yīng)隱向量的點(diǎn)積關(guān)系。這種方法效率高,一旦訓(xùn)練出模型,用戶和物品的關(guān)系就能很方便地通過(guò)點(diǎn)積計(jì)算出來(lái),同時(shí)準(zhǔn)確度也好于鄰居模型。但缺點(diǎn)也很明顯,不能解決冷啟動(dòng)問(wèn)題,同時(shí)學(xué)習(xí)出的隱向量不方便解釋。

綜上,不同推薦算法在應(yīng)用中有不同效果。因此,工業(yè)界常用的是混合模型,結(jié)合多種推薦模型,取長(zhǎng)補(bǔ)短,能得到更好的推薦效果。

近年來(lái),隨著眾多學(xué)者對(duì)點(diǎn)擊率(click-through rate estimation,CTR)預(yù)估模型的研究,CTR模型在推薦系統(tǒng)中得到廣泛應(yīng)用,解決了矩陣分解技術(shù)在高度稀疏的數(shù)據(jù)場(chǎng)景下不適用的問(wèn)題。2011年Steffen Rendl等[8]提出的因子分解機(jī)(factorization machine,F(xiàn)M)模型,采用特征組合的方式,解決了推薦數(shù)據(jù)稀疏的問(wèn)題。2016年Juan Yu-Chin等[9]提出場(chǎng)感知分解機(jī)(field-aware factorization machine,F(xiàn)FM)模型,在FM的基礎(chǔ)上引入場(chǎng)的概念,將具有相同性質(zhì)的特征歸為同一個(gè)場(chǎng)。2017年Guo Huifeng等[10]提出了深度因子分解機(jī)(a Factorization-Machine based neural network,DeepFM)模型,可同時(shí)學(xué)習(xí)低階和高階特征,提高排序能力。

2 基于情感分析的個(gè)性化電影推薦

2.1 整體流程

基于情感分析的個(gè)性化電影推薦主要分為以下3個(gè)步驟:數(shù)據(jù)采集與預(yù)處理,模型訓(xùn)練,預(yù)測(cè)及電影推薦,流程如圖1所示。

圖1 基于影評(píng)情感分析的電影推薦流程

(1)數(shù)據(jù)采集與預(yù)處理。從網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)收集足夠的電影相關(guān)數(shù)據(jù),然后進(jìn)行數(shù)據(jù)的清洗處理。對(duì)于影評(píng)數(shù)據(jù),還需采用多人人工交叉精確標(biāo)注,影評(píng)根據(jù)情感傾向程度進(jìn)行標(biāo)注為1~5,其中1~5喜愛(ài)度依次遞增。文中采用BERT[11]對(duì)影評(píng)數(shù)據(jù)有監(jiān)督多分類訓(xùn)練,并保存訓(xùn)練模型,對(duì)新的情感預(yù)測(cè)時(shí),載入保存好的訓(xùn)練模型,直接進(jìn)行預(yù)測(cè)。

(2)模型訓(xùn)練。使用CTR預(yù)估模型DeepFM,對(duì)處理好的數(shù)據(jù)進(jìn)行訓(xùn)練,并保存相應(yīng)模型。

(3)電影推薦。加載模型,根據(jù)用戶歷史行為信息,預(yù)測(cè)用戶對(duì)未觀看電影的CTR、排序,選取前N個(gè)數(shù)據(jù),實(shí)現(xiàn)個(gè)性化推薦。

2.2 數(shù)據(jù)采集與預(yù)處理

文中數(shù)據(jù)集主要來(lái)源于網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)的抓取,包括電影數(shù)據(jù)集、用戶數(shù)據(jù)集以及影評(píng)數(shù)據(jù)集。其中電影數(shù)據(jù)集包含電影ID、電影名、演員、導(dǎo)演、類型、編劇、時(shí)長(zhǎng)等字段。用戶數(shù)據(jù)集包含用戶ID、用戶常居地、用戶名等字段。影評(píng)數(shù)據(jù)集含有電影ID、電影名、用戶ID、用戶評(píng)論、用戶評(píng)分等字段。對(duì)抓取數(shù)據(jù)首先進(jìn)行清洗操作,影評(píng)數(shù)據(jù)集還需要多人人工交叉標(biāo)注,然后進(jìn)行情感模型的訓(xùn)練。

文中情感分析采用BERT模型。BERT采用的是Transformer[12]的雙向編碼器結(jié)構(gòu),Transformer不需要循環(huán),而是并行處理序列中的所有單詞或符號(hào),同時(shí)利用自注意力機(jī)制將上下文與較遠(yuǎn)的單詞結(jié)合起來(lái)。BERT的雙向?yàn)樯疃入p向,與傳統(tǒng)雙向有所不同。傳統(tǒng)雙向是從左到右與從右到左的結(jié)合,但是兩個(gè)方向的損失計(jì)算相互獨(dú)立,其本質(zhì)還是單向的,只是一種簡(jiǎn)單融合,而B(niǎo)ERT的深度雙向充分結(jié)合了上下文信息。BERT模型可同時(shí)用作預(yù)訓(xùn)練模型和下游任務(wù)模型,且不需要做任何的修改就能實(shí)現(xiàn)文本分類。對(duì)影評(píng)做情感分析時(shí),上下文的語(yǔ)義尤為重要,要充分考慮到上下文的關(guān)系,因此采用BERT模型能更精確的分類。

傳統(tǒng)的情感分析方法分為正向和負(fù)向兩類,文中的情感分類分為5個(gè)等級(jí)。采用BERT模型進(jìn)行中文文本情感分析的過(guò)程如圖2所示。

圖2 中文文本情感分析的流程

利用訓(xùn)練好的BERT模型預(yù)測(cè)影評(píng)情感值,將影評(píng)情感值和用戶評(píng)分相結(jié)合,表示用戶的整體傾向性,可以寫(xiě)成:

y=w1y1+w2y2

(1)

其中,y1和y2分別為用戶影評(píng)情感值和用戶評(píng)分,w1,w2為各自的權(quán)重,w1+w2=1,文中w1和w2的取值設(shè)為0.5。

2.3 模型訓(xùn)練

對(duì)于CTR預(yù)估模型,低階組合特征和高階組合特征都會(huì)影響最終的結(jié)果,學(xué)習(xí)用戶行為背后隱含特征組合極其重要。而DeepFM模型可以從原始數(shù)據(jù)中同時(shí)學(xué)習(xí)低維與高維特征。因此,文中推薦模型采用CTR預(yù)估模型DeepFM。

DeepFM分為神經(jīng)網(wǎng)絡(luò)部分和因子分解機(jī)部分。DeepFM模型將DNN和FM并行組合,同時(shí)具有FM在推薦中的優(yōu)勢(shì)和深度學(xué)習(xí)在特征學(xué)習(xí)的優(yōu)勢(shì)。模型結(jié)構(gòu)如圖3所示,因子分解機(jī)部分和神經(jīng)網(wǎng)絡(luò)部分分別負(fù)責(zé)提取低階特征和高階特征,共享權(quán)重矩陣,即共享嵌入層。這樣可以從原始數(shù)據(jù)中同時(shí)學(xué)習(xí)到低維與高維特征,不再需要人為設(shè)計(jì)特征工程,訓(xùn)練效率更高效。DeepFM模型的預(yù)測(cè)結(jié)果可以寫(xiě)成

圖3 DeepFM模型結(jié)構(gòu)

(2)

模型訓(xùn)練采用對(duì)數(shù)似然損失(logarithmic loss function,LogLoss)進(jìn)行參數(shù)更新。LogLoss采用KL(Kullback-Leibler)[13]散度來(lái)計(jì)算,預(yù)測(cè)分布越接近真實(shí)分布,其值越小。假設(shè)樣本的真實(shí)分布為P,預(yù)測(cè)分布為Q,則KL散度定義[14]如下:

(3)

在CTR預(yù)估中,概率分布為二項(xiàng)分布。設(shè)真實(shí)的點(diǎn)擊率為tctr,預(yù)測(cè)的點(diǎn)擊率為pctr。因此真實(shí)的二項(xiàng)分布P(tctr,1-tctr),預(yù)測(cè)的二項(xiàng)分布Q為(pctr,1-pctr)。因此損失函數(shù)可以寫(xiě)成如下形式:

(4)

為了適應(yīng)電影推薦這類稀疏數(shù)據(jù),參數(shù)優(yōu)化方法采用Adagrad優(yōu)化方法[15]。Adagrad算法在訓(xùn)練中自動(dòng)更新學(xué)習(xí)率,采用較大的學(xué)習(xí)率調(diào)整出現(xiàn)次數(shù)較少的參數(shù)。

DeepFM模型輸入數(shù)據(jù)為特征經(jīng)過(guò)獨(dú)熱編碼橫向拼接而成的高維稀疏向量。首先,各個(gè)特征加權(quán)求和得到一次項(xiàng)。然后,將原始輸入的特征經(jīng)過(guò)嵌入層,一方面兩兩內(nèi)積,求和得二次項(xiàng),另一方面作為輸入全連接到DNN,實(shí)現(xiàn)低維和高維特征的結(jié)合。

2.4 電影推薦

文中加載訓(xùn)練好的模型,對(duì)于給定的用戶及其歷史行為,對(duì)其未觀看電影預(yù)測(cè)CTR,按照從大到小排序選取前N個(gè)數(shù)據(jù),實(shí)現(xiàn)個(gè)性化的電影推薦。

3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)采用的操作系統(tǒng)為Ubuntu 16.04,64位,基于TensorFlow框架,編程語(yǔ)言為Python3.5。所有的訓(xùn)練均采用NVIDIA-GTX-TitanX顯卡。

根據(jù)Zhou Guorui等[16]提出的數(shù)據(jù)處理方法,為了適用CTR預(yù)測(cè)任務(wù),將數(shù)據(jù)轉(zhuǎn)換為二分類數(shù)據(jù)。用戶的偏好值是從0到5的連續(xù)值。將偏好值為4和5的樣本標(biāo)記為1,其余為0。將227 424個(gè)樣本劃分為訓(xùn)練集,其余46 036個(gè)樣本為測(cè)試集。目標(biāo)是根據(jù)歷史行為預(yù)測(cè)用戶是否對(duì)給定電影的偏好值高于3(為1)。

文中采用LogLoss、AUC、MAP作為模型評(píng)價(jià)指標(biāo)。LogLoss更關(guān)注和觀察數(shù)據(jù)的吻合程度,AUC更關(guān)注排序。MAP是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo),系統(tǒng)檢索出來(lái)的相關(guān)文檔越靠前,MAP就可能越高[17]。圖4對(duì)比了DNN,F(xiàn)FM,DeepFM三個(gè)模型在測(cè)試集上的AUC表現(xiàn)。三個(gè)模型的預(yù)測(cè)結(jié)果如表1所示。

實(shí)驗(yàn)結(jié)果表明,基于情感分析的個(gè)性化電影推薦是可行的,由圖4和表1可知深度因子分解機(jī)具有較好的預(yù)測(cè)結(jié)果。

圖4 不同模型AUC

表1 不同模型預(yù)測(cè)結(jié)果對(duì)比

選取兩名用戶分別為其推薦10部電影,如表2所示。從表中看出,用戶B的歷史評(píng)分最高分為3分,沒(méi)有表現(xiàn)出明顯的傾向性,而評(píng)論卻表現(xiàn)出明顯的喜好傾向。對(duì)比兩種推薦方法的推薦結(jié)果,可以看出基于情感分析的推薦更符合用戶的心理。

表2 不同用戶電影推薦對(duì)比

對(duì)于三部不同類型的電影,將CTR作為推薦指數(shù),用戶的推薦值數(shù)如表3所示。可知對(duì)于同一部電影,不同的用戶表現(xiàn)出了明顯的差異,表明了提出的個(gè)性化電影推薦方法的可行性。

表3 用戶電影推薦指標(biāo)

文中還采集了25個(gè)不同年齡階段的歷史的信息記錄,參與模型訓(xùn)練,為其推薦5部電影,并調(diào)研反饋信息。如表4所示。可以看出只有8%的人不喜歡推薦的電影,表明了該推薦方法的有效性。

表4 用戶反饋調(diào)研

4 結(jié)束語(yǔ)

提出了一種基于影評(píng)情感分析的個(gè)性化電影推薦方法。首先,爬取網(wǎng)絡(luò)公開(kāi)電影、用戶數(shù)據(jù)、影評(píng)數(shù)據(jù),然后將影評(píng)數(shù)據(jù)集進(jìn)行人工交叉標(biāo)注,使用BERT模型進(jìn)行情感分析,情感分析結(jié)果和用戶評(píng)分相結(jié)合,采用DeepFM點(diǎn)擊率預(yù)估模型進(jìn)行預(yù)測(cè)。最后,根據(jù)DeepFM預(yù)測(cè)的結(jié)果,按照CTR排序,選取前N個(gè)數(shù)據(jù)實(shí)現(xiàn)線下推薦,提高了推薦的質(zhì)量。然而在研究中還發(fā)現(xiàn)了一些問(wèn)題:(1)對(duì)中文影評(píng)情感多分類難度較大,因此采用強(qiáng)大的BERT模型,依然不能有很高的準(zhǔn)確率;(2)BERT模型訓(xùn)練時(shí)間消耗很大,對(duì)于影評(píng)數(shù)據(jù)句子稍長(zhǎng),需要耗費(fèi)大量的時(shí)間。在下一步的工作中,可以采用混合推薦的方法,評(píng)估整體的效果。

猜你喜歡
特征情感用戶
如何在情感中自我成長(zhǎng),保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
不忠誠(chéng)的四個(gè)特征
如何在情感中自我成長(zhǎng),保持獨(dú)立
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 亚洲a免费| 成人免费视频一区二区三区| 欧美日本在线播放| 青青草a国产免费观看| 亚洲欧美在线看片AI| 青青国产成人免费精品视频| 欧美激情成人网| 国产中文一区二区苍井空| 99热这里只有精品在线播放| 国产美女91呻吟求| 国产精品网曝门免费视频| 国产精品一区二区不卡的视频| 亚洲性一区| 国产在线观看人成激情视频| 孕妇高潮太爽了在线观看免费| 国产一区二区免费播放| 国产三级成人| 色视频久久| 久久久久亚洲av成人网人人软件| 亚洲日韩日本中文在线| 欧美精品一区在线看| 国产不卡国语在线| 久久青草免费91观看| 欧美日韩第三页| 91久久精品日日躁夜夜躁欧美| 色综合五月婷婷| 国产二级毛片| 一本色道久久88| 国产人成网线在线播放va| 亚洲AV无码乱码在线观看代蜜桃 | 无码啪啪精品天堂浪潮av | 精品亚洲国产成人AV| 91青青在线视频| 色AV色 综合网站| 91精品人妻互换| 久久黄色毛片| 日韩精品久久无码中文字幕色欲| 99热这里只有精品在线播放| 日本在线欧美在线| 在线观看免费人成视频色快速| 国产精品一区在线观看你懂的| 超薄丝袜足j国产在线视频| 免费高清自慰一区二区三区| 在线国产91| 国产99视频免费精品是看6| 国产高潮视频在线观看| 国产99在线观看| 高清不卡毛片| 亚洲精品中文字幕午夜| 亚洲天堂精品在线观看| 狠狠亚洲五月天| 国产呦精品一区二区三区下载 | 欧美色亚洲| 日本三级欧美三级| 爽爽影院十八禁在线观看| 国产一级毛片网站| 国产另类乱子伦精品免费女| 国产精品太粉嫩高中在线观看| 国产精品99久久久久久董美香| 老司机aⅴ在线精品导航| 欧美日韩资源| 亚洲av色吊丝无码| 欧美一道本| 色国产视频| 久久久久国产精品熟女影院| 国模私拍一区二区| 伊人无码视屏| 国产成人久视频免费| 欧美有码在线| 婷婷午夜天| 国产丝袜无码一区二区视频| 三区在线视频| 亚洲欧洲日韩国产综合在线二区| 国产色伊人| 成人字幕网视频在线观看| 亚洲性日韩精品一区二区| 亚洲AⅤ无码国产精品| 精品成人一区二区三区电影 | 午夜三级在线| 99国产精品国产高清一区二区| 日本国产一区在线观看| 久久精品人人做人人综合试看 |