999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

評(píng)論情感分析增強(qiáng)的深度推薦模型

2022-09-06 13:17:16
關(guān)鍵詞:特征文本情感

田 添 星

(復(fù)旦大學(xué)軟件學(xué)院 上海 201203)(數(shù)據(jù)分析與安全實(shí)驗(yàn)室 上海 201203)

0 引 言

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)平臺(tái)上信息也呈爆炸性增長,但是用戶的關(guān)注程度卻并不隨之增長,主要原因在于用戶依賴搜索技術(shù)和系統(tǒng)難以從繁多信息中尋找到自己所需要的。為了解決該問題,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)通過分析用戶歷史行為數(shù)據(jù),理解用戶需求和興趣,為用戶及時(shí)提供最可能接受的信息。

協(xié)同過濾[1]是推薦系統(tǒng)領(lǐng)域最早也最成功的技術(shù)之一,該方法假定歷史上具有相同興趣的用戶,在未來也會(huì)有類似的喜好。傳統(tǒng)協(xié)同過濾方法通過矩陣分解[2]模型實(shí)現(xiàn)。這類模型使用用戶對(duì)物品的評(píng)分作為訓(xùn)練數(shù)據(jù)。評(píng)分?jǐn)?shù)據(jù)能直觀地體現(xiàn)用戶對(duì)物品的態(tài)度。但是,這類方法存在數(shù)據(jù)稀疏、冷啟動(dòng)[3]等問題。研究者們嘗試?yán)闷渌麛?shù)據(jù)作為補(bǔ)充來解決問題,比如商品的元屬性[4]、用戶地理位置[5]等。

隨著人工智能、機(jī)器學(xué)習(xí)和自然語言處理等領(lǐng)域的發(fā)展,計(jì)算機(jī)逐漸能夠自動(dòng)地分析文本并從中提取有價(jià)值的信息,研究者也隨之開始探索用戶評(píng)論數(shù)據(jù)作為一種新的補(bǔ)充數(shù)據(jù)的可能性。比如,McAuley等[5]就利用主題模型,從物品的評(píng)論中提取出物品的屬性作為矩陣分解方法的補(bǔ)充,提升了推薦的準(zhǔn)確性。另外一方面,情感分析是分析用戶生成的文本內(nèi)容的重要手段,該技術(shù)可以有效幫助商品或服務(wù)的提供者理解用戶們在網(wǎng)上留下的評(píng)論。近些年來,情感分析作為比較基礎(chǔ)的自然語言處理任務(wù),可以使用各種前沿的深度學(xué)習(xí)技術(shù)來完成,比如根據(jù)文本的局部性對(duì)文本進(jìn)行分析的TextCNN[7]、根據(jù)語言的連續(xù)性對(duì)文本進(jìn)行從左到右和從右到左兩個(gè)方向分析的雙向LSTM網(wǎng)絡(luò)[8]。近些年來,研究者意識(shí)到在深度學(xué)習(xí)任務(wù)中,學(xué)習(xí)過程里的眾多信息對(duì)當(dāng)前任務(wù)目標(biāo)的重要程度是不同的,因此提出了注意力機(jī)制[9]。該機(jī)制也隨后被運(yùn)用到了各個(gè)模型及各個(gè)任務(wù)中,情感分析任務(wù)自然也可以運(yùn)用到該技術(shù),比如李松如等[10]提出一種采用循環(huán)神經(jīng)網(wǎng)絡(luò)的情感分析注意力模型。

推薦系統(tǒng)和情感分析技術(shù)都在嘗試從評(píng)論中提取用戶的意見。盡管它們提取用戶意見用于不同的目標(biāo):前者目標(biāo)是補(bǔ)充用戶和物品的特征,幫助預(yù)測用戶對(duì)物品的喜好度;后者根據(jù)一段文字判斷其中隱藏的情感。顯而易見的是,這兩種技術(shù)都需要對(duì)文本有準(zhǔn)確的理解。事實(shí)上,目前已有的推薦系統(tǒng)大多欠缺對(duì)評(píng)論的良好理解,這是由這類推薦系統(tǒng)的學(xué)習(xí)模式?jīng)Q定。對(duì)于利用主題模型理解文本的系統(tǒng),它僅會(huì)從評(píng)論中提取最顯著的詞,而不關(guān)注提取主題詞與推薦之間的關(guān)系。對(duì)于利用深度學(xué)習(xí)技術(shù)理解文本的系統(tǒng),它會(huì)根據(jù)用戶或物品的全部評(píng)論綜合理解用戶,對(duì)用戶已有屬性或物品特征進(jìn)行補(bǔ)充,而后進(jìn)行評(píng)分預(yù)測。這種模式雖然使得文本中提取的信息與推薦高度相關(guān),但在低層卻缺乏對(duì)單篇評(píng)論文本的準(zhǔn)確理解,從而影響高層對(duì)用戶和物品的理解。與此同時(shí),情感分析能夠有效地對(duì)每篇評(píng)論進(jìn)行分析,是一種更專注于語言理解的技術(shù)。

因此,本文提出SERS,該模型通過情感分析技術(shù)幫助推薦系統(tǒng)理解評(píng)論文本,從而有效提高推薦性能。SERS使用兩個(gè)同結(jié)構(gòu)不同參數(shù)的基于多頭注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行用戶偏好和物品特征的提取,同時(shí)進(jìn)行情感分析任務(wù)(以用戶評(píng)分作為指示器)。對(duì)于每個(gè)用戶-物品對(duì),提取的文本特征會(huì)與用戶和物品固有的特征向量結(jié)合得到新的特征向量。而后通過神經(jīng)網(wǎng)絡(luò),對(duì)用戶和物品的交互建模,進(jìn)行評(píng)分預(yù)測。本文在真實(shí)數(shù)據(jù)集上與現(xiàn)有模型進(jìn)行對(duì)比,證明了該模型擁有強(qiáng)大的推薦性能。

1 相關(guān)工作

隱因子模型是在推薦系統(tǒng)中廣泛使用的一種協(xié)同過濾技術(shù)的實(shí)踐成果。隱因子模型從已有的評(píng)分?jǐn)?shù)據(jù)中觀察用戶的偏好和商品特征,將每個(gè)用戶和商品表征為固定維度的向量,并依此向用戶推薦新商品。

在眾多隱因子模型中,矩陣分解方法[2]無疑是最經(jīng)典的一種,它將推薦任務(wù)轉(zhuǎn)變?yōu)橐粋€(gè)矩陣補(bǔ)全問題。至今,眾多的先進(jìn)模型都是構(gòu)建在矩陣分解的技術(shù)基礎(chǔ)上的。比如,概率矩陣分解[11]方法就是一個(gè)擁有可靠性能,被廣泛采納的推薦框架。該方法從概率的角度實(shí)現(xiàn)了矩陣分解方法,并且在大型稀疏數(shù)據(jù)集上取得了很好的成績。

純粹的矩陣分解方法有一定的問題。沒有觀測到的用戶-物品的評(píng)分對(duì)與用戶數(shù)量和物品數(shù)量的乘積成線性相關(guān),而已知的評(píng)分?jǐn)?shù)據(jù)一般只與用戶數(shù)量成線性相關(guān)。因此,隨著如今網(wǎng)絡(luò)平臺(tái)商品數(shù)量的快速增長,數(shù)據(jù)的稀疏性也不斷增長,這成為了限制傳統(tǒng)模型推薦性能的關(guān)鍵問題。

解決稀疏問題的一個(gè)辦法是利用有價(jià)值的用戶生產(chǎn)的內(nèi)容,如用戶評(píng)論、電影插圖和物品使用指南等。比如,HFT(Hidden Factors and Hidden Topics)模型[6]使用主題模型LDA[12]從評(píng)論中抽取特征,然后矩陣分解方法可以從中獲取到分布參數(shù)的先驗(yàn)知識(shí)。基于傳統(tǒng)主題模型的方法存在的一個(gè)問題是,無法為推薦任務(wù)針對(duì)性地從評(píng)論中提取屬性,只能提取文本中通用的高價(jià)值主題。

近些年來,深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)開始被應(yīng)用于自然語言處理。這股熱潮源自深度網(wǎng)絡(luò)結(jié)構(gòu)在學(xué)習(xí)表示性詞向量上的成功,最著名的有Word2Vec[13]和Glove[14]。這些方法通過訓(xùn)練模型中的詞嵌入層,將數(shù)據(jù)集中的詞知識(shí)存儲(chǔ)在對(duì)應(yīng)的詞向量中。通過使用有意義的詞嵌入向量,幾乎所有被用于閱讀理解、機(jī)器翻譯、語音識(shí)別的技術(shù)都能被無縫地應(yīng)用到自然語言處理當(dāng)中?;谠u(píng)論的推薦系統(tǒng)也得益于自然語言技術(shù)的進(jìn)步,將深度學(xué)習(xí)技術(shù)運(yùn)用到了對(duì)評(píng)論文本的處理當(dāng)中,獲得了很大的進(jìn)步。

Kim等[15]首先在推薦系統(tǒng)領(lǐng)域使用了深度卷積網(wǎng)絡(luò),以N-gram的方式對(duì)評(píng)論文本進(jìn)行建模,抽取出有價(jià)值的特征。該方法的一個(gè)局限在于,只對(duì)物品的評(píng)論文本進(jìn)行建模提取屬性,而沒有意識(shí)到用戶的評(píng)論同樣可以為用戶提供屬性上的補(bǔ)充。

Lu等[16]進(jìn)一步使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)以及注意力機(jī)制從評(píng)論中抽取出主題性的文本特征,并將其引入到概率矩陣分解方法中。該方法同時(shí)對(duì)用戶和物品評(píng)論,并且運(yùn)用了更前沿的自然語言處理技術(shù),因此取得很好的成績。但是該方法沒有真正對(duì)語言知識(shí)進(jìn)行很好的建模,缺乏對(duì)評(píng)論的準(zhǔn)確理解。

與此同時(shí),He等[17]將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到了推薦系統(tǒng)核心的用戶-物品交互上,提出了神經(jīng)協(xié)同過濾框架,驗(yàn)證了深度學(xué)習(xí)在該方面的有效性。本文在該方法基礎(chǔ)上,通過情感分析任務(wù)引入了用戶和物品的補(bǔ)充特征,提高了其預(yù)測性能。另一個(gè)常見的推薦模型是分解機(jī)(Factorization Machines,FM)[18],該方法在模型中手動(dòng)添加特征的多階交叉交互,是一種簡單有效的模型。

2 模型設(shè)計(jì)

2.1 問題定義

給定一個(gè)數(shù)據(jù)集D,數(shù)據(jù)集中每個(gè)初始樣本為(i,j,di,j,ri,j),包含用戶i對(duì)物品j的一條評(píng)論di,j及對(duì)應(yīng)評(píng)分ri,j。對(duì)于情感分析任務(wù),需要根據(jù)評(píng)論文本di,j預(yù)測對(duì)應(yīng)的評(píng)分ri,j,這里,本文將評(píng)分?jǐn)?shù)據(jù)作為評(píng)論文本的情感指示器。對(duì)于推薦系統(tǒng)的評(píng)分預(yù)測任務(wù),則需要根據(jù)用戶u、物品v及用戶u和物品v擁有的全部評(píng)論,對(duì)未知的用戶-物品對(duì)進(jìn)行評(píng)分預(yù)測。在這里,兩個(gè)任務(wù)都利用評(píng)分?jǐn)?shù)據(jù)作為指示器,但是情感分析任務(wù)利用語言知識(shí)對(duì)當(dāng)前的評(píng)論進(jìn)行評(píng)分;而推薦任務(wù)則是利用評(píng)分和評(píng)論數(shù)據(jù)學(xué)習(xí)到每個(gè)用戶和物品的屬性,然后對(duì)給定的用戶-物品對(duì)進(jìn)行評(píng)分預(yù)測。

2.2 基于多頭注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)

本文設(shè)計(jì)一種基于多頭注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行評(píng)論文本的情感分析模型,并且為推薦任務(wù)提供文本特征,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)結(jié)構(gòu)的輸入為評(píng)論文本,輸出有兩個(gè):該段評(píng)論的情感分?jǐn)?shù)s和文本特征向量f。值得注意的是,對(duì)用戶和物品使用兩個(gè)結(jié)構(gòu)相同但參數(shù)不同的網(wǎng)絡(luò)來處理。因?yàn)?,用戶和物品?duì)評(píng)論的關(guān)注點(diǎn)是不同的,需要用不同的方式去從評(píng)論中提取觀點(diǎn)。比如,如果一個(gè)用戶頻繁提到“價(jià)格”,那么說明該用戶對(duì)價(jià)格非常敏感,一般而言更偏好高性價(jià)比的物品;而對(duì)于一個(gè)物品而言,評(píng)論中經(jīng)常出現(xiàn)“價(jià)格”一詞本身代表不了什么,更需要關(guān)注的是“價(jià)格高”或者“價(jià)格低”。

圖1 基于注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

(1) 詞嵌入層。在輸入模型之前,一段文本會(huì)先通過預(yù)處理步驟變成一個(gè)詞的id序列(x1,x2,…,xn),每個(gè)id都對(duì)應(yīng)著建立的詞典里的一個(gè)單詞。詞id序列先通過詞嵌入層,轉(zhuǎn)變?yōu)槌砻茉~向量(w1,w2,…,wn),詞向量中包含著單詞的信息。本文通過使用Word2Vec對(duì)使用的數(shù)據(jù)集進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練的詞向量。該詞向量用以初始化詞嵌入層,隨后詞嵌入層隨著模型一起微調(diào)。這樣的詞向量訓(xùn)練方式,比起直接使用網(wǎng)絡(luò)上利用其他數(shù)據(jù)集已經(jīng)訓(xùn)練好的詞向量,擁有更好的性能。因?yàn)楦鶕?jù)使用的數(shù)據(jù)集訓(xùn)練的詞向量擁有更多領(lǐng)域知識(shí),對(duì)在對(duì)應(yīng)數(shù)據(jù)集上的特定任務(wù)更有幫助。比如,“經(jīng)理”在通用知識(shí)中是一個(gè)中性詞,而在商品評(píng)論中出現(xiàn)時(shí),通常是貶義詞:一般只有用戶在抱怨時(shí)才會(huì)提到“經(jīng)理”。

(1)

(2)

ut=Sigmoid(Wuxxt+Wuhht-1+bu)

(3)

rt=Sigmoid(Wrxxt+Wrhht-1+br)

(4)

式中:⊙是元素點(diǎn)乘操作;tanh和Sigmoid是兩種不同的非線性激活函數(shù);W和b分別是參數(shù)矩陣與計(jì)算偏置項(xiàng);更新門ut決定了過去信息將有多少被新的信息所取代;而重置門rt則決定了上一步的激活單元將為當(dāng)前候選激活單元提供多少的信息。在時(shí)刻t,單詞向量wt通過前饋GRU和反向GRU可以獲得兩個(gè)不同的語義向量,將兩者拼接后得到最終的語義向量ht。直到這一步,模型已經(jīng)得到了對(duì)文本本身的理解,接下來需要根據(jù)任務(wù)對(duì)抽取出的語義向量序列做進(jìn)一步處理。換言之,以上已經(jīng)介紹的結(jié)構(gòu)是情感分析任務(wù)與推薦任務(wù)共享參數(shù)的部分,因?yàn)樗鼈兌夹枰獙?duì)模型的基本語義進(jìn)行準(zhǔn)確的建模。

(3) 注意力層。得到了文本的動(dòng)態(tài)語義信息后,模型通過兩個(gè)不同參數(shù)的注意力結(jié)構(gòu),分別為情感分析任務(wù)與推薦任務(wù),尋找文本中值得注意的信息。事實(shí)上,用戶對(duì)物品會(huì)有不同的關(guān)注角度,同時(shí)一條評(píng)論最終的情感分?jǐn)?shù)也是從多個(gè)角度綜合得出的,而普通的注意力機(jī)制難以解決處理這類問題,因此本文參考了Transformer[9]中的多頭注意力機(jī)制,多角度地尋找文本信息與對(duì)應(yīng)任務(wù)的相關(guān)性。首先是對(duì)已有的語義向量進(jìn)行轉(zhuǎn)換,同時(shí)對(duì)向量進(jìn)行降維,得到:

zt=tanh(Wht+b)

(5)

然后,將轉(zhuǎn)換后的語義向量與語境向量v相乘得到注意力分布,并通過Softmax函數(shù)進(jìn)行歸一化,得到:

(6)

將該注意力分布向量與轉(zhuǎn)換后的語義向量序列進(jìn)行加權(quán)和就得到了文本的語義信息摘要,表示為:

(7)

假設(shè)共有k個(gè)頭,則總的信息摘要為:

c=[c1,c2,…,ck]

(8)

即總的信息摘要向量為各個(gè)不同頭的信息摘要的拼接向量。

通過兩個(gè)不同參數(shù)的注意力網(wǎng)絡(luò),可以分別得到情感語義摘要cs和推薦語義摘要cf。

(4) 映射層。在得到了針對(duì)兩個(gè)不同任務(wù)的文本信息摘要后,需要通過映射層做進(jìn)一步處理。對(duì)于情感分析任務(wù),可以直接根據(jù)摘要進(jìn)行情感分?jǐn)?shù)s的預(yù)測。對(duì)于推薦任務(wù),則需要根據(jù)對(duì)應(yīng)用戶和物品的屬性的維度,通過映射得到文本特征f。這些操作都可以通過全連接層(Fully Connected Layer,FC)完成。

s=tanh(Wcscs+bs)

(9)

f=tanh(Wcfcf+bf)

(10)

情感分?jǐn)?shù)s作為輔助任務(wù)的結(jié)果加入到模型的損失函數(shù)中,幫助模型理解評(píng)論;而用戶和物品都可以根據(jù)其評(píng)論文本得到文本特征,在與其固有屬性e融合后進(jìn)行評(píng)分預(yù)測。

2.3 文本特征擴(kuò)展的神經(jīng)協(xié)同過濾網(wǎng)絡(luò)

通過情感分析任務(wù),每篇文檔都可以得到一個(gè)特征表示。本文對(duì)屬于特定用戶或者特定物品的全部評(píng)論的特征表示取均值,作為該用戶或特征的文本特征,并將該步驟記為encoder以便后文表示。本節(jié)介紹如何利用這些提取的特征進(jìn)行推薦任務(wù)。

推薦部分的算法流程如圖2所示。

圖2 文本特征擴(kuò)展的神經(jīng)協(xié)同過濾算法模型

模型主要包括三個(gè)部分:特征獲取、特征融合和評(píng)分預(yù)測。

(1) 在特征獲取部分,模型將輸入值轉(zhuǎn)換為稠密向量。具體而言,用戶根據(jù)其id在嵌入層得到固有的屬性eu,i,并且通過encoder流程從其全部評(píng)論中提取出文本特征fu,i。物品通過類似的步驟得到屬性ev,j和文本特征fv,j。

(2) 在特征融合步驟,需要將固定特征e與文本特征f結(jié)合,以便用戶和物品的特征交互。為了提高性能,研究者提出了不同的特征融合方式,比如相加、拼接。參考已有的相關(guān)工作[20-21],本文采用了相加的方式將從評(píng)論中提取的特征與固有特征相結(jié)合得到新的用戶特征Fu,i與物品特征Fv,j,具體計(jì)算公式為:

Fu,i=eu,i+fu,i

(11)

Fv,j=ev,j+fv,j

(12)

(3) 在評(píng)分預(yù)測階段,則是根據(jù)用戶和物品的屬性,模擬它們之間的屬性交互,以此推測用戶對(duì)物品的看法,即評(píng)分。最傳統(tǒng)的評(píng)分預(yù)測方式是矩陣分解法,但這種方式存在線性的限制。隨著深度學(xué)習(xí)的發(fā)展,Rendle[18]和He等[17]分別提出了經(jīng)典的分解機(jī)器模型(FM)和神經(jīng)協(xié)同過濾框架(NCF),這兩種方法都能很好地模擬用戶和物品的復(fù)雜交互,進(jìn)行準(zhǔn)確的推薦預(yù)測。本文參考NCF的框架,這一階段的輸入值為用戶融合特征Fu,i和物品融合特征Fv,j,兩者拼接后通過多層的全連接層和tanh激活函數(shù),以計(jì)算交互向量,最后一層使用ReLU作為激活函數(shù)得到最終的預(yù)測分?jǐn)?shù):

(13)

式中:σ(x)=tanh(Wx+b)。

2.4 模型優(yōu)化方式

(14)

(15)

ltotal=(1-γ)lrec+γlsen

(16)

訓(xùn)練時(shí),本文采用Adam[22]作為優(yōu)化器,Adam可以根據(jù)訓(xùn)練過程迭代地更新神經(jīng)網(wǎng)絡(luò)的權(quán)重,有效減少學(xué)習(xí)率的調(diào)整難度。另外,本文使用余弦退火(Cosine Annealing Learning Rate)[23]的學(xué)習(xí)率衰減控制機(jī)制,利用cosine曲線更新學(xué)習(xí)率,更容易找到參數(shù)中的最優(yōu)點(diǎn)。

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集與評(píng)估方式

為了分析模型在不同數(shù)據(jù)集上的表現(xiàn),在四個(gè)真實(shí)世界的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。數(shù)據(jù)集為公開可下載的亞馬遜產(chǎn)品數(shù)據(jù)集[24]中的“Sports and Outdoors”“Grocery and Gourmet Food”“Baby”“Home and Kitchen”。在完整的數(shù)據(jù)集中,部分用戶只有一兩條的評(píng)論,這使得模型難以從評(píng)論中抽取出意見。為此,本文使用5-核的數(shù)據(jù)集:只保留評(píng)論數(shù)量大于等于5的物品和用戶以及對(duì)應(yīng)的評(píng)論數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)集的細(xì)節(jié)如表1所示。

表1 數(shù)據(jù)集統(tǒng)計(jì)信息

為了驗(yàn)證本文提出模型的性能,采用了在評(píng)分預(yù)測相關(guān)工作中被廣泛采用的均方差(Mean Square Error,MSE)作為模型評(píng)價(jià)指標(biāo):

(17)

MSE分?jǐn)?shù)越低,代表預(yù)測評(píng)分越接近真實(shí)值,推薦性能就越高。模型在測試集上以不同隨機(jī)種子計(jì)算5次結(jié)果,取均值作為最后分?jǐn)?shù)。

3.2 基準(zhǔn)模型

為了評(píng)估SERS的推薦性能,本文選擇了若干經(jīng)典推薦模型作為對(duì)比模型,包括:PMF[11]、HFT[6]、ConvMF[7]和TARMF[16]。

(1) PMF:概率矩陣分解法(Probabilistic Matrix Factorization)是矩陣分解方法從概率的角度出發(fā)的一個(gè)經(jīng)典的實(shí)現(xiàn)。它在大型的稀疏數(shù)據(jù)集上表現(xiàn)優(yōu)秀。

(2) HFT:隱因子主題模型(Hidden Factor as Topics)將LDA(Latent Dirichlet Allocation)主題模型并入了矩陣分解中。它是利用主題模型進(jìn)行推薦任務(wù)中文本分析的經(jīng)典模型。

(3) ConvMF:卷積矩陣分解法(Convolutional Matrix Factorization)是首個(gè)引入神經(jīng)網(wǎng)絡(luò)以處理評(píng)論文本的推薦模型,它通過應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)從物品的評(píng)論中抽取物品的特征,并以此擴(kuò)展矩陣分解方法。

(4) TARMF:此模型通過基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)從評(píng)論中提取主題信息,并將該信息引入傳統(tǒng)矩陣分解方法中。

3.3 超參數(shù)調(diào)整

參照對(duì)比模型,本文對(duì)數(shù)據(jù)集按8 ∶1 ∶1的比例進(jìn)行訓(xùn)練集/驗(yàn)證集/測試集的劃分。各個(gè)模型在訓(xùn)練集上進(jìn)行訓(xùn)練,并根據(jù)驗(yàn)證集挑選最優(yōu)參數(shù),最后在測試集上進(jìn)行性能評(píng)估。每個(gè)分?jǐn)?shù)都會(huì)以5個(gè)不同的隨機(jī)種子進(jìn)行測試后取均值。

在實(shí)驗(yàn)中,為避免過度調(diào)參,參數(shù)搜索范圍被限制在較小的范圍內(nèi),并且將在不同數(shù)據(jù)集上擁有較好性能的超參固定。模型中詞向量維度固定為256維,GRU編碼層維度固定為128維,注意力層的狀態(tài)變量維度為16維,共有4個(gè)頭。這些參數(shù)都屬于情感分析部分,在不同數(shù)據(jù)集上都擁有接近最佳的性能,這是因?yàn)椴煌瑪?shù)據(jù)集的評(píng)論是類似的,其語法結(jié)構(gòu)、包含的語言知識(shí)都比較接近。

物品和用戶的嵌入層向量維度取相同的值,記為m,取值范圍為:[4,8,16,32]。SERS中神經(jīng)協(xié)同過濾網(wǎng)絡(luò)的多層全連接層可以調(diào)試的范圍極大,但通過多次實(shí)驗(yàn),發(fā)現(xiàn)固定為4層,每層維度為(8m,4m,2m,m)即可得到較優(yōu)的結(jié)果。

訓(xùn)練時(shí),批大小固定為64就可以得到較優(yōu)的結(jié)果,該參數(shù)過小會(huì)影響最終收斂結(jié)果,而參數(shù)過大則會(huì)導(dǎo)致訓(xùn)練效率低下;學(xué)習(xí)率的設(shè)置則對(duì)結(jié)果影響較大,該參數(shù)的搜索范圍為:[1e-2,5e-3,3e-3,1e-3]。

調(diào)節(jié)系數(shù)γ的搜索范圍為0.1到0.9,間隔0.1。通過在不同數(shù)據(jù)集上的測試,發(fā)現(xiàn)情感損失與推薦評(píng)分損失的調(diào)節(jié)系數(shù)γ為0.5時(shí),推薦任務(wù)的評(píng)分預(yù)測損失最低。

3.4 性能比較

SERS模型與基準(zhǔn)模型在四個(gè)數(shù)據(jù)集的測試集上的評(píng)估分?jǐn)?shù)如表2所示,粗體表示在對(duì)應(yīng)數(shù)據(jù)集上的最佳結(jié)果。

表2 各模型測試結(jié)果

可以看出,SERS的MSE分?jǐn)?shù)超過了對(duì)比模型,說明了SERS擁有強(qiáng)大的推薦性能。

通過觀察可以發(fā)現(xiàn),利用評(píng)論信息的模型的表現(xiàn)都大幅優(yōu)于只能接觸到評(píng)分?jǐn)?shù)據(jù)的模型PMF。這說明評(píng)論信息中,確實(shí)包含了能夠指導(dǎo)推薦的信息,因此如何從評(píng)論中更好地提取信息是一個(gè)值得研究的問題。

HFT模型通過傳統(tǒng)主題模型LDA,從評(píng)論文本中提取出重要的主題信息,用以解決評(píng)分?jǐn)?shù)據(jù)稀疏問題,比起只利用評(píng)分?jǐn)?shù)據(jù)的模型PMF取得了很大的進(jìn)步。但基于概率的傳統(tǒng)主題模型無法動(dòng)態(tài)地捕捉推薦所需要的信息,容易提取與用戶偏好或者物品屬性無關(guān)的特征。

模型ConvMF采用了神經(jīng)網(wǎng)絡(luò)模型,通過卷積神經(jīng)網(wǎng)絡(luò)建模物品的評(píng)論文本,根據(jù)推薦任務(wù)的評(píng)分指示器動(dòng)態(tài)地為矩陣分解方法補(bǔ)充特征,因此性能超過了HFT。該方法的問題在于,僅僅考慮了物品的評(píng)論,而忽視了利用評(píng)論來補(bǔ)充用戶的屬性。

模型TARMF一方面提出利用兩個(gè)不同的編碼器處理用戶評(píng)論文本和物品評(píng)論文本,同時(shí)為用戶和物品提供動(dòng)態(tài)特征;另一方面通過基于注意力的循環(huán)神經(jīng)網(wǎng)絡(luò),捕捉評(píng)論中的主題信息,該網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),因此其性能超過了ConvMF。但是該方法沒有對(duì)語言通用知識(shí)的訓(xùn)練,因此難以準(zhǔn)確理解文本信息。

參考了以上模型的優(yōu)缺點(diǎn),SERS采用了基于多頭注意力的循環(huán)神經(jīng)網(wǎng)絡(luò),同時(shí)為用戶和物品從其評(píng)論文本中抽取推薦所需要的特征;并且增加了對(duì)文本進(jìn)行評(píng)分預(yù)測的任務(wù)輔助推薦模型對(duì)語言進(jìn)行更精確的理解。因此,SERS在測試的四個(gè)數(shù)據(jù)集中穩(wěn)定超過了其他模型。

3.5 情感分析任務(wù)的影響

本文在MSE比較接近的Food和Sport數(shù)據(jù)集上調(diào)節(jié)損失函數(shù)中的平衡系數(shù)γ,以觀察SERS中情感分析任務(wù)對(duì)推薦任務(wù)的影響。γ越接近0,訓(xùn)練目標(biāo)越偏向推薦系統(tǒng),當(dāng)γ為0時(shí),情感分析任務(wù)不起作用。實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 推薦任務(wù)的MSE隨平衡系數(shù)變化而變化的過程

可以發(fā)現(xiàn),當(dāng)γ從0變化至0.5的過程中,推薦模型的損失是逐漸降低的,而后快速上升。這說明,當(dāng)情感分析任務(wù)在所占比重合適時(shí),確實(shí)能夠?qū)ν扑]任務(wù)有所幫助。這是因?yàn)?,這兩個(gè)任務(wù)的進(jìn)行都需要從評(píng)論中挖掘觀點(diǎn),因此兩者底層的語言知識(shí)一定程度上可以互通。在其他數(shù)據(jù)集上也可以觀察到與圖中類似的趨勢。當(dāng)γ系數(shù)過高時(shí),模型更關(guān)注情感分析任務(wù),因此推薦任務(wù)的性能有所下降。

4 結(jié) 語

以往的基于評(píng)論的推薦系統(tǒng)中,通常直接利用從評(píng)論中提取的特征以補(bǔ)充用戶和物品屬性,缺乏對(duì)評(píng)論文本的準(zhǔn)確理解。因此,本文提出一種利用情感分析任務(wù)輔助推薦系統(tǒng)理解語言的方法。在4個(gè)公開數(shù)據(jù)集上進(jìn)行了測試,驗(yàn)證了該方法的有效性。

未來的工作方向有兩個(gè)。首先是增強(qiáng)用戶屬性與物品屬性的交互建模。本文的重心在于增強(qiáng)對(duì)評(píng)論文本的理解,而未對(duì)用戶和物品之間的屬性交互做進(jìn)一步探索,其中存在很大的進(jìn)步空間,比如利用注意力機(jī)制幫助用戶更好地關(guān)注物品的重要屬性。其次,則是加強(qiáng)對(duì)評(píng)論文本的理解。ELMO[25]和BERT[26]等的“預(yù)訓(xùn)練+下游任務(wù)”的模式在自然語言領(lǐng)域取得了重大的進(jìn)步,該如何有效地利用這種模式幫助推薦系統(tǒng)理解評(píng)論文本是一個(gè)值得探索的問題。

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲欧美日韩成人高清在线一区| 亚洲欧美日韩动漫| 一级爆乳无码av| 亚洲最猛黑人xxxx黑人猛交| 在线国产毛片| 99久久国产综合精品女同| 国产91av在线| 欧美日韩综合网| 久久婷婷综合色一区二区| 精品亚洲麻豆1区2区3区| 免费欧美一级| 午夜高清国产拍精品| 欧美日韩精品综合在线一区| 久热99这里只有精品视频6| 成人欧美日韩| 成人免费黄色小视频| 亚洲综合经典在线一区二区| 热久久这里是精品6免费观看| 97精品伊人久久大香线蕉| 国产午夜人做人免费视频| 一级毛片免费观看久| 一级福利视频| 亚洲无码37.| 日本一本在线视频| 99热这里只有精品在线观看| 久久婷婷人人澡人人爱91| 日韩一级二级三级| 福利在线免费视频| AV熟女乱| 素人激情视频福利| 国产香蕉在线视频| 久草视频中文| 免费在线成人网| 都市激情亚洲综合久久| 91精品伊人久久大香线蕉| 亚洲精品男人天堂| 女人天堂av免费| 国产视频自拍一区| 国产一区在线观看无码| 经典三级久久| 国产喷水视频| 视频一本大道香蕉久在线播放| 人人91人人澡人人妻人人爽| 一级成人欧美一区在线观看| 亚洲人在线| 深爱婷婷激情网| 亚洲精品福利网站| 国产不卡一级毛片视频| 亚洲开心婷婷中文字幕| 精品無碼一區在線觀看 | 小说区 亚洲 自拍 另类| 大学生久久香蕉国产线观看| 亚洲三级成人| 日韩精品中文字幕一区三区| 综1合AV在线播放| 国产91精品调教在线播放| 久久伊人操| 亚洲性日韩精品一区二区| 国产成人精品一区二区三在线观看| 伊人蕉久影院| 97综合久久| 在线免费a视频| 一级成人a毛片免费播放| 日韩亚洲综合在线| 国产97视频在线观看| 欧美亚洲国产精品第一页| 久久伊伊香蕉综合精品| Aⅴ无码专区在线观看| 午夜视频日本| 亚洲中文字幕日产无码2021| 国产亚洲精久久久久久无码AV| 伊人久久综在合线亚洲2019| 五月婷婷中文字幕| 极品性荡少妇一区二区色欲| 91精品专区国产盗摄| 国产av色站网站| 亚洲一区二区日韩欧美gif| 手机在线免费不卡一区二| 亚洲va欧美ⅴa国产va影院| 免费看a毛片| 精品91视频| 高清不卡一区二区三区香蕉|