融合評(píng)論文本與評(píng)分交互特征的推薦方法

2023-02-21 13:16:54陳麗瓊范國慶畢曉鈺

計(jì)算機(jī)工程與設(shè)計(jì) 2023年2期

陳麗瓊，范國慶,2，畢曉鈺，郭坤

(1.上海應(yīng)用技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院，上海 201418； 2.上海市行政管理學(xué)校計(jì)算機(jī)系，上海 201803)

0 引言

傳統(tǒng)的協(xié)同過濾算法[1]通常使用用戶對商品的評(píng)分進(jìn)行建模。評(píng)分?jǐn)?shù)據(jù)是用戶對商品最直接的交互，它能夠有效構(gòu)建用戶畫像。但是由于評(píng)分?jǐn)?shù)據(jù)存在數(shù)據(jù)稀疏的問題，影響了推薦結(jié)果的準(zhǔn)確性[2]。評(píng)分的稀疏性問題的實(shí)質(zhì)是數(shù)據(jù)信息的稀疏。因此要解決稀疏性需要引入其它數(shù)據(jù)類型。用戶為商品撰寫的評(píng)論中存在著大量的信息[3-5]。這些文本評(píng)論能夠體現(xiàn)出用戶的偏好以及商品特征信息，是一種語義信息豐富的隱式特征。相比于單純的利用顯式評(píng)分特征，文本信息一方面可以彌補(bǔ)評(píng)分稀疏性的問題，另一方面在推薦系統(tǒng)的可解釋方面也能夠做得更好。例如從用戶對某部電影的評(píng)論中，能夠看出電影的一些情節(jié)特征，還有用戶自己的理解與喜好興趣等。因此，本文提出一種融合文本評(píng)論和用戶評(píng)分交互的推薦模型。利用把評(píng)論文本作為輔助信息來降低評(píng)分矩陣稀疏性的影響達(dá)到提高推薦結(jié)果的準(zhǔn)確性。

1 相關(guān)工作

評(píng)分交互的推薦方法主要是基于隱語義模型的矩陣分解技術(shù)。矩陣分解就是把高維的用戶-商品評(píng)分矩陣分解成為兩個(gè)低維的用戶因子矩陣和商品因子矩陣。使用了用戶向量與商品向量的點(diǎn)積的結(jié)果作為用戶對商品的預(yù)測評(píng)分。但是，現(xiàn)實(shí)生活中用戶評(píng)分的商品會(huì)遠(yuǎn)遠(yuǎn)小于商品總數(shù)，這會(huì)使評(píng)分矩陣存在的數(shù)據(jù)稀疏問題從而影響了推薦結(jié)果的準(zhǔn)確性。Gai Li等[6]提出一種融合CLIMF(collaborative less-is-more filtering)和概率矩陣分解(PMF)的協(xié)同過濾算法,提高了推薦結(jié)果精度，同時(shí)具有低復(fù)雜性等優(yōu)點(diǎn)。GuiBing Guo等[7]將隱式反饋(例如點(diǎn)擊、想要)融入到Top-N的推薦中，以緩解數(shù)據(jù)稀疏問題。Xin Zhou等[8]提出了一種基于項(xiàng)目的通用多方面用戶偏好學(xué)習(xí)(MUPL)框架。通過考慮不同的用戶體驗(yàn)和意圖，從群體、個(gè)人和行為方面捕獲用戶的偏好。JianWu Bi等[9]為了緩解數(shù)據(jù)稀疏問題，利用用戶基本數(shù)據(jù)和商品基本數(shù)據(jù)構(gòu)建了一個(gè)用于預(yù)測用戶收視率的深度神經(jīng)網(wǎng)絡(luò)模型。基于所獲得的用戶特征矩陣和項(xiàng)目特征矩陣，使用完全連接層進(jìn)一步構(gòu)建用戶項(xiàng)目特征矩陣。苑寧萍等[10]融合了社交活動(dòng)的主題分布、用戶的興趣度、用戶之間的信任值。用戶間的綜合相似度由新的興趣度相似矩陣構(gòu)建得到，為了得到個(gè)性化推薦權(quán)值，融合了用戶相似度與信任度兩個(gè)特征。最終的推薦結(jié)果是由具有不同權(quán)重配比的特征而來。

在基于評(píng)論文本的推薦系統(tǒng)，處理評(píng)論文本方法通常分為兩種：①將用戶或者商品的多條評(píng)論拼接成一個(gè)較長的文檔，然后從該文檔中提取全局的用戶特征或商品特征。②將每一條的評(píng)論單獨(dú)建模，然后將評(píng)論中的特征聚合為用戶特征。Donghyun Kim等[11]采用深度學(xué)習(xí)與概率圖模型的結(jié)合方式來提高評(píng)分預(yù)測的準(zhǔn)確性。即將卷積神經(jīng)網(wǎng)絡(luò)用于對商品評(píng)論文本中商品特征的提取，然后采用卷積神經(jīng)網(wǎng)絡(luò)與概率矩陣分解相結(jié)合的方式用于評(píng)分預(yù)測。但是，文章中僅僅使用了商品的評(píng)論數(shù)據(jù)和用戶的評(píng)分?jǐn)?shù)據(jù)。Yufei Wen等[12]有限考慮并利用商品的評(píng)論進(jìn)行建模，采用預(yù)訓(xùn)練的網(wǎng)絡(luò)嵌入代替分布函數(shù)來增強(qiáng)推薦效果。Sunyong Seo等[13]引入了局部注意力機(jī)制和全局注意力機(jī)制來尋找評(píng)論文本中更加具有信息的詞。為不同的詞賦予不同的權(quán)重來為用戶和商品建模。Chin JY等[14]提出了一種基于角度級(jí)別(aspect-based)的神經(jīng)網(wǎng)絡(luò)推薦算法。即基于用戶的評(píng)論角度和商品介紹角度，設(shè)計(jì)了一個(gè)注意力機(jī)制，在學(xué)習(xí)階段只關(guān)注評(píng)論的相關(guān)角度部分。在預(yù)測階段使用共同關(guān)注的機(jī)制。

本文提出一種融合文本評(píng)論和用戶評(píng)分交互兩個(gè)特征的推薦模型。該模型第一步先將關(guān)于用戶的所屬評(píng)論短文本和關(guān)于商品的相關(guān)評(píng)論短文本分別連接成一個(gè)較長的長文檔。然后經(jīng)過編碼層后得到用戶表示和商品表示。再將用戶表示和商品表示向量分別與傳統(tǒng)矩陣分解的用戶潛在因子向量和商品潛在因子向量進(jìn)行融合并進(jìn)行各自評(píng)分，最后經(jīng)過動(dòng)態(tài)的線性加權(quán)融合，做出整體模型的評(píng)分預(yù)測。

2 模型

2.1 問題與符號(hào)定義

表1 符號(hào)及其定義

2.2 模型結(jié)構(gòu)

圖1 推薦算法模型結(jié)構(gòu)

2.2.1 文本特征提取模塊

本文使用詞嵌入(word2vector)模型來獲得評(píng)論文本的語義特征。詞嵌入是一個(gè)基于深度學(xué)習(xí)的輕量化文本處理模型。它不僅能夠分析出語義而且能夠生成每個(gè)此的詞向量表示。詞嵌入模型實(shí)際上是一個(gè)簡單化的神經(jīng)網(wǎng)絡(luò)，它只含有一個(gè)隱藏層的全神經(jīng)網(wǎng)絡(luò)。它將一個(gè)詞的熱編碼(One-Hot)作為輸入層的輸入。然后在隱含層中輸入w*x+b。這里的x就是輸入的詞向量，w和b是參數(shù)。需要注意的是，隱藏層并沒有激活函數(shù)，在這里只是一個(gè)做簡單映射的線性模型。輸出層的維度與輸入層的維度一致并且用Softmax回歸。這個(gè)過程便稱為詞嵌入，即將高維詞向量嵌入到一個(gè)低維空間中的同時(shí)還保留了語義。

(1)

(2)

這里符號(hào)*是卷積操作,bj表示的是偏置項(xiàng),f表示的是激活函數(shù)。在這個(gè)模型中，使用ReLU函數(shù)作為激活函數(shù)。ReLU函數(shù)的定義如下

f(x)=max{0,x}

(3)

然后進(jìn)行最大池化操作，將最大值作為與此特定內(nèi)核相對應(yīng)的特征。在最大池化操作之后，卷積結(jié)果將減小為固定大小的向量

Oj=max{Z1,Z2,Z3,…Z(n-t+1)}

(4)

模型使用多個(gè)過濾器來獲取各種特征，并且卷積層的輸出向量由式(5)進(jìn)行表示

O={o1,o2,o3,…on1}

(5)

這里的n1表示了卷積層的核數(shù)。

最大池化的結(jié)果將伴隨著權(quán)重矩陣W傳到一個(gè)全連接層。如式(6)所表示的，全連接層的輸出xu考慮了用戶u的特征。最終，用戶和項(xiàng)目CNN層的輸出xu和yi可以被獲取

xu=f(w×o+g)

(6)

2.2.2 評(píng)分交互特征提取模塊

特征提取模塊的基礎(chǔ)是奇異值分解(svd)，它是一種矩陣分解算法。矩陣分解技術(shù)是實(shí)現(xiàn)隱語義模型最常使用的方法。矩陣分解算法的基本原理是將原來的大矩陣，分解成兩個(gè)小矩陣的乘積并且要盡可能的與大矩陣相似。在接下來的推薦過程中，使用兩個(gè)小矩陣代替大矩陣。根據(jù)矩陣分解的原理可知，原來的m×n大矩陣會(huì)被分解成m×k和k×n的兩個(gè)小矩陣。這里的k便是隱因子向量。隱因子向量包含了用戶和商品一部分共同擁有的特征。在用戶身上表現(xiàn)為用戶的偏好，在商品上表現(xiàn)為商品的屬性。一般的，隱因子數(shù)量k要遠(yuǎn)遠(yuǎn)小于用戶的數(shù)量和商品的數(shù)量。矩陣分解利用用戶信息和商品信息中的隱含結(jié)構(gòu)進(jìn)行建模，它能夠挖掘出用戶和商品的關(guān)系。

存在一個(gè)評(píng)分矩陣R，每行代表一個(gè)用戶(User)，每列代表一個(gè)商品(Item)，其中的元素表示User對Item的打分，空表示User未對Item打分。矩陣可分解為矩陣乘積

Rui=PukQki

(7)

式中：下標(biāo)u和i分別表示用戶數(shù)以及商品數(shù)。

接著使用R中的已知評(píng)分訓(xùn)練矩陣P和Q使得矩陣P和Q相乘的結(jié)果能夠擬合已知的評(píng)分，則待預(yù)測的評(píng)分也就可以由P的某一行與Q的某一列相乘得到了

(8)

(9)

(10)

其中，對于One-hot編碼表示的xu和xi，表示隱空間向量為：pu和qi；p和q分別表示用戶數(shù)目和商品數(shù)目；Zint具有交互特征的高級(jí)向量。特征提取模塊原理圖如圖2所示。

圖2 評(píng)分特征提取模塊

由于特征之間的關(guān)聯(lián)程度將對事件發(fā)生結(jié)果產(chǎn)生重要的影響。因此需要構(gòu)造組合特征來表示特這之間的關(guān)聯(lián)。本文所述特征提取模塊的輸出結(jié)果是用戶、商品的評(píng)分特征和文本特征，但是它們并不在同一個(gè)特征空間中。因此，本文分別將特征提取層的高維稀疏向量引入了因子分解機(jī)來解決特征之間組合的問題。因子分解機(jī)作用是分別為每一個(gè)特征引入了一個(gè)具有低維特點(diǎn)以及具有稠密特點(diǎn)的向量特征xi，并因子分解機(jī)使用特征間向量特征的內(nèi)積來衡量特征間的相關(guān)性。這樣可以解決推薦系統(tǒng)工作中存在的兩個(gè)特征交集數(shù)據(jù)稀少甚至沒有的問題而且這樣可以很好地衡量兩者之間的相關(guān)性，從而能夠有效解決推薦系統(tǒng)中存在的數(shù)據(jù)稀疏帶來的相關(guān)問題

(11)

式中：w=(w1,w2,w3,…wn) 是n維向量。w0、w∈Rn、V∈Rn×k是模型參數(shù)。vi、vj是類似于矩陣分解中的用戶或者商品的k維向量。V是由vi組成的矩陣。表示的是兩個(gè)k維向量的內(nèi)積。

2.2.4 評(píng)分預(yù)測模塊

(12)

(13)

3 實(shí)驗(yàn)設(shè)計(jì)與分析

3.1 數(shù)據(jù)集分析介紹及模型評(píng)價(jià)指標(biāo)

本文用于實(shí)驗(yàn)驗(yàn)證模型的數(shù)據(jù)集是亞馬遜的商品的一系列數(shù)據(jù)集，它是推薦系統(tǒng)方向常用的數(shù)據(jù)集，具有一定的權(quán)威性。它包含了Automotive(亞馬遜汽車)、Music(亞馬遜數(shù)字音樂)、Beauty(亞馬遜美妝)、Toys(亞馬遜玩具游戲)、Sports(亞馬遜運(yùn)動(dòng)和戶外)。特別的，對于SVD和NMF算法，需要將數(shù)據(jù)處理為user_id-item_id-ra-ting的格式。

在這些數(shù)據(jù)集中，對于每一個(gè)對象，本文我們都將使用到它們包含已有的4個(gè)特征。4個(gè)特征分別是用戶編號(hào)(UserId)、商品編號(hào)ItemsId)、用戶對商品的打分(1～5分且為整數(shù))、用戶對商品的評(píng)論文本。本文在進(jìn)行實(shí)驗(yàn)驗(yàn)證前對上述的數(shù)據(jù)集進(jìn)行了一些必要的統(tǒng)計(jì)。上述數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)信息見表2。

表2 數(shù)據(jù)集統(tǒng)計(jì)信息

Density代表評(píng)分矩陣密度D，它度量評(píng)分矩陣的稀疏程度，它的定義是

雖然最密切聯(lián)系原則已經(jīng)作為一項(xiàng)“兜底條款”寫入了我國《法律適用法》的總則部分，其在我國的司法實(shí)踐中也成為了法官運(yùn)用的最多的法律選擇方法之一，但是我國學(xué)界對于該原則的評(píng)價(jià)始終是褒貶不一的。大部分學(xué)者對該原則持支持贊成的態(tài)度，認(rèn)為最密切聯(lián)系原則使得連結(jié)因素多樣化，增強(qiáng)了法律選擇的靈活性，增強(qiáng)了國際私法對新情況的適應(yīng)能力；同時(shí)賦予了法官很大的自由裁量權(quán)，拋棄了“法律關(guān)系本座說”的機(jī)械性做法，并采用了柯里的“政府利益分析說”利益分析的方法決定法律的適用，“最密切聯(lián)系原則已成為當(dāng)今國際私法界共同的語言與趨勢，并被某些國際私法學(xué)者奉為至高無上、神圣不可侵犯的理論。”但是，學(xué)界依然存在對該原則的批判之聲：

(14)

由表2以及矩陣密度公式可知，本文采用的數(shù)據(jù)集評(píng)分矩陣密度都低于1%。這表明，雖然每個(gè)數(shù)據(jù)集中用戶和商品數(shù)量很大，但是每個(gè)用戶對商品進(jìn)行打分的交互行為卻很少，表明本文中采用的5個(gè)實(shí)際數(shù)據(jù)集的評(píng)分?jǐn)?shù)據(jù)是及其稀疏的。這將影響到矩陣分解模型對預(yù)測評(píng)分的準(zhǔn)確度。同時(shí)從表2可知，這5個(gè)數(shù)據(jù)集都包含一定的相關(guān)用戶評(píng)論和相關(guān)商品評(píng)論，用戶的偏好以及商品特征能夠很好地從這些文本評(píng)論中體現(xiàn)。這些具有豐富的語義信息的信息是一種隱式特征。因此使用這些文本信息可以彌補(bǔ)評(píng)分稀疏性的問題。由于本文所述模型的思路主要是采用融合評(píng)論文本數(shù)據(jù)作為額外的特征來源來緩解推薦系統(tǒng)中存在的數(shù)據(jù)稀疏問題。因此本文對商品評(píng)論中的文本長度進(jìn)行了統(tǒng)計(jì)來說明評(píng)論文中蘊(yùn)含信息。評(píng)論長度分布如圖3所示。

圖3 文本數(shù)據(jù)長度分布

由圖3可知，每個(gè)數(shù)據(jù)集的文本長度集中在50～150之間，都超過了30%。除了音樂數(shù)據(jù)集，文本長度在0～50個(gè)詞也都超過了40%。因此可以發(fā)現(xiàn)，大部分的用戶和商品都相應(yīng)的具有一定長度的評(píng)論文本，而在這些評(píng)論文本中都蘊(yùn)含了大量的特定用戶的某些偏好特征和特定的商品特征。因此可以通過融入評(píng)論文本信息的手段來實(shí)現(xiàn)有效的緩解數(shù)據(jù)稀疏的問題并提高預(yù)測評(píng)分準(zhǔn)確度的目的。

通過對比本文模型和其它推薦模型(Svd、Svdpp、NFM、CONVMF、DeepCoNN)的常用度量指標(biāo)均方誤差RMSE和平均絕對誤差MAE作為推薦結(jié)果的評(píng)價(jià)指標(biāo)來評(píng)價(jià)本文模型。其中RMSE和MAE的值越小表示模型的準(zhǔn)確性越高。

RMSE的定義如下

(15)

MAE的定義如下

(16)

3.2 對比模型

為了完成本文的對比實(shí)驗(yàn)，本文設(shè)計(jì)的對比實(shí)驗(yàn)主要有以下兩個(gè)目的：①融合評(píng)論文本信息的推薦方法是否比傳統(tǒng)的協(xié)同過濾算法準(zhǔn)確度更高。②相比較于單純的基于文本評(píng)論的推薦方法，融合矩陣分解和文本評(píng)論方法的準(zhǔn)確度更高。在對比實(shí)驗(yàn)中我們采用了兩大類5個(gè)模型進(jìn)行對比。其中SVD、SVDpp、NMF、ConvMF代表矩陣分解方法；DeepCoNN代表基于評(píng)論文本方法。

(1)SVD是基于隱語義模型(latent factor models)。將數(shù)據(jù)映射到低維空間，然后計(jì)算低維空間中的商品之間的相似度，對用戶未評(píng)分的商品進(jìn)行評(píng)分預(yù)測。

(2)SVDpp在隱語義模型的基礎(chǔ)上，將隱式反饋信息作為補(bǔ)充信息加入。例如用戶瀏覽行為、點(diǎn)擊行為等反饋信息，使用用戶的歷史數(shù)據(jù)來更的挖掘出用戶完整的偏好。SVDpp與SVD相比進(jìn)一步提高模型預(yù)測精度。

(3)NMF非負(fù)矩陣分解模型。將一個(gè)非負(fù)矩陣分解成兩個(gè)非負(fù)矩陣的乘積以解決非負(fù)性引發(fā)的稀疏問題和計(jì)算過程中的部分分解問題。

(4)ConvMF將卷積神經(jīng)網(wǎng)絡(luò)(cnn)與概率矩陣因式分解(pmf)相結(jié)合來提高預(yù)測精度。

(5)DeepCoNN深度協(xié)同神經(jīng)網(wǎng)絡(luò)模型是一種分別用于提取用戶評(píng)論集和商品評(píng)論集中特征的深度學(xué)習(xí)模型。它的局限是僅利用評(píng)論文本中的信息來解決數(shù)據(jù)稀疏問題。

3.3 實(shí)驗(yàn)設(shè)計(jì)

我們使用了常用算法的參數(shù)設(shè)置來對參數(shù)初始化，并微調(diào)使其達(dá)到性能最佳。我們在Sports數(shù)據(jù)集上使用格子搜索法從 {8，16，32，64} 尋找本模型和SVD、SVDpp、NMF、DeepCoNN模型的最佳隱因子個(gè)數(shù)。如圖4和圖5所示的是不同隱因子個(gè)數(shù)對本文模型結(jié)果和對比模型結(jié)果的影響。

圖4 不同隱因子個(gè)數(shù)對實(shí)驗(yàn)結(jié)果的影響(RMSE)

圖5 不同隱因子個(gè)數(shù)對實(shí)驗(yàn)結(jié)果的影響(MAE)

由圖4、圖5可知，除了NMF算法在 (8，16，32) 上，實(shí)驗(yàn)結(jié)果隨著隱因子個(gè)數(shù)的增加而明顯變好，這里我們可知增加隱因子個(gè)數(shù)可以提高預(yù)測精度。但是隱因子個(gè)數(shù)從32增加到64時(shí)，實(shí)驗(yàn)結(jié)果的誤差在這個(gè)范圍內(nèi)有一定的所增長。通過分析，我們認(rèn)為這里誤差增長的原因是由設(shè)置的隱因子數(shù)量過多而引起的過擬合現(xiàn)象。分析可知，隨著隱因子個(gè)數(shù)在一定范圍內(nèi)增加，模型可以更好學(xué)習(xí)到用戶和商品特征即用戶畫像得到了完善，提高了預(yù)測評(píng)分的準(zhǔn)確度。但是過多的隱因子個(gè)數(shù)使得系統(tǒng)過擬合，不利于系統(tǒng)分辨出隱因子是否為用戶和商品的真實(shí)特征，降低了預(yù)測評(píng)分的準(zhǔn)確度。為了使模型達(dá)到最優(yōu)性能，提高算法的速度，本文在接下來的實(shí)驗(yàn)中將隱因子的個(gè)數(shù)設(shè)置為32。對于深度模型DeepCoNN和本文算法的參數(shù)設(shè)置如下：Batch_size=100、embedding_dim=300、filter_sizes=3、num_filter=100、dropout_keep_prob=0.5、num_epochs=10。

本文采用了Dropout指標(biāo)來緩解實(shí)驗(yàn)的過擬合的發(fā)生，起到正則化的效果。本文在Automotive數(shù)據(jù)集上對DeepCoNN模型和本文模型的Dropout指標(biāo)在 (0.1，0.3，0.5，0.7，0.9) 范圍內(nèi)進(jìn)行尋優(yōu)。實(shí)驗(yàn)結(jié)果見表3。

表3 不同Dropout值對實(shí)驗(yàn)結(jié)果的影響(RMSE/MAE)

由表3上的結(jié)果可知：①本文模型與DeepCoNN模型相比，隨著Dropout值的變化，本文模型在Automotive數(shù)據(jù)集上的RMSE值和MAE值均優(yōu)于DeepCoNN的RMSE值和MAE值，這體現(xiàn)出了本文推薦方法相比于DeepCoNN方法更加接近實(shí)際值。②機(jī)器學(xué)習(xí)的模型中，如果模型參數(shù)過度會(huì)導(dǎo)致過擬合的現(xiàn)象。因此可以為模型設(shè)置恰當(dāng)?shù)腄ropout比率值來緩解過擬合現(xiàn)象、提升模型的性能。在這里我們將Dropout值設(shè)置為常用值0.5。③由RMSE和MAE的定義可知，RMSE指標(biāo)更容易受到預(yù)測極值的影響，這也體現(xiàn)了出了系統(tǒng)的預(yù)測的穩(wěn)定性。本文模型的RMSE和MAE相比于DeepCoNN更小，這意味著本文模型的預(yù)測值比DeepCoNN更加平緩且接近真實(shí)值。

與對比模型在不同數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果如圖6和圖7所示。

圖6 RMSE結(jié)果對比

圖7 MAE結(jié)果對比

圖6、圖7顯示的是本文提出模型的評(píng)分預(yù)測結(jié)果與對比模型的評(píng)分預(yù)測結(jié)果。分析圖6、圖7實(shí)驗(yàn)結(jié)果，本文有以下結(jié)論：在同樣考慮評(píng)論文本的模型中，本文模型相較于其它基于文本預(yù)測模型(ConvMF、DeepCoNN)而言，RMSE指標(biāo)和MAE指標(biāo)更低即預(yù)測的結(jié)果更加接近實(shí)際值。本文認(rèn)為當(dāng)中的原因是：其它基于文本預(yù)測模或只考慮文本數(shù)據(jù)中蘊(yùn)含的用戶偏好或只考慮了商品特征信息而忽略了完整的評(píng)論中的用戶和商品信息以及用戶對商品的直接評(píng)分的交互的影響。因此可知，用戶的評(píng)分特征信息與用戶為商品撰寫的評(píng)論中蘊(yùn)含的大量的信息將對預(yù)測結(jié)果產(chǎn)生積極的影響。這些文本評(píng)論能夠體現(xiàn)出用戶的偏好以及商品特征信息，是一種語義信息豐富的隱式特征。本文在基于文本信息的基礎(chǔ)上融合評(píng)分交互，使得用戶偏好以及商品特征信息更加完善，提高了模型的準(zhǔn)確率。與傳統(tǒng)評(píng)分矩陣模型(SVD、SVDpp)相比，預(yù)測結(jié)果也優(yōu)于它們，這也驗(yàn)證額本文的猜想，即評(píng)論文本中蘊(yùn)含的用戶偏好以及商品特征信息較好彌補(bǔ)了矩陣分解技術(shù)中的矩陣稀疏性的缺點(diǎn)，提高了評(píng)級(jí)預(yù)測精度。

4 結(jié)束語

通過上述的研究可以知道：評(píng)論文本作為推薦算法的輔助信息相比單純利用評(píng)分交互特征，可以有效緩解了數(shù)據(jù)稀疏性帶來的影響提高了預(yù)測評(píng)分的準(zhǔn)確度。本文提出了融合評(píng)分矩陣和評(píng)論文本的優(yōu)化推薦模型，提取了用戶評(píng)論和商品文本評(píng)論中蘊(yùn)含的豐富的隱式特征并將其與傳統(tǒng)的矩陣分解模型得到的用戶的偏好以及商品特征信息相融合以完善用戶偏好和商品特征。本模型可以較好解決的傳統(tǒng)模型的矩陣稀疏問題，提高了模型評(píng)分預(yù)測的準(zhǔn)確度。由于處理評(píng)論文本需要大量的計(jì)算資源，這導(dǎo)致了推薦算法不夠靈活。未來的研究中，會(huì)關(guān)注微服務(wù)在推薦系統(tǒng)中的應(yīng)用。將輔助信息以一個(gè)微服務(wù)模塊，提高系統(tǒng)的可擴(kuò)展性。