999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合自編碼器和卷積神經網絡的推薦系統

2021-02-25 09:14:32劉鐘濤劉蘭淇
計算機工程與設計 2021年2期
關鍵詞:用戶實驗系統

劉鐘濤,劉蘭淇

(河南財經政法大學 現代教育技術中心,河南 鄭州 450046)

0 引 言

許多研究人員對協同過濾方法進行了有價值的研究[1-3],有效地緩解了稀疏評分矩陣的問題,但是受限于評分信息的數量,依然難以準確預測出缺失的評分信息。

隨著電子商務的廣泛應用,每條交易信息包含了用戶評論內容、曬圖、用戶檔案、商品介紹、商家檔案等一系列數據,傳統基于評分的協同過濾方法已經難以準確地評估出用戶相似性和項目相似性。除了協同過濾推薦方法,基于內容的推薦方法成為了推薦系統領域的研究熱點。

為了充分利用用戶評論的信息,設計了方面級的觀點挖掘算法[4,5],分析用戶對產品每個方面的情感極性。當前的觀點挖掘算法大多為觀點的每個方面分配相等的權重[6],但在推薦系統問題中,用戶對不同方面的重視程度有所差異,某些用戶可能偏愛外觀好的產品、某些用戶可能偏愛物流快的產品,因此分配相等權重很難提取出用戶的細粒度興趣。為了更加契合現實的產品推薦場景,提出了新的方面級加權觀點挖掘方法,利用深度學習技術提取產品的每個方面及其情感極性,再估計出用戶對不同方面的權重,最終結合觀點的分析結果為用戶提供推薦的項目列表。

1 方面級的評論分析方法

現有的觀點挖掘算法直接從文字評論提取觀點[7],未能很好地和推薦系統相結合,本文設計了基于深度學習的觀點提取技術,使用張量分解法計算每個方面的加權調和評分值,最終預測出用戶的評分。假設推薦系統的項目集為P={p1,p2,…,pn},用戶集為V={v1,v2,…,vn}。設R表示用戶-項目評分矩陣,矩陣元素rij表示用戶vi對項目pj的評分。另外創建一個標識矩陣M=[mij]I×J,每個變量mij表示評分rij是否具有評論內容。

圖1 推薦系統的完整框架

1.1 基于MCNN的評價對象抽取

方面級觀點挖掘包含4個要素:方面、觀點持有者、觀點語義和情感,可描述為持有者對某一方面給出具有情感的語義。CNN在觀點挖掘問題上表現出較好的性能,本文設計了雙通道CNN結構提取產品的方面級觀點。

圖2是CNN的總體結構。CNN包括兩個輸入通道:詞嵌入(Word Embedding)通道和詞性(Part of Speech)標注嵌入通道。詞嵌入通道的目標是學習評論內容的語義和上下文信息,該通道采用成熟的word2vec[8]模型實現,該模型采用CBOW框架在大規模Google新聞語料庫上訓練而來。CNN的詞嵌入通道將每個詞映射到低維向量,生成矩陣X∈Rn×k。詞性標注嵌入通道也采用了成熟的Stanford POS Tagger編碼[9],以一個45維向量表示詞性,詞性表示為:wz∈Rn×45。

圖2 CNN的總體結構

(1)卷積層

卷積層從產品評論中提取最顯著的特征。該層通過兩個大小不同的filter生成局部特征,詞嵌入通道和標注通道的filter大小不同。設wx∈Rh×k為詞嵌入通道的filter,h為filter的高度,X為詞嵌入通道的矩陣。卷積層提取特征的數學式可表示為

Ci=f(w·xi+h+b)

(1)

式中:f為非線性函數,b為偏置項。通過滑動窗口尋找X中的所有可能詞,獲得一個特征圖

(2)

式中:cx∈Rn-h+1。

標注嵌入通道的filter設為wz∈Rh×l,其對應的特征圖表示為

(3)

式中:cz∈Rn-h+1。

(2)池化層

通過最大池化層提取出卷積結果的最大元素,池化層的數學模型可表示為

(4)

(5)

式中:n和m分別為語義特征和標注特征的數量。

(3)輸出層

最終運用softmax函數生成輸出標簽。輸出層的數學式可表示為

O=w·(c°r)+b

(6)

式中:r=Rn+m服從伯努利分布。

1.2 方面聚類

在許多產品評論中用戶涉及了多個方面,但有些方面可以歸納為一組,例如:“快遞速度快!”和“發貨神速!”這兩個評價屬于同一個類型。因此需要對CNN提取的方面信息進行歸納處理,但用戶評論中存在大量不規范的語言表述方式,難以通過現有的聚類算法和距離度量方法直接進行分組。為此本文設計了基于自編碼器的方面級評論歸納方法。

評論歸納的目標是將詞語(方面)映射到實向量空間,使兩個詞之間的距離轉化成實向量空間中的距離,然后使用K-means方法對方面進行聚類(方面數量K值由實驗確定)。映射函數F()需服從兩個約束條件:①在實向量空間中,一個特定詞和它的不規范詞之間的距離應當小于該詞和其它不規范詞之間的距離。②在實向量空間中,意義相似的詞之間距離應當小于意義不相似詞的距離。本文使用降噪自編密碼器實現第①個約束。采用上下文編碼器實現第②個約束,編碼器假設上下文相同的詞意相似。

(1)降噪自編碼器設計

自編碼器的結構包括輸入層、隱藏層和輸出層3個部分。假設x為一個訓練樣本,自編碼器的目標是學習一個函數id(x)≈x。如果對自編碼器設置約束條件,那么函數id()能夠學習數據的特征和結構。為輸入數據增加噪聲也是一種約束,自編碼器識別出最相關的特征,該類型的自編碼器稱為降噪自編碼器。

h(v(mj))=o(Wv(mj)+b)

(7)

其中,W為權重矩陣,o為激活函數,b為偏置項。W的每個元素wpq表示v(mj)第p個元素和自編碼器第q個隱層單元間連接的權重。

(8)

(9)

其中,函數d()表示在實向量空間的距離度量函數。

圖3 降噪自編碼器的網絡結構

(2)上下文編碼方法

將自編碼器與上下文環境連接起來,上下文定義為一個詞語序列a1,a2,…,aT,其中at∈A。上下文編碼器的目標是學習一個概率函數g(),g()能反映每個詞在給定上下文的概率,g()定義為詞at出現在序列at-1,…,at-s-1之后的可能性,表示為g(at,at-1,…,at-s-1)=P(at|at=1,…,at=s=1)。將g()分成兩個子函數:①將詞語ai∈A映射成向量的函數:u(ai),表示詞ai在詞集中相關聯的詞向量。②詞向量空間的概率函數:f(),f()根據上下文的詞向量序列(u(at),u(at-1),…,u(at-s-1)),計算出下一個詞at的條件概率分布:g(at,at-1,…,at-s-1)=f(u(at),u(at-1),…,u(at-s-1))。

函數g()是u()和f()的復合函數,通過上下文編碼器學習函數g(),編碼器的網絡結果如圖4所示。圖中矩陣U為詞向量矩陣,f()的參數設為ω。通過最大化以下的對數似然來訓練神經網絡

(10)

f()采用softmax輸出層,定義為

(11)

其中,y為神經網絡隱層的輸出,y的計算式為

(12)

圖4 上下文編碼器的網絡結構

(3)詞空間的距離

如果h和v為雙射函數,那么降噪自編碼器h(v(ai))也滿足從詞空間C到h(v(C)?n的雙射關系。由此可得詞ai和aj自編碼器表示之間的距離函數Da在空間詞空間C中也具備距離度量能力,Da距離定義為

Da(ai,aj)=d(h(v(ai)),h(v(aj)))

(13)

圖5是降噪自編碼器和上下文編碼器混合的深度網絡結構,初始化函數v是詞的獨熱編碼,考慮自編碼器和上下文編碼相結合獲得映射函數F,因此包含上下文關系的距離度量方法為

Dc(ai,aj)=d(F(ai),F(aj))

(14)

其中,Dc可視為對Da的擴展,Dc含有詞的上下文關系。

圖5 混合編碼器的網絡結構

自編碼器的目標是最小化正確詞和非標準詞向量表示之間的距離,上下文編碼器則同時學習了矩陣U中標準詞和不規范詞的向量表示。

2 觀點挖掘和推薦系統的結合方法

2.1 計算方面級的評分

上文獲得了歸納后的方面集和觀點集,然后估計方面級的評分矩陣R1,R2,…,RK,K為方面數量。首先采用語義Wordnet方法[10]計算每個方面的情感極性評分,假設ak是評論Dij的一個方面,那么該方面評分的計算式為

(15)

式中:Wk表示Dij中與方面ak相關的詞集,OP(w)表示詞的極性評分。

2.2 估計方面級的權重

(16)

式中:R為一維張量元素的數量,運算符“°”表示向量外積運算,xr、yr和zr分別為矩陣X、Y和Z的列向量,I×R、J×R和K×R分別為X、Y和Z的大小。式(16)的元素級計算式為

(17)

(18)

通過對以下目標函數進行最小化處理,計算出矩陣X、Y和Z的最優值

(19)

約束條件為

gijk≡-wijk≤0

(20)

(21)

式中:i=1,…,I,j=1,…,J,k=1,2,…,K,gijk和hij為約束條件。使用梯度下降法[11]估計式(17)的最佳矩陣X、Y和Z。

(22)

2.3 預測用戶評分

(23)

式中:D為張量的維數。

3 仿真實驗與結果分析

本文利用方面級觀點挖掘技術以提高推薦系統的性能,因此對系統的方面級觀點挖掘技術和總推薦系統分別進行了驗證實驗。

3.1 方面提取實驗

采用觀點挖掘問題常用的Amazon數據集[13]作為benchmark數據集,從該數據集選擇3種產品的文字評論,分別為DVD,Canon和Cell phane。數據集的每個句子被標注了方面和觀點極性。表1是數據集的介紹。

表1 實驗數據集的統計信息

(1)對比方法和參數設置

本次實驗采用了4組對比模型:①基于字典學習的觀點挖掘算法(DLC)[14],②基于循環深度學習的觀點挖掘(DLM)[15],③基于CNN和SVM的觀點挖掘算法(CNN-SVM)[16],④基于種群優化聚類的觀點挖掘算法(SwarmC)[17]。本文觀點挖掘算法包含聚類技術和卷積神經網絡技術,通過CNN-SVM[16]可評估本文改進CNN模型的性能。

本文的CNN模型嵌入層和卷積層均采用大小為(3,4,5)的filter。每個filter包含100個特征圖,dropout率為0.5。將ReLU作為激活函數,隱層單元數量為128。采用隨機梯度下降法訓練CNN模型,基于5折交叉驗證方法確定網絡的參數。鑒于F1-score指標綜合了精度指標和召回率指標,采用F1-score作為總評價指標。

(2)方面提取實驗的結果

圖6是5個觀點挖掘算法的F1-score結果,實驗結果的置信度為95%。圖中顯示,DLC和SwarmC兩個算法的性能低于其它3個算法,由此可看出當前的深度學習技術在觀點挖掘問題上具有較好的效果。另外比較DLM和CNN-SVM兩個算法,CNN-SVM的結果略好于DLM,CNN-SVM通過經典CNN提取評論的觀點和詞性,再通過SVM對觀點進行歸納。DLM所采用的循環神經網絡包含忘記機制導致提取的特征集稀疏性較高,因此未能達到CNN-SVM的性能。本文系統的性能則略高于CNN-SVM,由此總結出:本文的CNN雙通道結構有效地增強了方面級觀點檢測的性能,基于混合編碼器的觀點歸納方法也有效地提高了觀點挖掘的性能。

圖6 觀點挖掘實驗的結果

3.2 推薦系統實驗

基于內容的推薦系統通常需要具備評分預測能力和良好的推薦結果,在此對本文系統的評分預測能力和推薦性能進行了實驗評估。使用McAuley[18]收集的Amazon數據集,該數據集包含大量產品的評論內容和評分信息,原數據集十分龐大,選擇其中兩個產品類別進行實驗:樂器類產品和影音類產品。篩選出評論數量在5條以上的用戶以及被評論數量在5條以上的產品,將其它不滿足條件的數據刪除。將數據集隨機選擇80%作為訓練集、10%作為測試集、10%作為驗證集,驗證集用于微調神經網絡的超參數。表2是最終實驗數據集的統計信息。

表2 實驗數據集的統計信息

(1)性能評價指標和對比模型

采用RMSE和MAE兩個指標評估評分預測的性能,RMSE指標定義為

(24)

MAE指標定義為

(25)

式中:T為測試集的實例數量。

采用pre@10和平均精度均值(MAP)指標評估推薦結果的性能。pre@10統計了推薦系統返回的10個項目中包含了多少個相關項,定義為

(26)

MAP指標則重點評價了推薦項目列表的排列質量,相關度高的項目應當被優先推薦。設查詢qi∈Q的相關項為{i1,…,im},Rjk為推薦系統返回的前ik個項,MAP的計算方法為

(27)

本次實驗采用了4組對比模型,基于模糊系統的評分預測和推薦系統(SAwareRP)[19],基于圖模型和特征向量的評分預測和推薦系統(GraphRP)[20],結合循環神經網絡和反向傳播神經網絡的評分預測和推薦系統(RNN&BPNN)[21],基于觀點挖掘的協同過濾推薦系統(CFOM)[22]。SAwareRP和GraphRP是和本文系統不同類型的評分預測技術,通過這兩個模型觀察不同系統類型的性能差異。RNN&BPNN是一個采用多層深度深度學習技術的評分預測技術,通過該模型觀察本文所采用的卷積神經網絡是否有效。CFOM也是基于觀點挖掘的評分預測技術,該技術僅對評論觀點的極性進行了粗粒度的分析,通過該模型觀察本文方面級的評論挖掘技術是否有效。

(2)參數K實驗

本系統將CNN挖掘的觀點分為K個分組,選擇不同的K值進行了實驗,觀察K值對系統性能的影響。圖7是值為{5,10,15,20,25,30}時,推薦系統在驗證集上的平均RMSE結果和平均MAE結果。圖7中結果顯示,兩個數據集在K=15-20之間的預測性能最佳,K值過高會破壞方面和潛在因子矩陣之間的一對一映射關系,從而導致預測性能下降。在下文的實驗中將K參數設為15。

圖7 在驗證集上的試錯實驗

3.3 評分預測性能

圖8是不同系統在測試集上的平均預測實驗結果。綜合圖中的全部結果,RNN&BPNN并未利用產品的評論信息,而是分析了用戶的個人檔案和評分信息,其評分預測的性能略低于其它4個系統。此外,基于觀點挖掘的評分算法CFOM和本文系統優于其它3個算法,由此可確定挖掘產品的評論信息具有明顯的效果。CFOM對評論內容給出總體的極性判斷,如消極、中性和積極等,而在實際情況下,某些用戶可能偏愛外觀好的產品、某些用戶可能偏愛物流快的產品,因此通過總體極性判斷很難提取出用戶的細粒度興趣。本文系統則深入分析了評論的方面級觀點,并通過三階張量分解技術估計用戶對每個方面的權重值,通過細粒度的觀點分析提高了評分預測的準確性。

圖8 在測試集上的實驗

本文系統的優勢在于加強了對評論不同方面的觀點挖掘,提高了評分預測的魯棒性和總體質量,該實驗也表明高質量的觀點挖掘技術能夠促進推薦系統的推薦性能。

3.4 推薦結果的質量評價

基于預測的評分為每個測試用戶產生一個Top-10的推薦項目列表,列表的項目按用戶的偏好降序排列。圖9是每個推薦系統的推薦列表pre@10指標和MAP指標。

圖9 每個推薦系統的推薦列表質量

圖9中CFOM的評分預測性能較好,但是該系統經過協同過濾的矩陣分解之后推薦的精度有所衰減,但CFOM的項目排列質量較為理想。SAwareRP的評分預測性能略低于其它模型,但該系統通過在矩陣分解過程中設立了約束,有效地提高了推薦系統的推薦質量。SAwareRP系統對樂器類產品的MAP指標較好,與本文系統較為接近。本文系統的pre@10指標和MAP指標明顯高于其它4個推薦系統,由此可看出本文系統加強了對評論不同方面的觀點挖掘,提高了評分預測的魯棒性和總體質量,該實驗也表明高質量的觀點挖掘技術能夠促進推薦系統的推薦性能。

4 結束語

為了更加契合現實的產品推薦場景,提出了一種方面級加權觀點挖掘方法,并將該方法應用于推薦系統。系統通過卷積神經網絡學習評論內容在方面級的情感和觀點,然后基于降噪自編碼器對方面級的觀點集合進行歸納和分組,以三階張量分解技術為基礎,推斷出用戶對項目的綜合評分。實驗結果表明,該系統有效地提高了推薦系統的推薦性能,優化了推薦項目的順序。本文系統的優勢在于加強了對評論不同方面的觀點挖掘,提高了評分預測的魯棒性和總體質量,實驗結果也表明高質量的觀點挖掘技術能夠促進推薦系統的推薦性能。未來將研究雙通道CNN模型在中文環境和中文語料庫的實現方法,并且收集中文的產品評論實驗數據集,進一步完善本文的研究工作。

猜你喜歡
用戶實驗系統
記一次有趣的實驗
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
做個怪怪長實驗
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: www.99在线观看| 干中文字幕| 日本高清免费一本在线观看| 五月婷婷综合在线视频| 久久伊人色| 热99re99首页精品亚洲五月天| 国产精品视频猛进猛出| 日韩美毛片| 国产jizz| 国产欧美日韩视频怡春院| 无码aaa视频| 国产精品偷伦视频免费观看国产 | 成年人视频一区二区| 丁香婷婷激情网| 91美女视频在线观看| 国产无遮挡猛进猛出免费软件| a毛片免费观看| 国产成人夜色91| 亚洲伦理一区二区| 久一在线视频| 亚洲国产精品一区二区第一页免 | 成人中文字幕在线| 自偷自拍三级全三级视频 | 久久精品无码中文字幕| 福利在线不卡| 国语少妇高潮| 91网红精品在线观看| 国产一二三区在线| 亚洲欧美日韩综合二区三区| 日本国产精品一区久久久| 99久久国产精品无码| 日本在线免费网站| 波多野结衣中文字幕久久| 夜夜操国产| 国产区免费精品视频| 久久精品国产免费观看频道| 日韩区欧美区| 日韩无码视频播放| 国产经典免费播放视频| 色综合五月婷婷| 秋霞午夜国产精品成人片| 就去色综合| 一级看片免费视频| 无码人妻热线精品视频| 视频二区亚洲精品| 国产在线小视频| 亚洲精品福利视频| 亚洲欧美在线综合图区| 国产欧美日韩综合在线第一| 露脸一二三区国语对白| 99视频免费观看| 91免费国产在线观看尤物| 亚洲综合一区国产精品| 午夜a级毛片| 在线无码私拍| 亚洲欧美在线精品一区二区| 五月婷婷综合网| 亚洲综合色婷婷中文字幕| 伊人激情久久综合中文字幕| 成人夜夜嗨| 国产精品女同一区三区五区| 国产麻豆精品在线观看| 97国内精品久久久久不卡| 亚洲第一视频网| 国产精品无码AV中文| 97视频精品全国在线观看| 2021国产乱人伦在线播放| 在线观看91精品国产剧情免费| 免费激情网址| 成人国产免费| 91无码人妻精品一区二区蜜桃| 97青草最新免费精品视频| 91福利免费视频| 97青草最新免费精品视频| 国产一区二区色淫影院| 精品少妇人妻一区二区| 欧美笫一页| 在线亚洲天堂| 欧美特黄一免在线观看| 人人艹人人爽| 69视频国产| 精品福利一区二区免费视频|