基于自編碼器與多模態(tài)數(shù)據(jù)融合的視頻推薦方法

2021-03-11 07:39:10顧秋陽琚春華吳功興

電信科學 2021年2期

關鍵詞：模態(tài)文本融合

顧秋陽，琚春華，吳功興

研究與開發(fā)

基于自編碼器與多模態(tài)數(shù)據(jù)融合的視頻推薦方法

顧秋陽1，琚春華2，吳功興2

（1. 浙江工業(yè)大學管理學院，浙江杭州 310023；2. 浙江工商大學，浙江杭州 310018）

現(xiàn)今常用的線性結構視頻推薦方法存在推薦結果非個性化、精度低等問題，故開發(fā)高精度的個性化視頻推薦方法迫在眉睫。提出了一種基于自編碼器與多模態(tài)數(shù)據(jù)融合的視頻推薦方法，對文本和視覺兩種數(shù)據(jù)模態(tài)進行視頻推薦。具體來說，所提方法首先使用詞袋和TF-IDF方法描述文本數(shù)據(jù)，然后將所得特征與從視覺數(shù)據(jù)中提取的深層卷積描述符進行融合，使每個視頻文檔都獲得一個多模態(tài)描述符，并利用自編碼器構造低維稀疏表示。本文使用3個真實數(shù)據(jù)集對所提模型進行了實驗，結果表明，與單模態(tài)推薦方法相比，所提方法推薦性能明顯提升，且所提視頻推薦方法的性能優(yōu)于基準方法。

自編碼器；多模態(tài)表示；數(shù)據(jù)融合；視頻推薦

1 引言

隨著信息技術的不斷發(fā)展，用戶和企業(yè)對推薦方法的需求不斷提升[1]。推薦方法已在許多領域獲得成功應用（包括商品推薦、音樂推薦、電影推薦等），主要通過學習用戶歷史信息得到其偏好，以生成相關推薦列表，這一過程也被稱為top-推薦。近年，國內(nèi)外學者已提出了若干個top-推薦算法[2-6]，主要可分為潛空間算法（latent space method，LSM）和基于鄰域的算法（又分為基于用戶或目標的方法）?，F(xiàn)已證明潛空間算法是解決推薦排名問題的最優(yōu)方法，而鄰域算法則能夠更好地進行top-推薦問題[7]。而基于用戶與目標的兩種推薦方法中，基于目標的鄰域方法是通過預先定義的度量方式計算得到目標間的相似性進行推薦的方法，顯然優(yōu)于基于用戶的推薦方法[8]。

但當對目標的描述處于稀疏高維空間時，基于目標的推薦算法存在歐氏距離（由于高維數(shù)據(jù)的稀疏性，將低維空間中的距離度量函數(shù)應用到高維空間時，隨著維數(shù)的增加，數(shù)據(jù)對象之間距離的對比性將不復存在，其有效性大大降低）和維數(shù)膨脹（當維數(shù)越來越多時，數(shù)據(jù)計算量迅速上升，所需的空間樣本數(shù)會隨維數(shù)的增加而呈指數(shù)增長，分析和處理多維數(shù)據(jù)的復雜度和成本呈指數(shù)級增長）等方面的困難，也會出現(xiàn)推薦結果非個性化、精度不高等問題[4]。有學者引入了稀疏線性方法（sparse linear method，SLIM）以解決和緩解上述困難和問題。當目標的相關信息（如電影描述等）不斷增加時，Ning等[9]認為應充分利用這些信息，而不是僅關注由用戶過去信息組成的偏好。但其關注的始終是目標描述的單一模態(tài)，即文本信息模態(tài)。而現(xiàn)實網(wǎng)絡信息存在多種輸入渠道，包括配有情節(jié)和架構的視頻與帶有說明文字和標簽的圖片等。每種模態(tài)的統(tǒng)計特征都大為不同，如何將其有效結合起來進行推薦是現(xiàn)今學術界的一大困難。例如，當給一張圖片配上說明文本時，文本往往會對一些從圖片中無法直接得到的信息（如地點、人名和事件等）進行描述。故研究如何基于多模態(tài)數(shù)據(jù)融合方法進行目標推薦十分重要。

本文提出了一種基于自編碼器與多模態(tài)數(shù)據(jù)融合的視頻推薦方法，其中的關鍵問題是如何對不同模態(tài)的信息進行有效組合，以便向用戶提供目標信息的推薦。與現(xiàn)今學術界常用的方法不同，本文通過兩種數(shù)據(jù)模態(tài)來制定視頻推薦方法——視覺（即圖像序列等）模態(tài)和文本（即標簽、標題和描述等）模態(tài)，它們構成了視頻的基本數(shù)據(jù)。在本文所提的多模態(tài)數(shù)據(jù)融合推薦方法中，數(shù)據(jù)由不同的輸入模態(tài)組成，且各模態(tài)的表示方式也各不相同。如圖像通常通過像素強度或特征提取器的輸出結果進行呈現(xiàn)，它們都為實值且分布密集；相反，文本信息傾向于以離散的稀疏文本向量來呈現(xiàn)，故要找到各模態(tài)間的關系非常困難。一個好的多模態(tài)表示項目首先需滿足在某些模態(tài)缺失的情況下，也須能得出最終結果；且其結果必須有利于目標間的相似性計算。

本文所提基于自編碼器與多模態(tài)數(shù)據(jù)融合的視頻推薦算法可較好地滿足以上條件。自編碼器是一種自主全連接的單隱層神經(jīng)網(wǎng)絡，其目的是從無標記的數(shù)據(jù)集中進行學習[11]。傳統(tǒng)的自編碼器常用于特征學習或維數(shù)約簡，本文使用自編碼器來融合來自多個模態(tài)的目標信息。本文的主要貢獻如下，首先，設計了一種基于自編碼器的多模態(tài)推薦架構，有效融合文本與視覺兩種模態(tài)的數(shù)據(jù)，顯著提升了視頻推薦性能。其次，本文所提視頻推薦模型可有效避免單模態(tài)數(shù)據(jù)缺失帶來的不能得到推薦結果的情況。再次，本文所提視頻推薦方法首先使用詞袋和TF-IDF方法來描述文本數(shù)據(jù)，并將所得特征與從視覺數(shù)據(jù)中提取的深層卷積描述符進行融合，以使每個視頻文檔都獲得一個多模態(tài)描述符，并利用自編碼器構造低維稀疏表示，有效提升了推薦技術的可行性。最后，基于多個具有明顯特征的真實數(shù)據(jù)集進行了實驗，證明了本文所提架構的有效性。

2 研究現(xiàn)狀

近年，隨著電子商務網(wǎng)站的不斷流行，學術界在用戶信息及產(chǎn)品推薦上已做出了許多突破。可將此類推薦算法分為3類：考慮用戶個人信息及其偏好的協(xié)同過濾算法、基于內(nèi)容及相似性的算法以及基于用戶偏好和內(nèi)容的算法。

首先對協(xié)同過濾視頻推薦算法進行介紹。Davidson等[12]發(fā)明了一種針對Youtube的視頻推薦方法。假設用戶觀看或點贊了某個視頻，該視頻就為此用戶的相關視頻，之后可以使用關聯(lián)規(guī)則基于該用戶的相關視頻進行推薦。Zhou等[13]證明了視頻推薦是YouTube上視頻瀏覽量的最重要來源之一。而Linden 等[14]在Amazon網(wǎng)站上嘗試使用協(xié)同過濾算法和分組技術，旨在向其客戶進行有效的產(chǎn)品推薦。此外，Ahmed等[15]通過對用戶偏好分類來進行視頻推薦。

基于內(nèi)容的過濾算法是現(xiàn)今應用最為廣泛的推薦算法[16]。這類方法的一個關鍵特征是用戶建模過程。與其他推薦方法相比，這類算法能夠顯著提高推薦質量，其根據(jù)用戶購買的物品對其偏好進行測算。某些內(nèi)容可能對提高推薦的準確度有較強影響，如標簽、消息和多媒體信息等[17]。故基于內(nèi)容的過濾算法對視頻推薦非常重要，這是由于該算法結合了來自Web2.0環(huán)境中用戶的多源信息?，F(xiàn)已有幾種推薦系統(tǒng)使用了這類算法，其中某些利用文檔標題進行推薦[18]，另外一些利用文檔中的文本信息進行推薦[19]。

還有一些學者使用混合推薦算法，將協(xié)同過濾算法與基于內(nèi)容的過濾算法相結合。Kim等[20]證實了這種混合過濾算法能提高推薦質量。在其使用的推薦算法中，使用標簽信息來推斷用戶偏好，尤其當用戶（冷啟動新用戶）的相關信息很少或沒有信息時，標簽能夠為推薦提供一些線索。此外，Yang等[21]提出了一種混合算法，將評價與電影的文本信息相結合以實現(xiàn)推薦。其中，文本信息由電影標簽和流派表示。Zhang等[28]使用另一種混合算法來進行視頻推薦，其利用視頻內(nèi)容（標題和描述）訓練神經(jīng)網(wǎng)絡，并利用模糊算子將其結果與用戶的個人資料相結合，從而做出推薦。

Bobadilla等[1]提出利用物品重要性來提高推薦質量。為了衡量目標的重要性，使用一些標準，如通過瀏覽量和/或評論的數(shù)量來判斷目標的受歡迎程度等。還通過分析最受歡迎的Twitter話題，對Twitter上的分享視頻進行推薦。Beutel等[23]利用用戶狀態(tài)（如時間和設備類型等）來提高推薦準確性。電影推薦系統(tǒng)旨在通過使用諸如類型和影片名稱等內(nèi)容信息為其用戶推薦新電影。黃立威等[24]通過自深度學習神經(jīng)網(wǎng)絡獲得的描述符，與顏色和紋理的描述符相結合實現(xiàn)推薦。參考文獻[25-26]使用了神經(jīng)網(wǎng)絡的不同架構來表示影片內(nèi)容。這些研究的目標是改進目標內(nèi)容的表現(xiàn)形式，從而提高推薦質量。Cheng等[27]提出了不同的表示方法，其使用一種基于神經(jīng)網(wǎng)絡來改進用戶與目標間關系的表示。

還有一些研究考慮了多種模態(tài)維度的數(shù)據(jù)，如視頻幀和文本元數(shù)據(jù)，并將其結合起來進行推薦，這些方法被稱為多模態(tài)推薦系統(tǒng)。如Zhang等[28]提出了一種深度學習方法，以便結合多種維度的信息（圖像、文本和評分等）進行產(chǎn)品推薦。而Li等[29]提出了基于音頻和圖像特征（顏色）的多模態(tài)視頻推薦方法。另外，為計算視頻間的相似度，使用了余弦距離函數(shù)；考慮推薦系統(tǒng)中的信息稀疏，提出了一種基于自編碼器的推薦方法；為實現(xiàn)推薦，使用了分層貝葉斯模態(tài)的變分自編碼器，以使得其能夠在潛在概率變化下對每個項目進行表示。

通過上述對現(xiàn)有研究成果的梳理發(fā)現(xiàn)，關于視頻推薦方法的研究已受到國內(nèi)外學者的重視并得到豐富的研究成果。上述研究成果雖對本文具有一定的借鑒意義，但也存在一些不足：（1）現(xiàn)有參考文獻中的視頻推薦方法多使用單模態(tài)數(shù)據(jù)實現(xiàn)視頻推薦（如王娜等[30]），較少有將多模態(tài)數(shù)據(jù)融合進行視頻推薦的參考文獻記錄。（2）現(xiàn)有參考文獻多只對推薦方法進行了改進，沒有考慮其所提方法在高維數(shù)據(jù)等計算情況中的適用性（如蘇賦等[31]），本文利用自編碼器構造低維稀疏表示，有效提升了推薦技術的可行性。（3）現(xiàn)有關于基于視覺數(shù)據(jù)的推薦方法多使用特征提取方法實現(xiàn)推薦（如Felipe等[32]），很少有使用詞袋和TF-IDF方法先進行描述文本數(shù)據(jù)，并將所得特征與視覺數(shù)據(jù)中提取的深層卷積描述符進行融合的參考文獻記錄。

本文認為應設計基于自編碼器的多模態(tài)推薦架構，有效融合文本與視覺兩種模態(tài)的數(shù)據(jù)，顯著提升視頻推薦性能。使用詞袋和TF-IDF方法來描述文本數(shù)據(jù)，并將所得特征與從視覺數(shù)據(jù)中提取的深層卷積描述符進行融合，使每個視頻文檔都獲得一個多模態(tài)描述符，并利用自編碼器構造低維稀疏表示，有效提升了推薦技術的可行性。最后，基于多個具有明顯特征的真實數(shù)據(jù)集進行了實驗，證明本文所提架構能有效提升推薦的精度與效率。故本文將文本與視覺兩種模態(tài)數(shù)據(jù)進行融合，以期在現(xiàn)實生活中提升視頻推薦效率，為有關部門進行視頻監(jiān)控與推薦服務提供參考。

3 預備知識

3.1 top-N推薦方法

表1 本文使用的參數(shù)符號與定義

目標問題包括根據(jù)用戶的偏好（根據(jù)矩陣推斷）和從項目中提取的描述性的邊信息確定最符合用戶興趣的前個項目。

如Cremonesi等[33]所討論的，本文應考慮評分預測問題，包括預測用戶給項目的評分。由此，可基于預測的評分對項目進行排序，以最終生成推薦列表。正如Cremonesi等[33]所指出的，top-推薦是模擬真實推薦系統(tǒng)的最佳建模方法。故在本文框架中，將為用戶生成top-個最相關項目的推薦列表。

3.2 稀疏線性方法

值得注意的是，SLIM只能用于處理單模態(tài)數(shù)據(jù)，不能直接用于多模態(tài)信息處理。故在本文中，對SLIM進行了改善，引入了一種新的推薦算法，使其能夠同時對多種模態(tài)數(shù)據(jù)進行處理。

3.3 自編碼器

自編碼器作為無監(jiān)督全連接的隱層神經(jīng)網(wǎng)絡，其目的是對未標記的數(shù)據(jù)集進行學習[11]。本文希望在訓練中將輸入數(shù)據(jù)復制到輸出時，得到的隱藏層能夠呈現(xiàn)有用的屬性。本文將隱藏層中的表示同來自不同模態(tài)的信息進行融合，以得到一個新的項目表示，用于構建代表用戶偏好的推薦模型。自編碼通常是由輸入層、隱藏層和重構層組成的前饋神經(jīng)網(wǎng)絡進行搭建，隱藏層將目標值設置為與輸入層相同。通用自編碼器框架如圖1所示。

圖1 通用自編碼器框架

而解碼器則是將得到的表示映射回原始輸入重構層。故存在另一個映射函數(shù)定義為如式（7）所示。

3.3.1 欠完備自編碼器

欠完備自編碼器試圖通過使隱藏層的維度小于輸入層的維度來找到有用的數(shù)據(jù)表示。故其目的是迫使自編碼器學習一個欠完備的表示，在此過程中捕獲訓練數(shù)據(jù)最顯著的特征。這一學習過程可以簡單描述為最小化損失函數(shù)如式（8）所示。

3.3.2 稀疏自編碼器

3.3.3 去噪自編碼器

3.4 卷積神經(jīng)網(wǎng)絡

卷積神經(jīng)網(wǎng)絡（convolutional neural network，CNN）為一種特殊的神經(jīng)網(wǎng)絡，其目的是在網(wǎng)格狀拓撲結構中處理數(shù)據(jù)[34]。卷積神經(jīng)網(wǎng)絡已成功地應用于圖像[35]、圖形[36]和時間序列[37]數(shù)據(jù)處理中。卷積網(wǎng)絡是在其至少一層中使用卷積的神經(jīng)網(wǎng)絡。故其訓練方法包括通過卷積濾波器層反向傳播、恢復和池化等其他操作。卷積神經(jīng)網(wǎng)絡的關鍵數(shù)學運算稱為卷積運算，其為一種專門學習數(shù)據(jù)局部平穩(wěn)屬性的線性運算。

4 模型構建

本節(jié)描述了本文所提推薦方法的基本架構，以基于項目的多種模態(tài)和用戶偏好（即評分）向用戶進行項目推薦。本模型將項目的不同多模態(tài)高維模態(tài)移動到一個低維潛空間中，接收不同模態(tài)的輸入項目（在本文中項目為視頻）。本文假定項目會隨少數(shù)解釋變量而共同變化，故不能直接被觀察到，本文將這些解釋變量稱作隱性因素[38]。圖2表示將多維數(shù)據(jù)映射到公共潛空間的思想。其中，圖2左邊為嵌入文本和圖像的形式從其來源到一個潛在空間，而圖2右邊為項目和用戶映射到公共空間的示例。

本文提出用降維方法根據(jù)特定的準則從高維數(shù)據(jù)中發(fā)現(xiàn)和提取這些潛在因素。通過將這些項目的表示映射到一個低維潛在空間中，并自動降低了模態(tài)的稀疏性。然后利用這種新的低維項目表示來計算項目對間的相似度，最終提高推薦質量。

圖3表示本文所提推薦方法的框架。首先，本文假設使用的數(shù)據(jù)集包含以下內(nèi)容：用戶偏好歷史記錄，即用戶對視頻進行的評分記錄；項目集，即種不同的模態(tài)表示形式。然后將該數(shù)據(jù)集分成兩個數(shù)據(jù)集，即訓練集和測試集。當處于訓練模式時，本文所提推薦方法構建了一個推薦模型，該模型表示用戶的偏好模式；而在測試模式中，使用先前訓練過的推薦模型向用戶推薦不在訓練集中的項目。

圖2 多模態(tài)數(shù)據(jù)融合在推薦系統(tǒng)中的應用實例

圖3 多模式數(shù)據(jù)融合的推薦框架

其框架中包含兩個模塊：邊信息構建和推薦引擎。邊信息構建通過處理項目的視覺和文本特征并計算其間的相似性來創(chuàng)建邊信息矩陣。推薦引擎為用戶生成了一個top-推薦列表。

4.1 邊信息構建模塊

邊信息構建模塊包含與項目表示相關的兩個重要任務。首先，本文詳細說明如何根據(jù)原始特征來表示項目。故本文展示了如何組合不同模態(tài)的信息，各個模態(tài)都以原始特征表示，從而為數(shù)據(jù)集中的所有項目提供一個新的表示形式。最后，該模塊輸出的是邊信息矩陣，正如在第3.2節(jié)提到的，稀疏線性推薦模態(tài)引入了項目間的相似性矩陣（具體如第4.2節(jié)所述），提高了推薦的質量。

4.1.1 特征提取

本文考慮了兩種模態(tài)來對項目進行表示，即文本表示和視覺表示。本文的重點是視頻推薦，故將視頻的標題和情節(jié)看作文本信息，并將視頻幀看作視覺信息。

其次，對視覺幀建模進行介紹。關于視覺特征，本文首先提取給定視頻的幀集。由于每個視頻需要用相同數(shù)量的特征進行表示，故考慮集合中最小的視頻，以均勻的采樣間隔從中選擇幀。以使有一個視頻的代表性樣本，同時減少此特征提取過程的計算成本。

4.1.2 特征轉換

在這個模塊中，通過融合多個模態(tài)來執(zhí)行特征轉換，為項目構建一個新的表示形式。在執(zhí)行該融合后，每個視頻被表示為矩陣中的行f?；谧跃幋a器與多模態(tài)數(shù)據(jù)融合的推薦框架如圖4所示，本文提出了3種基于自編碼器的體系結構來進行這種新項目表示的學習。自編碼器由于其簡單性和高效性，能夠在各種條件下進行特征學習，本文在多模態(tài)數(shù)據(jù)融合的推薦推薦方法中利用了這種特性。

關于本文提出的3個融合多模態(tài)數(shù)據(jù)的體系結構，其原理是利用模態(tài)間和模態(tài)內(nèi)的語義相關性。在3個體系結構中，都計算了一個潛在的項目表示，這些項目在一個公共空間中組合為不同的模態(tài)。

共享單層自編碼器（shared single-layered autoencoder，S-SLAE）架構指直接地使用自編碼器進行新數(shù)據(jù)表示學習的架構。本文將文本和視覺模態(tài)連接起來，作為特定自編碼器的輸入。并將該自編碼器的隱藏層作為輸入項的新表示，以保持模態(tài)間的語義關系。最后得到了一個自編碼器，在一個單一層次的體系結構中，可以在模態(tài)間共享。

圖4 基于自編碼器與多模態(tài)數(shù)據(jù)融合的推薦框架

獨立單層自編碼器（independent single-layer autoencoder，I-SLAE）架構指使用自編碼器來探索數(shù)據(jù)中的模態(tài)內(nèi)語義關系。具體地說，每一個模態(tài)都是用不同的編碼器來處理的，即對每一個模態(tài)都有一個不同的特征學習過程。將從每個自編碼器學習到的新表示進行連接，以構建新的項目表示。此處的每個模態(tài)都有獨立的自編碼器，且仍然在體系結構中保留一個單層。

雙層自編碼器（two-layered autoencoder，TLAE）架構指通過同時利用模態(tài)間和模態(tài)內(nèi)的語義關系來結合前述兩種體系的結構。為了實現(xiàn)這一目的，本文提出了一個雙層體系結構，以不同的方式進行信息融合。在底層，和獨立單層自編碼體系一樣，使用不同的自編碼器來學習模態(tài)間的語義關系；在頂層，先將學習到的表示連接起來，并使用不同的自編碼器來探索模態(tài)間的語義關系。

值得注意的是，在獨立單層自編碼器和雙層自編碼器中，能夠并行化模態(tài)內(nèi)學習的步驟，這在處理大規(guī)模數(shù)據(jù)集時非常重要。最后，本文所提自編碼器中的所有訓練都為無監(jiān)督的，而在項目無標簽的情況下，這是本文的一個重要優(yōu)勢。

4.2 推薦模塊

本文結合前文中討論的概念對推薦模塊進行詳細介紹。首先，定義SLIM的聚集系數(shù)矩陣表示項目特征空間的函數(shù)。故可直接在矩陣（也稱為邊信息矩陣）中展現(xiàn)項目間的相似性。這種方法的優(yōu)點是能夠捕獲項目間基于特征的關系。值得關注的是，本文所提方法不像SLIM那樣只考慮一種模態(tài)，而是能夠考慮任意數(shù)量的項目模態(tài)，這是本文的重要優(yōu)勢之一，這在數(shù)據(jù)稀疏和冷啟動的情況下尤為明顯。

首先，本文利用矩陣給出的項目表示形式，構造項目間的相似性矩陣。如前所述，矩陣通過使用自編碼器融合模態(tài)，擁有項目的新表示形式。值得關注的是，本文使用新的項目表示形式可以避免原始項描述的稀疏性（如用于文本模態(tài)的詞袋等）。最初提出稀疏線性模型時，使用一次范數(shù)來控制模型復雜度和避免過擬合。本文還使用此范數(shù)，通過在非稀疏維度中表示項目來強調(diào)稀疏性問題。

算法1 本文所提多模態(tài)數(shù)據(jù)融合推薦方法

Require Matrices R and F, and item similarity function g

（4）end for

（5）end for

coefficient matrix

（9）end for

本文所提推薦方法是靈活的，這是由于可設置輸入為：（1）通過矩陣融合的任何模態(tài)；（2）項目間的相似度函數(shù)（此處使用余弦函數(shù)進行相似度計算）。該算法的工作分兩個步驟：第一步，根據(jù)給定的相似度函數(shù)識別項目對間的相似性（第1~5行）。第二步，計算聚集系數(shù)矩陣，并在此遵循SLIM的優(yōu)化方案，運用坐標下降法來求得矩陣（第6~9行）。

5 實驗結果與分析

5.1 數(shù)據(jù)說明

本文實驗中使用了來自電影推薦領域常用的3個真實數(shù)據(jù)集。其中包括兩個版本的MovieLens數(shù)據(jù)集（關于電影評分的數(shù)據(jù)集）：MovieLens-1M和MovieLens-10M。除此之外，本文團隊利用Python工具分別利用API爬取豆瓣的真實用戶評分數(shù)據(jù)集作為實驗的基礎數(shù)據(jù)，爬取時間為2019年8月19日至2020年1月24日。表2為經(jīng)過數(shù)據(jù)預處理后的數(shù)據(jù)集統(tǒng)計結果。MovieLens-1M數(shù)據(jù)集包括來自3 582個視頻的6 383個用戶的1 023 839條評分數(shù)據(jù)。MovieLens-10M數(shù)據(jù)集包含來自8 923個視頻的75 124個用戶的11 293 834條評級數(shù)據(jù)。豆瓣數(shù)據(jù)集包含2 694個用戶對2 445個視頻的601 543條評級數(shù)據(jù)。在上述數(shù)據(jù)集中，為創(chuàng)建用戶—項目矩陣，當用戶對該視頻的評分至少為4星及4星以上時，則認為該視頻與該用戶相關，并從數(shù)據(jù)庫中提取相關電影的預告片進行分析，其中豆瓣數(shù)據(jù)集中的視頻長度較短。

5.2 評估方法

表2 實驗使用數(shù)據(jù)集統(tǒng)計

本文參照參考文獻[42]的做法，選取top-的歸一化折現(xiàn)累積增益（NDCG@）作為判斷標準，其常用于衡量推薦與理想排名間的接近程度，具體計算方法如式（14）所示。在此得出的為100次迭代后的平均度量結果。

本文對第3.3節(jié)中介紹的3種自編碼器（欠完備自編碼器、稀疏自編碼器和去噪自編碼器）進行了實例化。還測試了原始特征的級聯(lián)，本文稱之為非自編碼特征融合（non-autoencoder feature fusion，NOAE）。最后，為從視頻幀中進行原始視覺特征的提取，本文使用了現(xiàn)今最先進的卷積網(wǎng)絡，即AOP框架下的interception-V3算法[40]。為實現(xiàn)這一點，本文使用倒數(shù)第二個全連接層的輸出表示視頻的單個幀，其維度為2 048。

5.3 基準方法

為比較本文所提基準方法與經(jīng)典推薦方法和現(xiàn)今前沿推薦方法相比的優(yōu)劣，選取下列推薦方法作為基準進行比較。

（1）貝葉斯個性化排名矩陣分解推薦方法（the Bayesian personalized ranking matrix factorization recommendation approach，BPRMF）是目前最先進的基于排名的top-推薦方法之一[5]。

（2）加權正則化矩陣分解（weighted regularized matrix factorization，WRMF）將用戶評級作為二進制值，并考慮觀察到的評級和未觀察到的評級的不同機密值，從而對該模型進行擬合[2]。

（3）稀疏線性方法（sparse linear method，SLIM）使用一個稀疏線性模型來進行項目推薦，通過其他項目的集合來計算新項目的評分[9]。

（4）協(xié)同主題回歸（collaborative topic regression，CTR）模型是一種同時進行主題建模和協(xié)同過濾的生成式推薦模型。該方法側重于在學習語義主題的過程中從項目描述中挖掘文本信息[6]。

（5）協(xié)同變分自編碼器推薦方法（collaborative variational autoencoder recommendation approach，CVAE）是一種將變分自編碼器集成到概率矩陣分解中的層次貝葉斯模型，用其學習概率潛在變量來表示項目內(nèi)容信息[41]。

（6）聯(lián)合表示學習（joint representation learning，JRL）是一種最新的推薦方法，將多個證據(jù)源結合起來，以產(chǎn)生與產(chǎn)品推薦有關的前個項目。

本文為每種模態(tài)的數(shù)據(jù)來源（圖像、評論文本和評分等）創(chuàng)建了深層表示。為對文本進行表示，使用了Le等[42]提出的方法，并使用Jia等[43]提出的方法對圖形進行表示，即由在包含1 200 000張ImageNet的圖像數(shù)據(jù)集中進行預先訓練的Caffe深度學習網(wǎng)絡進行表示。本文對用戶對所有物品的評分及所有用戶對項目的評分進行了深度學習表示。為了結合這些數(shù)據(jù)，增加了一個新的層，然后結合成對學習排序方法生成一個top-推薦列表。

5.4 實驗結果

5.4.1 總體績效

圖5 測試數(shù)據(jù)集中不同推薦方法的NDCG@N值

由圖5可知，本文所提AE-MDF推薦方法較其他推薦方法具有更好的性能。JRL方法也具有較好的表現(xiàn)，而BPRMF方法性能較差，這是由于其只考慮了用戶評分，而忽略了項目描述內(nèi)容。本文所提AE-MDF推薦方法與基準方法JRL相比，性能在不同的數(shù)據(jù)集中提升了7%~32%不等。尤其是在最大的數(shù)據(jù)集MovieLens-10M數(shù)據(jù)集中，JRL方法與本文所提AE-MDF方法性能最為接近。而圖6的不同數(shù)據(jù)集中的視頻推薦算法精度也證明了本文所提視頻推薦方法的優(yōu)越性。

圖6 測試數(shù)據(jù)集中不同推薦方法的精度值

圖7 使用不同模態(tài)數(shù)據(jù)實例化的情況下的NDCG@N值

由圖7還可看出，在所有數(shù)據(jù)集中基于視覺推薦的表現(xiàn)要比基于文本的推薦效果更好。另外，基于文本推薦可能有助于改進推薦結果，這是由于多模態(tài)協(xié)同推薦比單獨使用兩種模式效果更好。這一點在豆瓣數(shù)據(jù)集中表現(xiàn)得尤為明顯。圖8報告了不同數(shù)據(jù)集中使用不同模態(tài)數(shù)據(jù)實例化的情況下的Precision值，由結果可知本文所提多模態(tài)融合的視頻推薦方法相對具有更優(yōu)的精度。

圖8 使用不同模態(tài)數(shù)據(jù)實例化的情況下的精度值

表3 本文所提推薦方法在使用不同自編碼器時的NDCG@10值

注：加粗項為每列最佳項。

5.4.2 自編碼器類型

為呈現(xiàn)不同類型的自編碼器對本文所提AE-MDF推薦方法的影響，在最簡單的共享單層自編碼架構下進行實驗。表3列出了本文所提模型使用不同自編碼器時（欠完備自編碼器（UAE）、去噪自編碼器（DAE）和稀疏自編碼器（SAE）），在不同數(shù)據(jù)集中的NDCG@10值。本文還在不使用自編碼器（NOAE）的情況下提供了不同模態(tài)數(shù)據(jù)的NDCG@10值。

從表3結果可知，對單獨模態(tài)而言，使用視覺信息時的性能要優(yōu)于使用文本描述時的性能。另外，在使用多模態(tài)數(shù)據(jù)時，文本信息與視覺信息相結合效果要優(yōu)于使用任何單獨模態(tài)的性能。在MovieLens-1M和豆瓣數(shù)據(jù)集中，稀疏自編碼器在所有模態(tài)上都取得了比其他方法更好的表現(xiàn)；而對于MovieLens-10M數(shù)據(jù)集，雖然稀疏自編碼器表現(xiàn)較好，但欠完備自編碼器在視覺模態(tài)和多模態(tài)表示方面表現(xiàn)優(yōu)于任何其他自編碼器。

5.4.3 數(shù)據(jù)融合結構

本文對使用不同組合的自編碼器對多模態(tài)數(shù)據(jù)金融融合的方式進行實驗。如第4.1.2節(jié)所述，本文提出了3種基于自編碼器的不同結構對多模態(tài)數(shù)據(jù)進行融合。為實現(xiàn)這一點，本文使用了稀疏自動編碼器，這是由于其在第5.4.2節(jié)中的性能效果最好。圖9表示本文所提AE-MDF推薦方法在不同特征轉換結構下的性能，同時給出了僅使用多模態(tài)數(shù)據(jù)（即當不使用自動編碼器進行不同模態(tài)的數(shù)據(jù)融合）的NDCG@值。

圖9 不同特征轉換結構的NDCG@N值

當對MoiveLens-1M和MoiveLens-10M數(shù)據(jù)集進行處理時，最佳策略是使用獨立單層自編碼器來挖掘數(shù)據(jù)中的模態(tài)語義關系，這是由于在這兩張數(shù)據(jù)集中有足夠多的視頻信息可供提取模態(tài)信息。當對豆瓣數(shù)據(jù)集進行處理時，使用雙層自編碼器架構可獲得最優(yōu)結果。在此情況下，可利用模態(tài)內(nèi)和模態(tài)間的語義關系克服該數(shù)據(jù)集內(nèi)視頻太短的問題。

6 結束語

本文提出了一種基于自編碼器與多模態(tài)數(shù)據(jù)融合的推薦方法。提出3種架構來進行項目的多模態(tài)表示（本文使用的模態(tài)包括文本和視覺，其中本文使用Inception卷積神經(jīng)網(wǎng)絡算法進行視覺模態(tài)特征提?。?，并展示了如何使用多模態(tài)數(shù)據(jù)融合項目表示來提高推薦的質量。值得注意的是，本文提出的視頻推薦方法非常靈活，除文本與視覺還可以使用其他類型的模態(tài)數(shù)據(jù)進行融合推薦。最后，在3個不同特征的真實數(shù)據(jù)集進行實驗，對本文所提架構進行驗證。實驗結果表明，本文所提AE-MDF推薦方法優(yōu)于其他基準算法。

盡管本文已提出了上述具有重要意義的發(fā)現(xiàn)，但還是具有一些局限性，其中一些可能會為未來的進一步研究指明方向：首先，可對圖像的其他原始特征表示進行研究，并分析其對本文所提方法性能的影響。其次，可嘗試增加其他模態(tài)（如音頻等）的數(shù)據(jù)到模型中，以進一步提升其對視頻的推薦性能。最后，可針對其他推薦領域（如社交網(wǎng)絡、產(chǎn)品和音樂等）進行研究和算法優(yōu)化。

[1]BOBADILLA J, ORTEGA F, HERNANDO A, et al. Recommender systems survey[J]. Knowledge-based systems, 2013(46): 109-132.

[2]HU Y, KOREN Y, VOLINSKY C. Collaborative filtering for implicit feedback datasets[C]//Proceedings of 2008 Eighth IEEE International Conference on Data Mining. Piscataway: IEEE Press, 2008: 263-272.

[3]LI Z, PENG J Y, GENG G H, et al. Video recommendation based on multi-modal information and multiple kernel[J]. Multimedia Tools and Applications, 2015, 74(13): 4599-4616.

[4]NING X, KARYPIS G. Slim: sparse linear methods for top-n recommender systems[C]//Proceedings of 2011 IEEE 11th International Conference on Data Mining. Piscataway: IEEE Press, 2011: 497-506.

[5]RENDLE S, FREUDENTHALER C, GANTNER Z, et al. Bpr: Bayesian personalized ranking from implicit feedback. UAI’09[J]. Arlington, Virginia, United States, 2009: 452-461.

[6]WANG C, BLEI D M. Collaborative topic modeling for recommending scientific articles[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2011: 448-456.

[7]KABBUR S, NING X, KARYPIS G. Fism: factored item similarity models for top-recommender systems[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2013: 659-667.

[8]DESHPANDE M, KARYPIS G. Item-based top-n recommendation algorithms[J]. ACM Transactions on Information Systems, 2004, 22(1): 143-177.

[9]NING X, KARYPIS G. Sparse linear methods with side information for top-recommendations[C]//Proceedings of the Sixth ACM Conference on Recommender Systems. New York: ACM Press, 2012: 155-162.

[10]任永功, 楊柳, 劉洋. 基于熱擴散影響力傳播的社交網(wǎng)絡個性化推薦算法[J]. 模式識別與人工智能, 2019, 32(8): 746-757.

REN Y G, YANG L, LIU Y. Heat diffusion influence propagation based personalized recommendation algorithm for social network[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(8): 746-757.

[11]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.

[12]DAVIDSON J, LIEBALD B, LIU J, et al. The YouTube video recommendation system[C]//Proceedings of the Fourth ACM Conference on Recommender Systems. New York: ACM Press, 2010: 293-296.

[13]ZHOU R, KHEMMARAT S, GAO L. The impact of YouTube recommendation system on video views[C]//Proceedings of the 10th ACM SIGCOMM Conference on Internet Measurement. New York: ACM Press, 2010: 404-410.

[14]LINDEN G, SMITH B, YORK J. Amazon. com recommendations: Item-to-item collaborative filtering[J]. IEEE Internet Computing, 2003, 7(1): 76-80.

[15]AHMED M, IMTIAZ M T, KHAN R. Movie recommendation system using clustering and pattern recognition network[C]//Proceedings of 2018 IEEE 8th Annual Computing and Communication Workshop and Conference (CCWC). Piscataway: IEEE Press, 2018: 143-147.

[16]BEEL J, GIPP B, LANGER S, et al. paper recommender systems: a literature survey[J]. International Journal on Digital Libraries, 2016, 17(4): 305-338.

[17]BOBADILLA J, HERNANDO A, ORTEGA F, et al. Collaborative filtering based on significances[J]. Information Sciences, 2012, 185(1): 1-17.

[18]LAO N, COHEN W W. Relational retrieval using a combination of path-constrained random walks[J]. Machine Learning, 2010, 81(1): 53-67.

[19]NASCIMENTO C, LAENDER A H F, DA SILVA A S, et al. A source independent framework for research paper recommendation[C]//Proceedings of the 11th Annual International ACM/IEEE Joint Conference on Digital Libraries. New York: ACM Press, 2011: 297-306.

[20]KIM H N, JI A T, HA I, et al. Collaborative filtering based on collaborative tagging for enhancing the quality of recommendation[J]. Electronic Commerce Research and Applications, 2010, 9(1): 73-83.

[21]YANG C, CHEN X, LIU L, et al. A hybrid movie recommendation method based on social similarity and item attributes[C]// Proceedings of International Conference on Sensing and Imaging. Heidelberg: Springer, 2018: 275-285.

[22]CHRISTAKOU C, VRETTOS S, STAFYLOPATIS A. A hybrid movie recommender system based on neural networks[J]. International Journal on Artificial Intelligence Tools, 2007, 16(5): 771-792.

[23]BEUTEL A, COVINGTON P, JAIN S, et al. Latent cross: making use of context in recurrent recommender systems[C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 46-54.

[24]黃立威, 江碧濤, 呂守業(yè), 等. 基于深度學習的推薦系統(tǒng)研究綜述[J]. 計算機學報, 2018, 41(7): 1619-1647.

HUANG L W, JIANG B T, LV S Y, et al. A review of recommendation Systems based on deep learning[J]. Journal of Computer Science, 2018, 41(7): 1619-1647.

[25]COVINGTON P, ADAMS J, SARGIN E. Deep neural networks for youtube recommendations[C]//Proceedings of the 10th ACM Conference on Recommender Systems. New York: ACM Press, 2016: 191-198.

[26]FAN Y, WANG Y, YU H, et al. Movie recommendation based on visual features of trailers[C]//Proceedings of International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing. Heidelberg: Springer, 2017: 242-253.

[27]CHENG H T, KOC L, HARMSEN J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. [S.l.:s.n.], 2016: 7-10.

[28]ZHANG Y, AI Q, CHEN X, et al. Joint representation learning for top-recommendation with heterogeneous information sources[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. New York: ACM Press, 2017: 1449-1458.

[29]LI Z, PENG J Y, GENG G H, et al. Video recommendation based on multi-modal information and multiple kernel[J]. Multimedia Tools and Applications, 2015, 74(13): 4599-4616.

[30]王娜, 何曉明, 劉志強, 等. 一種基于用戶播放行為序列的個性化視頻推薦策略[J]. 計算機學報, 2020, 43(1): 123-135.

WANG N, HE X M, LIU Z Q, et al. Personalized video recommendation strategy based on user’s playback behavior sequence[J]. Journal of Computer Science, 2020, 43(1): 123-135.

[31]蘇賦, 呂沁, 羅仁澤. 基于深度學習的圖像分類研究綜述[J]. 電信科學, 2019, 35(11): 58-74.

SU F, LV Q, LUO R Z. Review of image classification based on deep learning[J]. Telecommunications Science, 2019, 35(11): 58-74.

[32]FELIPE L A, CONCEIC A L C, Pádua A L A C, et al Multimodal data fusion framework based on autoencoders for top-recommender systems[J]. Applied Intelligence, 2019, 49(9). 3267-3282.

[33]CREMONESI P, KOREN Y, TURRIN R. Performance of recommender algorithms on top-recommendation tasks[C]// Proceedings of the fourth ACM conference on Recommender systems. New York: ACM Press, 2010: 39-46.

[34]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.

[35]NASCIMENTO G, LARANIEIRA C, BRAZ V, et al. A robust indoor scene recognition method based on sparse representation[C]//Proceedings of Iberoamerican Congress on Pattern Recognition. Heidelberg: Springer, 2017: 408-415.

[36]DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering[C]//Advances in Neural Information Processing Systems.[S.l.:s.n.], 2016: 3844-3852.

[37]YANG J, NGUYEN M N, SAN P P, et al. Deep convolutional neural networks on multichannel time series for human activity recognition[C]//Proceedings of Twenty-Fourth International Joint Conference on Artificial Intelligence. [S.l.:s.n.],2015: 3995-4001.

[38]CUNNINGHAM J P, BYRON M Y. Dimensionality reduction for large-scale neural recordings[J]. Nature Neuroscience, 2014, 17(11): 1500-1509.

[39]BAEZA-YATES R, RIBEIRO-NETO B. Modern information retrieval[M]. New York: ACM Press, 1999.

[40]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 2818-2826.

[41]RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

[42]LE Q, MIKOLOY T. Distributed representations of sentences and documents[C]//Proceedings of International Conference on Machine Learning. [S.l.:s.n.], 2014: 1188-1196.

[43]JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. New York: ACM Press, 2014: 675-678.

[44]胡春華, 童小芹, 梁偉. 基于信任和不信任關系的實值受限玻爾茲曼機推薦算法[J]. 系統(tǒng)工程理論與實踐, 2019, 39(7): 1817-1830.

HU C H, TONG X X, LIANG W. The real-value restricted Boltzmann machine recommendation algorithm based on trust-distrust relationship[J]. Systems Engineering-Theory & Practice, 2019, 39(7): 1817-1830.

[45]肖云鵬, 孫華超, 戴天驥, 等. 一種基于云模型的社交網(wǎng)絡推薦系統(tǒng)評分預測方法[J]. 電子學報, 2018, 46(7): 1762-1767.

XIAO Y P, SUN H C, DAI T J, et al. A rating prediction method based on cloud model in social recommendation system[J]. Acta Electronica Sinica, 2018, 46(7): 1762-1767.

Fusion of auto encoders and multi-modal data based video recommendation method

GU Qiuyang1, JU Chunhua2, WU Gongxing2

1. Zhejiang University of Technology, School of Management, Hangzhou 310023, China 2.Zhejiang Gongshang University, Hangzhou 310018, China

Nowadays, the commonly used linear structure video recommendation methods have the problems of non-personalized recommendation results and low accuracy, so it is extremely urgent to develop high-precision personalized video recommendation method. A video recommendation method based on the fusion of autoencoders and multi-modal data was presented. This method fused two data including text and vision for video recommendation. To be specific, the method proposed firstly used bag of words and TF-IDF methods to describe text data, and then fused the obtained features with deep convolutional descriptors extracted from visual data, so that each video document could get a multi-modal descriptors, and constructed low-dimensional sparse representation by autoencoders. Experiments were performed on the proposed model by using three real data sets. The result shows that compared with the single-modal recommendation method, the recommendation results of the proposed method are significantly improved, and the performance is better than the reference method.

autoencoder, multi-modal representation, data fusion, video recommendation

TP391

10.11959/j.issn.1000?0801.2021031

2020?04?30；

2021?01?30

顧秋陽，guqiuyang123@163.com

國家自然科學基金資助項目（No.71571162）；浙江省社會科學規(guī)劃重點課題項目（No.20NDJC10Z）；國家社會科學基金應急管理體系建設研究專項（No.20VYJ073）；浙江省哲學社會科學重大課題項目（No.20YSXK02ZD）

The National Natural Science Foundation of China (No.71571162), The Social Science Planning Key Project of Zhejiang Province (No.20NDJC10Z), The National Social Science Fund Emergency Management System Construction Research Project (No.20VYJ073), Zhejiang Philosophy and Social Science Major Project (No.20YSXK02ZD)

顧秋陽（1995? ），男，浙江工商大學博士生，主要研究方向為智能信息處理、數(shù)據(jù)挖掘、電子商務與物流優(yōu)化等。

琚春華（1962? ），男，博士，浙江工商大學教授、博士生導師，主要研究方向為智能信息處理、數(shù)據(jù)挖掘、電子商務與物流優(yōu)化等。

吳功興（1974? ），男，博士，浙江工商大學副教授，主要研究方向為智能信息處理、數(shù)據(jù)挖掘、電子商務與物流優(yōu)化等。