999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態矩陣分解模型的電影推薦系統研究?

2022-07-10 02:16:22杜宇超
電子器件 2022年2期
關鍵詞:特征用戶模型

王 璇 杜宇超 杜 軍 鄒 軍

(1.南京信息職業技術學院電子信息工程學院,江蘇 南京 210023;2.加州大學圣地亞哥分校電子與計算機工程系,圣地亞哥CA 92093;3.中興通訊股份有限公司,廣東 深圳 518057;4.清華大學電機工程與應用電子技術系,北京 100084)

在如今的互聯網時代,電子商務市場迅速發展,出現了品種繁多的推薦系統,這與大量互聯網用戶對個性化信息日益增長的需求密不可分。許多電子商務企業抓住這個機會,在大數據分析的基礎上,再運用數學模型和相關高級算法,推出能夠預測用戶喜好的產品推薦系統,吸引了更多潛在客戶以實現盈利的目的[1]。例如,美國媒體服務公司NETFLIX已將其在線電影和電視節目流數據應用到在線用戶平臺的推薦系統中,實現了可觀的播放量增長以及用戶會員比例上升[2]。本文基于機器學習和數據分析技術,在MATLAB 環境中使用優化算法來研究更加可靠的適用于NETFLIX 平臺的電影推薦系統。數據集中包含9000 部NETFLIX 電影的歷史評分,算法應用了兩種核心方法——高效處理數據的“矩陣分解(Matrix Factorization,MF)模型”,以及用于訓練目的的“隨機梯度下降(Stochastic Gradient Descent,SGD)算法”。研究最終結論為使用動態偏置的MF 模型,在數據集與特征數量遠小于一般市場所用的情況下,可將推薦系統的預測準確度提高3.3%,從而為NETFLIX 客戶提供令人信服的個性化電影推薦。

1 算法與模型

1.1 稀疏數據結構

一般情況下,所有用戶對電影的實際評分值由一個普通的U×M評分矩陣存放,U表示用戶數量,M表示電影數量。由于對電影進行評價的用戶數量有限,并且每位用戶可能只對有限的電影進行打分,因此該評分矩陣中的大多數評分值都是未知的,表1 是一個簡單的例子。所以從節約存儲空間的角度可以設計一個稀疏矩陣R來存儲實際電影評分,其中R中的每個值rum代表用戶u對電影m的評分等級(整數1~5 分),而u和m是整數ID 號,代表特定的用戶和電影。稀疏結構的優點是可節省數據空間,具體來說,那些未知的評分值在稀疏舉矩陣中默認為零,所以不占用實際空間。這里的稀疏矩陣只需要3 列數據:電影ID,用戶ID 和評分,如表2 所示。很明顯,正常矩陣中需要5×6=30 個空間單位,而在稀疏矩陣中僅需要3×7=21 個空間單位。當影片和用戶數量足夠大時,這種存儲單位的節約量會更加顯著。

表1 一個普通評分矩陣的簡單例子

表2 一個稀疏矩陣的簡單例子

1.2 基礎矩陣分解模型

推薦系統中的數據預測方法通常有兩種——直接使用電影屬性和用戶偏好之間相關性的內容過濾[3-4],或者僅識別具有相似偏好用戶的協作過濾[5]。后一種方法是面向項目的,相比前一種基于內容的方法更準確[6]。因此,基于協作過濾的這一優點,業內已經開發了用于分析“用戶-用戶”相似性的k最近鄰算法(k nearest neighbour,kNN)[6]和潛在因素模型[7]。kNN 實現簡單,但是數據庫中的稀疏性很高。另外,潛在因素模型通過復雜的代碼實現降低了稀疏性的負面影響,能夠更好地解決實際問題。

潛在因素模型通常使用一定量的特征因素(通常為20 個~100 個)代表用戶和電影。因素代表電影的實際特征或用戶喜歡的樣式類型。MF 模型是潛在因素模型的一種實現與應用,它將預測的矩陣分解為兩個較小的因素矩陣,如圖1 所示。

圖1 矩陣分解圖示

U×M矩陣中的每個值代表用戶u(行)對電影m(列)的預測評分。將該矩陣分解為兩個維度分別為U×f和f×M因素矩陣P和Q,以簡化評級數據的存儲。f是潛在因素的數量,此處f=2,例如因素f1與f2。具體地,它們可能代表“動作”、“喜劇”等特征。每個評分可以由從兩個因素矩陣中分別提取的兩個因素向量的乘積表示:

此處假設qm與pu都初始化為列向量。于是qm的轉置作為因素行向量表示電影m的特征分布(正或負值),pu作為因素列向量記錄了用戶u的興趣分布(正或負值)。以下是一個簡單的示例,

公式(3)說明使用MF 的原因是有效降低了空間復雜性。

M×U是原始數據空間的大小;f?M,f?U;f×(M+U)是應用MF 后減小到的空間大小。

我們把以上模型稱為基礎MF 模型。基礎MF 模型要求在顯式反饋條件下使用,該顯式反饋指的是用戶u在電影m上的實際評分,例如rum。如果沒有顯式反饋,則使用隱式反饋,是一種間接反映用戶偏好的方法,包括購買記錄、瀏覽歷史記錄或鼠標移動等[8]。

1.3 隨機梯度下降算法

基于如上所述的MF 模型,使用隨機梯度下降[9]作為訓練算法。為了減小預測誤差,在此方法中應使用誤差方程eum。

分別求關于pu和qm的導數。根據導數結果的正或負值,添加或減少一個參數值以修改假定的。L和K均為常數,用于數據規范化,經過預測試選取L=0.001,K=0.02。

值得注意的是,每個特征都應被單獨訓練。每次循環將在先前訓練的所有特征找到最優值后,生成這輪訓練中特定特征的最優值,以便能最大程度地減小誤差。一個完整的循環包括對固定數量的所有特征進行訓練。

1.4 均方根誤差

基于稀疏矩陣的實際評分以及經過SGD 算法訓練后獲得的預測評分,有必要評估預測準確度以實現優化目的。最終的目標是最大程度地減少預測誤差,從而提高預測的準確度。使用均方根誤差(Root Mean Square Error,RMSE)作為評估標準。

式中,rum是實際評分值;是預測值;S是(u,m)的全集合;N是評分總個數。RMSE∈[0,1],其中RMSE=0 表示無誤差,RMSE 越接近1 表示準確度越低。

Koren Y 和他的團隊獲得NETFLIX 獎第一名的解決方案添加了時間動態分析,并包含超過100 億個電影與用戶特征,最終得到的最小RMSE 為0.880[10]。與該團隊獲得此獎項時的市場產品相比,準確度提高了10%。本研究的最終目標是實現并繼續提高預測準確度。

1.5 具有靜態偏置的MF 模型

為了對基礎MF 模型進行優化,將考慮另外一個因素——偏置。如下列公式所示,μ表示所有電影的總平均評分,bm與bu分別表示對特定電影m以及固定用戶u的評分與平均水平之間的偏置。

M是已知實際評分的總數量;Nm是評價電影m的用戶數;Nu是用戶u評價的電影數量。式(8)~式(10)分別計算偏置μ、bm和bu。如公式(11)所示,是考慮了所有偏置值的預測值計算。由于μ、bm和bu偏置固定不變,所以稱為靜態偏置。

1.6 具有動態偏置的MF 模型

對于一個創新的SGD 算法,將偏置bm和bu首先初始化為0,與被訓練的訓練特征值同時進行動態訓練,這樣在MF 模型中就形成了動態結構。訓練的核心思想仍然是梯度下降。

式中:m代表隨機電影,而u代表隨機用戶;L=0.001,K=0.02。最終,誤差eum和RMSE 的計算都應考慮訓練過程中的動態偏置值。

2 算法訓練

本研究的數據集包括了2 649 429 位NETFLIX用戶,訓練過程一共需經過120 輪循環。每次全新獨立的訓練過程都包含四個基本設置參數,分別是MF 模型的類型、用戶數量、電影數量和特征數量。MF 模型有三種不同的類型:基礎MF 模型、具有靜態偏置的模型(靜態MF 模型)和具有動態偏置的模型(動態MF 模型)。默認情況下特征數量為40[9],并且所有用戶特征值和電影特征值即因素矩陣P和Q中的所有數據都統一初始化為0.1。

訓練評估應將數據集分為訓練集(隨機選擇90%)和測試集(10%)。訓練集用于算法的實現,得到可靠的MF 模型;測試集旨在檢查訓練結果的真實準確度,并檢驗算法與模型的可靠性。訓練集和測試集都應生成RMSE,訓練集的RMSE 旨在證明SGD 的功能性,而測試集的RMSE 則用于評估其功能性的實際表現。每次循環訓練或測試都應該產生一個RMSE 值,在所有訓練或測試結束之后,以循環次數為橫坐標軸、RMSE 為縱坐標軸繪制結果曲線圖。

2.1 訓練步驟

根據前面算法和模型,設計對數據集的訓練步驟如下:

(1)固定一個特征因素fn,n的初始值為1;

(2)基于特征因素fn;

(a)遍歷實際評分矩陣R中所有用戶對所有電影的實際評分值,每次遍歷得到第u位用戶對第m部電影的評分rum;

(b)對第u位用戶、第m部電影,根據公式(1)計算預測評分值;

(c)在中添加靜態偏向值——計算對應電影m的偏向值bm,計算對應用戶u的偏向值bu

(d)根據公式(4)得到誤差eum;

(e)應用隨機梯度下降算法,根據式(5)、式(6)更新對應電影m的特征向量qm、對應用戶u的特征向量pu;

(f)使用新的特征值計算特征因素fn下第u位用戶對第m部電影的預測評分值rum;

(3)進入下一個特征因素fn+1,重復(2),直至計算出所有的特征因素下所有用戶對所有電影的預測評分值rum;

體育活動能夠增強運動者的體魄、舒緩運動者壓力以及促進運動者身心健康發展。由于體育活動是一個長期過程,因此,要提高體育運動的效果,就必須“從小開始”,即必須注重對小學生的體育行為與習慣的教育。近年來隨著新課標的貫徹落實,小學體育學科教學得到了快速的發展。在新時代背景下進一步明確體育學科教學發展方向并進行實踐創新,是進一步推動小學體育學科教學發展的重要保障。

(4)總共重復(1)~(3)120 次進行循環預測計算。

2.2 訓練準確性

2.2.1 不同MF 模型的比較

表3 列出了三種不同類型MF 模型的基礎參數,電影數量是5 000,特征數量是40,由此訓練出的訓練集RMSE 變化趨勢如圖2 曲線所示。

表3 圖2 基礎參數設置

RMSE 越小意味著預測準確度越高。根據圖2,具有被訓練偏置的動態MF 模型由于RMSE 最小(0.816)表現最佳,與無偏置和靜態偏置模型相比分別提高了10.4%和6.42%。因為偏置的添加會讓電影受歡迎程度或用戶偏好程度明確體現在預測評分值中。而偏置經過迭代動態訓練,會更加突出這些個性化程度。

圖2 三種MF 模型的訓練集RMSE

圖3 顯示了三種不同類型MF 模型分別針對訓練集與測試集RMSE 值的變化趨勢對比,表4 則列出了圖3 中所有情況下的RMSE 終值。

圖3 訓練集與測試集RMSEs

表4 不同模型設置下RMSE 的終值

根據表4 中數據進行如下計算,以對比不同MF模型對應的RMSE 值即預測準確度。

(2)動態模型訓練集相比靜態模型訓練集RMSE 值減少百分比:

(3)測試集相比訓練集RMSE 值平均增加百分比:

(4)靜態模型測試集相比基礎模型測試集RMSE 值減少百分比:

(5)動態模型測試集相比靜態模型測試集RMSE 值減少百分比:

測試集的RMSE 平均比訓練集的RMSE 大6.45%。這種準確度的降低是正常現象,同時表明該算法是可靠的,因為測試和訓練集之間的準確度差異小于10%,即6.45%<10%。此外表4 顯示,經過訓練的偏置與靜態偏置相比,靜態偏置與沒有偏置相比,分別將測試集的預測準確度提高了3.74%和11.3%,證明了動態MF 模型能有效地提高推薦系統的預測準確度。

2.2.2 動態MF 模型中不同特征數量的比較

表5 列出了訓練動態MF 模型時不同特征數量的基礎參數設置,電影數量為5 000,特征數量為20、40、80、160。

表5 圖4 基礎參數設置

依據圖4 中4 種不同特征數量設置下的訓練集RMSE 變化趨勢,表6 列出對應的訓練集與測試集的RMSE 終值。

圖4 不同特征數量的訓練集RMSEs

表6 不同特征數量的訓練集RMSE 終值

根據表6 中數據,相關RMSE 值比較如下:

(1)訓練集中特征數量成倍增加時RMSE 值減少百分比:

(2)測試集中特征數量成倍增加時RMSE 值減少百分比:

不同特征數量對應的訓練集RMSE 值曲線見圖4。隨著特征數量的增加,RMSE 減小,這意味著更多特征可以更準確地描述電影屬性和用戶興趣。但是,總結了詳細RMSE 值的表6 指出,在訓練和測試中,特征增加只會稍微提高準確度。經過計算,翻倍的特征數量僅能夠使RMSE 減少最多1%,說明特征數量增多對預測準度的提高影響細微。但可以觀察到,隨著翻倍次數增多,RMSE 減少百分比呈類指數性增長。所以,針對特征數量對預測準確度的影響,只有設定大量特征數量供訓練驗證,比如500 個~1 000 個特征,才有可能實現較顯著的準確度提高。但實際上,復雜化的特征數量設置會大大增加執行時間,從而降低了推薦系統的實用性。所以特征數量不需過大,通過試驗進行利弊權衡,找到合適的數值即可。

2.2.3 數據集中包含不同電影數量的比較

表7 列出了動態MF 模型訓練時不同電影數量的基礎參數設置,電影的數量為1 000、2 000、5 000、9 000,特征數量固定為40。

表7 圖5 基礎參數設置

不同電影數量的訓練集RMSE 變化曲線見圖5,圖中說明訓練更多電影預測準確度會更高。

表8 是依據圖5 的不同電影數量的訓練集RMSE 列出的4 種不同電影數量的訓練集及測試集RMSE 終值。

表8 不同電影數量的RMSE 終值

圖5 不同電影數量的訓練集RMSE

根據表8,不同電影數量的RMSE 數據比較如下:

(1)訓練集中電影數量從1 000 到5 000,每增加1 000 部時RMSE 值平均減少百分比:

訓練集中電影數量從5 000 到9 000,每增加1 000 部時RMSE 值平均減少百分比:

(2)測試集中電影數量從1 000 到5 000,每增加1 000 部時RMSE 值平均減少百分比:

測試集中電影數量從5 000 到9 000,每增加1 000 部時RMSE 值平均減少百分比:

根據表8,在數據集中每增加1 000 部電影,訓練和測試中RMSE 總體下降平均都只有約1%,而當電影數量持續增大時,下降幅度甚至都小于0.1%。因此,累計增加的電影數量越多,盡管預測準確度會有效提高,但增加幅度會逐次遞減,這與增加數量導致的運行內存與時間增長相比,弊遠大于利。當然,如果擁有高性能處理器的計算機,就能夠解決運行內存的瓶頸,增加包含特征數量與電影數量等訓練參數則可以有效提高推薦系統的準確度。

此外,表中存在一個例外結果:將電影編號從1 000 增加至2 000 時,訓練集的RMSE 增加而不是減少。這可能是由于,增加的1 000 部電影的所有特征值在訓練過后仍然相同或仍為初始值而導致的。添加的1 000 部電影(第1 001 部到第2 000 部電影)可能都具有相似的特征屬性,而它們的真實特征值可能都遠大于或遠小于初始值0.1。因此,即使經過一些訓練,預測的特征值仍然與其真實值相差很遠,所以準確度仍然很低,甚至低于電影數量更少的情況。更多的訓練次數可能會解決這個問題。另外,新增的1 000 部電影可能都是新電影,幾乎沒有用戶提供實際的評分數據,所以他們無法在訓練中體現他們的特征偏置。

值得一提的是,NETFLIX 獎獲勝者Y.Koren 團隊的推薦系統對比使用了多種方法,包括靜態偏置的MF 模型、隱式反饋模型以及多種時間動態模型,最終測試集得到的最優RMSE 為0.880[10-12]。從表9 中可看出,其最優RMSE 值對應的參數設置包含上億級的特征數量,其使用的數據集包含了全部(1.8 萬)NETFLIX 電影。而本文最終選取的擁有最高推薦準確度的數據集僅僅使用了40 個特征和9 000 部電影,該數據模型最終卻實現了將測試集的RMSE 降低到0.851。與獲獎者相比,預測準確度提高了3.3%。

表9 不同推薦系統訓練模型準確度對比

總之,SGD 算法以及動態MF 模型可以在數據有限的條件下,為用戶提供更準確的推薦。

2.3 特征分布

圖6(a)和(b)分別顯示了基于5 000 部電影和9 000 部電影在動態MF 模型、40 個特征設置下隨機選擇10 個電影的特征預測分布。包含更多電影的訓練使得隨機選擇的電影在二維坐標中分布在更準確的特征位置。圖中,X軸表示“喜劇”特征值,兩部喜劇?Forbidden Zone?和?Blow Dry?在X軸上顯然為正。另一個特征值是“幻想主義”,其中驚悚片?Under Siege?在Y軸上出現在較大正值區域,而紀錄片?Dinosaur Planet? 和?Last of the Mississippi Jukes?則明顯在Y軸負值區域。以上表明,基于動態MF 模型的SGD 算法能比較準確地預測各類型電影的具體特征。

圖6 特征分布

3 結論

本文基于NETFLIX 平臺9 000 部電影的用戶評分數據集,在MATLAB 環境中研究了一個可靠的電影推薦系統。此推薦系統有效預測計算了電影的觀眾評分,在數據集與特征數量遠遠小于一般市場所用的情況下,將預測準確度提高了3.3%。動態MF 作為簡化的數據模型可以高效地處理數據。同時,基于具有動態偏置的MF 模型的SGD 訓練算法設計可用于提高推薦系統的預測準確度。此外,提高推薦準確度的潛在方法是通過設置適當數量的特征并擴大電影范圍。最終,每位用戶都可以獲得具有其個人最高預期評分、可靠的個性化電影推薦。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产福利2021最新在线观看| 国产69精品久久久久妇女| 波多野结衣国产精品| 国产爽歪歪免费视频在线观看| 国产欧美日韩资源在线观看 | 激情六月丁香婷婷四房播| 国产精品视频第一专区| 日本亚洲欧美在线| 福利视频久久| 国产女人在线| 色综合天天综合中文网| 男女性午夜福利网站| 毛片免费视频| 中文纯内无码H| 久久亚洲高清国产| 中文国产成人精品久久| AV不卡无码免费一区二区三区| 青青青国产精品国产精品美女| 精品国产99久久| av色爱 天堂网| 久久99精品国产麻豆宅宅| 亚亚洲乱码一二三四区| 亚洲an第二区国产精品| 性69交片免费看| 亚洲成人黄色在线| 国产综合欧美| 日本人妻丰满熟妇区| аⅴ资源中文在线天堂| 99久久这里只精品麻豆| 国产高清色视频免费看的网址| 激情乱人伦| 国产综合日韩另类一区二区| 不卡网亚洲无码| 国产精品第三页在线看| 91精品国产自产91精品资源| 成人亚洲国产| 久久国产精品影院| 亚洲三级a| 欧美日韩在线成人| 伊人五月丁香综合AⅤ| 久久久久免费精品国产| 国产亚洲精品97在线观看| 色综合中文字幕| 亚洲AV电影不卡在线观看| 成年片色大黄全免费网站久久| 国产成人一区二区| 日本不卡在线视频| 手机精品视频在线观看免费| 无码网站免费观看| 亚洲开心婷婷中文字幕| 国产成人亚洲日韩欧美电影| 亚洲中文精品人人永久免费| 国产精品视频第一专区| 999精品免费视频| www亚洲精品| 国产精品深爱在线| 成人字幕网视频在线观看| 日韩毛片免费| 中国一级特黄视频| 波多野结衣一区二区三区AV| 四虎成人免费毛片| 亚洲精品在线影院| 夜夜操国产| 国产精品无码作爱| 亚洲啪啪网| 日韩精品毛片人妻AV不卡| 亚洲欧美不卡| 99九九成人免费视频精品| 国产无码性爱一区二区三区| 欧美在线视频不卡| 国产在线观看第二页| 97久久精品人人| 国产亚洲视频在线观看| 精品無碼一區在線觀看 | 欧美日韩导航| 一本大道视频精品人妻| 亚洲精品高清视频| 国产人成乱码视频免费观看| 国产精品香蕉在线| 日韩无码黄色| 91美女视频在线| 日本久久久久久免费网络|