999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web挖掘的個性化視頻推薦系統設計與實現

2018-10-09 03:00:30
電子設計工程 2018年18期
關鍵詞:用戶系統

湯 偉

(1.中國科學院上海微系統與信息技術研究所,上海201210;2.上海科技大學信息科學與技術學院,上海201210;3.中國科學院大學北京101407)

陪伴著“互聯網+”技術的急速普及,視頻業務也呈現急劇增長的趨勢。用戶對視頻內容需求也呈現多元化趨勢,視頻推薦技術的重要性也更加突出。它可以根據用戶的興趣和行為向目標用戶推薦個人感興趣的視頻信息,滿足用戶對視頻的個性化和多元化需求,減少用戶選擇困難的煩惱[1]。

然而,視頻推薦系統也存在著諸多問題,其中最常見的莫過于推薦系統中由于無相關數據而導致的推薦冷啟動問題以及用戶數據過于稀疏導致推薦準確度低的問題[2]。本文針對推薦系統內部存在的冷啟動及推薦準確度低的問題,提出基于Web挖掘的視頻推薦系統方式和改進相似度計算方法,不僅能夠達到緩解推薦系統內部冷啟動問題的效果,而且也提高了視頻推薦精確度,從而給用戶帶來更舒適的體驗質量,給視頻提供商帶來更有前景的金融效益[2-3]。

1 Web挖掘技術簡介

Web數據挖掘是將傳統的數據采集技術和Web開發有效的結合起來,從Web文檔及Web網頁中進行瀏覽相關數據中探索未知的、隱藏的、具有潛在效益的一種數據搜集的過程。這是數據挖掘技術在Web中的一種運用[4]。Web挖掘對比與于傳統數據采集的特征只要展現在Web數據源具有很強的動態性、豐富性、多樣性以及目標用戶的模糊性、自身的不斷改進與完善等等。根據Web數據類型差異,Web挖掘相關研究可以分成:Web日志挖掘,Web結構挖掘、Web內容挖掘。Web數據挖掘的主要流水線步驟可以分成Web數據的捕獲階段、Web數據預處理階段、模式分析階段三個主要過程。此外,Web數據挖掘技術也在眾多領域得到廣泛運用,例如:電子商務、生物信息處理、工業控制以及政府部分等[5]。本文提出的基于Web挖掘的個性化視頻推薦系統,其實質是一種構建數學模型來建立目標用戶興趣模型,計算目標用戶與近鄰用戶之間的相似程度,對目標用戶舉薦列表中的視頻,從而使用戶具有更加舒適的視頻體驗質量。

2 推薦系統設計

文章中在傳統協同過濾算法根基上引入Web數據挖掘技術,該算法首先通過采集用戶點擊行為、搜索記錄、評分記錄等信息,建立目標用戶興趣模型,然后結合基于內容和協同過濾算法形成一種同構化的混合推薦方法,改進推薦算法中相似度計算方式,來給目標用戶舉薦個性化的視頻列表電影內容[6-7]。系統總體設計流程如圖1所示。

圖1 視頻推薦方式總體設計流程工藝圖

具體而言,文章中采用的基于Web挖掘的視頻推薦算法首先是將數據轉化為“用戶-視頻”效用矩陣,其中效用矩陣主要采集用戶的行為信息和注冊信息,其行為信息包含用戶對視頻點贊行為、用戶評分,用戶搜索視頻行為等,利用目標用戶的量化效用矩陣,通過采取分類回歸算法來創建“個性化的視頻興趣模型”,然后根據“用戶-視頻”的關聯性計算出目標用戶的相似鄰居集,由于在進行近鄰集篩選中,考慮到數據過于稀疏而導致的維度過高,會對數據集采用主成分分析(Principal Component Analysis,PCA)來進行降維處理,提取用戶的主要特征模型。最后,計算近鄰用戶集與視頻項目之間的關聯性,從而對目標用戶與視頻之間的量化牽連性做出舉薦,由此就可以給目標用戶建立topN的視頻舉薦列表。這樣的推薦電影方式不僅可以緩解新用戶無歷史數據帶來的推薦冷啟動問題,排除傳統推薦系統中由于用戶信息少而帶來的稀疏性問題,也可以提高用戶的視頻體驗質量[8]。

2.1 用戶視頻興趣模型建立

用 CART(Classification and Regression Tree)算法建立用戶興趣模型。CART算法也是決策樹算法的一種,它既可以用于分類也可以用于回歸。其算法主要圍繞決策樹生成和決策樹剪枝兩個過程進行開展的。

CART分類樹選擇基尼指數來劃分最有價值的特點。CART分類樹生成的算法如下:

輸入:訓練數據集D和計算的終止條件。

輸出:CART決策樹。

算法步驟:

1)對每個特征A,以及它可能的每個值a,計算基尼指數,如公式(1)。

2)選取最優性狀和最優的切分點:在所有性狀A以及所有切分點a中選取最小的基尼指數作為最優特征和最優特征的劃分點。其中,基尼指數越小說明運用該屬性進行劃分數據集的純度越高。

3)對下一個子節點遞歸調用上面的步驟,直到滿足輸入的終止條件為止。

4)最終生成CART決策樹。

CART剪枝是從生成樹開始剪掉一些枝葉,使得決策樹變小。剪枝過程主要是由兩步組成(假設初始的生成樹為T0):

1)從T0起始不斷地剪枝,直到剪成一顆顆單節點的子樹。這些剪枝會逐漸形成一個個剪枝樹序列{T0,T1,…,Tn};

2)從這個剪枝序列中挑選出最優剪枝樹。挑選措施是使用交叉驗證法采用驗證數據集對剪枝樹序列進行測試。

2.2 基于PCA的混合推薦算法設計

在如今大數據和移動互聯網普及的背景下,視頻網站的用戶和視頻數量日益增加,然而大多數用戶僅僅只對其中很少一部分的視頻項目進行評分,致使已有的用戶-視頻評分的效用矩陣十分稀疏,例如就本實驗中的MovieLens-100k數據集而言,用戶已評分的項目記錄僅約占總數據的6.3%,因此如果采用傳統的協同過濾算法來計算用戶之間的相似性計算會導致較大的實驗誤差,最終會致使推薦精確度不高,用戶體驗差的后果[9]。

在實際的模型構建中,因為數據量的龐大導致數據過于稀疏的問題,本文利用主成分分析(PCA)的降維技術來處理數據。這樣能夠在保存大部分數據的情況下,減少數據維度。此外,由于數據的過于稀疏,僅僅利用一種推薦方法得到的結果會很難用戶滿意。例如:協同過濾可以通過計算用戶與用戶之間的相似程度來獲得推薦,但是它卻疏忽了項目和用戶自身所具有的特性,并且還存在冷啟動的弊端。基于內容的推薦盡管力所能及解決協同過濾中的弊端,可是它在提取視頻的內容特征上有困難。在這樣條件中,將兩種算法融合形成基于內容-協同過濾的同構化混合推薦算法很必要。不但能夠互相彌補各自的弊端,并且也可以使視頻推薦系統具備更高的精確度和效率。此外,在相似度計算上僅僅利用采用傳統的Pearson或者Jaccard等相似度計算方法直接計算會帶來較大的數據誤差[10]。鑒于此,本文借助PCA算法和加權皮爾遜相似度計算方式提出一種為PCABsaedCBFCF的算法來做基于內容和協同過濾的混合推薦。

改進傳統的相似度計算方法,例如采用Pearson相似度計算方式留有一定程度的不足,例如,在對相同的經典電影《戰狼》,兩個用戶都給與相當高的評分,這樣帶來的信息肯定不如兩個用戶對其他電影評價不同分帶來的信息更有價值。結合文本文檔檢索中的TF-IDF技術[11],文中提出了一種基于反文檔頻率加權計算模式。反文檔頻率的意思是指對于那些常見的詞語對于區分文檔沒有太大作用,應該給那些僅出現在某些文檔中具有代表性的詞更高權重。結合視頻推薦而言,如果一部電影被大多數用戶給與相同的評分,那么這個電影在區分用戶之間的相似度的時候占據的權重會降低一些。計算公式如(2)

其中,ui表示評價過視頻i的用戶數,u表示用戶總體數量。改進后的Pearson相似度計算公式如(3)

其中,用戶u和用戶v都評價過的視頻項目的集合,用戶v和用戶u評分相應的平均值分別為和。rui和rvi分別代表用戶u和v對項目i的評分。λi的表示第i個視頻所占的權重。盡管改善了傳統的相似度計算方式,但是僅僅利用一種相似度的計算方式還是無法準確的反映用戶之間的關系。因此,我們綜合思量了多種相似度的方式,選擇了Jaccard相似度計算方式,因為Jaccard相似度可以較好的反映用戶和項目之間的關系。最終我們在計算用戶與用戶之間相似度采用了如公式(4)

其中,α作為權重因子可以用來調整Pearson相似度和Jaccard相似度各自自身所占的權重。其中,α是在不斷的變化和調節。公式(4)中的Jaccard相似度計算方式如公式(5)表示:

其中,J(A,B)體現兩個集合A和B的交集元素在A、B的并集中占用的比例。最后PCABsaed CBFCF的算法表示:

輸入:用戶項目評分效用矩陣U,測試數據集Utest,近鄰數量 K-Neighbor,權重因子α

輸出:測試集上的MAE。

1)每個用戶自身數據值減去用戶的均值來填充原始數據集中缺失的值;

2)進行PCA分解;

3)計算用戶間的Perason相似度;

4)計算用戶間的Jaccard相似度;

5)利用公式(3)來計算改進的相似度;

6)根據近鄰數量K-Neighbours計算測試集上的預測評分;

7)計算測試集上的MAE;

3 實驗分析

在本試驗中為了證實推薦算法效用性,采取MovieLens-100k數據集作為實驗數據。在實驗結果中,如圖2是在不同相似度在不同近鄰數下的MAE值的曲線差異圖,在試驗中選擇了余弦相似度、Jaccard相似度和本文中采用的改進相似度計算法,即FrePearson相似度,從圖中可以看出采用FrePerson相似度算法在平均絕對誤差(MAE)上明顯優勝于其他兩種計算方法,此外從圖中可以看出Jaccard相似度也優勝于傳統的余弦相似度,也就是說FrePearson相似度計算方式優勝于Jaccard相似度,同時Jaccard相似度也比傳統余弦相似度更優,這樣本文在融合了Jaccard和Pearson相似度各自具有的優勢,提高了推薦精確度。此外,從圖2中可以看出這3種相似度在不同的近鄰數下呈現很大的差異,并不是近鄰數越多越好,可能選擇的近鄰數目越多帶來一些數據過多冗余,比如有些用戶在打分的時候是很隨意的打分[12]。如果選擇的近鄰數目過多,也許會使目標用戶相似度很低的用戶也會被選擇為鄰居集,從而帶來推薦精度降低的弊端,因而在實際中選擇合理的鄰居數目也是重要方面。

圖2 不同相似度在近鄰數下的MAE值

3.1 權重因子

除了近鄰數目會影響推薦結果的精確度,權重因子也是一個重要的影響因子。

圖3是本文算法在不同的權重因子下MAE值變化情況。從圖3中可以看出不同權重因子下MAE值的變化,整體展現出先上升再下降然后再上升的趨向。其中,在α為0.2時,MAE取值最大,說明此時的推薦精度最低,在α值為1時,算法只用到了一種FrePearson相似度計算方法,在α為0時,算法只用到Jaccard相似度計算方式,MAE的取值較大,從側面說明FrePearson的相似度計算方式優勝于Jaccard計算方式。此外,在α從0到1變化的時候,FrePearson相似度計算方式所占比重會逐步加大,MAE的值也在呈現迅速下降到逐步上升的趨勢狀態。在α為0.4附近,MAE的值達到了最優值(此時Jaccard相似度所占的權重更大)推薦精度也達到了最優。因此,在實驗中選擇合適的權重因子可以提高推薦精確度。

圖3 不同權重因子下的MAE值

3.2 對比試驗分析

圖4 是本文提出的PCABasedCBFCF算法,同經典的協同過濾(Collaborative Filtering,CF)和基于內容的推薦算法(Content-based Filtering,CBF)做性能上的差異分析,從圖4中看PCABasedCBF-CF算法在性能上優勝于傳統的協同過濾算法和基于內容的算法,整體降低了15%和6%。

在表格1中展示本文給出的算法在不同的近鄰數目下平絕絕對誤差(MAE)的對應節點值變化。

4 視頻推薦系統實現

圖4 不同近鄰數目差異算法的MAE值

表1 不同算法對于的MAE值

前面對基于Web挖掘的視頻推薦系統進行了分析和設計,并采用同構化推薦算法和改進相似度計算方法,提高了系統的推薦準確率。下一步就是在設計基礎上搭建視頻推薦模型,確保推薦算法可以在本系統中的模塊可以平穩地工作。整個系統環境搭建是建立在 Django、Bootstrap、HTML、MySQL的基礎上完成的[13-15]。

新用戶注冊時,系統會需要注冊用戶輸入一個唯一的用戶名,同時用戶務必選擇喜歡的電影類型標簽,也可以設置系統內部沒有類型標簽[16],標簽的選擇可以彌補推薦系統冷啟動帶來的不足,如圖5和圖6。

圖5 用戶登錄與注冊

用戶可以進入界面搜索相應的影片,或是評價電影、給電影打分。后臺會將目標用戶的行為記錄到個人Web日志系統,然后結合之前測試的推薦算法,進行計算,產生個性化推薦列表,然后將推薦列表在前端頁面展示給目用戶,如圖7。

圖6 個性化標簽

圖7 視頻推薦列表

這樣一個具有個性化視頻推薦系統和高效推薦算法融合的模型,就展現在觀眾面前,提高了視頻網站觀眾的忠實度和依賴度,也為推薦系統在電子商務系統中不斷前進貢獻了自己的一份力量。

5 結束語

文中設計的個性化視頻推薦系統融合多種推薦算法,采用Web數據挖掘建立目標用戶視頻個性化興趣模型,其次針對傳統協同過濾算法留存的數據稀疏性問題應用基于PCA的混合推薦算法,并引入一種將Jaccard相似度和Pearson相似度加權結合的相似度計算方法,緩解了經典相似度計算法因為數據稀疏性帶來的誤差,同時提高了視頻推薦精度。最后利用Python Web技術搭建了電影推薦系統原型,測試并完成了一個為用戶定制的個性化視頻推薦系統,緩解了解決推薦系統冷啟動和推薦精確度低的問題,提高了視頻用戶的體驗質量。

猜你喜歡
用戶系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
主站蜘蛛池模板: 久久伊人操| 日韩国产 在线| 免费观看亚洲人成网站| 欧美、日韩、国产综合一区| 亚洲天堂网在线观看视频| 国产欧美日韩免费| 成年午夜精品久久精品| 日本欧美中文字幕精品亚洲| 日本亚洲成高清一区二区三区| 国产视频你懂得| 欧美激情视频二区| 久无码久无码av无码| 国产一级毛片yw| 嫩草在线视频| 久久特级毛片| 亚洲日本韩在线观看| 91午夜福利在线观看精品| 精品国产香蕉在线播出| 国产特级毛片aaaaaa| 狠狠操夜夜爽| 亚洲熟妇AV日韩熟妇在线| 国产在线视频二区| 国产高颜值露脸在线观看| 国产高清不卡| 久久亚洲黄色视频| 99久久精品免费看国产电影| 国产一区二区三区夜色| www.精品国产| 国产一级小视频| 99福利视频导航| 在线观看亚洲精品福利片| 最新加勒比隔壁人妻| 国产精品观看视频免费完整版| 成人午夜亚洲影视在线观看| 亚洲精品桃花岛av在线| 亚洲美女操| 欧美区国产区| 91麻豆精品视频| 亚洲第七页| 国产一区二区影院| 天堂网亚洲系列亚洲系列| 欧美精品综合视频一区二区| 蜜桃视频一区| 久久婷婷五月综合97色| 狠狠色香婷婷久久亚洲精品| 亚洲国产成人无码AV在线影院L| 狠狠色婷婷丁香综合久久韩国| 精品伊人久久久久7777人| 四虎国产在线观看| 久久精品国产免费观看频道 | 性69交片免费看| 精品无码一区二区三区在线视频| 久久免费成人| 91高清在线视频| 狠狠色综合网| 高清不卡一区二区三区香蕉| 成人精品在线观看| 久久网欧美| 久草热视频在线| 无码AV动漫| 一本大道视频精品人妻 | 国产极品美女在线观看| 亚洲欧美一区二区三区图片| 超薄丝袜足j国产在线视频| 亚洲欧洲综合| 久久一色本道亚洲| 曰AV在线无码| 国产精品开放后亚洲| 午夜啪啪福利| 国内视频精品| 谁有在线观看日韩亚洲最新视频| 色爽网免费视频| 一级毛片不卡片免费观看| 国产福利一区二区在线观看| Aⅴ无码专区在线观看| 在线观看亚洲成人| 毛片手机在线看| 激情爆乳一区二区| 91久久大香线蕉| jizz在线免费播放| lhav亚洲精品| 又粗又大又爽又紧免费视频|