基于Hadoop的視頻網站推薦算法研究

2021-06-29 02:08:38張文澤

科學技術創新 2021年17期

張文澤

(長江大學電子信息學院,湖北荊州434000)

隨著當今互聯網的快速發展，每天會有海量信息產生，互聯網用戶容易迷失在信息海洋中無法找到目標內容。為了解決這種問題，推薦系統孕育而生。推薦系統是解決在“信息過載”下，用戶如何高效獲得自己感興趣目標信息的問題。從工程的角度來推薦系統可以分為兩大部分：數據部分和模型部分。數據部分主要指推薦系統所需數據流的工程實現。大數據優于好算法是指基于小數據的推薦效果不如擁有大量可用數據的推薦效果理想。而模型部分指的是推薦模型的相關工程實現，根據應用階段的不同，可進一步劃分。

1 Ha doop平臺與系統設計

1.1 Hadoop平臺架構

Hadoop是能夠對海量數據進行分布式計算處理的框架，它的核心是分布式文件系統（HDFS）和MapReduce。HDFS支持處理超大規模的文件，采用了主從結構模型，通常一個HDFS集群包括一個名稱節點和若干個數據節點。名稱節點它負責管理文件系統的命名空間以及客戶端的訪問請求。而數據節點它負責處理文件系統客戶端的讀寫請求。MapReduce它將復雜的并行計算的過程抽象到兩個函數:Map和Reduce。通過Map對數據進行分割，然后shuffle過程會對Map的輸出進行排序和合并，最后交給Reduce處理。

1.2 批處理大數據架構

批處理大數據架構采用了分布式文件處理系統，MapReduce代替了原來傳統文件系統和數據庫的存儲和處理方式，批處理大數據架構示意圖如圖1所示。

圖1 批處理大數據架構示意圖

2 推薦系統

2.1 推薦系統概述

推薦系統在獲知“用戶信息”“物品信息”“場景信息”的基礎上，通過構建好的函數模型，預測用戶對候選物品的喜好程度，再根據喜好程度對候選物品進行排序生成TOP-N列表。圖2是根據推薦系統的定義，抽象得到的邏輯框架圖。

圖2 推薦系統邏輯框架圖

2.2 協同過濾算法

協同過濾是協同所有的反饋對海量的信息進行過濾，從中篩選出目標用戶可能感興趣信息的推薦過程。按照推薦內容劃分，主要有基于用戶的協同過濾（UserCF）和基于物品的協同過濾(ItemCF)。UserCF主要是用戶相似度的計算，目標用戶的相似用戶對目標物品的評價是正面的，則可以預測目標用戶對物品的評價也是正面的。而ItemCF主要是計算物品的相似度，找到目標用戶的歷史正反饋的物品，通過與正反饋物品相似度進一步排序和推薦。兩者應用場景也有不同，UserCF具有社交特效，不會集中在固定的內容范圍。因此適用于新聞推薦等場景。ItemCF更適用于興趣變化較為穩定的推薦場景，因此用它來推薦視頻是更好的選擇。