基于Item—Based協同過濾農業高校圖書個性化推薦算法研究

2017-04-26 10:12:30趙鵬博韓憲忠王克儉

湖北農業科學 2017年6期

趙鵬博+韓憲忠+王克儉

摘要：針對高校用戶對圖書的個性化需求，運用用戶對圖書的評分，構建了基于Hadoop和Mahout的圖書推薦系統。通過Hadoop中分布式文件系統（HDFS）和Map/Reduce計算模型的應用，發現當Hadoop中節點數不斷增加時，計算時間不斷減少，實時響應效率得到了提高；通過對Mahout中傳統的Item-Based聚類協同過濾推薦算法進行改進，利用MAE值對傳統和改進后的協同過濾算法進行比較，發現圖書推薦的精度進一步提高。總體來說，推薦系統改善了傳統單機運行內存嚴重不足和推薦結果不精確的問題。

關鍵詞：高校圖書館；個性化推薦算法；協同過濾算法；大數據

中圖分類號：G258.6+62 文獻標識碼：A 文章編號：0439-8114（2017）06-1150-05

DOI：10.14088/j.cnki.issn0439-8114.2017.06.040

Abstract： For personalized book needs of users at colleges and universities， we build a book recommendation system based on Hadoop and Mahout using the scores given by users. Through the application of Hadoop distributed file system （HDFS） and Map/Reduce calculation model， we found that the calculation time is reduced while real-time response efficiency is improved with the increasing of the number of notes in the Hadoop. Through the improvement of traditional Item-Based collaborative filtering recommendation algorithm， which is based on item clustering in the Mahout， we compare the traditional collaborative filtering algorithms with the improved collaborative filtering algorithms by using MAE， and find that the precision of the recommendation is further improved. In general， this experiment improves the problem of out-of-memory for the running of traditional single machine and the inaccurate results of recommendation.

Key words： university library； personalized recommendation algorithm； collaborative filtering algorithm； big data

隨著圖書館事業的發展，用戶對圖書館資源的使用提出了越來越高的要求；為讀者提供有針對性的服務，成為圖書館發展中所面臨的具體任務之一。在建設智慧圖書館中，國外個性化圖書推薦服務已經比較成熟，但國內個性化推薦系統尚不完善[1]。目前國內大部分高校圖書館都是通過輸入關鍵詞進行模糊搜索，然后列出只和關鍵詞相關的書籍，沒有達到智能以及個性化推薦的效果。在借閱圖書的過程中，用戶過去產生的行為分為顯式用戶反饋與隱式用戶反饋兩種，主要包括瀏覽頁面、搜索圖書、收藏圖書、借閱圖書、評論圖書、圖書評分等用戶行為[2]。本試驗通過顯式用戶反饋中的圖書評分，推薦出在校學生和老師感興趣的書，達到一個圖書個性化推薦的效果。河北農業大學圖書館每天產生大量的數據信息，單機運行無法滿足實時響應的效率。在處理大規模海量數據時，許多研究者將其設計的協同過濾算法部署于Hadoop并行化平臺，以期在保證結果準確的前提下，通過Hadoop提高協同過濾算法執行的效率。Mahout提供了Hadoop并行化算法的接口，本試驗將Mahout中提供的基于項目聚類協同過濾算法與Hadoop中Map/Reduce計算模型和分布式文件系統（Hadoop Distributed File System，HDFS）進行結合，改進原來的推薦算法，設計出河北農業大學高校圖書推薦系統。該推薦系統由Application業務系統、Mahout計算框架、Hadoop集群組成，解決了海量數據環境下算法實施的效率及推薦的精準性問題。

1 圖書推薦系統環境

1.1 Hadoop 與Mahout

Hadoop包括HDFS和Map/Reduce 2個子項目。HDFS由1個名稱節點（Name Node）和多個數據節點（Data Node）組成[3]。Name Node管理和維護著系統中所有文件的索引目錄，記錄每個數據塊節點的位置。Data Node存儲著用戶數據，實時被Namenode調用，并且定時向Name Node發送更新的數據列表信息。Map/Reduce并行編程框架[4]用于處理大規模計算機集群上的海量數據，該模型具有良好的擴展性及高容錯性；集群中的Map/Reduce框架是由運行在主節點上的Job Tracker和運行在每個集群從節點的Task Tracker共同組成的。當一個Job被提交時，Job Tracker接收到提交作業和配置信息之后，就會將配置信息等分發給Task Tracker，Task Tracker負責完成由Job Tracker指派的任務。一個Map/Reduce作業分為Map和Reduce 2個階段。HDFS在集群上將單機內存算法通過Map/Reduce模型并行化部署在多臺電腦上，實現分布式文件系統高傳輸率訪問數據；Map/Reduce在集群上實現了大量數據的并行化計算。二者相互作用，共同組成了Hadoop分布式系統體系結構的核心。

Mahout框架不僅提供了單機運行的接口，同時還基于Hadoop進行分布式運算。Mahout推薦引擎主要由Data Model、User Similarity、Item Similarity、User Neighborhood、Recommender[5]等模塊組成。Taste是Apache Mahout提供的一個協同過濾算法的高效子系統，它實現了最基本的基于用戶的協同過濾算法（User-based collaborative filtering）和基于物品的協同過濾算法（Item-based collaborative filtering）[6]。

1.2 環境配置

目前Hadoop有3種運行模式，分別是本地運行、偽分布運行、完全分布式運行[7]；試驗在2臺普通的電腦上進行偽分布式模擬部署。試驗的平臺硬件需要2臺4核的Intel普通電腦，其操作系統采用win7 64 bite，CPU的主頻為3.5 GHz，內存的大小為8 G，硬盤空間為1 T。在物理硬件平臺上面部署的軟件為V Mvare Workstation 9.0、Cent OS 6.5、Open SSH、jdk-6u24-linux-i586、Hadoop 1.1.2、eclipse 10.0、maven 3.2.5、mahout 0.8、jdk-6u 45- Windows-x 64。

1.3 搭建集群

一個HDFS集群主要采用主/從式的邏輯結構，在搭建一個分布式集群時，需要為Hadoop 指定一個節點作為主節點，在該主節點上運行Name Node 和Job Tracker 2個守護進程，調度其他從節點的Data Node 和Task Tracker 2個守護進程。

搭建Hadoo 集群，首先要關閉各個節點的防火墻，修改配置文件/etc/hosts，保證所有節點的IP與主機名映射。試驗虛擬1臺主機當主節點，虛擬6臺主機當從節點（需要保證各個節點之間SSH[8]能免密碼登錄）。其中主節點為（master，192.168.59.100），從節點為（slave1，192.168.59.101）；（slave2，192.168.59.102）…….（slave6，192.168.59.106），具體見圖1。

2 基于項目聚類協同過濾推薦算法

2.1 項目聚類

為了提高實時響應效率，首先調用Mahout中taste算法庫的Kmeans算法[9]，對項目進行聚類。通過聚類，項目之間相似性最高的歸到一個集合，項目的最近鄰居大部分分布在相似性最高的若干個聚類中，因此不需要在整個項目空間上進行搜索，而只需要在與目標項目相似性最高的若干集合中進行查詢即可。

項目聚類過程如下：

建立用戶-評分矩陣m×n。其中m為用戶，n為項目，Ri，k為用戶i對項目k的評分。試驗采用的數據集評分設定在0到10，評分越高，表明該項目受用戶喜愛的程度越高。評分矩陣如表1所示：

輸入：項目集I={i1，i2，……in}，用戶評分矩陣Rm×n，

輸出：聚類項目集C={c1，c2，……ck}，

任意選擇k個項目，將其用戶評分作為初始聚類中心，為CC={w1，w2，……wk}；

聚類集合C={c1，c2，……ck}初始化為空；

Repeat

For項目in（in∈I）do

For聚類中心wk（wk∈CC）do計算sim（in，wk）；

sim（in，wk）=min{sim（in，w1），sim（in，w2），…… sim（in，wk）}；

聚類ck=ck∪in；

For聚類ck（ck∈C）do

更新聚類中心wk=■∑■■in；

計算誤差函數E=■■|in-ck|2；

Until E不再改變，生成的k個聚類項目集{c1，c2，……ck}，有如下性質：

c1∪c2∪…∪ck=I；

ci∩cj=（i≠j，對任意的1≤i≤k，1≤j≤k）。

2.2 傳統協同過濾算法

隨著用戶數據量不斷增加，運算用戶興趣相似度矩陣的時間和空間復雜度近似于平方關系增長，User CF很難做到實時計算預測值，試驗采取的Item CF的協同過濾算法正好彌補了這樣的缺陷。在構建圖書推薦系統中Item CF算法利用用戶的評分，離線分析計算物品之間的相似度，經過得到的用戶對未評分項目的預測評分，快速推薦出高度相關的相似項目。

Mahout傳統協同過濾算法中常以Euclidean Distance Similarity[10]系數計算項目之間的相似度。設Uij表示用戶U對項目i和項目j共同評分的集合，項目i和項目j之間的相似性為：

sim（i，j）=■，

其中，Ru，i和Ru，j分別表示用戶U對項目i和j的評分。

2.3 基于項目聚類改進的協同過濾推薦算法

在高校用戶對圖書進行評分時，由于用戶的主觀性，有些用戶評分高，而有些用戶評分相對低，傳統的Euclidean Distance Similarity系數沒有考慮用戶的評分尺度，無法消除用戶評分的主觀性。試驗采用的Adjusted Cosin Similarity系數將每個項目的評分減去該項目所有用戶評分的均值，消除了用戶的主觀性評分，同時首先通過項目聚類將高度相似的項目聚集到若干個集合中。

2個項目的相似度常用余弦相似性來計算，即2個向量之間的夾角余弦值。余弦值的范圍在[-1，1]之間（值越趨近于1，相應的相似度也越高）。

Cosin Similarity系數相似性計算公式為：

sim（i，j）=cos（i，j）=■=

■，

其中Ui和Uj分別表示用戶U對項目i和項目j評分過的集合。

Adjusted Cosin Similarity系數相似性計算公式為：

sim（i，j）=■，

其中■u表示用戶U對所有項目的平均評分。

為了驗證算法的有效性，聚類數用k1表示，試驗選擇聚類數為30。在項目i的前k個聚類（c1，c2，……ck）中找到項目的最近鄰數k2，試驗選擇近鄰數為20。調用Mahout提供的Recommonder Job算法，以項目相似度作為權重，進行配置與調優，計算出用戶U對任意項目i的預測評分值。選取前Top N個項目推薦給用戶U。計算用戶對項目的評分，用戶U對項目i的評分：

Pu，i=■

其中，j為k個項目評分組成的集合，Ru，j為用戶U對項目j的評分。

3 結果與分析

3.1 數據獲取

為了驗證Hadoop的性能，測試采用河北農業大學東、西校區圖書館近幾年收集的信息，形成Book-Crossing數據集，并將用戶對圖書的評分信息形成BX-Books-Ratings數據集。同時為了驗證改進的算法精確性，選取了河北農業大學圖書館計算機系的10 000本書，通過計算機系1 000名學生對10 000本書的評分，形成數據集Books-Library-Ratings。由于Mahout下處理的文件為Sequence File格式，因此需要將上述文件轉換成Sequence File格式。

3.2 推薦算法效果評估

推薦算法的效果評估主要分為兩個方面，一是性能評估，二是推薦質量評估。

3.2.1 性能評估為了驗證基于Hadoop中HDFS分布式文件系統和Map/Reduce計算模型的云平臺能夠提升協同過濾推薦算法的執行效率，試驗用BX-Books-Ratings數據集進行測試。通過原始的Mahout 協同過濾推薦算法，采用Top10的方式對圖書館中所有用戶推薦排名前10的書目；逐步增加偽分布式集群的節點數量，記錄下相應節點數消耗的時間，結果見圖2。由圖2可以看出，隨著Map/Reduce模型節點數量的增加，計算時間相應減少，但遞減的幅度也在不斷減少。因為隨著節點的數量不斷增加，Map/Reduce 操作需要的時間也越來越長；同時試驗部署的偽分布式Hadoop 集群是在2臺物理機上虛擬出的PC 集群，硬件總體的性能是一定的，節點的增加只是資源利用率的提高。如果采用多臺物理機部署Hadoop 完全分布式集群，計算效率則會顯著提升。

3.2.2 推薦質量評估平均絕對誤差MAE（Mean absolute error）方法通過比較得到的預測值和用戶的實際評分值之間的偏差來計算結果的準確性，MAE值越小，表明推薦的越精確，質量越好。設預測的用戶評分集合表示為{p1，p2，…，pn}，對應的實際用戶評分集合為{q1，q2，……qn}，其計算公式為：

MAE=■。

Mahout算法庫中Recommender Evaluator就是利用MAE來測試推薦的精確性。現將數據集Books-Library-Ratings劃分成兩個部分：訓練集與測試集。從用戶評分表Books-Library-Ratings中隨機選20個用戶，分別用原始推薦引擎Original Recommender和改進后的Improved Recommender推薦引擎計算出Top10列表及其預測值，在此基礎上，使用Recommender Evaluator Runner算法評估器分別計算出20個用戶的MAE值，以作推薦效果測試和比較。如運行傳統協同過濾推薦算法得到用戶56的推薦列表（Top10）及對應預測評分值，可從實際評分表獲取用戶56 實際的評分值，利用Recommender Evaluator計算出傳統推薦算法下用戶56的MAE值=1.46。利用改進基于項目聚類協同過濾推薦算法計算出用戶56的推薦列表（Top10）及對應預測評分值，從實際評分表獲取用戶56實際的評分值，再利用Recommender Evaluator計算出改進推薦算法下用戶56的MAE值=1.13。對用戶56而言，推薦的準確率提高了（1.46-1.13）/1.46×100%=22.6%。

其他19個最近鄰用戶MAE的計算過程與此相同，依次進行計算，利用Recommender Evaluator Runner評估器分別依次基于原始推薦算法下和改進推薦算法，計算出其他19個用戶的MAE值，結果見圖3。對MAE值結果進行比較，可以看出改進算法的MAE值總體上比原始的協同過濾算法的MAE值要更低，這表明改進的基于項目聚類的協同過濾算法的整體推薦準確率要比原始的協同過濾推薦算法更高，平均提高了19.4%。同時也表明用戶評分的主觀性對推薦結果的準確性有較大的影響。

4 小結

試驗結果表明，基于Hadoop分布式計算框架的河北農業大學圖書推薦系統引擎通過搭建分布式計算平臺，利用集群計算與存儲能力，有效且快速的完成了個性化的圖書推薦，性能有了明顯提高。

Mahout是一個很強大的數據挖掘工具，通過試驗中提出的改進的基于項目聚類的協同過濾推薦算法，計算所得的預測評分更加接近于用戶的實際評分；雖然有個別用戶改進后的協同過濾推薦算法的MAE值要大于原始協同過濾推薦算法的MAE值，即改進后的協同過濾算法推薦的準確率下降了，但整體有了提高。下一步要對Mahout中推薦算法進行改進，參數還要調優，同時研究用戶的其他行為，不斷提高推薦效率和精確程度。

參考文獻：

[1] 華小琴.我國高校數字圖書館個性化服務探究[J].圖書館理論與實踐，2014（5）：85-88.

[2] 項亮.推薦系統實踐[M].北京：人民郵電出版社，2014.58-61.

[3] TOM W. Hadoop：The Definitive Guide[M].USA：O′Reilly Media，Inc，2015.166-178.

[4] DANIL Z，SUDHEESH N. Hadoop Cluster Deployment，Securing Hadoop[M].USA：Packt Publishing，2013.64-76.

[5] 樊哲.Mahout算法解析與案例實戰[M].北京：機械工業出版社，2014.24-32.

[6] JANNACH D，ZANKER M，FELFERNIG A.Recommender Systems：An Introduction[M].Cambridge，UK：Cambridge University Press，2012.8-14.

[7] 奉國和，黃家興.基于Hadoop與Mahout的協同過濾圖書推薦研究[J].圖書情報工作，2013，57（18）：116-121.

[8] 李龍飛.基于Hadoop+Mahout的智能終端云應用推薦引擎的研究與實現[D].成都：電子科技大學，2013.

[9] 余暉.基于Mahout的聚類算法研究[D].上海：上海師范大學，2014.

[10] 馬寧.基于Mahout的推薦系統研究與實現[D].蘭州：蘭州大學，2013.