999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Item—Based協同過濾農業高校圖書個性化推薦算法研究

2017-04-26 10:12:30趙鵬博韓憲忠王克儉
湖北農業科學 2017年6期
關鍵詞:高校圖書館大數據

趙鵬博+韓憲忠+王克儉

摘要:針對高校用戶對圖書的個性化需求,運用用戶對圖書的評分,構建了基于Hadoop和Mahout的圖書推薦系統。通過Hadoop中分布式文件系統(HDFS)和Map/Reduce計算模型的應用,發現當Hadoop中節點數不斷增加時,計算時間不斷減少,實時響應效率得到了提高;通過對Mahout中傳統的Item-Based聚類協同過濾推薦算法進行改進,利用MAE值對傳統和改進后的協同過濾算法進行比較,發現圖書推薦的精度進一步提高。總體來說,推薦系統改善了傳統單機運行內存嚴重不足和推薦結果不精確的問題。

關鍵詞:高校圖書館;個性化推薦算法;協同過濾算法;大數據

中圖分類號:G258.6+62 文獻標識碼:A 文章編號:0439-8114(2017)06-1150-05

DOI:10.14088/j.cnki.issn0439-8114.2017.06.040

Abstract: For personalized book needs of users at colleges and universities, we build a book recommendation system based on Hadoop and Mahout using the scores given by users. Through the application of Hadoop distributed file system (HDFS) and Map/Reduce calculation model, we found that the calculation time is reduced while real-time response efficiency is improved with the increasing of the number of notes in the Hadoop. Through the improvement of traditional Item-Based collaborative filtering recommendation algorithm, which is based on item clustering in the Mahout, we compare the traditional collaborative filtering algorithms with the improved collaborative filtering algorithms by using MAE, and find that the precision of the recommendation is further improved. In general, this experiment improves the problem of out-of-memory for the running of traditional single machine and the inaccurate results of recommendation.

Key words: university library; personalized recommendation algorithm; collaborative filtering algorithm; big data

隨著圖書館事業的發展,用戶對圖書館資源的使用提出了越來越高的要求;為讀者提供有針對性的服務,成為圖書館發展中所面臨的具體任務之一。在建設智慧圖書館中,國外個性化圖書推薦服務已經比較成熟,但國內個性化推薦系統尚不完善[1]。目前國內大部分高校圖書館都是通過輸入關鍵詞進行模糊搜索,然后列出只和關鍵詞相關的書籍,沒有達到智能以及個性化推薦的效果。在借閱圖書的過程中,用戶過去產生的行為分為顯式用戶反饋與隱式用戶反饋兩種,主要包括瀏覽頁面、搜索圖書、收藏圖書、借閱圖書、評論圖書、圖書評分等用戶行為[2]。本試驗通過顯式用戶反饋中的圖書評分,推薦出在校學生和老師感興趣的書,達到一個圖書個性化推薦的效果。河北農業大學圖書館每天產生大量的數據信息,單機運行無法滿足實時響應的效率。在處理大規模海量數據時,許多研究者將其設計的協同過濾算法部署于Hadoop并行化平臺,以期在保證結果準確的前提下,通過Hadoop提高協同過濾算法執行的效率。Mahout提供了Hadoop并行化算法的接口,本試驗將Mahout中提供的基于項目聚類協同過濾算法與Hadoop中Map/Reduce計算模型和分布式文件系統(Hadoop Distributed File System,HDFS)進行結合,改進原來的推薦算法,設計出河北農業大學高校圖書推薦系統。該推薦系統由Application業務系統、Mahout計算框架、Hadoop集群組成,解決了海量數據環境下算法實施的效率及推薦的精準性問題。

1 圖書推薦系統環境

1.1 Hadoop 與Mahout

Hadoop包括HDFS和Map/Reduce 2個子項目。HDFS由1個名稱節點(Name Node)和多個數據節點(Data Node)組成[3]。Name Node管理和維護著系統中所有文件的索引目錄,記錄每個數據塊節點的位置。Data Node存儲著用戶數據,實時被Namenode調用,并且定時向Name Node發送更新的數據列表信息。Map/Reduce并行編程框架[4]用于處理大規模計算機集群上的海量數據,該模型具有良好的擴展性及高容錯性;集群中的Map/Reduce框架是由運行在主節點上的Job Tracker和運行在每個集群從節點的Task Tracker共同組成的。當一個Job被提交時,Job Tracker接收到提交作業和配置信息之后,就會將配置信息等分發給Task Tracker,Task Tracker負責完成由Job Tracker指派的任務。一個Map/Reduce作業分為Map和Reduce 2個階段。HDFS在集群上將單機內存算法通過Map/Reduce模型并行化部署在多臺電腦上,實現分布式文件系統高傳輸率訪問數據;Map/Reduce在集群上實現了大量數據的并行化計算。二者相互作用,共同組成了Hadoop分布式系統體系結構的核心。

Mahout框架不僅提供了單機運行的接口,同時還基于Hadoop進行分布式運算。Mahout推薦引擎主要由Data Model、User Similarity、Item Similarity、User Neighborhood、Recommender[5]等模塊組成。Taste是Apache Mahout提供的一個協同過濾算法的高效子系統,它實現了最基本的基于用戶的協同過濾算法(User-based collaborative filtering)和基于物品的協同過濾算法(Item-based collaborative filtering)[6]。

1.2 環境配置

目前Hadoop有3種運行模式,分別是本地運行、偽分布運行、完全分布式運行[7];試驗在2臺普通的電腦上進行偽分布式模擬部署。試驗的平臺硬件需要2臺4核的Intel普通電腦,其操作系統采用win7 64 bite,CPU的主頻為3.5 GHz,內存的大小為8 G,硬盤空間為1 T。在物理硬件平臺上面部署的軟件為V Mvare Workstation 9.0、Cent OS 6.5、Open SSH、jdk-6u24-linux-i586、Hadoop 1.1.2、eclipse 10.0、maven 3.2.5、mahout 0.8、jdk-6u 45- Windows-x 64。

1.3 搭建集群

一個HDFS集群主要采用主/從式的邏輯結構,在搭建一個分布式集群時,需要為Hadoop 指定一個節點作為主節點,在該主節點上運行Name Node 和Job Tracker 2個守護進程,調度其他從節點的Data Node 和Task Tracker 2個守護進程。

搭建Hadoo 集群,首先要關閉各個節點的防火墻,修改配置文件/etc/hosts,保證所有節點的IP與主機名映射。試驗虛擬1臺主機當主節點,虛擬6臺主機當從節點(需要保證各個節點之間SSH[8]能免密碼登錄)。其中主節點為(master,192.168.59.100),從節點為(slave1,192.168.59.101);(slave2,192.168.59.102)…….(slave6,192.168.59.106),具體見圖1。

2 基于項目聚類協同過濾推薦算法

2.1 項目聚類

為了提高實時響應效率,首先調用Mahout中taste算法庫的Kmeans算法[9],對項目進行聚類。通過聚類,項目之間相似性最高的歸到一個集合,項目的最近鄰居大部分分布在相似性最高的若干個聚類中,因此不需要在整個項目空間上進行搜索,而只需要在與目標項目相似性最高的若干集合中進行查詢即可。

項目聚類過程如下:

建立用戶-評分矩陣m×n。其中m為用戶,n為項目,Ri,k為用戶i對項目k的評分。試驗采用的數據集評分設定在0到10,評分越高,表明該項目受用戶喜愛的程度越高。評分矩陣如表1所示:

輸入:項目集I={i1,i2,……in},用戶評分矩陣Rm×n,

輸出:聚類項目集C={c1,c2,……ck},

任意選擇k個項目,將其用戶評分作為初始聚類中心,為CC={w1,w2,……wk};

聚類集合C={c1,c2,……ck}初始化為空;

Repeat

For項目in(in∈I)do

For聚類中心wk(wk∈CC)do計算sim(in,wk);

sim(in,wk)=min{sim(in,w1),sim(in,w2),…… sim(in,wk)};

聚類ck=ck∪in;

For聚類ck(ck∈C)do

更新聚類中心wk=■∑■■in;

計算誤差函數E=■■|in-ck|2;

Until E不再改變,生成的k個聚類項目集{c1,c2,……ck},有如下性質:

c1∪c2∪…∪ck=I;

ci∩cj=(i≠j,對任意的1≤i≤k,1≤j≤k)。

2.2 傳統協同過濾算法

隨著用戶數據量不斷增加,運算用戶興趣相似度矩陣的時間和空間復雜度近似于平方關系增長,User CF很難做到實時計算預測值,試驗采取的Item CF的協同過濾算法正好彌補了這樣的缺陷。在構建圖書推薦系統中Item CF算法利用用戶的評分,離線分析計算物品之間的相似度,經過得到的用戶對未評分項目的預測評分,快速推薦出高度相關的相似項目。

Mahout傳統協同過濾算法中常以Euclidean Distance Similarity[10]系數計算項目之間的相似度。設Uij表示用戶U對項目i和項目j共同評分的集合,項目i和項目j之間的相似性為:

sim(i,j)=■,

其中,Ru,i和Ru,j分別表示用戶U對項目i和j的評分。

2.3 基于項目聚類改進的協同過濾推薦算法

在高校用戶對圖書進行評分時,由于用戶的主觀性,有些用戶評分高,而有些用戶評分相對低,傳統的Euclidean Distance Similarity系數沒有考慮用戶的評分尺度,無法消除用戶評分的主觀性。試驗采用的Adjusted Cosin Similarity系數將每個項目的評分減去該項目所有用戶評分的均值,消除了用戶的主觀性評分,同時首先通過項目聚類將高度相似的項目聚集到若干個集合中。

2個項目的相似度常用余弦相似性來計算,即2個向量之間的夾角余弦值。余弦值的范圍在[-1,1]之間(值越趨近于1,相應的相似度也越高)。

Cosin Similarity系數相似性計算公式為:

sim(i,j)=cos(i,j)=■=

■,

其中Ui和Uj分別表示用戶U對項目i和項目j評分過的集合。

Adjusted Cosin Similarity系數相似性計算公式為:

sim(i,j)=■,

其中■u表示用戶U對所有項目的平均評分。

為了驗證算法的有效性,聚類數用k1表示,試驗選擇聚類數為30。在項目i的前k個聚類(c1,c2,……ck)中找到項目的最近鄰數k2,試驗選擇近鄰數為20。調用Mahout提供的Recommonder Job算法,以項目相似度作為權重,進行配置與調優,計算出用戶U對任意項目i的預測評分值。選取前Top N個項目推薦給用戶U。計算用戶對項目的評分,用戶U對項目i的評分:

Pu,i=■

其中,j為k個項目評分組成的集合,Ru,j為用戶U對項目j的評分。

3 結果與分析

3.1 數據獲取

為了驗證Hadoop的性能,測試采用河北農業大學東、西校區圖書館近幾年收集的信息,形成Book-Crossing數據集,并將用戶對圖書的評分信息形成BX-Books-Ratings數據集。同時為了驗證改進的算法精確性,選取了河北農業大學圖書館計算機系的10 000本書,通過計算機系1 000名學生對10 000本書的評分,形成數據集Books-Library-Ratings。由于Mahout下處理的文件為Sequence File格式,因此需要將上述文件轉換成Sequence File格式。

3.2 推薦算法效果評估

推薦算法的效果評估主要分為兩個方面,一是性能評估,二是推薦質量評估。

3.2.1 性能評估 為了驗證基于Hadoop中HDFS分布式文件系統和Map/Reduce計算模型的云平臺能夠提升協同過濾推薦算法的執行效率,試驗用BX-Books-Ratings數據集進行測試。通過原始的Mahout 協同過濾推薦算法,采用Top10的方式對圖書館中所有用戶推薦排名前10的書目;逐步增加偽分布式集群的節點數量,記錄下相應節點數消耗的時間,結果見圖2。由圖2可以看出,隨著Map/Reduce模型節點數量的增加,計算時間相應減少,但遞減的幅度也在不斷減少。因為隨著節點的數量不斷增加,Map/Reduce 操作需要的時間也越來越長;同時試驗部署的偽分布式Hadoop 集群是在2臺物理機上虛擬出的PC 集群,硬件總體的性能是一定的,節點的增加只是資源利用率的提高。如果采用多臺物理機部署Hadoop 完全分布式集群,計算效率則會顯著提升。

3.2.2 推薦質量評估 平均絕對誤差MAE(Mean absolute error)方法通過比較得到的預測值和用戶的實際評分值之間的偏差來計算結果的準確性,MAE值越小,表明推薦的越精確,質量越好。設預測的用戶評分集合表示為{p1,p2,…,pn},對應的實際用戶評分集合為{q1,q2,……qn},其計算公式為:

MAE=■。

Mahout算法庫中Recommender Evaluator就是利用MAE來測試推薦的精確性。現將數據集Books-Library-Ratings劃分成兩個部分:訓練集與測試集。從用戶評分表Books-Library-Ratings中隨機選20個用戶,分別用原始推薦引擎Original Recommender和改進后的Improved Recommender推薦引擎計算出Top10列表及其預測值,在此基礎上,使用Recommender Evaluator Runner算法評估器分別計算出20個用戶的MAE值,以作推薦效果測試和比較。如運行傳統協同過濾推薦算法得到用戶56的推薦列表(Top10)及對應預測評分值,可從實際評分表獲取用戶56 實際的評分值,利用Recommender Evaluator計算出傳統推薦算法下用戶56的MAE值=1.46。利用改進基于項目聚類協同過濾推薦算法計算出用戶56的推薦列表(Top10)及對應預測評分值,從實際評分表獲取用戶56實際的評分值,再利用Recommender Evaluator計算出改進推薦算法下用戶56的MAE值=1.13。對用戶56而言,推薦的準確率提高了(1.46-1.13)/1.46×100%=22.6%。

其他19個最近鄰用戶MAE的計算過程與此相同,依次進行計算,利用Recommender Evaluator Runner評估器分別依次基于原始推薦算法下和改進推薦算法,計算出其他19個用戶的MAE值,結果見圖3。對MAE值結果進行比較,可以看出改進算法的MAE值總體上比原始的協同過濾算法的MAE值要更低,這表明改進的基于項目聚類的協同過濾算法的整體推薦準確率要比原始的協同過濾推薦算法更高,平均提高了19.4%。同時也表明用戶評分的主觀性對推薦結果的準確性有較大的影響。

4 小結

試驗結果表明,基于Hadoop分布式計算框架的河北農業大學圖書推薦系統引擎通過搭建分布式計算平臺,利用集群計算與存儲能力,有效且快速的完成了個性化的圖書推薦,性能有了明顯提高。

Mahout是一個很強大的數據挖掘工具,通過試驗中提出的改進的基于項目聚類的協同過濾推薦算法,計算所得的預測評分更加接近于用戶的實際評分;雖然有個別用戶改進后的協同過濾推薦算法的MAE值要大于原始協同過濾推薦算法的MAE值,即改進后的協同過濾算法推薦的準確率下降了,但整體有了提高。下一步要對Mahout中推薦算法進行改進,參數還要調優,同時研究用戶的其他行為,不斷提高推薦效率和精確程度。

參考文獻:

[1] 華小琴.我國高校數字圖書館個性化服務探究[J].圖書館理論與實踐,2014(5):85-88.

[2] 項 亮.推薦系統實踐[M].北京:人民郵電出版社,2014.58-61.

[3] TOM W. Hadoop:The Definitive Guide[M].USA:O′Reilly Media,Inc,2015.166-178.

[4] DANIL Z,SUDHEESH N. Hadoop Cluster Deployment,Securing Hadoop[M].USA:Packt Publishing,2013.64-76.

[5] 樊 哲.Mahout算法解析與案例實戰[M].北京:機械工業出版社,2014.24-32.

[6] JANNACH D,ZANKER M,FELFERNIG A.Recommender Systems:An Introduction[M].Cambridge,UK:Cambridge University Press,2012.8-14.

[7] 奉國和,黃家興.基于Hadoop與Mahout的協同過濾圖書推薦研究[J].圖書情報工作,2013,57(18):116-121.

[8] 李龍飛.基于Hadoop+Mahout的智能終端云應用推薦引擎的研究與實現[D].成都:電子科技大學,2013.

[9] 余 暉.基于Mahout的聚類算法研究[D].上海:上海師范大學,2014.

[10] 馬 寧.基于Mahout的推薦系統研究與實現[D].蘭州:蘭州大學,2013.

猜你喜歡
高校圖書館大數據
高校圖書館閱讀推廣案例分析
科技視界(2016年21期)2016-10-17 19:32:37
微信公眾平臺在高校圖書館信息服務中的應用研究
科技視界(2016年21期)2016-10-17 19:25:20
高校圖書館閱讀推廣活動研究
商(2016年27期)2016-10-17 06:38:27
試論高校圖書館在網絡環境沖擊下的人文建設
商(2016年27期)2016-10-17 06:30:59
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
高校圖書館閱讀推廣實踐探討
科技視界(2016年20期)2016-09-29 13:17:57
高校圖書館電子資源的宣傳與推廣
科技視界(2016年20期)2016-09-29 11:22:45
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产国语一级毛片| 免费一级毛片在线观看| 国产丝袜91| 国产精品视频999| 无码日韩精品91超碰| 国产精品专区第1页| 91久久精品日日躁夜夜躁欧美| 99久久精品国产麻豆婷婷| 亚洲va欧美ⅴa国产va影院| 国产永久免费视频m3u8| 国产精品女主播| 色亚洲激情综合精品无码视频| 日本草草视频在线观看| 草草影院国产第一页| 永久免费AⅤ无码网站在线观看| 亚洲自偷自拍另类小说| 欧美另类第一页| 国产精品天干天干在线观看| 香蕉综合在线视频91| 制服丝袜 91视频| 日韩小视频在线观看| 高清欧美性猛交XXXX黑人猛交| 精品夜恋影院亚洲欧洲| 国产一级毛片高清完整视频版| 2021国产在线视频| 亚洲天堂网2014| 国产一区亚洲一区| 亚洲精品第1页| 91福利片| 国产超薄肉色丝袜网站| 久久夜夜视频| 成人a免费α片在线视频网站| 99精品免费欧美成人小视频 | 中国国语毛片免费观看视频| 一本一道波多野结衣av黑人在线| 999在线免费视频| 99精品热视频这里只有精品7| 青青青国产精品国产精品美女| 国产精品偷伦在线观看| 中文一区二区视频| 国产尤物在线播放| 男女男精品视频| 成年网址网站在线观看| 国产一区二区网站| 国产黄色视频综合| 九九热精品视频在线| 国产在线小视频| 69免费在线视频| 亚洲色成人www在线观看| av在线手机播放| 综合天天色| 亚洲精品成人片在线播放| 国产精品久久久久久久久久久久| 久久 午夜福利 张柏芝| 国内丰满少妇猛烈精品播| 99热这里只有免费国产精品 | 亚洲国产成人精品一二区| 亚洲手机在线| 欧美三级视频在线播放| 免费观看亚洲人成网站| 国产成人无码播放| 亚洲AV成人一区二区三区AV| 青草视频久久| 一区二区三区高清视频国产女人| 国产网站一区二区三区| 久久夜色撩人精品国产| 欧美成人精品一区二区| 五月婷婷欧美| 国产另类视频| 丁香五月婷婷激情基地| 亚洲啪啪网| 亚洲人成网站在线观看播放不卡| 热久久这里是精品6免费观看| 美女被操91视频| 国产啪在线| 精品欧美一区二区三区久久久| 中文字幕精品一区二区三区视频 | 97se综合| 成年人福利视频| 亚洲无码电影| 国产成人久久777777| 日韩高清成人|