999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的書目推薦研究

2017-07-04 13:37:13劉月學
創新科技 2017年4期
關鍵詞:數據挖掘圖書館

劉月學

[摘 要] 通過分析推薦書目的作用,在幾種傳統圖書推薦服務方式的基礎上,嘗試將數據挖掘中的關聯規則引入到圖書館書目推薦的工作中。基于借閱實例,利用關聯原則和Apriori算法對讀者借閱記錄進行分析,從而為讀者提供個性化的圖書推薦服務。文章指出這種書目推薦方式對圖書館和讀者都具有重要的意義。

[關鍵詞] 圖書館;數據挖掘;關聯規則;書目;個性化信息服務

[中圖分類號] TP311.13 [文獻標識碼] A [文章編號] 1671-0037(2017)4-91-3

Research on Booklist Recommendation based on Data Mining

Liu Yuexue

(Library of Xinyang Agricultural and Forestry University, Xinyang Henan 464000)

Abstract: By analyzing the effects of the recommended books, this paper tried to introduce the association rules of data mining to the library booklist recommendation on the basis of several traditional book recommendation and service models. Based on specific cases of borrowing, it adoptd the association rules and Apriori algorithm to analyze the borrowing records of readers, ao as to provide personalized book recommendation service for readers. The paper pointed out that this model of booklist recommendation had great importance for both the library and the readers.

Key words: library; data mining; association rules; booklist; personalized information service

現代圖書館肩負著為讀者推薦優秀書目并同時提供所推薦圖書的使命。如何從大量的館藏中快速地推薦給讀者適合其閱讀的圖書,是一個棘手的難題。為了解決此問題,本文嘗試利用數據挖掘領域的相關理論和技術進行圖書館的書目推薦工作,從而在技術層面解決這個難題。

1 基本概念概述

1.1 圖書推薦服務概述

目前,傳統的圖書推薦服務主要有以下幾種方式:

1.1.1 暢銷書排行。這種推薦方式就是按照圖書銷售量的多少來向讀者推薦當前最暢銷的書,比如當當網和亞馬遜等網上書店的暢銷書排行榜等。這種方式是向用戶推薦銷量靠前的書,實施起來比較簡單,便于操作,可信度比較高。

1.1.2 相關書籍推薦。相關書籍推薦是以某一本書為基礎的推薦,比如,用戶在借閱或瀏覽某本書時,圖書館的工作人員以這本書為基礎,向其推薦與該書的內容、主題相關、相似或相同的書,將這些相關圖書的基本信息,比如館藏地點、購買鏈接等信息反饋給讀者。這種圖書推薦方式屬于主動推薦,具有一定的難度,這種推薦方式要求推薦人員具有一定的專業知識,并且知識廣泛,熟悉館藏圖書。

1.1.3 基于用戶興趣的推薦。此種推薦模式,是完全基于讀者的閱讀需求和閱讀興趣,匹配最適合的讀者和最適合讀者興趣的圖書,即為人找書、為書找人,核心點在于如何把控不同讀者的閱讀興趣。由于此方式具有較高的主動性和個體性,能根據不同讀者的需求推薦書目,因此被廣泛應用于基于數據挖掘的個性化圖書推薦中。

1.2 數據挖掘概述

數據挖掘就是從大量的應用數據中提取出有用的信息、知識的過程, 提取出來的知識和信息是人們事先不知道的,是通過對已知數據進行分析而發現的[1]。

數據挖掘具有以下三點特征:

第一,它是對海量的原始數據進行挖掘提取,比如,在圖書推薦服務中,數據挖掘就是對大量的讀者借閱原始數據進行挖掘,進而為讀者推薦滿足其個性化需求的圖書。而在挖掘借閱數據之前,還要對其進行整理,因為這些原始數據之間本身存在一定的干擾。第二,數據挖掘是探索性挖掘,在挖掘之前,并不知道挖掘的結果是什么,會怎么樣,不具有驗證性。第三,數據挖掘是從大量原始數據中發現從未被發現的信息,其結果容易被理解和接受,對人們有用。

數據挖掘應用在高校圖書館的圖書推薦中,就是分析借閱數據的相關性從而為讀者進行個性化書目推薦。用戶在借閱某些類別的圖書時,往往會同時借閱其它類別的圖書,因此,通過利用數據挖掘中的關聯分析功能,尋找存在于圖書管理系統中的原始借閱記錄的相關性,從而得到最適合用戶的推薦書目,這個過程稱為基于數據挖掘的書目推薦。

1.3 推薦書目數據挖掘流程

基于數據挖掘的書目推薦主要包括三個層面:數據庫層、數據挖掘層和用戶界面層。

數據庫層是基礎,主要包含讀者的借還書記錄、讀者信息等大量的數據。數據挖掘就是預先加工處理數據庫層中的信息,映射成易被讀取的數據,再傳遞給數據挖掘層。在數據挖掘層,需要采取相應的算法,轉換成可執行程序,然后對數據庫層送來的數據實施挖掘,在一定規則下完成對圖書進行推薦,同時將推薦結果反饋給用戶界面層。在用戶界面層,通過人和機器之間的對話來傳遞相關的指令,比如最小支持度和最小置信度等,通過這些指令等來調整圖書推薦結果的準確度,并將結果呈現給用戶。數據挖掘的流程如圖1所示。

2 基于數據挖掘的書目推薦算法

關聯規則分析是數據挖掘中最常用的方法,本文將采用關聯規則進行書目推薦。以下是基于數據挖掘的書目推薦算法:

關聯規則算法通常可以用項集X和項集Y來表示,并且項集X和項集Y相互獨立,不重合,即:X∩Y=?。項集X和項集Y之間的規則滿足如下的條件:這兩個項集有用并且這兩個項集之間的規則具有一定的普遍性,即有趣度。比如,設I={i1,i2,…,im}是項的集合,任務相關的數據D是數據庫事務的集合,其中每個事務T是項的集合,使得T?I。每一個事務有一個標志符,稱做TID。設A是一個項集,事務T包含A當且僅當A?T。關聯規則是形如A=>B的蘊涵式,其中A?I,B?I,并且A∩B=?。[2]

2.1 支持度和置信度

當規則A==>B(在事務集D中成立),具有支持度s,D中事務包含A∪B(即A和B二者的全部)的百分比,它是概率P(A∪B)也即支持度。

當規則A===>B(在事務集D中成立),具有置信度c,D中包含A的事務同時也包含B的百分比,這是條件概率P(B|A)也即置信度。即

Support(A==>B)=P(A∪B)

Confidence(A==>B)=P(B|A)

為方便統計,筆者用0%~100%之間的值,而不是用0~1之間的值表示支持度和置信度。

2.2 Apriori算法

關聯規則挖掘問題通常可以被分成兩個部分:第一部分為找到所有與關聯規則相關的頻繁項集;第二部分是在第一部分產生頻繁項集的基礎上產生強關聯規則(既滿足最小支持度閾值(min_sup)又能滿足最小置信度閾值(min_conf)的規則稱做強規則)。在用關聯規則進行挖掘的過程中,中心問題要迅速、高效地找出事務數據庫中的全部頻繁項集。尋找頻繁項集要采用一些算法,通常采用的經典算法是Apriori算法,但采用這種算法會存在效率低下的問題,因為每次連接產生太多的候選項集,導致在算法運行過程中需要一次一次的掃描數據庫,每次都需要對掃描結果進行判斷和比較,所耗費的工作量比較大。

Apriori算法流程:

先由候選項目集產生的逐層迭代,找出頻繁項目集。

輸入:事務數據庫D和最小支持度min_sop。

輸出:D中的頻繁項目集Lo

方法:

l)L1=find--frequen_1一itemsets(D):

2) For(k=2;Lk-l≠?;k++){

3) Ck=Apriori-gen(Lk-1,min_sup);

4) for each transaction t∈D{//scan D for counts

5) Ct=subset(Ck,t);//get the subset of t that are candidates

6) for each candidate C∈Ct

7) c.count++:

8) }

9)Lk={e∈Ck|c.eount≥min_suP}

10)}

11)return L=UkLk;

找到頻繁項目集后,接著產生關聯規則。

算法如下:

算法:產生關聯規則。

輸入:頻繁項目集L和最小置信度閩值(min_conf)。

輸出:關聯規則。

l)對于L中的每一個頻繁項目集1,產生1的所有非空子集。

2)對于1的每一個非空子集S,如果滿足大于等于最小置信度,則輸出規則。

3 基于數據挖掘的圖書推薦在圖書館的應用

3.1 圖書借閱中的關聯規則

在讀者借閱記錄數據中,假設項集I是借閱數據的集合,假設D為借閱歷史數據庫,D={R1,R2,…,Rn}。Ri是關于讀者借閱信息的記錄,并且1≤i≤n,Ri={Ci,Ij},Ci為讀者標志,Ij是對讀者借閱書目信息的記錄,1≤j≤m。設事務T包含A,并且滿足A?T。關聯規則是形如Rx∩Ry的蘊涵式,其中Rx?D,Ry?D,并且Rx∩Ry=?。

3.2 關聯規則在圖書館中的應用實例

本文通過簡單的借閱實例來說明管理規則數據挖掘如何應用在圖書館的書目推薦中。以9位讀者所借閱的5本書為例子,Rx為讀者的編號,Ix為書目信息,R1借的圖書為I1、I3、I4,R2借的圖書為I2、I4,R3借的圖書為I2、I3、I5,R4借的圖書為I1、I2、I4,R5借的圖書為I1、I3,R6借的圖書為I2、I3,R7借的圖書為I3、I5,R8借的圖書為I1、I3、I5,R9借的圖書為I1、I2、I3。

在這個數據庫中,關聯規則的確定需要分兩步來實現:第一,找出滿足最小支持度的項集,這個是根據假設的最小支持度(假設為2)來進行查找的;第二,根據設定的最小置信度的值來查找符合其閾值的關聯規則。

假設書目I1,I2,I3,I4,I5分別代表5本書目信息,Sups代表該書的借閱次數,則I1,I2,I3,I4,I5對應的借閱次數分別為5、5、7、3、2。

滿足最小支持度計數的集合L1,L1為{I1}、{I2}、{I3}、{I4}、{I5},{I1}、{I2}、{I3}、{I4}、{I5}對應的Sups值分別為5、5、7、3、2。

由L1產生滿足最小支持度計數的集合C2,C2為{I1,I2}、{I1,I3}、{I1,I4}、{I1,I5}、{I2,I3}、{I2,I4}、{I2,I5}、{I3,I4}、{I3,I5}、{I4,I5},其對應的Sups值分別為2、4、2、1、3、2、1、1、3、0。

滿足最小支持度的L2為{I1,I2}、{I1,I3}、{I1,I5}、{I2,I3}、{I2,I4}、{I2,I5},其對應的Sups值分別為2、4、1、3、2、1。

由頻繁項集產生強關聯規則:

Confidence(A=>B)=P(A|B)=Support count(A∪B)/Support count(A)

基于找出的頻繁項集I{I1,I2,I5}可以產生的強關聯規則:

I2∧I1=>I5,Confidence=1/2=50%

I1∧I5 =>I2,Confidence=1/5=20%

I2∧I5 =>I1,Confidence=1/5=20%

I1 =>I2∧I5,Confidence=1/1=100%

I2 =>I1∧I5,Confidence=1/1=100%

I5 ==>I1∧I2,Confidence=1/2=50%

如果最小置信度閾值為20%,則產生強規則。

即是說,當讀者借閱了I1,I5,應該為其推薦I2;當讀者借閱了I5,應該為其推薦I1,I2。

基于找出的頻繁項集I{I2,I3,I4}可以產生的強關聯規則:

I2∧I3==>I4,Confidence=1/3=33%

I2∧I4==>I3,Confidence=1/7=14%

I3∧I4==>I2,Confidence=1/5=20%

I2==>I3∧I4,Confidence=1/1=100%

I3==>I2∧I4,Confidence=1/2=50%

如果最小置信度閾值為20%,則產生強規則。

也就是說,當讀者借閱了I2,I3,應為其推薦I4;

當讀者借閱了I2,I4,應為其推薦I3;

當讀者借閱了I3,I4,應為其推薦I2。

在這個實例中,本文將支持度假設為1,在實際應用中,支持度需要根據專家和讀者的意見進行調整。

4 結語

圖書書目的推薦工作意義重大。本文將數據挖掘中的關聯規則應用在圖書館的書目推薦中,借助讀者的借閱信息,很方便快捷的為讀者推薦其感興趣的圖書。這種推薦方法對圖書館和讀者來說都具有重要的意義。對圖書館來說,圖書館通過數據挖掘將館藏圖書推薦給讀者,提高了館藏的利用率,突出為讀者個性服務宗旨;另外,讀者能很容易的拿到自己需要的圖書,省時高效,事半功倍。因為每位讀者的借閱記錄千差萬別,而這種推薦方式又是基于讀者借閱記錄進行推薦的,所以,這種推薦方式能滿足每位讀者的個性化需求,是所有推薦方式中最具有個性化的一種書目推薦方式。

參考文獻:

[1] 荊月敏.基于數據挖掘的圖書館書目推薦服務研究[D].太原:中北大學,2014.

[2] 陳定權.關聯規則與圖書館書目推薦[J].情報理論與實踐,2009(6):81-84.

猜你喜歡
數據挖掘圖書館
探討人工智能與數據挖掘發展趨勢
圖書館
文苑(2019年20期)2019-11-16 08:52:12
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
飛躍圖書館
一種基于Hadoop的大數據挖掘云服務及應用
圖書館里的是是非非
去圖書館
主站蜘蛛池模板: 国产无遮挡猛进猛出免费软件| 日本亚洲国产一区二区三区| 国产第一福利影院| 久久久精品无码一区二区三区| 国产亚洲成AⅤ人片在线观看| 一级毛片在线播放免费观看| 久青草国产高清在线视频| 国产乱码精品一区二区三区中文| 国产麻豆精品手机在线观看| 福利在线一区| 亚洲av片在线免费观看| 99在线视频精品| 国产免费黄| 国产精品99一区不卡| 国产日韩精品欧美一区喷| 国产青青草视频| 亚洲Aⅴ无码专区在线观看q| 熟妇丰满人妻av无码区| 黄色网站在线观看无码| 高清无码手机在线观看| 91丝袜乱伦| 国产99久久亚洲综合精品西瓜tv| 欧美成人精品欧美一级乱黄| 亚洲区视频在线观看| 国产精品视频第一专区| 亚洲第一天堂无码专区| 理论片一区| 美女毛片在线| 欧美激情福利| 蜜桃视频一区二区| 亚洲精品自在线拍| 久久国产精品无码hdav| 在线观看国产一区二区三区99| 国产系列在线| 最新国语自产精品视频在| 久久综合色88| 免费一看一级毛片| 免费福利视频网站| 五月天综合婷婷| 亚洲AⅤ无码日韩AV无码网站| 日韩国产精品无码一区二区三区| 亚洲第一在线播放| 中国丰满人妻无码束缚啪啪| 国产又黄又硬又粗| 91在线国内在线播放老师| 久久77777| 久久久久亚洲av成人网人人软件| 四虎影视国产精品| 国产呦视频免费视频在线观看| 欧类av怡春院| 国产91熟女高潮一区二区| 在线国产综合一区二区三区 | 亚洲免费福利视频| 精品福利国产| 精品无码一区二区在线观看| 91成人免费观看在线观看| 2021国产精品自拍| 久久一日本道色综合久久| 久久综合国产乱子免费| 天堂av综合网| 国产精品久久久久鬼色| 久久婷婷六月| 国产精品视频久| 激情综合婷婷丁香五月尤物| 国产欧美日韩综合在线第一| 国产视频一区二区在线观看 | 国产精品xxx| 老司国产精品视频| 色噜噜狠狠狠综合曰曰曰| 亚洲香蕉在线| 国产免费福利网站| 激情综合网址| 国产男女XX00免费观看| 国产一二三区在线| 中文字幕永久视频| 亚洲天堂在线视频| 午夜精品久久久久久久无码软件| 91成人在线免费视频| 在线亚洲天堂| 天天爽免费视频| 人妻无码中文字幕第一区| 欧美中文字幕在线播放|