李朋飛 高艷兵 劉榮虎 王波



摘要:互聯網發展的速度非常之快,也導致了信息化的盛行,在高校圖書館這一方面,圖書館就積累了大量數據,也導致了數據的冗余和駁雜,讀者需要更多的時間來查找信息,想要更方便就要促使高校圖書館優化服務手段,形成符合圖書館的個性化服務。作者以保山學院圖書館個性化服務為研究對象,對國內外圖書館的個性化服務研究,對比分析二者之間的優缺點;然后對個性化服務需要用到的數據挖掘技術進行了系統的闡述,了解圖書館個性化服務的知識;其次對學校圖書館的個性化背景、問題和技術手段進行分析;最后,以保山學院圖書館的借閱信息為挖掘對象,進行具體的分析,再根據數據挖掘的結果提出建議。
關鍵詞:高校圖書館;個性化服務;數據挖掘
一、緒論
發展至今,高校的圖書館存在著大量的圖書數據和用戶群體,圖書館每天都會產生大量的數據信息,隨著圖書館各種文獻的增加、資源的豐富、形式的多種多樣,讀者在獲取信息上面的問題也就從獲取困難轉移到選擇困難了,給圖書館開展服務帶來不良的影響。
高校圖書館基本上以書籍為基礎來給讀者提供服務,因為圖書館龐大的書籍信息,使得讀者在圖書館中查詢信息的效率會很低,遠不如直接從網上搜索來的方便快捷,就會導致讀者獲取信息的目標從繁瑣的圖書館上面轉變到快捷的互聯網上面,使得圖書館的利用率逐漸減低。由此看來圖書館傳統服務已經不能滿足讀者的需求了,高校圖書館的服務模式也應該進行轉變,從被動向主動轉變。圖書館個性化服務的提出打破了傳統的被動服務的模式,能夠充分利用各種資源優勢,主動開展以滿足用戶個性化需求為目的的全方位服務[1]。
二、數據挖掘在保山學院圖書館個性化服務中應用現狀調查
目前,大部分高校圖書館都在積極地引進個性化服務系統,對個性化服務系統的研究也還在繼續,但個性化服務開展參差不齊,服務能力還有待提高。為了準確了解讀者對信息的需求,對個性化服務的滿意程度,筆者以個性化服務相關方面的內容向學校的讀者設計了問卷調查,本次調查共隨機發放問卷調查,回收了235份,并進行分析。
(一)讀者一周去圖書館的頻率
對讀者一周去圖書館的頻率進行分析,從得到的餅形圖中可以看出大部分讀者每周都會去1—3次,圖書館對師生是有一定的幫助的,也表明了圖書館的個性化服務對讀者們是有必要的。
(二)是否了解個性圖書館的個性服務
對讀者是否了解圖書館個性化服務進行分析,從中可以看出很多讀者對于圖書館的個性化服務不是特別的了解,表明了學校圖書館對此的宣傳力度不是很大,個性化服務的使用不普遍。
(三)讀者對個性化服務的需求情況
對讀者是否需要個性化服務進行分析,得知讀者對圖書館個性化服務是想去了解和使用的,當然,也不排除其中有些人已經接觸過個性化服務,比如:圖書續借,新書推薦,參考咨詢等。
(四)讀者對已開展個性化服務的滿意度
對個性化服務是否滿意進行分析,從中可以看書讀者對保山學院圖書館的個性化服務有過接觸,對其還是比較滿意的,可能還有些地方不夠完善。
(五)讀者需要的服務種類
讀者對個性化服務的要求分析,對于“需要什么樣的個性化服務”從問卷中篩選出有用的信息,從中可以看出讀者對圖書館個性化服務的要求還是多種多樣的,并不局限于某一種服務。
三、數據挖掘在圖書館個性化服務中的實施
(一)數據源選取
搜集保山學院圖書館的圖書流通數據、學生信息、圖書信息等需要的數據,可以通過網絡爬蟲軟件來搜集或者找圖書館的工作人員要一份圖書館的圖書流通數據和圖書信息。包含了讀者基本信息,借閱信息,圖書信息,選擇2015—2018四年的圖書館數據,圖書信息有1 032 839條,借閱記錄870 388條,讀者信息記錄13 256條。
(二)數據清洗和集成
數據一般是不完整、不一致的,數據清理用來填充空缺的值,識別孤立點,消除噪音,糾正數據中的不一致。在數據的處理和整合上可以利用SAS Data Mining和Pentaho等軟件工具。
1.數據清洗。在清洗數據方面可以利用忽略該記錄,手動填寫空缺值、默認值、平均值,使用最可能的值,分箱、聚類、回歸等方法來清洗數據。
2.數據集成。將讀者信息和借閱信息匯總成借閱次數表,從上面的數據中根據自己需要的內容創建表,圖書借閱數目表包含書號、書名和借閱數量幾個字段,讀者借閱數目表包含借閱號、姓名、借閱數量、類型和院系結構
信息。
(三)關聯算法
關聯規則挖掘算法是關聯規則挖掘研究的主要內容,其中Apriori算法是發現關聯規則領域的經典算法。如算法過程下圖1表示,設事務數據D,利用算法篩選出最小支持度為2的項集。
考慮到很多因素,本文將采用Apriori算法,具體的算法如下:
1.L1={頻繁1項集};
2.for (k=2;Lk-1≠φ;k++) do begin
3.? ?Ck=apriori-gen(Lk-1);//產生新的候選項集
4.? ?for 所以事務 t∈D do begin
5.? ? ? ?Ct=subset(Ck ,t);//t中所包含的候選k項集
6.? ? ? ?for 所以候選 c∈Ct do.
7.? ? ? ? ? ?C,count++;
8.? end
9.? Lk={ c∈Ck | c.count ≥minsup
10.End
11.結果=∪kLk [2]
(四)聚類算法
在聚類算法中選擇K-Means算法。它也稱為k-平均算法,是一種常用的基于劃分的聚類方法,用來根據樣本屬性值之間的相似度來對樣本進行分組。在聚類方面采用K-Means算法建立挖掘模型,對讀者進行細分,定義式見(3-1):
(1)
這里的E是數據庫所以對象的平方誤差的總和,x是空間中的點表示給定的數據對象,是簇Ci的平均值。k-平均算法的算法描述。
輸入:簇的數目k和包含n個對象的數據庫,
輸出:k個簇,是平方誤差準則最小
1.assign initial value for means;//任意選擇k個對象作為初始的簇中心
2.REPEAT
3.FOR j=1 to n DO assign each xj to the cluster which has the closest mean;//根據簇中對象的平均值,將每個對象賦給最類似的簇
4.FOR i=1 to k DO ;//更新簇的平均值,即計算每個對象簇中對象的平均值
5.Compute ; //計算準則函數E
6.UNTIL E不再明顯變化[3]
(五)基于聚類對讀者的細分
從學校圖書館的數據庫中可以知道,借閱記錄中都有這些信息:讀者證、借閱數量、借閱圖書、讀者信息等。因此對讀者可以這樣細分:一是利用聚類挖掘將圖書館全部讀者的信息細分出來,進行分組;二是將讀者的興趣和借閱情況進行聚類挖掘,在從得到的聚類結果中分析出聚類中的共同點,以此來建立讀者借閱模式。
1.借閱情況聚類。筆者將聚類數k定為4,讀者細分成4個大類,生均借閱為60、25、12、5本,總共13 256位學生記錄,其中類1占了13.5%,利用率在45.12%;類2占20.2%,利用率為25.25%;類3占26.2%,利用率為19.61%;類4占40.1%,利用率為10.2%。從這個結果可以知道有五分之二多的學生年均借閱不足五本,總體上來說,學生對圖書館資源的利用率低。
2.讀者喜好、信息聚類。將讀者的信息和借閱喜好通過聚類分析出用戶在總體上借閱的興趣,將具有相似興趣的讀者進行分類,劃分出不同讀者相同愛好的類別,有針對性的提供個性化信息服務,從部分讀者借閱信息表和部分借閱事務數據表中可以看出,學生在圖書館借書基本上都是借與專業相關的圖書,對其它的圖書都不感興趣,這樣就比較簡單了,將組內讀者的借閱信息進行關聯挖掘,找出里面的規則,形成一個整體的信息庫,向讀者提供個性化推薦服務。
(六)關聯規則的挖掘
關聯規則挖掘尋找給數據庫中不同項之間的聯系,將讀者的全部信息當作關聯規則挖掘的數據源對讀者進行分類,再找出每個類中產生的借閱信息之間的聯系,對讀者實行規則推薦。
1.圖書的關聯分析。圖書的關聯分析主要是對讀者的借閱信息進行分析,也就是找到讀者借過的圖書中存在的聯系。采用的是Apriori算法。
由頻繁項集產生的規則,每個規則都自動滿足最小支持度,是形如AB的蘊涵式,其中A∩B=φ。支持度S和置信度C的定義式為(3-2)(3-3):
S(AB)=P(A∪B) (2)
C(AB)= P(B | A)(3)
2.讀者所借圖書類別關聯挖掘。將最小支持度設為70%,最小置信度為70%;挖掘圖書類別,得到挖掘結果,比如:關聯規則C→I,P表示讀者借閱C類圖書的同時有72.49%的概率借了I和O類圖書,置信度也在70%以上,還是比較準確的,從計算出的結果來看,將舍棄那些支持度小的結果。將支持度和置信度高的書籍放在一起可以方便管理和學生的查找,也可以在學生搜索某類書籍的時候向他推薦規則中的另一類書籍,滿足個性化的推薦。
(七)改善圖書館個性化服務的建議
數據挖掘后可以知道,一是圖書館應該加強與學生的聯系,在表中學生對于圖書館的利用率極低,里面的書籍對學生幫助不大,四年來甚至有些同學沒去過圖書館,現在更多的學生只是利用圖書館提供的瀏覽室和自習室學習自己的東西,圖書館也失去了提供知識的意義。應該構建學生個人信息數據庫,根據讀者的專業,愛好為其提供知識,將學生的興趣引入挖掘算法中,生成規則,建立模型,提高圖書館對學生和學校的作用。二是當某類借閱頻率的支持度滿足最小支持度時,學生借了一本書,根據支持度和置信度形成的規則模型,系統向其推薦另一本圖書,最大化地滿足學生的需求,提高館藏利用率。三是從表中得知學生是什么專業的就借什么樣的書,其他的書籍學生并不感興趣,圖書館館藏資源利用率低,圖書館在宣傳方面力度也不夠,現在開展了保山學院數字圖書館,但是有很多學生卻不知道有這個東西,依然以為保山學院還是傳統的信息服務,這方面要重視推廣。四是建立一個評論模塊,學生在接受平臺服務的時候遇到問題,可以對平臺做出評價,讓圖書館的個性化服務不斷地
優化。
四、結語
信息技術的發展使得圖書館的數據大量增長,這樣個性化服務應用在圖書館中也是必然的了,它的優點在于可以有針對性的為讀者提供服務。所以圖書館就要利用數據挖掘技術,挖掘分析圖書館中借閱信息。本文首先對保山學院圖書館的個性化服務現狀做了了解,找出它的優點和缺點,其次就是將用戶的信息聚類分析,把類似的數據分成一組,建立模型,將每組的信息關聯挖掘,找出它們聯系,再根據得到的結果,為讀者提供個性化服務。在圖書館中構造個性化服務,有助于圖書館的信息管理,了解讀者的信息,方便讀者的借閱效率,還可以讓圖書館針對讀者借書的情況來擴充館藏;并且可以優化圖書館的服務模式。
參考文獻:
[1]李靈芝.數據挖掘在圖書館個性化服務中的應用研究[D].長春:吉林大學碩士論文,2014.
[2]邵峰晶,于忠清,王驚龍,孫仁誠.數據挖掘原理與算法 [M].北京:科學出版社, 2009:96.
[3]毛國軍,段立娟,王實,石云.數據挖掘原理與算法 [M].北京:清華大學出版社, 2005,7:164-165.