王小娟
(延安大學圖書館,陜西延安716000)
隨著數字化、智慧化[1]的發展,尤其是數據庫技術的發展,各行業數據量都在飛速增長,如何提高海量數據的利用率成為各行業的重點研究方向。高校圖書館作為高校師生最大的學習閱讀源,也是每所大學教育培育人才的重要場所,近年來,高校圖書館在智慧化的發展下更加注重以人為本的服務理念,多角度、最優化的服務于讀者,為讀者提供多方位、主動服務模式,讀者服務[2]越來越受到圖書館界的關注。高校讀者數據日益增加,面對如此龐大、不完全、冗余數據,如何從中提取有價值的數據是目前很多高校圖書館的研究趨勢。圖書管理系統雖然可以采集讀者基礎數據,但是還未能實現對讀者數據的一個挖掘、分析以及預測。數據挖掘技術[3]在此背景下應運而生,借助于數據分析挖掘軟件[4],獲取專業與借閱量[5]、借閱量與讀者、類別與借閱量等數據之間的關聯性,不但為讀者提供主動推介服務,而且可以為學科建設提供數據支撐,還可以為高校圖書館搬遷中保留院系讀者提供全方位服務,使圖書資源更加合理化。
K-Means算法[6]即K-均值算法,首先給定一個K值,其中K值的取值是經過多次嘗試以聚類效果最好為準,其次應用迭代[7]來實現聚類,根據K個聚類中心,將周圍的數劃成K個族,每次迭代中重新計算中心,得到均值作為下一次迭代的參考值,當目標函數越來越小時,聚類的效果就會越好。將所有聚類數據分為K個類,使數據按照相似性原則被分成新的類型,同一類型的數據盡可能具有一定相似性,不同類數據間數據相似度較低,文章將K-Means聚類算法應運到圖書館讀者流通數據中,為大量讀者分類,發現讀者其興趣群,然后進行分析。采用了當下較為流行的、可視化效果良好的IBMSPSS Modeler數據挖掘工具[8]實現K-Means聚類之后的分類。
Apriori關聯規則算法[9]是一種挖掘關聯規則的頻繁項集算法,其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。主要是挖掘數據中項集之間的相互關系,當兩個及兩個以上的數據存在一定的規律稱之為數據之間的關聯規則,通常采用支持度和置信度[10]兩個參數來度量關聯程度,其公式為:支持度(support):support(A=>B)=P(A∪B),表示A和B同時出現的概率。置信度(confidence):confidence(A=>B)=support(A∪B)/support(A),表示A和B同時出現的概率占A出現概率的比值。使用關聯規則算法對從高校圖書館管理系統中提取大量讀者借閱記錄數據進行挖掘,可以通過Apriori關聯規則算法分析專業與借閱量、讀者與借閱量之間的關系。本文采用強大的數值計算軟件MATLAB軟件平臺實現[11-12]Apriori關聯算法。
高校讀者數據蘊含著很多有價值的信息,基于好多高校讀者數據未能進行挖掘、分析,尤其在大型的搬遷過程不,不能很好地分配圖書資源,導致紙質圖書利用率較低。本文數據來源于延安大學2012年至2019年七年的讀者數據,通過圖書館管理系統將這期間的所有讀者數據按照專業、類別、類名和借閱量導出,初始數據合計為6690條,去除借閱量為5以內的數據,合并后合計為3215。表1為按照借閱量降序排序后部分導出有效數據。

表1 部分導出數據
首先對采集到的基礎數據進行清洗、處理[13],圖1為數據清洗[14]流程圖,本次主要提取數據為借閱量和讀者專業信息,無效數據為數據中專業數據填寫錯誤或者空的數據,噪聲數據[15]為對于挖掘數據無影響的數據和挖掘無關的屬性,比如借閱量特別低的數據和專業類別相同的借閱量進行合計。
本文基于MATLAB數據處理軟件實現數據清洗,執行結果為清洗合并后的有效數據為2225條。部分代碼如下:
[AB]=xlsread(data_path);
D(3)=[];
B(1,:)=[];
B(:,4)=[];
n=length(A);
fori=1:n-1
forj=i+1:n
if strcmp(B(i,1),B(j,1))&& strcmp
(B(i,2),B(j,2))&& strcmp(B(i,3),B(j,3))
A(i)=A(i)+A(j);
A(j)=0;
end
end
end
C=all(A==0,2);%找到標記過重復的行返回索引行向量
A(C)=[];
B(C,:)=[];
B(:,2)=[];
xlswrite(data_path,D,2);
xlswrite(data_path,B,2,′A2′);%存儲新的數據
xlswrite(data_path,A,2,′C2′);
利用IBM SPSS Modeler數據分析軟件得到K-Means后進行Apriori關聯規則,經過多次嘗試,迭代次數為100,K=4的時候聚類[16]效果最佳。具體流程如圖2所示:
聚類后對四類數據進行分析發現總共有四類讀者,圖3為每一類讀者占總借閱量的百分比。體現借閱量與讀者類型的一個關系,主要代碼如下:
A1=xlsread(data_path,1);
A2=xlsread(data_path,2);
A3=xlsread(data_path,3);
A4=xlsread(data_path,4);
J1=sum(A1(:,1));
J2=sum(A2(:,1));
J3=sum(A3(:,1));
J4=sum(A4(:,1));
J=J1+J2+J3+J4;
G1=J1/J
G2=J2/J
G3=J3/J
G4=J4/J
y=[G1G2G3G4];
bar(y,0.5);
gridon;
S={′第一類總數′,′第二類總數′,′第三類總數′,′第四類總數′,′第一類比例′,′第二類比例′,′第三類比例′,′第四類比例′}
T=[J1J2J3J4G1G2G3G4]
xlswrite(′導出.xls′,S,1,′A1′);
xlswrite(′導出.xls′,T,1,′A2′);
xlabel(′讀者類型′),ylabel(′總借閱量比例′);
title(′讀者類型與借閱量關系′);
saveas(gca,′讀者類型與借閱量′,′png′)
利用K-Means算法根據2012年至2019年讀者類型與借閱量的聚類狀態,以上分析了每類讀者的借閱趨向,C執行的結果即為四類讀者都會去借的書的類型,通過分析發現四種讀者中每一類讀者都會去借閱′I′、′O′類圖書,主要代碼如下:
[AB1]=xlsread(data_path1,1);
[AB2]=xlsread(data_path1,2);
[AB3]=xlsread(data_path1,3);
[AB4]=xlsread(data_path1,4);
D1=B1(:,2);
D2=B2(:,2);
D3=B3(:,2);
D4=B4(:,2);
C1=intersect(D1,D2);
C2=intersect(D3,C1);
C3=intersect(D4,C2)
所用到的書的類別執行結果為14種,代碼如下:
[AB]=xlsread(data_path,3);
C=B(:,2);
n=length(unique(C))-1;
str=[′書的類名一共有′,num2str(n),′種′];
disp(str);
執行結果
本次研究主要考慮到高校新校區搬遷過程中大部分圖書需要搬遷至新校區,但老校區依然有預留院系情況,本次以延安大學搬遷預留學院為例進行數據分析,以此數據為依據,研究預留讀者的興趣書,為其合理留書保障讀者的需求。延安大學圖書館此次搬遷過程老校區預留院校為化工學院、醫學院、生科院、教科院。相關預留專業有臨床醫學、麻醉學、醫學檢驗技術、醫學影像學、過程裝備與控制工程、化學、化學工程與工藝等專業。共有相關數據229條。由于這部分讀者數據不多,為了正確分析每一類數據,這部分數據并未去除5以內的數據。
首先按照上述方法經過多次嘗試K=3聚類效果最好,對每一類讀者的概率統計后分析,部分代碼如下:
A1=xlsread(data_path,1);
A2=xlsread(data_path,2);
A3=xlsread(data_path,3);
J1=sum(A1(:,1))
J2=sum(A2(:,1))
J3=sum(A3(:,1))
J=J1+J2+J3;
G1=J1/J
G2=J2/J
G3=J3/J
y=[G1G2G3];
bar(y,0.5);
gridon;
執行結果如下:
J2=25424
J3=25229
G1=0.43720764863393
G2=0.28247947290646
G3=0.28031287845961
每一類讀者占總量的比例如圖4所示,通過K-Means算法進行聚類,將讀者按照借閱量規律分為三類,第一類借閱量總數為39350,占總借閱量的43.72%;第二類借閱量總數為25424,占總借閱量的28.25%;第三類借閱量總數為25229,占總借閱量的28.03%;借閱總量達90003。
按照分析這部分數據以后,書類名一共有11種,專業一共有26種.
在第一類中,讀者傾向于借閱I、K、H、D、T、G大類的圖書,其中醫學檢驗技術占的最多,其次是生物技術、應用化學、麻醉學、醫學影像學等。該類讀者對文學類、歷史類、工業技術類、政治法規等圖書更感興趣。
在第二類中,讀者傾向于借閱K、D、O、H、I、J大類的圖書,其中園林專業占的最多,其次是生物技術、醫學檢驗技術、生物科學、臨床醫學等。該類讀者對歷史、地理類、政治法律類、數理科學和化學類、文學類等圖書更感興趣。
在第三類中,讀者傾向于借閱T、I、F、O、G、K大類的圖書,其中能源化學工程專業占的最多,其次是臨床醫學、化學工程與工藝、護理學等。該類讀者對工業技術類、文學類、經濟類等圖書更感興趣。
以上分析了每類讀者的借閱趨向,通過分析發現三種讀者中每一類讀者都會去借閱′G′、′H′、′I′、
′K′、′T′類圖書,雖然這幾類圖書與專業聯系性不大,但是讀者都會去借閱。綜上所述此次搬遷過程中預留的四個學院相關的專業,除了相關的專業書外還需要預留的圖書類型有歷史類、地理類、政治法規類、工業技術類、文學類等書籍。
本文通過K-means和Apriori算法對延安大學近七年的讀者借閱信息進行采集、處理、分析。首先以所有讀者為研究對象對全部讀者數據挖掘分析,其次根據本次搬遷過程中預留專業進行細致分析,最終得出結論,為高校圖書館紙質圖書搬遷過程中預留部分院系圖書資源分配方面提供有力數據依據,提高了圖書利用率。