【摘要】高校的信息化建設(shè)是我國社會信息化建設(shè)的重要領(lǐng)域之一,是全面提高教學(xué)質(zhì)量與科研能力的重要舉措。高校圖書館是培育高質(zhì)量人才不可或缺的一環(huán),其信息化的建設(shè)程度一定程度影響到大學(xué)生整體素質(zhì)的培養(yǎng)水平。本文基于數(shù)據(jù)挖掘中的分類技術(shù)和挖掘算法,通過關(guān)聯(lián)分析找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng):一方面,運(yùn)用關(guān)聯(lián)規(guī)則,找出具有強(qiáng)關(guān)聯(lián)的書目;另一方面,運(yùn)用分類技術(shù)確定形成多個風(fēng)格興趣不同讀者群,將讀者群中查閱次數(shù)較多的書目進(jìn)行推薦,從而建立圖書館個性化推薦模型。
【關(guān)鍵詞】大數(shù)據(jù) 數(shù)據(jù)挖掘 個性化推薦
一、引言
高校學(xué)校信息化建設(shè)是我國社會信息化建設(shè)的重點領(lǐng)域,是全面提高教學(xué)質(zhì)量與科研能力的重要舉措。但是在圖書館數(shù)字化服務(wù)建設(shè)中存在一些急需解決的問題,例如如何提高圖書館的管理水平和服務(wù)效率,如何促進(jìn)大學(xué)生更高效的利用圖書館資源等。因此,為了解決這些問題,我們需要通過數(shù)據(jù)挖掘進(jìn)行個性化推薦,使得其對用戶需求能做出科學(xué),客觀,可靠的判斷。為此,我們確定了“基于數(shù)據(jù)挖掘的高校圖書館個性推薦模型研究”專題。本研究運(yùn)用數(shù)據(jù)挖掘的挖掘算法和分類技術(shù)建立高校圖書館個性化推薦模型,一方面可以提高圖書館的管理水平和服務(wù)效率;另一方面,促進(jìn)大學(xué)生更高效的利用圖書館資源。
二、基于數(shù)據(jù)挖掘的數(shù)字圖書館個性服務(wù)體系構(gòu)建
(一)數(shù)據(jù)準(zhǔn)備
面對圖書館大量的借閱信息和學(xué)生個人信息,從中篩選出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。對數(shù)據(jù)進(jìn)行預(yù)處理,并確定將要進(jìn)行的數(shù)據(jù)挖掘類型。將數(shù)據(jù)進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換為一個分析模型。研究通過數(shù)據(jù)挖掘中的分類技術(shù)和挖掘算法,針對圖書館已存在借閱記錄中借書類型、作者類型以及學(xué)院專業(yè)等數(shù)據(jù)類型特征進(jìn)行歸類,建立數(shù)據(jù)源。通過關(guān)聯(lián)分析找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng):一方面,運(yùn)用關(guān)聯(lián)規(guī)則,找出具有強(qiáng)關(guān)聯(lián)的書目;另一方面,運(yùn)用分類技術(shù)確定形成多個風(fēng)格興趣不同讀者群,將讀者群中查閱次數(shù)較多的書目進(jìn)行推薦,從而建立圖書館個性化推薦模型。最后,對模型進(jìn)行實測,將數(shù)據(jù)導(dǎo)入數(shù)據(jù)挖掘結(jié)構(gòu)。利用問卷形式反映用戶體驗,針對存在的問題對模型進(jìn)行進(jìn)一步改進(jìn),優(yōu)化挖掘結(jié)構(gòu)。
(二)數(shù)據(jù)挖掘技術(shù)
對挖掘數(shù)據(jù)庫應(yīng)用關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù),得到讀者的借閱習(xí)慣、興趣模式和閱讀趨勢等,從而建立讀者借閱行為模型。例如:通過對讀者的借閱日志進(jìn)行關(guān)聯(lián)分析,可以發(fā)現(xiàn)讀者借閱一類圖書同時的其他借閱行為和圖書文獻(xiàn)之間的關(guān)聯(lián)。然后,計算這種關(guān)聯(lián)規(guī)則的支持度和置信度,從而建立借閱模式。需要強(qiáng)調(diào)的是:挖掘數(shù)據(jù)庫是動態(tài)的,它是根據(jù)讀者行為或興趣的改變而自動進(jìn)行數(shù)據(jù)修改。
針對數(shù)據(jù)類型進(jìn)行歸類,建立數(shù)據(jù)源。同時,根據(jù)圖書館數(shù)據(jù)特點,通過關(guān)聯(lián)分析找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),建立模型。對關(guān)聯(lián)規(guī)則Apriori算法和分類技術(shù)進(jìn)行優(yōu)化。對挖掘結(jié)構(gòu)進(jìn)行改進(jìn)優(yōu)化。數(shù)字圖書館個性化服務(wù)體系,即通過系統(tǒng)的服務(wù)方式和策略設(shè)計,滿足讀者多樣需求,使得讀者以最小投入獲得最為切合的信息資源的服務(wù)過程。因此,抑郁數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)體系的構(gòu)建必須以大量,真實有效地數(shù)據(jù)信息為基礎(chǔ)和前提,即基礎(chǔ)數(shù)據(jù)庫的積累與建設(shè)至關(guān)重要。
數(shù)據(jù)挖掘過程:首先是原始信息的用戶特征的提取和收集;其次數(shù)據(jù)的預(yù)處理和轉(zhuǎn)換,依靠維變換減少變量書目,分類構(gòu)建數(shù)據(jù)倉庫等;之后確定目標(biāo),開展數(shù)據(jù)挖掘;數(shù)據(jù)挖掘應(yīng)根據(jù)相應(yīng)的目標(biāo)和數(shù)據(jù)特點選擇計算方式;最后,結(jié)果分析與調(diào)整,對數(shù)據(jù)挖掘結(jié)果進(jìn)行合理解釋和適當(dāng)?shù)脑u價。
(三)數(shù)字圖書館個性服務(wù)體系構(gòu)建
利用Clementine數(shù)據(jù)挖掘軟件中的導(dǎo)出節(jié)點,可以根據(jù)借閱數(shù)據(jù)的“各分類圖書的結(jié)余數(shù)量”字段創(chuàng)建“各分類圖書的借閱數(shù)量”標(biāo)志新字段,將已借閱的個分類圖書的借閱數(shù)量小于3為假,大于3為真,并建立數(shù)據(jù)挖掘模型如圖1所示:
(四)借閱數(shù)量的聚類挖掘
圖書館內(nèi)有大量的借閱數(shù)據(jù),通過對讀者的借閱數(shù)量進(jìn)行聚類分析,可以觀察到那些讀者借閱頻率高,那些讀者借閱頻率低。下面根據(jù)系統(tǒng)數(shù)據(jù),運(yùn)用K-means聚類算法進(jìn)行數(shù)據(jù)挖掘。采用K-means算法對讀者借閱數(shù)量進(jìn)行數(shù)據(jù)挖掘,設(shè)置聚類個數(shù)為3,。分別外活躍讀者、一般讀者和較小借閱者,結(jié)果顯示第二類讀者群借閱需求比較大,可以根據(jù)聚類結(jié)果加大流通圖書的最大冊數(shù),提高圖書流通性。對于第一類讀者,可以進(jìn)一步進(jìn)行數(shù)據(jù)挖掘借閱興趣,進(jìn)行個性化推薦。
三、關(guān)聯(lián)聚類
選取借閱次數(shù)排前50位的圖書進(jìn)行關(guān)聯(lián)挖掘,先利用網(wǎng)絡(luò)節(jié)點初步判斷各分類圖書的關(guān)系緊密度,根據(jù)產(chǎn)生的關(guān)聯(lián)規(guī)則的多少,最終確定6為網(wǎng)絡(luò)閥值取值。
該挖掘主要是通過設(shè)定支持度、置信度的閥值,計算各類圖書之間的關(guān)聯(lián)程度的大小,從而發(fā)現(xiàn)圖書之間的潛在關(guān)聯(lián)度。若兩圖書之間支持度、置信度大與給定閥值,表明借閱兩圖書之中的任意一本的讀者有一定的可能性去借閱另一本,因此我們像借閱其中任意一本的讀者推薦另一本圖書,這樣可以提高圖書的利用率。關(guān)聯(lián)規(guī)則的實施有兩個步驟:第一找到所有支持度大于最小支持度的項集,稱為頻集;第二從第一步中找到頻集中產(chǎn)生期望的規(guī)則,通過圖3進(jìn)行數(shù)據(jù)挖掘,得到關(guān)聯(lián)規(guī)則。本文選取支持度大于2%和置信度大于15%的記錄,結(jié)果顯示,各項置信度都沒有超過50%,說明得出的關(guān)聯(lián)規(guī)則強(qiáng)度不夠,對推薦效果有所影響。從以上實驗我怕們可以看出,最小支持度和最小置信度的選址會影響導(dǎo)出規(guī)則的數(shù)量,定的太高,可能得不到規(guī)則,而太低則規(guī)則不可靠。
參考文獻(xiàn)
[1]王咸偉,李克東.基于Web的遠(yuǎn)程網(wǎng)絡(luò)教學(xué)系統(tǒng)開發(fā)的關(guān)鍵技術(shù)[J].上海師范大學(xué)學(xué)報,2000,12(11):50-56.
[2]HAIN?J.Neural?Networks?A?Comprehensive?Foundation[M].影印版.北京:清華大學(xué)出版社,2001:600-622.
[3]范斌.基于Web服務(wù)的分布式數(shù)據(jù)挖掘系統(tǒng)研究[D].武漢:武漢理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,2004.
作者簡介:朱一凡(1994-),男,安徽合肥人,安徽大學(xué)經(jīng)濟(jì)學(xué)院2016級碩士研究生,研究方向:經(jīng)濟(jì)統(tǒng)計學(xué)。