基于數(shù)據(jù)挖掘技術(shù)的圖書館服務(wù)平臺研究

2012-02-15 23:48:45張立春中共太原市委黨校圖書館太原030012

圖書館理論與實踐 2012年12期

●張立春（中共太原市委黨校圖書館，太原 030012）

引言

圖書館服務(wù)平臺的管理方法非常多，由于其大量的信息流，采用不同的數(shù)據(jù)處理手段對平臺性能的影響也是很大的。［1］Web數(shù)據(jù)流控制技術(shù)是目前流行的一種技術(shù)手段，它的特點是針對大量的數(shù)據(jù)資源進行快速的處理、分類等。［2］對于高等院校的圖書館而言，充分利用網(wǎng)絡(luò)資源可以為廣大師生提供完善的數(shù)據(jù)信息，對于教育、科研都具有重要的意義。

采用先進的網(wǎng)絡(luò)化技術(shù)可以高效地利用教育教學(xué)資源，能提高教學(xué)質(zhì)量，拓寬教學(xué)層次，使師生的思想更具備發(fā)散性，有利于高校教學(xué)綜合素質(zhì)的提高。所以，開發(fā)高校的網(wǎng)絡(luò)教育平臺資源，是實現(xiàn)網(wǎng)絡(luò)資源整合服務(wù)的核心。

通過圖書館服務(wù)平臺的Web資源平臺實現(xiàn)整體網(wǎng)絡(luò)資源的整合，包括數(shù)據(jù)挖掘、資源分類、決策處理、網(wǎng)絡(luò)服務(wù)等的研究。應(yīng)用Web資源與圖書館服務(wù)平臺相結(jié)合的思想，可以使整個高校的信息平臺更加完善。以Web資源數(shù)據(jù)挖掘等手段的平臺更適應(yīng)多樣化用戶的使用，兼容了科研型教師梯隊、教學(xué)型教師梯隊以及學(xué)習(xí)型學(xué)生網(wǎng)絡(luò)的特點，有利于廣大師生在圖書館的大量數(shù)據(jù)中更快、更好地發(fā)現(xiàn)對應(yīng)的有效信息。

目前,國內(nèi)外對數(shù)據(jù)挖掘技術(shù)的研究日益火爆,在圖書館中應(yīng)用數(shù)據(jù)挖掘技術(shù)從海量信息中提取有用信息已經(jīng)是重要的發(fā)展方向之一。不但有助于圖書館的數(shù)字化、自動化的形成，還可以針對不同用戶的需求采取不同的應(yīng)對措施。所以，基于Web資源平臺的數(shù)據(jù)挖掘技術(shù)在圖書館信息整理、處理等方面是非常實用的,也是世界各國的很多圖書館服務(wù)平臺的發(fā)展趨勢。

1 圖書館服務(wù)平臺開發(fā)的必要性

高校圖書館利用數(shù)據(jù)挖掘等技術(shù)主要是在文獻信息管理、信息服務(wù)和人員管理方面。因為傳統(tǒng)的圖書信息采集由專人完成,存在主觀因素，所以各分類學(xué)科的分配上有偏差,常常不能達(dá)到最佳利用的效果。采用數(shù)據(jù)挖掘、有效地分類，通過一些相關(guān)算法可以有效地將利用率不同的書刊資料區(qū)分出來，更好地完成圖書資源的分配。如通過數(shù)據(jù)挖掘中的動態(tài)關(guān)系圖找出圖書類別和借閱次數(shù)之間的函數(shù)關(guān)系,通過綜合分析而完成新書資源配比的問題。在信息服務(wù)方面，不再是被動式的借書還書模式，而是主動配置模式，根據(jù)不同的用戶特征為其提供不同的搜索服務(wù)，根據(jù)用戶的檢所要求，設(shè)計直接檢索效果以及一些相關(guān)鏈接，使數(shù)據(jù)資源更全面的展現(xiàn)在用戶面前。在人員管理方面，不再是簡單的層次管理和個人信息記錄等，而要求圖書館員的服務(wù)幫助等建立評價體系等，使服務(wù)更加的完善，從而激發(fā)館員的工作熱情,提供信息交流的平臺,提高其業(yè)務(wù)能力,為廣大讀者提供不同的服務(wù)。

利用統(tǒng)計分析、邏輯回歸、決策樹、粗糙集分類、BP神經(jīng)網(wǎng)絡(luò)等多種算法,通過對用戶的行為、興趣等分析，將用戶的個性化需求與系統(tǒng)的服務(wù)平臺結(jié)合起來,為每個用戶提供更有針對性的服務(wù),提高圖書資源的利用效率。

由于社會信息化過程中各個系統(tǒng)、軟件及數(shù)據(jù)庫之間關(guān)聯(lián)性差,而造成的數(shù)據(jù)共享性差,無法實現(xiàn)資源共享模式而導(dǎo)致系統(tǒng)效率低。各高校圖書館都有大量的數(shù)字化資源,如館藏圖書、全文期刊數(shù)據(jù)庫、學(xué)位論文數(shù)據(jù)庫等。如果能進行有效的數(shù)據(jù)交換，可以極大地拓寬各個高校的數(shù)字資源服務(wù)平臺。這個過程就需要Web資源共享技術(shù)，結(jié)合數(shù)據(jù)挖掘等技術(shù)手段實現(xiàn)圖書館服務(wù)平臺性能的高效化。綜合Web數(shù)據(jù)的特點，在短時間內(nèi)可以處理大量數(shù)據(jù)，時間動態(tài)變化等情況，將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館服務(wù)平臺建設(shè)中非常合適。

2 服務(wù)平臺中的Web數(shù)據(jù)挖掘

圖書館的數(shù)字化程度越來越高，通過數(shù)據(jù)挖掘技術(shù)為圖書館服務(wù)平臺提供技術(shù)支持。通過信息的整合，主動發(fā)掘各種讀者的閱讀需求,滿足讀者的不同想法，有利于信息多元化的發(fā)展。每種數(shù)據(jù)挖掘都有各自的特點和方式,對于Web數(shù)據(jù)挖掘技術(shù)也是如此，整個過程是一個相當(dāng)復(fù)雜的算法處理的過程。這一過程是人機結(jié)合、處理循環(huán)、逼近目標(biāo)、知識發(fā)現(xiàn)的過程，包括了數(shù)據(jù)的收集、整理、挖掘等，同時，不是簡單地單次模式，而是一個循環(huán)迭代的工作模式,也只有這樣才可以使其實現(xiàn)最終的要求。

2.1 數(shù)據(jù)庫的建立

完整的數(shù)據(jù)庫是數(shù)據(jù)挖掘技術(shù)應(yīng)用的基本條件，數(shù)據(jù)庫的建立一般采用常用的數(shù)據(jù)庫建立手段，將可以用于決策的海量數(shù)據(jù)信息從操作環(huán)境中取出來,形成獨立的數(shù)據(jù)資源體系。在圖書館服務(wù)平臺中的數(shù)據(jù)庫和傳統(tǒng)的數(shù)據(jù)庫是有有所不同的，其更加強調(diào)系統(tǒng)的集中性、統(tǒng)一性。數(shù)據(jù)庫是決策系統(tǒng)的基本組成單元,是管理信息的基本元素,數(shù)據(jù)庫提供了整理處理后的數(shù)據(jù)，給決策者提供信息保障,并通過這些數(shù)據(jù)完成決策。所以建立數(shù)據(jù)庫對于圖書館服務(wù)平臺的數(shù)據(jù)挖掘是很重要的。

在目前絕大部分圖書館中，都已經(jīng)采用完整的圖書卡借閱模式，在高校的圖書館中更是常見，如校園一卡通等。這種形式非常適合收集讀者的各種信息，包括讀者的個人簡介信息，借閱數(shù)據(jù)等。在借閱過程中,以身份、書籍類型、借閱時間作為主要的分類方式，定義一個3維度的數(shù)據(jù)空間,建立數(shù)據(jù)表收集信息。維表上對應(yīng)記錄著對應(yīng)維度的信息,用于查詢對應(yīng)的約束條件,通常是離散分布的,不具備可加性。由于要記錄的數(shù)據(jù)量大，所以一般采用多維數(shù)據(jù)的記錄形式,這樣可以更好地實現(xiàn)多維數(shù)據(jù)的記錄、分析、處理等。多維數(shù)據(jù)結(jié)構(gòu)普遍采用星形模式,對于星形模式而言，由事實表及維表通過星形結(jié)構(gòu)連接成,其中，事實表存儲有借閱數(shù)據(jù)信息，用于查詢和分析。因為數(shù)據(jù)取值一般是可以度量的,并且具有可加性的,同時數(shù)據(jù)信息量很大。與此同時，借閱數(shù)據(jù)的信息可通過多個維度獲得,每個維度都可以產(chǎn)生相應(yīng)的維表。

在數(shù)據(jù)庫星形工作模式建立完畢以后，就可以數(shù)據(jù)聚集了。數(shù)據(jù)聚集是數(shù)據(jù)庫的重要組成部分，可以用于分析對應(yīng)應(yīng)用的需求關(guān)系，與事實表及維表都有著緊密的關(guān)系。

創(chuàng)建數(shù)據(jù)聚集的方法如下:

（1）在各個維向上分析需要聚集的屬性數(shù)據(jù)，以時間作為橫軸，圖書種類作為縱軸，依據(jù)借閱人的身份特征（例如是學(xué)生、老師等）建立對應(yīng)的數(shù)據(jù)聚集。

（2）組合不同維的屬性。數(shù)據(jù)聚集后,分析、查詢的過程都是復(fù)雜的，所以數(shù)據(jù)庫的資源數(shù)據(jù)都很大，所以需要建立索引從而提高數(shù)據(jù)庫的訪問能力。只有在明確數(shù)據(jù)庫體系及其結(jié)構(gòu)的基礎(chǔ)上，完成數(shù)據(jù)模型的設(shè)計才能實現(xiàn)對后續(xù)問題的預(yù)處理。也就是需要對事實表及維表中的數(shù)據(jù)流進行分類、凈化等處理。數(shù)據(jù)庫經(jīng)建設(shè)后還需要定期的維護。

2.2 Web數(shù)據(jù)挖掘

（1）數(shù)據(jù)的預(yù)儲存。對采集得到的數(shù)據(jù)首先需要進行預(yù)處理，包括凈化、識別、路徑補充等。在本文設(shè)計的Web數(shù)據(jù)挖掘方式基礎(chǔ)上，采用的預(yù)處理主要是只收集數(shù)據(jù)資源的記錄信息，這樣保證了數(shù)據(jù)的完整性，同時又不需要在收集過程中占用大量的時間，在建立數(shù)據(jù)庫的過程中再根據(jù)需要從中獲取相應(yīng)的數(shù)據(jù)信息，結(jié)合IP地址信息實現(xiàn)網(wǎng)站的拓?fù)浣Y(jié)構(gòu)，從而實現(xiàn)聯(lián)機采集的效果。

（2）數(shù)據(jù)的算法。挖掘數(shù)據(jù)是一個長期、動態(tài)的工作過程，對于不同的數(shù)據(jù)而言，需要不同的數(shù)據(jù)挖掘處理算法。例如有滑動窗口模型（針對最近時間段的數(shù)據(jù)進行處理）、定期抽取模型（按固定時間進行采集的方式）、特征時間模型（按特定時間進行采集的方式）等。利用分類、聚類、關(guān)聯(lián)等算法對資源進行整合，將數(shù)據(jù)中近似的、相近的、相關(guān)聯(lián)的提取出來。

（3）模式的構(gòu)建。通過分類、聚類、關(guān)聯(lián)的方法進行模式的自組織。分類通過分類模型實現(xiàn)，利用分類函數(shù)獲得類別信息，分析相應(yīng)的公共屬性，分類后可以通過類型特征進行聚類。聚類可以將Web數(shù)據(jù)庫中存在相似屬性的用戶資源相關(guān)聯(lián)，同時分析他們的相似性，找出共同特性，從而更好地掌握用戶的需求。最后，由關(guān)聯(lián)規(guī)則完成用戶對網(wǎng)站上各種資源的相互關(guān)系，通過對規(guī)則的設(shè)定挖掘出用戶的閱讀趨向及規(guī)律，從而實現(xiàn)主動服務(wù)的高級功能。

（4）整合資源信息。由于Web資源信息的多樣性、廣泛性，所以需要有合理的資源導(dǎo)航及檢索能力，通過資源的發(fā)現(xiàn)、分類及標(biāo)注功能完成資源的有效定位。通過資源的名稱、URL地址、簡介、關(guān)鍵詞以及類型等特征信息，完成數(shù)據(jù)庫的掃描檢索功能。例如針對某個需要查找的內(nèi)容信息進行檢索，信息的特種特征越是具體，檢索效果就會越好，這樣才能實現(xiàn)檢索結(jié)果的具體化，這需要在檢索過濾方面采用相關(guān)技術(shù)進行有效地定位。在搜索過程中，應(yīng)該存在細(xì)線條、深層次、大范圍的搜索，找到用戶需要的資源信息，隨著特征的具體化而越具體，避免了造成搜索過程中產(chǎn)生大量的冗余信息。方便快捷地找到需要的搜索結(jié)果是用戶的目的。根據(jù)對資源的不同請求情況，對資源實時分類，從而滿足不同用戶的信息檢索要求，提供用戶需要的文獻服務(wù)。

3 圖書館數(shù)據(jù)挖掘平臺架構(gòu)

圖書館資源服務(wù)平臺是根據(jù)讀者用戶所提出的問題在傳統(tǒng)功能的基礎(chǔ)上改進、更新的服務(wù)方式。雖然具有網(wǎng)絡(luò)化的新功能，但是需要建立在原有信息資源的基礎(chǔ)上，同時結(jié)合讀者用戶的各種需求。利用Web數(shù)據(jù)挖掘技術(shù)，對數(shù)據(jù)的分析提取、整合聚類、綜合整理完成相應(yīng)的功能模塊。為了實現(xiàn)對應(yīng)的應(yīng)用功能，形成易于理解、操作簡潔的用戶數(shù)據(jù)檢索形式，充分體現(xiàn)數(shù)據(jù)資源有效性，需要在了解掌握傳統(tǒng)數(shù)據(jù)庫工作機理上添加Web數(shù)據(jù)挖掘的相關(guān)功能。實現(xiàn)Web資源平臺的方法是以分類為基礎(chǔ)，將各種不同的資源信息離散化，將分類完畢的資源信息利用決策樹等算法手段，把讀者用戶的閱讀請求及目的抽象出來，發(fā)給圖書館綜合服務(wù)平臺，同時，服務(wù)平臺會根據(jù)不同的請求，建立新的鏈接及提供原始服務(wù)，依據(jù)分析算法實現(xiàn)挖掘結(jié)果的附加服務(wù)。

讀者用戶是資源使用者，是資源對外服務(wù)的載體，是資源溝通的橋梁。圖書館資源是否能方便地使用和資源服務(wù)方式方法有著密切的關(guān)系，因此設(shè)計較好的可視化的信息服務(wù)平臺是優(yōu)化的一個重要方面。除可視化服務(wù)平臺外，還需要制定一些服務(wù)策略，提高擴大讀者用戶的被服務(wù)范圍。主動分析讀者用戶的需求，利用信息資源的優(yōu)勢，提高數(shù)據(jù)服務(wù)的綜合質(zhì)量及效率，從而體現(xiàn)數(shù)據(jù)時代數(shù)據(jù)挖掘的特色。

4 結(jié)論

本文通過采用Web數(shù)據(jù)挖掘技術(shù)設(shè)計了一種更利于讀者獲取所需信息的工作模式。系統(tǒng)通過對樣本庫的分類分析，將分類后的相應(yīng)數(shù)據(jù)進行處理，從而構(gòu)建了基于Web數(shù)據(jù)挖掘的圖書館服務(wù)平臺。數(shù)據(jù)庫是數(shù)據(jù)挖掘的基礎(chǔ)，在完成了數(shù)據(jù)收集、處理、存儲等工作的基礎(chǔ)上,數(shù)據(jù)挖掘技術(shù)實現(xiàn)了知識的特征提取，最終達(dá)到圖書館服務(wù)平臺功能的提升,使其能夠充分地發(fā)揮數(shù)據(jù)信息的力量。

［1］李征．云計算在圖書館建設(shè)與信息服務(wù)中潛在價值探析［J］．大學(xué)圖書館學(xué)報,2011,（1） :59－62,82.

［2］姚玉閣．淺析數(shù)據(jù)挖掘技術(shù)［J］．信息與電腦,2010 （11）：115.