田玉娥
數據挖掘在高校圖書館中的應用
田玉娥
[摘 要]隨著高校招生人數的增多,圖書館購買了大批量圖書,圖書管理文獻系統蘊藏著大量的數據,這些數據除了有讀者信息、圖書信息外,還有多媒體信息等。我們試圖從這些數據中分析出有價值的信息,利用數據挖掘對這些數據進行分析,找到內在的關系,為圖書館各方面的決策起到引導作用。簡要介紹數據挖掘的定義以及圖書館數據挖掘主要用到的算法,如關聯規則、決策樹、聚類分析等,總結數據挖掘得到的結果在圖書館館藏布局、圖書采集、WEB信息挖掘、個性化服務方面發揮的作用,并對數據挖掘在高校圖書館中的研究進行了展望。
[關鍵詞]高校圖書館;數據挖掘;關聯規則;聚類分析;決策樹
[作 者] 田玉娥,山西工程職業技術學院。
圖書館是搜集、整理、收藏圖書資料以供讀者閱覽、參考的機構。圖書館的業務工作是由很多相互聯系的工作環節組成的,一般包括文獻的收集、整理、典藏和服務四個部分。這幾個方面環環相扣,要想使讀者對所借閱的文獻滿意,服務到位,就要了解讀者對文獻類型的需求,了解讀者的需求。為此,我們可以采取一些方法,比如問卷調查、座談、網絡論壇交流等形式,但這些都是顯性需求、表面需求,通過簡單的統計即可完成,要想了解更深層次的隱形需求就比較復雜了。怎樣才能更好地了解這些文獻之間的關系,讓讀者十分滿意,并且讓圖書館的紙質圖書和電子資源得到最大效率的充分利用,恐怕要借助數據挖掘這項技術了。
數據挖掘就是面對海量數據應運而生的一種數據處理技術,通過數據挖掘的一些方法能把這些數據中隱形的關聯的數據挖掘出來,便于圖書館工作人員更好地為讀者服務。在數據挖掘中最著名的相關聯系的例子是“啤酒與尿布”的例子,即看起來風馬牛不相及的物體卻通過數據挖掘的方法找到了內在的聯系——購買尿布的同時也購買了啤酒。圖書館想要充分利用數據挖掘,首先就要了解什么是數據挖掘,現階段在圖書館應用方面涉及哪些數據挖掘的方法,以及取得了哪些成效。
數據挖掘是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的知識的過程[1]。但這些知識并非是單一的,它可以以多種形式出現,如數字、文本、圖形、結構化語言、網頁等,但最終目的只有一個,那就是把海量數據轉化成易于理解的模式讓大家接受與認可。海量數據的存在形式多樣,圖書館內借閱的自動化系統數據庫中存儲了大量的讀者信息和館藏圖書信息,除此之外還有一些隱藏著的網絡信息,如用戶的提問、動態生成的結果[2],一些音頻、圖像等多媒體信息。數據挖掘分數據準備、數據挖掘、結果表達和解釋三個主要階段來完成。
隨著科學技術的發展,數據挖掘技術也已不斷引進圖書館的發展領域內,如Scott Nicholson研究圖書館書目挖掘模式就是根據讀者的借閱信息和借閱圖書的種類挖掘出來的。圖書館數據挖掘理論模型被May Chau發現并研究出來,利用這種模型,可以研究出圖書館的挖掘系統,能幫助讀者快速查找信息[3]。近年來許多學者在圖書館挖掘模型中投入了大量的精力,但迄今為止沒有明顯的成就。
盡管數據挖掘的算法有很多,但是在圖書館數據挖掘這一塊應用較多的是關聯規則、聚類分析、決策樹算法。在數據挖掘過程中,有時單獨使用某種算法,有時是幾種算法交叉使用,或互相印證或為求某個數值。我們主要就這幾個算法進行比較詳細的說明。
(一)關聯規則
所謂關聯,反映的是一個事件和其他事件之間依賴或關聯的知識。這種關聯是建立在數據庫中的一些數據項中的關系,這種關聯可以是簡簡單單的關聯,也可以是有前因后果的關聯,或者是時間序列分析的關聯。通過各種關聯,找到它們之間隱藏的兩個或多個變量取值之間的規律性,這就是關聯規則。這種關聯需要通過一些參數“支持度”“信任度”來衡量它們之間的依賴生存關系,關聯規則就是支持度和信任度分別滿足用戶給定閾值的規則。
關聯規則挖掘算法分連接和剪枝兩個步驟來完成的,其中比較經典的算法是Apriori算法。
Apriori算法是先在數據庫中找出支持度大于或等于用戶設定的閥值的所有的頻繁項集,再利用頻繁項集構造出滿足用戶最小信任度的規則。在找所有頻繁項集的過程中,會有非頻繁項集的候選集產生,需多次掃描數據庫將它們找出來,再將不符合要求的給刪除掉,由于需要往返多次掃描數據庫,所以這是Apriori算法的一大缺點。
(二)聚類分析
將物理或抽象對象的結合人為地依據一定的規則分組成不同的類的過程就是聚類分析。因為依據的規則不同,生成的簇的對象的特點就比較明顯,同簇相似性大,異簇相異性大,相似度極低。
同其他算法一樣,也有其算法原理,原理如下:
第一步:分初始類,此時的類可能是以前的類,也可能是新類,需要對樣本逐個掃描,根據其與已掃描過的樣本的距離分類;
第二步,依據類間距離對第一步中的類進行合并,達到一定的標準,停止合并。
計算兩個樣本間的相異度的度量標準即距離的衡量是用特征空間中的距離作為標準的,K-means算法是典型的基于距離的聚類算法,聚類算法的終極目標是得到緊湊且獨立的簇,把距離作為相似性的評價指標。
聚類分析算法也有它的缺點,因為依據的規則不同,結果也有些許的差別。
(三)決策樹算法
決策樹算法是一種非連續的、逼近離散函數值的方法。也同其他算法一樣,先要對數據進行預處理,根據歸納算法生成決策樹和可讀的規則,再利用決策對新生成的數據進行研究。
決策樹算法的目的是生成一顆決策樹,建立樹的分支需要通過一個測試函數值來生成,這個測試函數是靠實例集生成的,在每個分支下依據同樣的規則建立下層結點和分支,同Apriori算法一樣也需要對決策樹進行剪枝,把決策樹轉化為規則集,有了規則集就可以分類新實例。
C4.5是決策樹的經典算法,它既可以用來解決分類問題,也可以用來解決回歸問題,而且對于預測變量的數據處理如空值處理、派生規則等許多方面做了比較大的改進。
高校圖書館的讀者群比較特殊,老師們作為讀者比較固定,但學生作為讀者的生命周期就比較短[4],三年或四年一換,這就需要不斷地對數據源進行更新,挖掘的數據源的跨度要大,隨時掌握讀者群的變化。
數據挖掘應用在圖書館,主要集中在這幾個方面:
(一)館藏布局和圖書推薦方面
通過挖掘圖書館管理系統和多媒體信息可以發現:在五大類圖書分類之間有很強的關聯性,對于這五大類圖書可以就近擺放或放在熱門書籍附近;圖書種類之間存在關聯,這樣可以在圖書上架時進行考慮,抽出部分圖書復本把關聯書放置在一起或周圍;專業和圖書種類之間的關聯,圖書種類不只是專業書籍,還有是文學、語言類圖書之間的關聯,這樣能針對不同專業的讀者給予合理的較快的引導,較大地提高了圖書的使用率,同時也節省了讀者寶貴的時間,使其借到合乎自己要求的圖書;學科之間有關聯,比如數學和計算機學科就有著很深的淵源,計算機利用數學來抽象或思考,數學利用計算機來提高工作效率,這樣在排架時就可以有所側重。
(二)圖書采集方面
過去的圖書采集比較隨意,將書目發到各系部由各專業老師結合本專業特色、課程與自身發展選擇圖書,或通過收集熱門圖書進行采集。現在通過數據挖掘的算法,發現讀者與圖書之間的聯系、圖書之間的聯系等,就可以在采集圖書的過程中進行參考,這樣在采購圖書時便有了側重點,同時也發現了少有人問津的圖書可以不采購,而對借閱率高的圖書重點采購,并考慮是否要多采購復本,以使經費得到最好最合理的應用,避免盲目浪費。
(三)Web信息
數據挖掘要從方方面面進行挖掘,對于Web信息來說,Web的文檔層次結構、Web的組成元素圖片、文字等數據中的某些信息是有價值的,Web數據挖掘是通過挖掘這些有價值的信息,來發現其中的某些隱形的未被發現的模式來提高Web技術的利用效率[5]。Web數據挖掘不管是從內容、結構還是使用上進行挖掘,其目的都是為了發現或預測讀者隱藏在數據中的習慣行為,以便對網站的結構或內容修改進行指導,發現有價值的頁面,發現讀者隱藏的關聯規則,為讀者個性化服務提供依據,來提高數字資源或紙質圖書、期刊等的利用率。
(四)個性化服務
數據挖掘不單可以挖掘圖書之間的關聯,還可以針對某一特定讀者群,例如某一專業或某一個系部,挖掘讀者信息和書目信息,或數字資源等之間隱秘的關系,預測他們的信息要求,發現他們借閱圖書的特點。掌握了這些,就能夠針對讀者的特點,高效率高質量地為讀者提供個性化服務,同時也節省了讀者的時間,給出合理的參考性的指導,讓圖書館的服務更上一層樓。
數據挖掘在國內圖書館的挖掘現在還處在初步階段,挖掘方法比較單一,研究只停在理論水平上,對圖書館的實際需求分析和研究的層次較淺,在方法原理和應用上沒有突破性的發展,沒有好的應用實例在圖書館間廣泛使用。筆者相信在不久的將來,隨著科學技術的突飛猛進,數據庫技術會越來越成熟,研究出的數據挖掘算法會更全面,開發出的圖書數據挖掘模型會更廣泛地應用到各大圖書館中,那時圖書館
服務質量會更上一層樓,圖書館將發揮它最大的效用。
【參考文獻】
[1]田玉娥.數據挖掘在圖書管理方面的應用[J].電腦開發與應用,2012(4):79-81.
[2]宜建軍.基于Web數據挖掘的圖書館UIS系統設計與實現[J].現代情報,2006(3):146-149.
[3]奉國和,奉永桃.近十年國內圖書館數據挖掘研究文獻計量分析[J].圖書館論壇,2011(1):46-49.
[4]周倩.數據挖掘在圖書館用戶資源管理中的應用研究[J].現代情報,2006(6):87-90.
[5]周鋒.Web挖掘技術在遠程網絡教育中的應用[J].常州工學院學報,2010(Z1):64-66,86.