武漢大學圖書館 奚志紅
大數據時代,在計算機、網絡和生活中充斥著大量數據,政府機關、科研機構和企業的計算機和服務器中保存的文件及數據量成倍增長,用戶其實是非常希望從自己擁有的這些數據信息中得到他們想要的有價值的信息。雖然每個企業、商業公司和高等院校等部門都積累了海量數據,實際上,只有很少一部分數據被利用來進行統計分析,也只是為了應付年度將相關數據上報到學校或者個人工作述職需要做得最基本統計工作。因此在很多情況下,數據量過于龐大,難于管理,或者數據結構本身太復雜了,不能進行有效的分析,因而信息用戶面臨數據豐富而知識缺乏的問題,迫切需要能自動高效率地從海量數據中提取有價值的信息數據處理新技術。
對于大量的、多樣化的、快速化的豐富數據集的理解是幾乎所有商業、科學、工程領域的共同需求,在這樣的需求背景下,提取并利用隱藏在這些數據中的有用知識的能力變得越來越重要,數據挖掘技術就此應運而生。因此可以在原來傳統的數據分析方法和技術基礎上,利用現階段比較成熟的處理大量數據信息的優秀算法和技術,兩者結合起來處理數據信息,從數據中獲得并發現有用的知識的整個過程,就稱之為數據挖掘。
數據挖掘理論和技術是目前比較熱門的、新穎的一個交叉性學科,它主要涉及統計學、人工智能、模式識別、機器學習以及數據庫理論與技術等多門學科,數據挖掘自從它的概念誕生以來,在各大小研究學術機構和電子商務領域迅速掀起了數據挖掘的研究和應用的浪潮,其地位變得越來越重要,其應用也日益廣泛。20世紀90年代初期開始,我國很多高校圖書館開始引進圖書館自動化管理系統,隨著網絡技術的成熟發展及技術推廣,數字圖書館迅速發展,圖書館的各項服務在功能有了新的需求變化,圖書館在館藏資源的查詢借閱的服務中,每天會有大量的讀者行為數據生成,例如圖書館網站的點擊查詢、商業數據庫檢索及下載、讀者入館門禁系統、座位系統預約、圖書資料的借閱及預約、OPAC檢索等數據、工作人員的圖書資料的采訪、編目、流通,以及日常的參考咨詢數據等。這些數據雖然從表面上看不出有什么內在聯系,其實這些數據蘊含著豐富的有價值的信息,例如圖書館哪些網站頁面讀者的點擊利用率最高,哪些商業數據最受歡迎,哪些圖書被頻繁的借閱,讀者個體的行為特點,讀者與文獻資源的內在關聯、不同學科之間的內在聯系等等,這些關聯的信息是目前圖書館很多應用系統所不能解決的,因此有必要引進新的技術和方法,挖掘和發現隱藏在這些數據后面的信息則顯得尤為重要,有了數據挖掘技術,數據之間隱含的關聯問題就會有途徑和辦法進行解決。數據挖掘技術在圖書館的應用,必然能提升圖書館的服務水平,對圖書館各項業務全面的發展起到了很大的促進作用。
在圖書館的業務研究工作中引入數據挖掘技術是十分有必要的,應用這一項技術,對圖書館館藏借閱服務中生成的讀者借閱行為歷史數據進行有效的挖掘,總結歸納出圖書資源的借閱情況、讀者對館藏資源需求的規律,為合理布局文獻資源,提高文獻資源的利用率,完善和提高圖書館的管理和服務質量提供數據支持和決策參考。
(1)有利于優化館藏。文獻資源采購是圖書館非常重要的工作,也是圖書館決策者最為關心的問題,一方面由于涉及年度采購經費的配置問題,另一方面是如何利用僅有的資金采購到讀者需要的文獻資源,提升圖書館的服務水準。一般來說,圖書館的文獻采購中心是圍繞學校的學科建設來進行的,然而受到傳統文獻資源的采購慣性影響,文獻資源的采購權只掌握在少數幾個采訪人員的手上,他們一般不太了解讀者的迫切需求,針對性不是很強,常常憑著以往的經驗進行文獻采購,導致采購到的文獻資源不是十分準確反映讀者的訴求,不太符合學校學科建設需要和發展規劃目標。因此提取圖書館文獻資源的借閱記錄、資源檢索和預約請求、館藏資源的借閱頻率等信息,利用數據挖掘技術的聚類分析以及關聯規則進行相關數據的挖掘,歸納總結出文獻借閱的借閱頻率,文獻的利用情況,從而有針對性地進行文獻采購,豐富館藏資源。同時也能發掘出很長時間沒有被借閱過的館藏文獻,將他們進行剔除或者減少該文獻的副本量,優化館藏資源配置,實現館藏文獻架位的合理布局,使得圖書館文獻資源采購工作更科學更合理,讓有限的文獻資源采購經費和有限的館舍資源配置效率得到提高。
(2)有利于讀者服務。目前圖書館的服務實現了從收藏文獻為主,發展到現在以利用文獻為主的功能轉變,用戶在圖書館日常工作中的地位越來越高和顯得十分重要。個性化服務是數字圖書館發展的主方向,開展個性化服務就是要從讀者的個性化需求出發,了解讀者,主動為讀者提供方便快捷準確的知識服務。數據挖掘技術主要是通過對圖書館系統中的讀者借閱數據進行收集、加工和處理,發掘讀者群體的借閱行為,根據挖掘出來的信息,進行歸納總結相應群體的需求信息,為讀者提供個性化的服務。
(3)促進服務管理水平的提升。圖書館是高校重要的服務型機構之一,為廣大師生提供資源服務,是為教學和科研服務的關鍵部門。高校圖書館不同于其他公共服務性質的圖書館,服務的對象具有專業性、層次性和規律性的服務特征。不同院系不同專業的學生,他們對信息服務的需求也不同;不同類型層次的讀者對圖書館信息的需求差別也很大;同一類型的讀者利用資源的規律在每一個年度也有可能有變化,但也具有一定的周期性規律。因此,利用數據挖掘技術對圖書館集成系統中的讀者流通歷史數據進行挖掘,發掘讀者與文獻資源之間存在的規律以及隱含的關聯性,為優化圖書館文獻館藏資源、調整文獻資源的布局、合理地安排圖書館的人員和服務時間提供數據上的決策參考,提高圖書館的服務管理水平。
(4)完善圖書館的服務層次。通過數據挖掘,完善和改進圖書館的服務方式和服務手段,使人性化服務更加完美,圖書館服務模式得到改變,提高了讀者服務的滿意度。因此進行深層次的知識服務揭示,可以在很大程度上提升高校圖書館的服務層次。
數據預處理的初衷是為了提高數據質量,使數據挖掘的過程更加容易、更加有效,同時也是為了提高數據挖掘的質量。數據預處理的作用是處理數據源中含有的噪聲數據、錯誤數據、數據值是空的和數據結構不完整的數據。數據預處理工作是在數據挖掘之前不可缺少的一個環節。數據預處理主要包含以下兩個方面的工作:
(1)數據清洗:數據挖掘的結論取決于數據質量,數據清理過程主要是通過填寫缺失數據值、識別或者刪除離群點、光滑這些數據,并根據不一致性來清理數據,以求達到這樣幾個目標(格式標準化處理、糾正錯誤的數據、異常數據清理、重復數據的清理),對于來自多個系統或者數據源的數據,在生產數據倉庫的數據清理過程中,重要的一個步驟是解決不正確拼寫、沖突的數據和多個系統間拼寫規則之類的錯誤。在數據中出現的錄入錯誤,或者是編碼錯誤會直接影響到數據挖掘的效果。數據清理能解決數據中的人為錯誤,以及數據文件中對統計分析結果影響較大的有誤數值,提高數據挖掘的準確性和有效性。
(2)數據轉換:數據轉換是根據數據對象不同可以分類為兩大類,一類是對于傳統的常規數據進行轉換,另外一類是對非常規的數據進行數據轉換。對于常規的數據轉換通常采用線性或者非線性的數學變化方法,將數據轉成適合當前數據挖掘的數據形式。非常規數據的變換,一般根據數據的特性不同而又不同形式的轉換方式。可以說數據轉換是數據挖掘過程中很重要的一個環節,是決定數據挖掘是否有效的一個關鍵。
數據集成是將來自不同數據源的數據根據一定的集成規則組織在一起,存放到事先準備的數據存儲倉庫中的一個過程。做數據集成的目的是對數據倉庫中的數據進行匯總、數據概念化等工作。由于來源于不同系統的數據集成涉及的問題有很多,比如理論依據和數據規則,而不同數據表中的定義也有所不同,因此,數據集成可以說是比較需要專業知識的一項工作,數據集成一般包括兩個部分:(1)數據集成:將來自不同數據源中的數據整合到一個數據倉庫中;(2)模式集成:整合不同數據庫中數據的元數據。
數據集成需要相關的行業知識,用這些知識來處理實體識別問題,以匹配不同數據源中的現實實體。另外在數據集成中,我們需要檢測并解決數據值的沖突問題。對現實世界中的數據同一實體,來自不同數據庫的屬性值可能不同。可能沖突的原因有各種各樣,比如不同數據表示和量度也會不相同。數據集成的目的非常明確,就是把數據從不同的信息源整合到同一個數據平臺之中,以便于數據挖掘。
經過前期的數據預處理和數據集成,在進行數據進行挖掘前,首先要選擇合適的挖掘算法,讓挖掘的一切工作系統都能自動地完成。在算法的選擇上,應該從下面兩個因素進行考慮:第一是根據不同的數據有不同的特點,我們就需要用與它們相關的算法來進行挖掘;第二是要根據系統實際運行的需求,調整挖掘技術策略。在此期間還要考慮數據特點和結果、以及知識描述方式方法,然后通過分析數據,最終得到并且形成知識的模式模型。目前采用較多的挖掘技術有下面幾個:決策樹、分類、關聯規則、聚類、遺傳算法、粗糙集、神經網絡等。
常用的數據挖掘技術應該可以分為三大類:一是統計分析類型的有線性分析、時間序列分析、回歸分析、非線性分析、單變量分析、邏輯回歸分析、最近鄰算法、多變量分析和聚類分析等;二是知識發現類型術主要有人工神經網絡、規則發現、遺傳算法、關聯順序和決策樹等;第三是其他類數據挖掘技術一般包含有文本數據挖掘、分布式數據挖掘、空間數據挖掘和Web數據挖掘等。
1.數據挖掘工具分類
市場上有很多比較成熟的數據挖掘工具,大概有以下幾 種:SAS Enterprise Miner、SGI MineSet、IBM Intelligent Miner、Partek、IBM Intelligent Miner、SQL Server BusinessIntelligence development studio、LEVEL5 Quest、SPSS Clementine、Oracle Darwin、KnowledgeSeeker、SAS Enterprise Miner、SE-Learn、Cognos Scenario、UnicaPRW等,常用的數據挖掘工具按照它們的適用范圍,大概可以分為基于神經網絡、規則和決策樹、模糊邏輯和綜合多方法工具等幾大類。
2.數據挖掘工具的選擇
數據挖掘是一個逐步完善的過程,在實際的數據挖掘過程中,需要根據業務的邏輯需求和挖掘工具緊密結合,在實施過程中不斷地調整和磨合,使流程規范化,挖掘工作才能取得成功。在選擇數據挖掘工具開展業務工作時,需要結合目標的實際情況,因此選擇數據挖掘工具時,要考慮的因素主要有:數據挖掘工具的模式種類是否能夠完成數據挖掘任務;數據挖掘工具是否具備解決復雜數據和數據量大的挖掘能力;數據挖掘工具的運行性能,能否為用戶提供可視化的操作界面,以及挖掘結果是否具備圖形可視化工具展示,數據挖掘工具是否具備可視化,主要包括數據的可視化、數據挖掘模型的可視化、數據挖掘過程的可視化、數據挖掘后結果的可視化、可視化的展示深度和質量等;還有一個是挖掘工具的開放性要好,具備和大部分數據庫系統有良好的兼容性和集成性。
文獻的采購是豐富館藏資源的方式之一,有目的地豐富館藏資源,才能使讀者更加有興趣到圖書館來借閱圖書,從而提高館藏圖書的利用率。目前高校圖書館采購權限一般還是放在文獻采訪部門,由于采訪人員不是一線服務的工作人員,也不是專門研究讀者借閱行為分析的研究館員,因此在采購文獻時,只憑借以往的工作經驗來采購哪類文獻以及采購數量的多少。因此可能會采購一些無人借閱的文獻,而讀者迫切需要的文獻卻沒有購買。因此可以通過對讀者借閱數據的挖掘分析,可以幫助我們掌握讀者的借書需求和閱讀趨向,在今后的采購工作中有數據上的決策性依據。總的來說采購文獻一方面要符合我校學科發展建設的需要,有豐富的館藏為廣大師生提供學習和科研方面的幫助,另一方面多采購一些熱門的文獻,可以解決因圖書資源短缺無充足館藏可借局面,提高圖書采購經費的利用率。
“以人為本,讀者至上”是圖書館的服務理念,這一服務理念應該始終貫穿在圖書館的各項工作之中,因此館藏的布局應該以讀者為中心,切實考慮讀者對圖書的借閱需求,讓讀者能方便快捷地找到需要的圖書資源。結合圖書館的實際情況,以及在數據挖掘分析的基礎上從兩個方面進行館藏布局的創新。
(1)以讀者為中心的館藏布局。根據工作經驗和數據挖掘的結果進行對比,其實只有百分之二十的圖書是被讀者經常借閱的,而剩下的百分之八十的圖書借閱量比較小,圖書館應依據讀者對圖書借閱“二八”定理進行館藏布局。可以利用三線典藏的模式進行館藏布局,提高館藏的布局合理性,方便讀者借閱,提高館舍的利用率。
(2)學科關聯一體化的館藏布局。在飛速發展的網絡時代,知識信息的傳播方式、服務手段、服務屬性都有所變化,傳動的按照館藏文獻的載體形式布局的模式應該進行優化變革,圖書館應根據對讀者的借閱數據進行學科關聯挖掘分析,找出學科之間的隱含的關系,進行歸納匯總,逐步形成一套按學科關聯進行圖書資料的館藏布局方案,引導讀者的借閱行為,激發讀者的借閱興趣,提高相關聯學科圖書的利用率。
雖然圖書館實現了借閱一體化的服務模式,給了讀者寬松舒適的借閱氛圍,讀者可以暢通無阻的借閱各種類型的文獻資源。基本上做到了“以讀者為中心”的服務理念,但圖書館在借閱服務及政策方面還有待改進的地方。圖書館應該依據集成系統的借閱歷史、OPAC查詢、入館學習等行文數據,深入挖掘分析讀者的借閱行為,了解和預測讀者的隱含的需求,為讀者制定靈活的文獻借閱政策和提供準確及時的個性化知識服務。
隨著網絡和計算機技術的飛速發展,挖掘技術在圖書館的應用越來越成熟,利用成熟的數據挖掘技術分析讀者的借閱行為規律,預判讀者對館藏借閱的真實需求,為優化藏布局和開展個性化的知識服務提供數據依據,盡一切可能提高圖書資源的利用率。