葛曉玢,劉 杰
(銅陵職業技術學院,安徽 銅陵 244061)
數據挖掘技術在高校圖書館管理中的應用
葛曉玢,劉 杰
(銅陵職業技術學院,安徽 銅陵 244061)
本文分析了數據挖掘技術較之傳統數據分析的優勢,并列舉了其在高校圖書館中的應用。
數字挖掘技術;圖書館
高校圖書館蘊含著豐富的館藏資源,涉及到各個領域的專業知識,是學習的寶貴資源和財富,但是圖書數量的增多給學生帶來豐富信息的同時也給圖書的甄選工作提出了挑戰。如何將圖書信息全面完整細致地呈現給讀者一直以來是圖書館理工作研究的重點課題,鑒于圖書數量龐大和跨學科研究學習的科研現狀,數據挖掘技術走進了圖書館。
與聯機分析、報表分析和查詢分析等傳統的數據分析方法相比較,數據挖掘技術的顯著特點是數據分析的模糊性和整體性以及隱含關聯性,即數據挖掘的分析工作沒有清晰的分析和檢索依據,所檢索得到的結果是與檢索題目有關聯的任何書目,有時是題目字詞上的重合書目,有時是書目之間存在隱含的關聯和重合性。正因為數據挖掘技術所挖出的數據信息與常規思維有差異,才可能獲得意料之外的信息,從而有利于拓寬思維領域,打破思維定式,進而有利于資源的充分整合和利用[1-2]。
2.1 數據挖掘的基本方法
數據挖掘是數據分析的改進和升級,其與圖書館管理內容相匹配的基本的工作方法是對數據的關聯、序列和分類以及聚類進行分析處理。第一,數據關聯分析的主要工作為分析發掘數據表面之后的內容且找出數據信息之間的潛在關系;第二,數據序列分析的主要工作為對單位時間內的連續事件進行周期性的分析和處理;第三,數據分類分析的主要工作為依據各個樣品的特征確定其分門別類的規律;第四,數據聚類分析的主要工作為將所有數據信息按照意群進行分組,每組再進行進一步分組,并且對每一層次的小組都進行說明。
2.2 數據挖掘的具體應用
(1)數據挖掘技術之預處理。數據的預處理工作是關乎數據信息真實性、有效性和準確性的基礎性工作,預處理信息的可靠程度決定了數據挖掘過程中所提煉信息的質量和可用性。因此,在數據挖掘技術應用的過程中要對數據信息的采集和處理進行嚴格的質量檢查和評估。在具體的工作中質控工作主要在于二級數據信息流通記錄表單信息的處理,該處理工段要對數據的項目進行查缺補漏,去重補缺,從而保證基礎數據信息的質量。其次,要對數據的清洗工作予以足夠的重視,首先是要將殘缺數據進行甄別并做適當的處理,然后要處理掉錯誤數據以免出現數據挖掘出無效信息而影響檢索效率。最后,要對數據信息進行格式統一,對于相同或者相近信息進行統一化表述,對于不同類信息進行不同文字類別標識,從而提高挖掘的準確性和挖掘的速度。
(2)數據挖掘技術之挖掘引擎。挖掘引擎是數據挖掘技術的關鍵,引擎功能的強弱對挖掘出的信息質量和挖掘速度有決定性的影響。挖掘引擎的主要運作功用是應用最合理的技術和運算函數以及公式對數據庫中的信息進行整合,從而用最短的時間提煉出最有效的信息。數據挖掘技術中主要有決策樹、神經網絡、關聯規則、聚類分析、統計學習、模糊集和粗糙集等,下面詳細對關聯原則分析法進行說明。關聯規則的重要作用是以支持度和置信度為參考量對數據信息之間潛在的關系進行分析說明。數據記錄中所有字段取值構成的合集稱作項集,記做I,設X、Y為項目集,且符合X∈I,Y∈I,X∩Y=Φ,那么,支持度是指包含項目集X和Y的事務數與所有事務數之比,記做support(X=>Y),它描述了X和Y這兩個項目集在所有事務中同時出現的概率;置信度是指包含項目集X和Y的事務數與包含X的事務數之比,記做confidence(X=>Y),它描述了在出現項目集X的事務集中,項目集Y也同時出現的概率。關聯規則分析方法的核心步驟便是根據最小支持度找出數據集中的頻繁項目集,根據頻繁項目集和最小置信度產生關聯規則。如何查找頻繁項目集,這是關聯規則算法要解決的問題。經典的方法是查找頻繁項目集的全集,其中包括基于廣度優先搜索策略的apriori算法和基于深度優先搜索策略的FP-Tree算法。
(3)數據挖掘技術之用戶界面。用戶界面是數據挖掘技術的使用窗口,是服務于讀者用戶的終端。用戶界面的設計要注意以下三個方面。首先是用戶界面的設計內容中要充分體現圖書館的書香氣息和學校的育人理念,從而為讀者提供良好的人文閱讀軟環境;第二是用戶界面的使用方法設計要條理清晰,圖標形象,文字明了,從而有利于為讀者所進行檢索工作提供方便,進而增加數據挖掘技術的實用性;第三是用戶界面軟件的編程方法的選擇,通常情況下可以應用C語言或者C++語言來完成界面的制作以利于編程工作效率的提高。
(4)數據挖掘技術應用之讀者個性化服務功能。讀者個性化服務與網絡閱讀中的相似文段推薦有異曲同工之處。數據挖掘技術在高校圖書館中的重要作用是建立讀者的個性化服務使用功能,從而能保證讀者在閱讀本館的相關書籍時了解到很多與之相關聯的其他書籍,進而為學生的閱讀提供定向性地指導,縮短了讀者檢索所用的時間。
關于讀者的個性化服務功能的建立是以對大量圖書借閱的信息數據為基礎的,對讀者群體、讀者閱讀喜好、對所借書籍的認可程度以及圖書查詢未果的概率等方面的數據進行分析,然后將信息分類匯總,最終確定檢索某些書目的讀者的閱讀喜好和可能的研究方向,從而實現讀者使用引擎進行檢索時個性化服務功能可以為其提供與之相關的書目作為借閱參考。在該服務功能中讀者說明了確切需求的為顯示反饋,反之則為隱式反饋。讀者個性化服務功能的實現,滿足了不同讀者對檢索的需求,充分發揮了數據挖掘技術在高校圖書館管理工作中的作用,體現了信息技術對于各項工作的積極促進作用。讀者的顯示反饋將讀者的檢索內容作為個性化服務的參考,經由網絡資源挖掘出讀者所需的信息,并且還經由電子郵件、微信和微博等方式將相似度較高的信息推薦給讀者。隱式反饋是計算機對讀者的檢索歷史進行跟蹤記錄,從而為讀者提供常用相關書目作為閱讀參考。
綜上所述,數據挖掘技術所能夠為高校圖書館管理工作提供有效的服務,不僅便于圖書的管理工作,還對讀者的有效閱讀以及提高檢索效率有顯著的影響,最終將為大學生的終身學習進行輔助性的指導。
[1]蔣慧新. 數字圖書館的個性化信息服務研究[J]. 現代計算機(專業版). 2010(06) 21:104-105.
[2]楊雪霞.數據挖掘技術在高校圖書館管理系統中的應用研究[J].軟件,2011,(04):16-18.
Application of data mining technology in University Library
GE Xiao-bin,LIU Jie
(Tongling Vocational and Technical College,Tongling 244061,Anhui Province,China)
This paper analyzes the advantages of data mining technology compared with the traditional data analysis, and lists its application in the University library.
digital mining technology; Library
G251
A
10.3969/j.issn.1672-7304.2016.05.024
1672–7304(2016)05–0049–02
(責任編輯:吳 芳)
葛曉玢(1983-),女,安徽淮北人,講師,研究方向:web與數據庫研究。