摘 要:大數據挖掘技術作為一項新興的信息處理技術,給圖書館信息化建設帶來了深遠的影響。本文首先分析了數字圖書館的發展現狀和現存服務系統中的問題等,隨后介紹了典型數據挖掘技術和方法,并且探討了大數據挖掘技術在數字圖書館服務中的應用。
關鍵詞:大數據;挖掘技術;數字圖書館
隨著科技的發展,我們已經逐漸開始了大數據時代,在這個社會當中,數據挖掘技術的誕生,讓人們的生活更加便利。同時數據挖掘技術也是在新時期社會發展需求下誕生出來的一種分析類技術,這種技術能夠針對擁有不同特點的用戶需求,提供個性化的服務,并且逐漸在社會各個領域中普及開來,文章就此介紹了數據挖掘技術在數字圖書館中的有效應用。
1 數字圖書館發展現狀
1.1 數字圖書館發展特征
數字圖書館一直是圖書館領域中的重點研究對象。從廣義角度來講,以網絡為基礎,同時能夠滿足人們信息需求的就可以叫做數字圖書館。從較為嚴格的定義角度來分析,數字圖書館就是收藏各種數字信息,能夠支持用戶進行采集、檢索、定位信息等服務的信息技術,突出了數字圖書館中的技術、服務與收藏等三種要素[1]。服務是數字圖書館的發展基礎,目前圖書館中信息服務模式屬于一種分布分散形式的傳播模式,并逐漸向用戶中心的集中式服務模式發展,數字圖書館在未來發展過程中也應該將重點放在智能應用、空間聚合、集成服務等領域中下功夫。
1.2 服務系統中的現存問題
從現有的服務模式實際發展狀況來看,個性化服務系統目前存在以下幾方面的問題,首先是信息組織的問題,比如MyLibrary主要是以現有動態網頁技術和數據庫技術為基礎,但是沒有對圖書館信息組織方式進行徹底的改變。其次是沒有充分了解用戶的實際需求,用戶只能被動挑選自己想要的信息資源。圖書館所提供的服務基本也是以現有資源為基礎,而不是從用戶需求角度入手提供各種服務。最后是沒有對用戶的消費行為進行精準分析,在現有的服務系統當中,只能根據用戶所記錄的個人資料提供相應的服務,但是卻沒有主動跟蹤和獲取用戶實際需求,更不用說對用戶信息進行整理加工,并在數據挖掘技術的基礎上找到各種規律性事物,為數字圖書館的建設發展提供可靠的參考依據。
2 大數據挖掘技術在數字圖書館中的有效應用
2.1 分類模型
分類模型是監督式學習模型,即分類需要使用一些已知類別的樣本集去學習一個模式,用學習得到的模型來將不同種類的數據信息進行分類。數字圖書館可以分析、利用用戶特點,對用戶進行科學的分類研究,了解用戶的屬性和特征,掌握用戶對于圖書館所提供服務的滿意程度。比如數字圖書館可以根據用戶的不同需求,為其提供個性化服務,通過神經網絡、規則總結、決策樹等多種常見的分類方法對用戶特征進行分析,從而了解怎樣的用戶擁有怎樣的服務需求,了解擁有哪一種共性特征的用戶會制定某一服務,而在所有的圖書館用戶中,這一群體的所占比例為多少。最終通過分類模型所得出的結論為圖書館提供服務推送,提供可靠的參考依據,挖掘潛在用戶群體,同時還可以結合用戶的職業背景和學歷特征等因素,制定合理的服務措施。比如某些群體的用戶擁有良好的經濟收入,同時對在線數據庫擁有較強的興趣,對于知識的需求程度較高,那么就可以將其劃分到固定服務對象一類當中,可以對其提供一定的優惠政策,促進其購買和使用在線數據庫,并將數據庫中不斷更新的信息技術傳送給用戶,針對這一群體實施問卷調查,為后期的服務改進做好基礎準備。
2.2 關聯模型
關聯模型主要是用來分析數據庫中各種數據信息之間關系的一種規則,也就是說在某一事物當中,隨著某一項的出現,能夠引發出其它項出現在同一事物當中,就是深埋在各種事物當中的隱藏關聯[2]。比如我們可以在關聯規則的基礎上發現以下現象,假如某位用戶制定了圖書館中的某項服務,那么隨之而來的也會定制其它的服務,或是和某種網絡資源進行鏈接的用戶,也會存在極大的可能與另一網絡資源進行鏈接,那么數字圖書館就可以將兩種資源或是服務結合到一起提供給用戶,并挖掘具體原因,制定有效的服務措施。
2.3 序列模型
序列模型在一定程度上,十分接近關聯模型,兩者主要的不同是序列模型的服務對象是根據時域進行劃分的,即序列模型發現的規律按照事件發生順序進行分布。例如在以B/S模式為基礎的個性化服務當中,可以通過Cookies來記錄圖書館用戶曾經訪問過的各種資源信息,最終可能會發現,假如用戶閱讀A鏈接,那么就會存在百分之四十八的幾率會在三十分鐘內訪問B鏈接,這也是序列模型中所發現的規則,假如獲得了這樣的結論,用戶在訪問A鏈接后,那么進入B鏈接就有百分之四十八的可能,這也是關聯規則[3]。
2.4 聚類模型
聚類分析是數據挖掘的重要研究內容與熱點問題,它是按照某種相似性度量方法(標準)對一個數據集合進行劃分成多個類簇,使得同一個類簇之間的相似性盡可能高,不同類簇之間不相似或者相似性低。與分類模型有所不同,聚類模型屬于無監督學習,事先并不需要知道每個對象所屬的類別,既不了解相應的分類標準,同時也不了解會有哪些類出現,根據所給的聚類參數,如相似度對數據實施分解、合并。最終讓領域專家判斷所得結果,假如無法滿足預期目標,就需要進行改良,重新聚類。一旦滿足目標需求,分類規則也可以利用聚類參數獲得。在這一過程中,可以針對某一群體用戶實施聚類,并挖掘其中的最為相似的群體,實施有效的服務策略,選擇合理的服務方式,結合用戶的體驗反饋,準確判斷聚類成果,了解用戶的滿意度。
2.5 時間序列模型
時間序列模型可以在現有數據信息基礎上,對未來進行準確預測,從這一角度出發我們能夠發現,時間序列模型和回歸模型十分接近。回歸模型主要是通過歷史數據對未來發展趨勢進行預測,最簡單情況下,應用標準統計方法即可,例如線性回歸方法。但多數情況是非線性問題,比如數據庫中的流量升降、網頁訪問數量變化等,在多種因素影響下,問題也變得更加復雜。在回歸模型中,并不十分看重時間發生順序,但是在時間序列模型中卻十分看重時間特性,其中最為關鍵的就是時間周期層次,例如年、月、周、日等,除此之外,有時還需要結合日歷問題進行分析,比如節假日等方面的影響。例如在線書庫中的訪問數量,隨著時間的變化會產生相應的周期變化,為此數據圖書館可以根據周期變化挖掘具體發展規律,同時還可以發現周期變化的具體原因,比如遇到的假期或是學期發生了一定的變化,為此需要進一步調整工作計劃。其中需要注意的問題是,挖掘時間序列數據和時間數據模型分屬于兩種不同概念。在挖掘時間序列數據信息的過程中可以綜合利用各種方法或者模型。
3 結語
綜上所述,在信息技術飛速發展的時代,數字圖書館具有較為廣闊的發展前景。從長遠發展角度來看,數字圖書館想要實現可持續發展的目標,就需要有效利用先進的科學技術,分析掌握不同用戶的真正需求,為用戶提供精準的個性化服務。而大數據挖掘技術能夠在海量信息資源中迅速挖掘出最為有用的信息,并且不需要專家知識檢驗所得到的結論,是推進圖書館信息化進程的強有力手段,也是未來數字圖書館創新的重要領域。
參考文獻
[1]馬桂英,李會民.大數據技術在應用型本科高校數字圖書館建設中的作用[J].北華航天工業學院學報,2017,27(04):55-57+60.
[2]柳益君,熊太純.大數據挖掘在高校圖書館個性化服務中應用研究[J].圖書館工作與研究,2017(05):23-29.
[3]趙志遠,孫劍華.數據挖掘技術在高校數字圖書館個性化服務中的應用[J].無線互聯科技,2018,15(12):141-142.
作者簡介
許楠(1984-),女,漢族,研究生學歷,講師,研究方向:智能信息處理、圖像處理。