摘 要:大數據時代,數據無處不在,大數據技術可挖掘數據中蘊藏的價值,隨著大數據思維的不斷滲透,如何促使圖書館更健康的發展,必須要學會應用大數據,將大數據技術融入到圖書館工作、服務中去。
關鍵詞:大數據技術 高校圖書館 個性化服務
中圖分類號:G250 文獻標識碼:A 文章編號:1672-3791(2018)01(b)-0254-02
移動設備、RFID、無線傳感器時時刻刻都在產生數據[1],并以每年50%的速度急劇增長,要處理的數據信息量巨大,傳統的技術手段已無法滿足大數據時代業務需求和市場競爭壓力對數據處理的實時性、有效性均提出的更高要求。因此,大數據技術的概念被提出,并迅速成為研究的熱點,引起了普遍的關注。
1 大數據概述
早在1990年,數據倉庫之父Bill Inmon就開始關注Big Data[2];2008年9月《Nature》雜志發表“Big Data: Science in the petabyte era”,大數據一詞正式被提出;2012年3月,美國啟動“big data research anddevelopment initiative(大數據研究和發展計劃)”;2012年7月,日本推出“新ICT戰略研究計劃”;2015年8月19日,我國通過了《關于促進大數據發展的行動綱要》。大數據至今尚無確切、統一的定義。人們主要是用它來描述和形容信息爆炸時代產生的海量數據。如今,大數據一詞越來越多地被提及,主要指利用新的技術和處理模式解決具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息。
大數據技術已廣泛應用于電信、金融、教育、醫療、電子商務甚至政府決策等領域。近幾年,圖書館人也漸漸開始探索大數據技術在圖書館方面的應用,作為全新技術(信息技術)架構起來的數字圖書館,與傳統圖書館相比,其功能、職能已得到極大的拓展,但隨著大數據技術對數字圖書館的不斷滲透,如何促使數字圖書館更健康的發展,需理解大數據,適應大數據,學會應用大數據,將大數據技術融入到數字圖書館的應用中去[3]。
2 革新高校圖書館信息服務的理念和思維
隨著大數據時代的來臨,高校圖書館信息服務不再是靠理念和經驗來傳承,而是用數據說話,大數據充斥在圖書館的每一個角落,諸如讀者每一次圖書、期刊的借還,圖書館網站的每一次訪問記錄等都可以轉化為數據。大數據比起傳統的數字具有深刻的含義和價值。如讀者與圖書的關聯,圖書與圖書的關聯等。通過對用戶的學科、偏好、使用習慣等數據信息特征的分析而主動向用戶提供可能需要的信息和服務。
3 大數據技術在高校圖書館個性化服務中的應用
高校圖書館要實現個性化服務,就必須動態地組織和呈現與用戶當前信息需求最相關的信息內容,即通過了解用戶的訪問模式,自動地改進站點信息的組織和顯示。下面通過大數據技術的流程,來描述大數據技術在高校圖書館個性化服務中的應用。
3.1 確定目標
通過在圖書館已有的信息服務平臺及服務模式的基礎上,整合代表高校師生對信息需求和特點的所有數據的相關記錄,實時感知用戶變化著的信息需求,進而針對用戶的真實信息情境開展有針對性的個性化信息服務。
3.2 大數據的采集
大數據采集必須要從多維度提取數據來源來接收發自客戶端(Web、App或者傳感器形式等)的數據,包括從外部互聯網(直接裝載入爬蟲引擎)和圖書館內部(評估數據采集和對接方式);除了傳統的結構化數據資源(電子圖書、期刊、論文數據庫等)外,更加注重使用現代技術手段獲取用戶使用圖書館的過程中的半結構化及非結構化的數據信息(智能設備數據、物聯網數據、互聯網數據等)。
3.3 大數據的導入/預處理
原始數據大體上都是分散的、不完整、不一致的“臟”數據,無法直接進行有效的分析,為了提高數據分析的質量必須要進行大數據的導入/預處理等前期工作。數據的導入是將數據導入到一個集中的大型分布式數據庫或者存儲集;數據預處理有多種方法:數據清理、數據變換、數據集成、數據歸約等。
3.4 大數據的統計/分析
統計/分析主要利用分布式數據庫或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等。統計/分析的方法包括假設檢驗、差異分析、相關分析、聚類分析等等。大數據分析性能的好壞,與問題的性質、數據集的特性包括數據規模、數據特征等都有關系。
3.5 大數據的挖掘
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中揭示出隱含在其中的先前未知的并有潛在價值的信息和知識的過程。挖掘的任務主要是分類、預測、關聯分析、聚類分析等;挖掘的對象有關系數據庫、面向對象數據庫、多媒體數據庫、數據倉庫等。數據挖掘的方法有很多種,包括機器學習方法、統計方法、神經網絡方法和數據庫方法等。
3.6 結果展現
大數據處理數據分析的結果是直接反饋給用戶的,因此要以可讀或可見的形式展現。可視化技術是大數據產業鏈里的最后一環,是實現大數據從概念到實際應用中重要的一步。須借助計算機圖形學技術,通過圖形化手段,清晰有效地傳達與溝通信息。數據圖像化可以讓數據自己說話,讓用戶直觀的感受到結果。
3.7 結果解釋與驗證
根據設定的目標,最終的結果將為實現個性化服務提供參考性決策,例如,圖書館外文數據庫使用率,95%以上是科研工作者和教師使用,而學生的使用率不足5%,這樣就可以將外文數據庫相關信息傳遞給使用率高的相關用戶;學生更多是進行微博或留言等形式咨詢,教師和科研工作者更多選擇的是電話咨詢,這樣可以根據用戶習慣進行參考咨詢建設。最后,要通過跟蹤了解,用戶信息反饋,調查問卷等實踐活動對結果的真實性、可用性進行驗證。
4 結語
社會已邁入“大數據、互聯網+、新媒體”時代,人類的發展進步已離不開信息的支撐,未來世界的競爭就是信息的競爭,在此環境背景下,世界各國的智庫建設如火如荼,高校智庫發展一片繁榮,已成為智庫建設體系的一支隊伍,高校圖書館憑借自身優勢,也正在積極響應并參與智庫的建設與發展[4],開展個性化服務是高校圖書館滿足當下信息需求的必然選擇,也是其自身服務方式的變革與轉型,大數據技術能夠將隱藏于海量數據中的信息和知識挖掘出來,能為高校圖書館實現個性化服務提供不可或缺的技術支撐。其中,盡管目前在我國,大數據重點應用于商業智能、政府決策、公共服務等幾大領域。相信隨著研究的深入,大數據技術也必然會對未來高校圖書館的建設和發展帶來積極的影響。
參考文獻
[1] 樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012(11):63-71.
[2] 李信,李旭暉,陸偉,等.大數據驅動下的圖書情報學科熱點領域挖掘——面向WOS題錄數據的實證視角[J].圖書館論壇,2017,37(4):49-57.
[3] 夏秀雙.大數據環境下高校圖書館個性化信息服務研究[D].曲阜師范大學,2015.
[4] 張冬梅,喬紅麗,肖永雙.高校圖書館在智庫建設中的作用[J].中華醫學圖書情報雜志,2016,25(10):59-61,75.