【摘 要】本文通過梳理大數據的內涵與理念,分析了大數據環境下圖書館服務面臨的挑戰、大數據環境下圖書館應用大數據技術促進服務的新發展。
【關鍵詞】大數據;圖書館服務;新發展
【中圖分類號】G252 【文獻標識碼】A
【文章編號】2095-3089(2018)22-0005-02
《大數據:創新、競爭和生產力的下一個前沿領域》報告中首次提出了“大數據”的概念,還對大數據的分析技術與工具進行了列舉,如目前已為廣大圖書情報研究者所熟知的聚類分析、數據挖掘、網絡分析、可視化分析、數據融合與數據集成等。
一、大數據內涵及理念
1.大數據內涵。
關于大數據,目前學界尚未形成統一的定義,但是存在一些共識: 大數據是一個動態概念,是一個用來描述海量的結構化、半結構化和非結構化數據的流行短語,大數據的容量非常巨大以至于很難用傳統的數據庫和軟件技術進行存儲、管理和處理。但是,人們沒有明確提出數據量必須達到TB級或PB級才算是大數據,數據量隨著信息技術的發展而改變,過去或目前的大數據,在未來可能不再是大數據。
大數據具有 4V 特征,即種類( Variety) 多、速度( Velocity) 快、容量(Volume) 大、價值(Value) 大,其中價值大是其首要特征。建立數據驅動的關于大數據相關關系的分析以及建立在相關關系分析法基礎上的預測是大數據的價值所在。
2.大數據理念。
大數據基本理念是通過包括互聯網在內的多種渠道收集研究對象的多維度數據,通過對海量數據的關聯分析和數據挖掘,發現被研究對象的潛在行為模式或規律。
(1)大數據的價值提純。
大數據時代,重要的不是數據,而是如何使用數據。企業要想創新發展立于不敗之地,必須改變它們的經營方式,學會從數據中洞察事實并做出反應,否則數據整理得再有條理,也沒有什么價值。美國麻省理工學院管理評論在一個研究報告中指出: “頂尖績效的公司使用正確分析挖掘方法和工具的使用率,與績效低的公司相比,高出5倍。”可見,挖掘數據價值在企業中非常重要,是人們利用大數據進行決策、發現事物規律的前提。
(2)大數據的分析與未來預知。
美國學者艾伯特拉斯洛·巴拉巴西認為,93% 的人類行為均可以通過數據分析予以預測。因此,圖書館要把用戶訪問圖書館網站、利用資源習慣、用戶網絡行為等數據搜集起來,進行分析挖掘,去發現用戶利用資源的規律及信息需求特點。
(3)大數據的服務精準與個性化。
大數據能夠收集來自電子商務、企業網站、博客、微信、移動應用等不同渠道的用戶訪問、交易和反饋數據,通過這些數據能夠了解用戶的全方面信息,通過分析數據可以針對不同的用戶提供更加精確、更加貼心的服務; 對信息服務機構來說,通過收集、分析用戶信息,可以提供個性化服務或一對一服務。
二、大數據環境下圖書館服務面臨的挑戰
大數據對圖書館服務造成的挑戰主要有: 一是數據量龐大。過去圖書館沒有關心或沒有能力關心的數據,如: 社交媒體、智能設備、傳感器計量、消費痕跡等復雜業務數據,也成為收藏對象。另外,隨著資源共享、圖書館聯盟建立,有的數字館藏量已達TB級,甚至PB級。二是隨著圖書館越來越重視服務層次的提高特別是個性化服務,圖書館系統與網絡日志、監控與服務視頻、音頻、圖片、網絡行為及增值服務信息等非結構化數據將大大超越了以數字文本為主的結構化信息資源的數據量。三是圖書館龐大數據量與非結構化數據使數據的價值密度極大降低,而圖書館收藏及提供的信息資源是要經過篩選的高質量知識信息。因此,圖書館需要利用大數據技術處理海量數據來提高數據的價值可用性。
大數據環境下,圖書館除圖書、期刊、報紙、全文數據庫、媒體數據庫和自建數據庫等資源大數據及采訪、編目、借閱、文獻傳遞、參考咨詢等業務大數據和用戶大數據外,還包括行業數據、相關 Web 站點數據、社交網絡數據及其他外部數據來源,這些數據每天都在呈爆炸式增長,總量大,類型復雜多樣,以半結構化數據和非結構化異構數據為主。如何收集有價值的數據成為一大難題,云計算為這些數據的有效整合提供了基礎和便利。圖書館可將數據資源存儲到云服務器上,形成多個地區多個類型圖書館資源的聚合中心,圖書館員只需通過網絡獲取和管理云中資源,在使用過程中不斷豐富和完善,解決圖書館大數據帶來的數據雜、垃圾數據多、資源分散分布及存儲成本高等問題。
大數據時代,圖書館服務質量的提升需要大數據的支持,圖書館對讀者數據進行分析、處理和預測,能夠給讀者提供更好的服務模式。讀者信息需求更加個性化與多樣化,為滿足其需求圖書館需要分析圖書館與讀者之間、不同服務數據之間、讀者與服務數據之間的關系數據,預測讀者需求、提供個性化定制服務與針對性服務。因此,從海量數據中提煉價值、分析讀者行為和需求,并通過個性化服務來滿足讀者獲取信息的效率、準確性和便捷性,成為影響圖書館服務發展及質量提升的關鍵。
三、大數據在數字圖書館中的運用
隨著數字圖書館的迅速發展, 大數據工作也有了較大的應用價值。 將圖書館數據進行挖掘的主要工作包括:
1.在數據處理方面的應用。
由于圖書館對于數據有自身處理方式, 例如:高借閱類的書籍,今后可以多采購一些, 以便應付更多的讀者進行瀏覽。 但是由于大數據工作在這些細微的方面需要進行大量的工作, 因此圖書管理中實現大數據應當進行更多地數據處理和分析。
2.在用戶管理挖掘上的應用。
用戶資源管理是現代圖書館實現個性化服務的重要基礎。 大數據可以從大量的用戶數據中挖掘出反映用戶屬性特征和信息行為特征的信息和規律, 從而為圖書館用戶資源管理提供幫助。從數字圖書館的大量訪問信息中挖掘用戶的訪問模式,也可從用戶訪問文檔的超鏈接來預測用戶的興趣,采用關聯性法則和聚類方法發現不同的用戶群體,然后對這些不同的群體提供信息定制服務,幫助群體成員搜索、處理知識。
3.在用戶和圖書推薦上的應用。
為了實現推薦系統的功能, 考慮到讀者、 圖書以及出版社的特點, 需要應用不同的推薦方法, 大致分為以下幾類:
(1)非個性化推薦 (Non-Personalized Recommen-dation):所有的讀者得到的推薦都是相同的, 是非個性化的推薦。 例如在高校數字圖書館中,可以向所有訪問系統的讀者推薦月度最暢銷的書,借閱的雜志等。
(2)基于圖書的推薦:推薦系統根據讀者興趣推薦相關的圖書, 這種方式需要了解讀者當前選擇的圖書。 例如某位讀者選擇借閱了有關復雜網絡的書籍,推薦系統就可以向其推薦其它關于復雜網絡的圖書、雜志、論文等。
(3)相關性讀者推薦:推薦系統根據目前讀者與閱讀了該圖書的其它讀者之間的相關性進行推薦。例如高校數字圖書館可以對某讀者推薦其它與其相類似(相同愛好、 研究方向等) 的讀者共同研究。
(4)基于知識的推薦:通過推斷讀者的需要進行推測,系統要具有 “特定圖書能夠滿足特定讀者需要”的知識,來推導出讀者需要與某一圖書的相互關系。推薦系統可以根據某讀者的歷史借閱數據和文獻數據之間的分析, 獲得讀者的潛在知識需求, 對讀者進行建議。事實上,在推薦系統中綜合運用以上技術和方法,以達到更好的推薦效果。
四、大數據環境下圖書館服務的新發展
1.數據分析與數據挖掘是圖書館服務基礎。
大數據時代,圖書館間的競爭不僅是對文獻信息的擁有與組織的競爭,更多的是對多類型數據的擁有、融合、挖掘與利用能力的競爭,即大數據推動圖書館服務體系從以資源為中心向以數據為中心的方向發展,并且數據分析與數據挖掘成為圖書館提供服務與開展工作的基礎。圖書館要想提升服務水平,需要對用戶數據進行分析、處理和預測,以便提供更好的服務和更多的服務方式。圖書館通過對用戶借閱記錄、數字資源使用下載行為、網站瀏覽等記錄進行分析,建立用戶數據庫,再進行用戶行為模式相似性比對,提供準確的信息資源推薦及推送服務; 通過對圖書借閱率、借閱排行、借閱次數、訪問數字資源類型及時間、學習行為、利用資源模式等記錄進行分析,圖書館能有針對性地采購用戶需要的信息資源; 通過對讀者閱讀習慣、學習方式、獲取資源方式等數據進行分析,圖書館能科學合理地完善圖書館工作流程與服務模式。
2.大數據環境下圖書館服務走向個性化。
大數據環境下,圖書館的服務策略建立在對大規模復雜數據搜集、組織、整理、分析和挖掘的基礎之上,因而大數據時代的圖書館服務項目更具有針對性和操作性。所以圖書館在解決用戶問題時,可以完全拋棄傳統的解決流程,而采用大數據策略的解決方案,即搜集解決用戶問題的相關數據,量化分析,再找出相互關系,給出最優解決方案。圖書館對數據的挖掘、分析,不僅要分析 MARC、電子論文、電子圖書等結構化數據,還要分析用戶的借閱行為、閱讀習慣等非結構化數據以及用戶的網絡交流等網絡行為數據,這樣圖書館才能實現“一對一”的個性化服務。如: 美國國會圖書館通過分析館內布局與藏書流通率的關系,來量化并預測用戶的借閱行為,進而提供針對性服務。目前支持圖書館網上個性化信息服務所需的web數據庫技術、網頁動態生成技術、數據跟蹤技術、數據加密技術等都在不斷發展并應用,大數據的發展,可以促使服務時空的個性化、服務對象的個性化、服務內容與方式的個性化,甚至服務支撐技術的個性化。
3.大數據環境下圖書館服務趨向智慧性。
大數據是數據世界的智慧基因,分析和應用大數據是獲得智慧的關鍵。傳統分析數據的思路基本上都是抽取樣本,事先確定收集什么樣的數據,然后尋找“已知的未知( Known unknows) ”,即證實某一結論正確。而大數據分析則是以全部數據為對象,發現未知的未知,即找到一些未曾想到的結果。大數據這種發現未知的未知功能為圖書館服務創新、實現智能化開辟了途徑,圖書館服務開始趨向智慧化發展: 第一,大數據技術不僅能夠利用數據了解用戶、信息行為、意愿、業務需求、知識應用能力及服務需求等,還能夠利用數據分析和預測用戶科研創新將要發生什么,從而提供智慧服務。第二,對圖書館已有信息資源進行挖掘,抓取有價值的知識、關系、模式等,對網絡免費信息資源利用蜘蛛爬行器、自動跟蹤等技術完成對其搜集、處理和保存等,以便構建智慧型知識服務引擎。第三,大數據時代,智慧服務的三個基本要素是智慧館員、數據( 知識) 和用戶,其中智慧館員是核心和主體。智慧館員不僅要具備掌握分析和預測大數據的范疇、價值、狀態和周期的能力,還要具備靈活運用信息技術、人工智能、自然語言理解、數學算法等多學科先進成果的能力。
4.大數據使圖書館提供更深層次的知識創新服務。
大數據環境下,圖書館提供面向創新的知識服務,該服務以解決用戶問題為核心,深入解決問題的各個環節,擁有解決問題的探索、構建和測試等服務機制。此服務建立用戶數據庫,及應用前景。為適應用戶學習研究模式的變化,促進知識的創新發展,圖書館應主動參與創客教育,正確認識圖書館在學習與創新過程中扮演的服務和支持角色,根據用戶實際需求提供更為深層次的服務。
參考文獻
[1]閻迪.圖書館大數據服務的發展對策.圖書館學刊,2017,2.
[2]程結晶.大數據時代圖書館服務創新的內容及其策略研究.情報理論與實 踐,2016,3.
[3]楊海燕.大數據時代圖書館服務淺析.圖書與情報,2012,4.
[4]晉照麗.大數據技術在高校圖書館服務中的應用.農業圖書情報學刊,2014,11.
作者簡介:方梅青(1979-),女,碩士, 館員,研究方向:圖書館學。