李桂貞
(南京工程學院圖書館,江蘇 南京 211167)
Web 2.0的發展推動了圖書館2.0的產生,圖書館服務要以用戶為核心早已成為業界的共識。圖書館服務要實現良好的用戶體驗,應將應用的復雜性和使用的便利性進行完美結合,這就需要一種新型服務計算模型——云計算,它將數據都放在服務器上,并在服務器進行計算,計算完成后將結果傳遞到客戶端。而大數據則是云計算的對象,二者是靜與動的關系,前者強調的是計算,后者是前者計算的對象,二者息息相關[1]。大數據時代的到來必然會強烈影響到圖書館的服務,這種影響是雙向的,既是挑戰也是機遇。圖書館應把握機遇,采取相應措施創新圖書館服務。
云是網絡、互聯網的一種比喻說法,目前對云計算并無統一定義,國內較為廣泛接受的定義是著云臺給出的:云計算是通過網絡提供可伸縮的廉價的分布式計算能力。美國國家標準與技術研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務等),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。概括來說,云計算是進行分布式處理、并列計算、網格設計、虛擬存取和海量數據處理的一種計算機工具。
云計算的特點主要有:①超大規模。亞馬遜、IBM、微軟和Yahoo等公司的“云”均擁有幾十萬臺服務器,而Google云計算則擁有超過100萬臺的服務器。②虛擬化。云計算支持用戶在任意位置使用各種終端獲取服務,用戶只需要一臺筆記本或一個掌上電腦(Personal Digital Assistant,PDA),就可以通過網絡服務來獲取各種能力超強的服務。③高可靠性。“云”使用了數據多副本容錯、計算節點同構可互換等措施來保障服務的高可靠性,使用云計算比使用本地計算機更加可靠。④通用性。云計算不針對特定的應用,在“云”的支撐下可以構造出千變萬化的應用,同一片“云”可以同時支撐不同的應用運行。⑤高可伸縮性。“云”的規模可以動態伸縮,滿足應用和用戶規模增長的需要。
目前對大數據還沒有標準的定義,通常認為它是一種數據量很大、數據形式多樣的非結構化數據。百度百科將其定義為:大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。
一般來說,大數據具有以下特點:①數據體量巨大。大數據遍布世界各個角落的電腦、傳感器和移動設備,在線交易和社交網絡每時每刻也都在產生大量數據。②數據類型繁多。大數據類型多樣,可分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,蘊含著巨大商業價值和社會價值的非結構化數據越來越多,目前已占數據總量的80%以上。③價值密度低。大數據的價值雖然巨大,價值密度卻很低,如何通過強大的機器算法更迅速地完成海量數據的價值“提純”成為目前大數據背景下亟待解決的難題。④處理速度快。對大數據快速處理,才能了解迅速變化的環境并作出反應,才能快速制定出合理準確的應對策略。大數據要求實時和分析,特別是1秒定律,這一點與傳統的數據挖掘技術有著本質的不同。
大數據本身就是一個問題集,云計算技術是目前解決大數據問題集最有效的手段。云計算提供了基礎架構平臺,大數據應用在這個平臺上運行。目前公認處理大數據集最有效手段的分布式處理,也是云計算思想的一種具體體現。
OCLC的Janifer Gatenby曾撰文指出:“對圖書館而言,重要的是擁有與控制他們的數據資源,自由共享、提供訪問、曝光數據,而擁有操作與管理這些數據的軟件則不那么重要[4]”。圖書館服務與技術的發展密不可分,圖書館也一直是利用先進技術的先行者,總是會及時利用先進技術來優化服務。
圖書館始終以為用戶提供優質服務作為自己的目標,而開展服務需要各種先進技術的支持,云計算應用于圖書館,不僅可以降低成本,提高效率,還可以實現真正的大數據的共建共享。云系統中有數以萬計的大型存儲設備,可以容納海量數據,并可以實現實時更新,為圖書館不斷增長的數據資源提供可靠的技術支持。
大數據時代,圖書館與其他信息機構之間不再是館藏資源、空間建筑、借閱服務等方面的競爭,擁有大數據總量以及對大數據的挖掘、收集、存儲、分析、處理等能力才是現時圖書館的核心競爭力。同時,對大數據的分析、處理和預測也影響著圖書館總體的發展。
大數據時代,大量的數據存儲在分布廣泛、不同地域、各種類型的服務器中,可以運用云計算技術,將大量的數據資源存于“云”中。當用戶發出一個搜索或查詢請求時,服務器通過運算進行信息交換,將結果返回給用戶。大數據時代,圖書館面臨著新舊數據平臺互通聯合、技術標準的統一、信息資源的安全等問題,如果圖書館能將這些挑戰變成發展的機遇,解決這一系列問題,未來圖書館將會以數據為紐帶,實現從物理圖書館向虛擬圖書館及智慧圖書館的飛躍。
經過數字圖書館的多年建設,圖書館擁有了大量結構化數據,如書目資源庫、機構知識庫、語義化信息等數字化資源。這些資源總量很大,而且增長速度也較快,是圖書館大數據的重要組成部分。但要提供更好的服務,不能僅僅依靠這些結構化數據,還要依靠大量的非結構化數據和半結構化數據,如用戶的檢索歷史、瀏覽歷史、閱讀習慣、興趣偏好等,而這些常常是圖書館所忽視的。伴隨著社交網絡、移動圖書館、物聯網的興起,今后來自用戶的各種信息將越來越多,通過數據挖掘、數據分析等大數據技術,可以在用戶使用圖書館服務的過程中收集其個人信息、地理位置、搜索歷史、搜索時間等信息數據。大數據是圖書館的核心資產,圖書館應該重視對用戶數據的收集工作,使其為我所用,以構筑圖書館的核心競爭力,更好地為用戶提供有用的信息[5]。
圖書館在構建之前要進行自我評估,明確如何構建才能適合本館的發展戰略,并從成本和硬件資源等方面來考慮是遷移原有的計算平臺還是直接改造以實現云計算平臺的服務功能。在構建云計算圖書館服務平臺時,需要成立云計算實施團隊,團隊里不僅應包括技術人員,還應包括相關管理人員,以保證云計算服務平臺的有序完成。云計算環境下,數字圖書館云服務模式主要分為基礎設施即服務(Infrastructure as a Service,Iaas)、平臺即服務(Platform as a Service,Paas)、軟件即服務(Software as a Service,SaaS)3種主要模式[6],圖書館要根據自身情況確定其服務模式,通過云計算服務平臺對外提供統一接口,實現數字圖書館的云服務。
長期以來,圖書館的信息資源建設偏重于文獻信息數據等結構化數據的收集,而在大數據時代,除了要加強對多種文獻信息數據的收集外,還要對這些數據進行挖掘、分析、整合,使之產生更多的價值,這才是圖書館的核心競爭力所在。另一方面,圖書館要想提供更優質的服務,目前所擁有的數據量還遠遠不夠,如今圖書館擁有以及可以直接利用的主要是文獻資源、數字資源、網絡資源等結構化數據,這些數據在很多圖書館已經建設得較為完善。而很多半結構化和非結構化數據,例如用戶信息行為數據等,是目前圖書館還無法進行或暫時沒有建設的。圖書館必須對這類極具價值的數據進行收集、分類、挖掘、分析,才能為圖書館服務提供必要的決策參考,以實現圖書館業務與服務的上游轉移。
信息時代,人們的日常信息行為日益頻繁,不管是生活還是工作、娛樂、社交,都無法避免地在多種多樣的信息系統中留下各種信息行為數據。將這些散落在多個系統間的數據進行整合與分析,會再現一個社會個體的運行軌跡和發展全景,這也就是大數據分析。目前,在素有“印度硅谷”之稱的印度班加羅爾已有超過100家以數據分析為主要業務的新型數據公司;2013年9月16日,大中華區IBM大數據分析競爭力中心在四川綿陽成立,旨在以大數據分析和科學管理企業智能戰略實施和自身轉型發展[7]。
大數據時代,圖書館之間以及與其他信息部門之間的競爭越來越激烈,圖書館要想爭得一席之地,避免被邊緣化,必須要開展大數據分析服務。一般來說,根據圖書館現有情況,目前可開展下列兩種主要的大數據分析服務業務。一是對圖書館所需的大數據進行分析。此類分析的對象是圖書館自身建設所產生的大數據,如用戶的借閱習慣、檢索歷史、興趣愛好等,是一種對現有資源的分析與挖掘。二是對用戶所需的大數據進行分析。這類分析業務與現在圖書館或其他咨詢公司為企事業單位等用戶群體所做的信息情報參考、競爭情報分析等相似,但因其用戶特征的不同,仍是有很大的差異,比如在分析對象數據、分析手段、分析目的等方面都存在著差異,而進行這類分析業務所需要的大數據本圖書館可能不會完全擁有,可以通過簽訂技術協議從其他渠道獲得,但也將面臨著知識產權、技術標準等問題,如何解決此類服務的數據問題是突破該瓶頸的關鍵。
信息時代,用戶在網絡上參與的信息行為每時每刻都在產生著大量的非結構化數據和半結構化數據,如果能夠采集到這些數據,就可以很好地滿足發現關聯規則、內容分類和用戶聚類的需求,探索出定制Web日志的數據模型、過程及方法,從而提高個性化推薦的精度[8]。對于圖書館來說,需要挖掘大數據的價值來提高圖書館的業務能力,增強圖書館的競爭力,但簡單的定性、定量分析都不能發揮作用,需要運用更先進的技術工具。目前已開發并應用的大數據分析技術與工具有聚類分析、數據挖掘、網絡分析、可視化分析、數據融合與數據集成等。特別是聚類分析、可視化分析與數據挖掘技術在對圖書館數據的技術分析中起到了一定作用。但目前也僅僅是針對結構化數據和有限數量的關鍵詞進行聚類分析、共現分析等,并不能真正挖掘大量數據的存在與表現形態,更不能通過分析去預測未來的可能發展趨勢。
2012年11月30日至12月1日,中國IT界技術盛會——Hadoop與大數據技術大會(HBTC 2012)在北京隆重舉辦。大會以“大數據共享與開放技術”為主題,設定“Hadoop生態系統”“大數據行業應用”“大數據共享平臺與應用”“NoSQL與NewSQL”以及“大數據的技術挑戰與發展趨勢”5個分論壇。會上來自各領域的專家對大數據處理技術的應用和實踐作了深入分享[9]。
服務是聯系圖書館資源與用戶的永恒紐帶,云計算將分布在Internet中圖書館的資源和服務整合成一個整體,形成了一個可控的自適應新型服務體系,因此服務的時間、空間、方式等有了無限擴大完善的可能。
云計算環境下,圖書館各項業務的智能化程度將達到一個新的水平。圖書館業務的智能化可以大大提高圖書館的服務水平,對圖書館與用戶都大有裨益。首先,對于服務主體——圖書館來說,圖書館對大數據進行的收集、整理、分析以及處理工作都需要應用各項智能化的先進技術,技術的智能化可能實現對海量信息數據的智能抓取、關鍵詞抽取等,從而節省大量的人力物力,節省下來的人力可以去研究圖書館服務建設的策略性問題,物力則可以為更進一步的智能化投入提供支持。其次,對于服務客體——用戶來說,圖書館可以利用大數據技術對用戶大量的非結構化、半結構化數據進行挖掘與分析,為圖書館的智能化決策提供分析參考。同時圖書館提供的智能化服務——技術、工具、平臺,將更加個性化,用戶會更方便、準確地獲得自己所需要的圖形、音頻、視頻等信息,得到愉快的人性化服務體驗。第三,對于圖書館服務中的知識流通來說,圖書館業務智能化程度的提高不但有利于知識從單個主體向多個主體流通與傳播,有利于隱性知識向顯性知識的轉變,也有利于知識的發現、挖掘與組織。
目前圖書館服務已經與用戶實現一定程度的交互,但很多情況下還僅僅是一種線性交互。在大數據環境下,圖書館借助云計算提供一個統一的虛擬服務平臺,用戶通過這一平臺,可以自由調用圖書館、館員、資源、服務等一切圖書館元素;而館員也可以通過“云”進行大數據分析,包括資源流向和用戶行為等,這樣即可實現服務的多向交互。通過交互,圖書館可以把眾多用戶的隱性知識顯性化,從而使個人知識轉化為群體知識。
傳統的圖書館服務平臺一般是面向用戶的服務,云計算環境下的信息服務一方面當然主要是面向用戶的服務,如對用戶個人信息數據的挖掘與分析,服務信息數據的推拉等。同時,云計算和大數據技術的應用使得對圖書館管理者提供服務成為了可能,例如圖書館之間的數據交換、數據協作、MARC數據轉換、Wiki式書目編目、FRBR協作等,利用這些功能的API實現圖書館之間的聯合編目達到去中心化的書目信息共建共享。此外,對于信息資源提供商還可以提供注冊服務、新資源發布服務等[10]。
國內外圖書館界經過十幾年的研究與實踐,目前已形成了較為成熟系統的知識服務體系。而隨著大數據時代的到來,圖書館知識服務將更具有針對性與鮮明性,服務的范圍和領域將得到更大的發展,其服務方式、途徑、模式等均將出現新的變化。
4.4.1 建立新型知識服務引擎
新型知識服務引擎包括資源及學術搜索引擎、資源及服務推薦引擎、知識服務社區實體(包括用戶及資源)、行為智能分析引擎、用戶知識需求預測引擎以及多維度信息資源獲取、組織、分析及決策引擎等。例如美國Hiptype公司利用大數據分析技術來分析電子書用戶閱讀習慣和喜好,這也是國內外圖書情報領域首例利用大數據技術構建知識服務社區實體(包括用戶及資源)行為智能分析引擎[11]。
技術引擎是圖書館信息服務的技術核心,如何利用云計算和大數據技術構建圖書館的新型知識服務引擎,將會是未來幾年內圖書情報領域信息技術研究的主要內容。
4.4.2 新型咨詢服務模式——知識咨詢得到發展
大數據時代,圖書館要想在同行之間脫穎而出,獲得持續、長足的發展,就不僅要在所擁有的信息資源的數量、種類、范圍等方面努力,還要在信息資源數據的分析和組織、信息服務的知識化等方面做出努力,形成具有創新力與競爭力的服務和產品,判斷這些服務和產品的標準應是其所含知識量的多少。因此基于內容分析,與知識服務完美融合的知識咨詢服務,必將成為圖書館在大數據時代的咨詢服務模式。知識咨詢除了具有傳統參考咨詢和信息咨詢的優點,還具有自身獨特的優勢,知識咨詢的服務過程滲透著數據挖掘與數據整合,它的服務方式更加周到,更加關注用戶的個性化需求,提供服務時結合用戶的專業背景,提供的服務知識化,旨在解決用戶的實際問題,令用戶達到最大滿意度[12]。
云計算和大數據開發前景廣闊,圖書館各個領域無不受其影響。圖書館作為技術敏感度極高的行業和機構,從業人員和技術人員應該高度重視這一事業發展機遇,積極嘗試和思考解決云計算環境下圖書館服務創新和資源開發中的大數據問題,探索云環境下圖書館服務平臺的構建及新的服務模式,這也是圖書館服務創新的關鍵所在。
[1]王晴.云計算大數據時代圖書館的挑戰與機遇——兼論公共圖書館的應對策略[J].公共圖書館,2013(1):47-51.
[2]云計算[EB/OL].[2014-02-16].http://baike.baidu.com/view/1316082.htm.
[3]羅信.什么是“大數據”的真正含義[EB/OL].[2014-02-16].http://www.vsharing.com/k/vertical/2012-5/A658824.html.
[4]GATENBY J.The networked library service layer:sharing data for more effective management and co-operation[J].Ariadne,2008(56):8.
[5]王天泥.大數據視角下圖書館的發展對策[J].圖書館學刊,2013(3):42-44.
[6]馬曉亭,陳臣.面向云計算的數字圖書館高性能云服務平臺研究[J].圖書館理論與實踐,2013(5):73-76.
[7]大中華區IBM大數據分析競爭力中心成立[EB/OL].[2014-02-18].http://digi.163.com/13/0918/12/99281GSV0 00163HED.html.
[8]韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館,2013(1):121-122.
[9]大數據共享與開放技術從現在起航[EB/OL].[2014-02-18].http://www.docin.com/p-559010420.html.
[10]王長全,艾雰云.云計算環境下的數字圖書館信息資源整合與服務模式創新[J].圖書館工作與研究,2011(1):48-51.
[11]樊偉紅,等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012(11):63-68,77.
[12]曾德云.知識咨詢服務的特征、模式與提升策略[J].圖書館學刊,2013(7):94-96.