陳 艷
據報道,美國政府利用大數據成功地預測出2012年總統選舉的結果。奧巴馬團隊通過分析數據,投入小規模電視廣告,并確信會獲得部分潛在選民的關注,最終贏得了大選。2007年沃爾瑪通過對消費者的購物行為等非結構化數據進行分析,創造了“啤酒與尿布”的經典商業案例。國外的電子商務網站Amazon、eBay和CDNow等利用推薦系統主動向消費者推薦商品,讓商品直接找上門來,以此獲得與消費者保持密切聯系。在醫療領域,谷歌設計人員通過不同地區的人輸入關于流感的關鍵詞,設計了“谷歌流感趨勢”系統,2013年1月13日美國通過“谷歌流感趨勢”發布了流感發生地區預警,波士頓在700例流感得到確認后,宣布進入公共健康緊急狀態。在教育領域,為科研工作人員科研數據保管帶來巨大影響力的數據監護(Data Curation)崗位的設立,預示著大數據為科研工作者保管和利用前人的科研成果數據帶來了福音。在美國,已有圖書館使用大數據決策工具——大數據處理引擎,為用戶及所屬服務機構提供數據分析與決策。通過數據分析可以直接而真實地展示用戶的性格、偏好、意愿等,幫助圖書館感知知識服務的市場、用戶的需求、未來的發展形勢等,以便圖書館對價值評估、服務能力和服務水平等做出更科學的決策[1]。
流程化管理是指以流程為主線的管理方法,是管理大師哈默提出的,要求重視顧客(服務的對象)和服務的整個過程,強調顧客(服務的對象)的重要地位是該管理思想精髓[2]。近年來,以用戶為中心、讀者至上的服務理念是眾多圖書館管理者堅守的信條,但因為技術等原因,實踐起來往往有一定的困難,吃力不討好的事情也時常發生。隨著大數據時代的來臨,數據處理能力不斷提高,服務對象的信息行為與需求之間的聯系將不再是霧里看花,而是可以直接關聯和預判的。
圖書館傳統的機構設置分為:采訪編目部、流通閱覽部、信息技術部、參考咨詢部等部門。服務的起點是圖書采購,服務的終點是圖書被借閱或信息被使用,如圖1所示。

圖1 傳統的圖書館工作流程
近年來,盡管有學者意識到這一流程的弊端,并對此進行了改進和調整,有人提出將圖書采購到館后先流通一段時間,再進行精細加工等,但仍舊沒有撼動以采購為起點的圖書館工作流程。
隨著網絡化和智能化的發展,到館讀者的人數在下降,圖書借閱量呈下滑趨勢。有識之士為適應社會各層次人員的信息服務的需要,加強閱讀推廣,在圖書館崗位設置上,提出了進一步的細分,如提出“管理策劃館員、數據編目館員、咨詢館員、系統管理及維護館員、學科采訪館員、網絡導航館員、閱覽推介館員、流通導讀館員、心理溝通館員”的崗位設置[3]。圖書館依托大數據,建立起以讀者為起點,大數據分析決策為核心,讀者服務為終點的全新的圖書館業務流程。改進后的圖書館工作流程如圖2所示。

圖2 改進后的圖書館工作流程
大數據時代的來臨,讀者的信息行為是可以分析和預測的。圖書館將在數據存儲、數據挖掘、數據分析等方面面臨著巨大的挑戰與考驗,復雜數據的處理也將成為大數據時代圖書館發展的主旋律,通過大量的非結構化數據、半結構化數據尋找隱藏在數據背后的世界,進而為圖書館的服務模式、未來發展趨勢提供分析與預測,將成為大數據時代圖書館的一大主要服務內容[4]。圖書館在大數據環境下,工作流程將圍繞大數據的信息獲取、信息存儲、信息分析、分析決策系統展開,緊密圍繞讀者的需求,指導和開展圖書館的一系列服務工作。
圖書館通過業務流程再造,改變傳統的基于“文獻采購為起點,讀者借閱為終點”的圖書館工作流程,建立起以讀者為起點的,大數據分析決策為核心的,讀者服務為終點的圖書館工作流程,將大數據分析決策的結果應用到圖書館全盤工作中去。
以大數據為核心的圖書館業務流程再造離不開“數據”。據IDC監測顯示,全球數據量大約每兩年翻一番,2020年全球預計將擁有35ZB的數據量。圖書館大數據往大的說是全球范圍內的所有可獲取的數據,往小的說,主要是與圖書館領域相關的數據。這一部分數據主要有:通過圖書館聯盟獲得與同行交流的信息、圖書館內的讀者及圖書等信息及圖書相關行業的信息。
網絡化和國際化促進了圖書館聯盟(Library Consortium),聯盟的目的是資源共享、協同合作。當前,我國已經建立起眾多全國性的專業或綜合性的圖書館聯盟及地區性的圖書館聯盟。以CALIS為例,2008年底,文獻數據總量達180TB,2010年達到480TB,全國文化共享工程的數字資源總量達108TB[5]。圍繞這些文獻產生的聯合編目、館際互借、文獻傳遞、資源評價等數據非常巨大。圖書館聯盟在文獻信息的共享和服務的協同合作方面起到了非常重要的作用,并將成為大數據分析的重要來源。
圖書相關行業的信息存儲主要指電子商務網站、圖書出版機構、論壇及其他有關的社交網絡媒體的數據存儲。這些數據主要是用戶在社區網絡中的足跡、點擊歷史、瀏覽歷史、信息反饋等信息。這類數據的特點是非結構化的數據、數據量龐大及參與人員復雜多變等。
數字時代的來臨,圖書館信息存儲能力面臨前所未有的挑戰。以往的圖書館信息存儲主要指數字資源的長期保存,實現讀者對數字資源的訪問和下載。基于大數據的信息處理系統,不僅要求圖書館自身館藏數據的存儲,還要求對讀者信息、圖書借閱、資源下載和評價、社交網絡數據等信息存儲。圖書館自身的館藏資源逐年增長,以一個小型高校館為例,在校生一萬人以內,圖書館產生的借閱數據、電子數據訪問、下載、評價等數據每天有上萬條。目前,這些數據的獲取來源除了通過RFID射頻數據、傳感器數據獲取外,社交網絡交互數據及移動互聯網數據也是數據的重要來源。社交網絡交互數據與移動互聯網數據往往是非結構化數據為主,也是近年來增長速度最快的數據源。這一部分數據呈現出種類繁多、流量巨大、容量劇增、隱藏價值大等大數據的核心特點。
云存儲技術是解決大數據存儲的重要手段。云存儲是在云計算概念上延伸和發展出來的一個新的概念,是指通過集群應用、網格技術或分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。除此外,單靠一個圖書館的能力無法完成如此巨大的數據存儲,應當適時發揮圖書館聯盟機構的作用,實現聯盟機構之間數據共享。
信息分析就是根據特定問題的需要,對大量相關信息進行深層次的思維加工和分析研究的過程,最終形成有助于問題解決的新信息。通過以用戶的特定需求為依托,以定性和定量研究方法為手段,對整理后的信息進行深層次加工,形成新的、增值的信息產品,最終為科學決策服務的智能活動。信息分析的好壞直接決定信息能否產生促進生產力發展、有效解決問題等系列應用價值。
目前,新技術、新思想不斷對現有系統產生影響,并促成現有系統不斷發展,精準營銷生態系統進入新的階段[6]。圖書館相關的大數據分析技術以hadoop為代表,個性化推薦系統的出現為讀者提供了一個解決Web信息過載問題的強大工具,承擔了在識別讀者閱讀傾向和偏好的基礎上,模擬圖書館工作人員向讀者推介圖書信息和建議,幫助讀者獲取信息服務,從而使讀者避免信息“超載”所帶來的麻煩,順利完成文獻信息資源獲取的過程[7]。目前,圖書館大數據分析技術還處于發展和探究階段。大數據帶來的問題,不僅是數據的存儲和獲取的困難,更多的是大數據的分析過程及指導管理者決策的價值體現問題。
圖書館建立在大量數據基礎之上的,通過云存儲和聯盟機構信息共享等實現數據的存儲,使用大數據分析技術,最終為決策者提供所需的數據、信息和背景資料,幫助明確決策目標和進行問題的識別,建立或修改決策模型,提供各種備選方案,并且對各種方案進行評價和優選,通過人機交互功能進行分析、比較和判斷,為決策提供必要的支持。
3.4.1 管理策劃
圖書館管理者的決策依托大數據,通過決策支持系統制定圖書館宏觀的建設目標和工作方向,為實現戰略決策而對圖書館內部管理進行有效的組織和協調。
決策支持系統強調的是對管理決策的支持,而不是決策的自動化,它所支持的決策可以是任何管理層次上的,如戰略級、戰術級或執行級的決策。圖書館管理者的決策依托大數據,通過決策支持系統指導圖書館采購、宣傳、服務、管理、咨詢等各個環節。
3.4.2 參考咨詢
大數據時代來臨,圖書館參考咨詢工作既是機遇也是挑戰。圖書館學科館員依賴其在科學數據的信息搜集和管理的優勢,將有助于提高學科館員在科研團隊中的重要地位。在國外,圖書館設置了數據監護(Data Curation)等相關的數據分析崗位[8]。麻省理工學院的一個研究項目表明,圖書館員在數據分析這一項工作中主要承擔數據保存標準的制定、進行數據搜集、分析數據、數據管理規劃、經驗分享、數據服務等[9]。圖書館學研究者也嵌入到許多的研究項目當中,包括為促進標準化運動而開展的“語義網社區與關聯開放數據運動”(Sematic Web community and Linked Open Datainitiative)等[10];部分機構如美國維吉尼亞州立大學開始組建科學數據咨詢小組,而圖書館員和數據管理者則為學者們充當了咨詢顧問的角色[9]。
在大數據環境下,通過機構數據庫的建立和共享等,圖書館可以監測科研數據,擔任起科研人員的情報站,建立科研數據庫,預測科研發展的方向,提早做好文獻準備工作,整理好專題報告,方便科研人員查找和閱覽相關文獻和數據。
3.4.3 資源建設
通過對大量讀者信息的分析和處理,及時動態地監督采購圖書的特點與讀者契合度,有助于圖書館進一步完備圖書館采購需求,規范圖書館采購制度。目前的圖書館紙質圖書采購主要分書單采購和現場采購。書單采購只能看到圖書書名和出版社等信息,現場采購除了翻看圖書外,主要是查重處理。采訪人員在圖書采購的時候,往往偏主觀而不夠科學嚴謹。而在大數據環境下,圖書信息的發布和點評是非常及時快捷的。采訪人員可以通過大數據決策支持系統,按照條件匹配,系統自動輸出推薦圖書;采訪人員通過該系統,可以查閱某書或某作者受歡迎程度,預測資源的受眾讀者,正確規劃資金分配制度。
3.4.4 采購評估
數字資源采購已經占居圖書館資源采購的半壁江山,與紙質資源分庭抗禮。數字資源具有不占用圖書館建筑面積、提供24小時服務、允許多次下載且可以同時閱讀等特點。然而目前數字資源缺乏完善的效益評估機制,隨著數據庫商逐年漲價,經費有限的圖書館將騎虎難下。依托大數據分析,這一問題將迎刃而解。通過數據分析,圖書館可以掌握讀者信息行為動態,了解資源的受歡迎程度及讀者需求,并根據經費和使用等情況,選擇購買全部、或分庫購買、或放棄購買、或聯合采購等方式。
3.4.5 閱讀推廣
近年來,圖書館閱讀人數呈現下降趨勢。圖書館在宣傳推介方面,苦于沒有相應的數據作支撐。在已開展的圖書宣傳和推介的圖書館里,我們發現閱讀推廣僅限于書目推介、圖書展覽、讀書沙龍等內容,且這些工作的開展取得的效益無法評估。圖書館通過管理系統、社交網絡等掌握了一大批讀者的信息,包括讀者的年齡、性別、學科、年級等重要信息,通過數據分析,我們可以發現在特殊的時期讀者的特定需求。以高校為例,大一的新生比較迷茫,部分同學往往喜歡看勵志類的圖書;大二的學生專業課程壓力較大,對所學專業有一定的認識,在專業知識獲取方面更加渴望,專業圖書比較受歡迎;大三的同學面臨出國或考研,對托福考試、四六級考試等英語書籍方面有較多的關注度;大四的同學面臨畢業,對面試、擇業和管理類的圖書較關注等等。在大數據環境下,圖書館可以通過本館或其他館的同類型的讀者對該類圖書的借閱量、讀者評價、社交網絡工具的信息進行判斷,發現熱門圖書、暢銷作家、熱點研究,進行集中的有針對性的推介。
3.4.6 讀者教育
圖書館作為信息服務和信息教育的重要部門,承擔著讀者教育的重要職能。圖書館應根據不同社會群體在年齡、知識層次、學科種類、從事職業等的不同,有針對性地提供培養讀者信息處理能力有關的培訓服務。目前這一類工作的開展,在目標群體的選擇上過于籠統,在培訓內容上個性化不足,工作人員的培訓工作過于被動。圖書館在大數據決策支持系統的指導下,可以開展多樣化、靈活化的讀者教育工作。無論線上或線下、電子或紙質、授課或活動等多渠道地滿足不同讀者、不同時段的培訓需求。
3.4.7 輿論監督
以讀者需求為指導的圖書館工作流程,更強調讀者滿意度。通過及時有效的處理客戶投訴,主動聯系有需要的讀者,最終建立起圖書館與讀者之間的良好關系渠道。通過大數據分析,發現讀者投訴密集的服務項目,及時改進服務策略,提高讀者滿意度。由于了解讀者信息及時,通過有針對性的向目標群體發布信息,圖書館可以提高與讀者的粘合度,增強在讀者心中的美譽度。
大數據時代的來臨,圖書館數據異常豐富和復雜,如何應對這一變化,需要我們對數據分析引起足夠的重視。在大數據環境下,圖書館需改變傳統的工作流程,建立基于大數據的嶄新的工作流程、服務的模式和組織管理流程。
[1]郭自寬,張興旺,麥范金.大數據生態系統在圖書館中的應用[J].圖書資料工作,2013(2):23-28.
[2]百度百科.流程化管理[EB/OL].[2013-12-25].http://baike.baidu.com/link?url=HuWY8o3EpyNvM5-XQ29 ZQY-gfVxeE790lF2cprD9jOBvQQ2MFumNgWjk3xLq cSddMc-vC1_S3UClnIH0x9PvW2tuUginuJRa52SZ71k bwKsDupBtBK7K9OL8_hy355Ga.
[3]佚名.淺談完善圖書館館員制度 促進和諧圖書館的發展[EB/OL].[2013-12-25].http://www.xswkj.com/lear ninginfo-22-580.html.
[4]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012(5):37-40.
[5]楊海燕.大數據時代的圖書館服務淺析[J].圖書與情報,2012(4):120-122.
[6]傅強.應用大數據能力:當當網在個性化推薦&精準營銷方面的探索 [EB/OL].[2013-12-19].http://wot.51cto.com/2012/ppt/day2_01/fuqiang.pdf.
[7]阿里巴巴創業.基于協同過濾算法 打造精準的營銷平臺[EB/OL].[2013-12-19].http://info.1688.com/detail/1090699951.html.
[8]張文彥,武瑞原,于潔.大數據時代的圖書館初探[J].圖書與情報,2012(6):15-21.
[9]Heidorn P.The Emerging Role of Libraries in Curation and E-science[J].Journal of Library Administra-tion,2011(7-8):662-672.
[10]Cassidy R S,Ding Y,Thewall M.Library and Information Science in the Big Data Era:Funding,Projects,and Future[a panel proposal][EB/OL].[2013-12-25].http://www.ischool.drexel.edu/faculty/mkhoo/docs/12_asist_panel_description.pdf.