摘 要 基于大數據和圖書館信息咨詢服務的內涵與特點的分析,探討大數據對圖書館信息咨詢服務產生的影響,并從樹立大數據時代的圖書館信息咨詢新思維與新理念、強化國家層面戰略設計與不同領域的合作、搭建信息安全機制與開發數據密集型計算方法、加強相關大數據的人才隊伍建設、構建多維信息咨詢服務形態等方面著手,提出迎接大數據沖擊與挑戰的措施。
關鍵詞 大數據 圖書館信息咨詢 信息安全 數據密集型計算
分類號 G252.6
Abstract Based on the analysis of the connotation and characteristics of big data and the library information reference service, this paper discusses the impact of big data to library information reference services, and proposes the measures from setting the new thinking and new ideas of the library information reference service of the era of big data, strengthening the national level strategic design and the cooperation of different areas, setting up the information security mechanism and developing the data-intensive computing method, strengthening the talent team construction of related big data, constructing multi-dimensional information reference service form to meet the impact and challenge of big data.
Keywords Big data. Library information reference.Information security. Data-intensive computing.
1 大數據
大數據是一個術語,目前未能形成一個統一的定義,可以說也是一種理念及其相關技術構成的復雜系統。Gartner Group是一家信息技術研究和分析的公司,專門負責開展大數據研究工作。Gartner Group認為:大數據是指需要研發新處理模式,達到超強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[1]。維基百科上也指出:大數據不外乎是網絡公司日常運營所生成和積累用戶的網絡行為[2]。百度百科上定義為大數據又稱巨量資料,與數字圖書館的數據倉庫應用相比較,具有數據量大、查詢分析復雜等特征[3]。事實上,大數據是指從海量、多樣性的數據中,快速獲得有價值的信息,蘊含深厚的文化基因和整合營銷新的方式和理念。大數據本身是結構化數據、半結構化數據與非結構化數據的總和。但是,大數據不是簡單的數據存儲,而是強調數據獲取數量與數據復雜處理能力。大數據的出現正是迎合現代社會信息化、網絡化高度發達趨勢。大數據呈現的特點主要包括海量的數據、多元化、高速、靈活與復雜等。其中,多元化表現為結構化數據(業務)、半結構化數據(網頁)和非結構化(視頻、音頻)等多樣性數據。由于多元化數據的大量存在,其存儲容量、處理和分析方式存在較大差別,數據的時效性較強,這就要求對海量、復雜的數據進行快速、靈活的處理,以適應大數據發展的需求。
信息咨詢服務是圖書館的一項核心業務工作,也是信息管理活動的出發點和歸宿,是信息管理學研究的重要內容和領域,是用不同的方式向讀者提供所需信息的一項活動[4]。毋容置疑,圖書館信息咨詢服務也是一種基于網絡技術的幫助服務機制,與大數據有許多相似之處。二者都是一定網絡技術發展的產物,擁有大量的數據,并具有數據分析能力,無處不在,可隨時隨地滿足目標讀者的知識需要。主要差異在于目前圖書館信息咨詢屬于低層次數據存儲與處理范疇,而大數據則強化海量的、多樣化的、高速大數據存儲與處理,技術、人員、成本要求更高。
通常情況下,圖書館信息咨詢業務流程是:問題接收—提問解析和分派—咨詢館員作出答案—答案發送—跟蹤,該業務流程與大數據應用的四個步驟(捕獲—組織—分析—決策)存在著明顯的關聯性,而其中“提問解析和分派”是圖書館信息咨詢工作的核心部分。信息咨詢對接收到的讀者提問進行一定的分析、篩選和評估,并首先查詢先前的問題和答案,保存文檔,查詢較為合適的答案,或按照一定的規則發送至專家庫,以尋求最合適的專家回答問題,然后進入答案發送與跟蹤工作程序。信息咨詢中“提問解析和分派”這一工作流程涵蓋了大數據應用的四個步驟,執行毫秒級的響應請求以確保信息咨詢服務的成功,這些需求需要新的系統架構以及相應的大數據處理和分析能力提供支持。信息咨詢知識庫中全部數據涵蓋了大量需要處理的數據,數據以散落、零星、低密度形式存在,通過融合、遴選,以高度并行的方式組織和提取,或對非關系型數據使用分布式的技術手段進行異質性分析處理可用的大數據,并轉換為容易分析的內容,再重新整合成的知識體系,高速充實到信息咨詢數據倉庫,通過可用的數據精確分析與挖掘,根據讀者咨詢問題表現的實時數據,咨詢館員快速作出決策(答案發送)[5]。
2 大數據對圖書館信息咨詢服務產生的影響
圖書館信息咨詢服務涉及的異構數據源主要包括以結構化數據呈現的各類型電子資源,BBS、留言板、表單咨詢、E-mail咨詢、圖書館博客、微博等讀者咨詢等出現的大量半結構化數據,在線咨詢、QQ咨詢等瀏覽歷史、搜索方式、行為痕跡、存儲信息行為以及出現的視頻和語音信息代表的非結構化數據。另外,還可以收集從手機、平板電腦等諸多設備中收集到讀者的個人信息、位置信息、瀏覽信息等各種不同的數據,共同構成了圖書館信息咨詢完整的大數據[6]。這些數據量正在逐年增加,并對圖書館信息咨詢產生深遠的影響。
2.1 圖書館信息咨詢中的數據存儲問題
隨著網絡技術的快速發展,人們利用互聯網的節奏逐漸加快,虛擬化、音頻、視頻、圖片、自動分析和生成等內容的文件增多,日積月累,多種格式文件的大小和容量增大,造成知識庫超載問題日益嚴重。因此,信息咨詢有效合理管理大數據文件日漸提上日程。在大數據條件下,有別于管理以往數據文件方式,主要是因為存在以下三個問題:(1)由于數據容量大,以往信息咨詢存儲解決方案無法解決高性能共享的問題;(2)由于文件數量增大,整個數據傳輸網絡的性能將受到其分級、歸檔、備份和保護等制約,存在明顯的文件管理和保護問題;(3)大量重復的數據文件難免占據空閑的存儲資源造成信息咨詢中重復數據問題。
2.2 圖書館信息咨詢中數據處理問題
現階段,信息咨詢引入了云計算,利用云計算技術解決了部分海量數據存儲與處理的問題。大數據的來臨,使信息咨詢服務創新看到了希望,而大數據的處理能力令傳統的信息咨詢組織能力、分析能力和儲存能力相形見絀。因為大數據時代的多種數據處理超越了傳統信息咨詢系統對交互、輸入、輸出、搜索行為的理解程度。
2.3 圖書館信息咨詢中信息安全問題
大數據與云計算一樣,也存在信息安全問題。在信息咨詢管理與政策方面,大數據時代下各種數據融合與流動,涉及到圖書館等機構、咨詢館員、讀者各自持有的知識交融與共享,機構組織的知識產權、個人的知識產權、個人隱私等信息安全問題亟待解決。這種信息安全有別于以往的信息安全問題,而是一種全新的安全觀,需要充分考慮大數據時代的開放、高速與保護的彼此平衡,以及考慮知識產權、隱私權與讀者使用信息咨詢大數據利益的最大化。
2.4 圖書館信息咨詢中大數據理念與人才問題
大數據的沖擊,促使信息咨詢必須開展全方位的革新。其中,最核心的沖擊就是信息咨詢知識生產方式和傳播方式的變革[7]。面對海量的、多元化結構化數據洶涌而起,信息咨詢知識庫猶如滄海一粟,難以應對撲面而來的知識沖擊,如果不改革單一的知識生產與服務方式,可能會加快信息咨詢走向沒落的步伐。由于大數據是由人的行為造成的,每一個人均可通過互聯網交流與溝通,創造出大量非結構化數據。繁雜的數據需要高層次的IT技術人員進行分析和管理,但是,具有大數據背景的高效理解、運用與決策的經理和分析師人才缺口極大,而圖書館領域中基于大數據對信息咨詢服務的分析和管理人才也相對匱乏。
3 改進方略,從容應對大數據時代的到來
3.1 樹立大信息咨詢服務新思維與新理念
大數據內容豐富,不僅大量新技術應用,而且蘊含了文化基因和營銷因素。大數據時代的提出正是基于對當下社會信息超載現象的宏觀描述。海量信息的極速擴張迫使人們的思維和技術發生革新。繼續沿襲既有圖書館信息咨詢的思維方式(局部數據和定量觀測)難以適應對浩如煙海的信息進行整理和準確測度。在大數據時代背景下,信息咨詢需要轉變思想觀念,牢固樹立一種全新的大數據理念,以大數據思維顛覆信息咨詢固有的思維定勢。這種思維要求超越此前有限信息時代對于信息的確定性與精確性的追捧。正如大數據思維提倡者認為,執迷于精確性是信息缺乏時代和模擬時代的產物[8]。因為大數據更強調數據的完整性和蕪雜性,在很大程度上能夠拓展圖書館信息咨詢視野,在更廣、更深的范圍內發現讀者咨詢問題的答案,為讀者解決實際問題。因此,大數據時代下圖書館信息咨詢,轉變思想觀念,以大數據理念與思維統領信息咨詢服務,從容應對大數據的沖擊。
3.2 強化國家層面戰略設計與不同領域的合作
在國家層面戰略設計方面,美國較為典型。2011年,美國總統科技顧問委員會提出了政策建議;2012年3月29日白宮科技政策辦公室發布了《大數據研究和發展計劃》,并組建“大數據高級指導小組”。在我國,與大數據聯系密切的國防部、工信部、文化部、新聞出版總署、國家圖書館等部門,應該從國家層面戰略高度出發,制訂戰略計劃,以適應大數據的要求。至于圖書館信息咨詢項目,建議由國家圖書館牽頭,依托不同類型圖書館的知識資源,盡快開展大數據戰略的設計、規劃與實施工作,具體設計可由各個領域專家學者通力合作。針對大數據時代下的高通量數據與多種數據形式并存,圖書館應保持清醒的思維,圍繞讀者的咨詢問題,找出可用數據和數據組織方式的最佳組合,有針對性地區分數據的結構形式(結構化、半結構化和非結構化),并實時地抉擇某些數據的去留問題。這種數據處理方式在很大程度上也需要IT專業人員、圖情專家、資深咨詢館員和目標讀者的協作與互動。
3.3 搭建信息安全機制與開發數據密集型計算方法
圖書館信息咨詢根據情況設置安全機制,采用第三方信息安全審計,并明確規定信息咨詢數據的使用權利與義務。首先需要整理與信息咨詢相關的數據資產,包括自身持有的數據、共享共知的數據、讀者個人信息的數據,然后公告利用這些數據可能創造的潛在價值,與此同時,從信息咨詢內部建構一個數據驅動型組織,制定相應的圖書館信息咨詢戰略,最后再解決隱私和安全性方面的數據政策問題。同時注重個人隱私,建立有效的知識產權保護體系。
在大數據時代,圖書館必須重新考慮數據密集型存儲、整理、使用的一整套科學安全方法,確保知識庫不會負擔過重,安全運行。信息咨詢可以承接盡量多讀者訪問這些數據,利用新型的基礎設施和先進的科學計算方法,在保證高效性和高速性前提下,有能力處理海量的數據;同時信息咨詢還需要在計算分析方法上進行投資研究。
圖書館開展的大數據分析服務業務,即是圖書館自身建設所需的大數據分析,如對館藏資源、讀者借閱方式、行為愛好等現有數據對象進行分析與挖掘。對讀者所需的大數據分析,依靠的大量數據可能并非圖書館所擁有,諸如信息情報參考、競爭情報分析等。隨著可以分析使用的數據增多,分析出來的結果可能有所不同,此時信息咨詢應堅持科學的研究方法,不斷做出調整,獲取更多更好的高質量數據,在最短的時間內解決讀者的實際問題。信息咨詢可以采取大數據的新技術,提高圖書館服務的智能化程度[9],例如針對海量信息數據采取智能抓取、關鍵詞抽取等。總之隨著圖書館服務內容、手段的智能化程度的提高,智能化技術、工具、平臺的服務實踐經驗積累,所需的圖片、視頻、文本等信息都將能輕易獲取,而對于個體信息,如社交信息、生活數據等大量的非結構、半結構化數據也都將能為圖書館信息咨詢的智能化決策提供分析參考作用。
3.4 加強相關大數據的人才隊伍建設
海量與多樣性的數據,使得傳統意義上的咨詢館員難以應對、不能滿足讀者的知識需求,因為目前的技術工具、簡單的定性定量數據分析無法發揮應有的作用。人才是研發與掌握這些技術工具的關鍵,因此大數據時代的圖書館信息咨詢需要重視人才的培養。多層次、多渠道地聘請IT專業人才、圖書館學、情報學等學科人才,或對現有咨詢館員、計算機技術人員開展教育培訓(短期培訓、學歷教育、專題講座、學術交流等),進而構建完備的人力資源庫,制定有關政策制度留住人才,才能提升或維持圖書館信息咨詢高效運行。由于讀者信息行為也產生許多數據,所以也不能忽視讀者研究問題,包括讀者教育培訓、讀者個人隱私保護等。
3.5 構建多維圖書館信息咨詢服務形態
圖書館信息咨詢的數據處理、融合和分析挖掘能力將直接關系到圖書館核心競爭力的培育[10]。從數據融合的視野考察,大數據的價值在于延伸了信息咨詢服務形態,即數據細化、彈性、深度的服務形態。(1)細化。信息咨詢的數據服務自身主要是提供一些資源服務和數據能力服務,諸如數據的保存、讀者信息行為數據的留存等。大數據時代,可以通過一些專業維護(如基于數據加工的容災能力),將海量的數據匯集到信息咨詢平臺,最大化地滿足細化的數據存儲需求。(2)彈性。獲取資源的檢索方法需具有靈活性與彈性。在傳統數據檢索過程中,是通過數據庫與拷文件系統命名實現信息咨詢,但由于數據庫表結構定義存在不一致性和標準缺失,或影像文件超過了文件系統的厚度,難免遇到一些障礙,降低檢索與查詢的命中率。大數據時代,信息咨詢基于新的大數據架構,通過網絡對象的索引技術,將圖像文件通過標準的協議轉化成縮略的數據封裝起來,在很大程度上也就解決了文件共享、統計分析和查詢等諸多問題,能夠提供彈性服務。(3)深度。深度的知識服務即是知識咨詢。傳統的信息咨詢服務在內容上注重知識庫的數據數量,例如增加資金,加大電子資源的采購,盲目追求各種數據庫的規模,而忽視了其他資源的收集與整理,造成知識利用處于低級階段。大數據時代,在數據服務和信息加工的基礎上,數據融合開始體現出價值,兼顧了多樣化的數據匯集、融合、重構,通過信息數據分析技術,實現信息數據的增值服務,從而實現低層次服務轉變為高層次、深度的知識咨詢,高效地解決讀者的實際問題。
4 結語
大數據時代,不僅帶來了大數據存儲與處理的技術,更多地強調以人為本以及人力資源的重要性,達到了人才與新技術的完美融合。圖書館信息咨詢應本著多年服務實踐經驗,面對各種網絡技術的沖擊,與時俱進,熟悉、適應、習慣與掌握大數據多樣性的數據模式與處理分析方法,借助大數據的東風,主動有序地突破困局,做到游刃有余,從容應對,這樣才能在面對讀者、滿足讀者多樣化信息需求時,大幅度地提升圖書館信息咨詢服務績效。
參考文獻:
[ 1 ] [美]家煒.數據挖掘:概念與技術[M].范明,譯.北京:機械工業出版社,2012:13.
[ 2 ] 維基百科·大數據[EB/OL].[2013-06-10].http://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E6%8D%AE.
[ 3 ] 百度百科·大數據[EB/OL].[2013-06-10].http://baike.baidu.com/view/6954399.htm.
[ 4 ] 張宇杰,方燕虹,趙凡.世界著名大學圖書館信息服務最新進展研究[J].圖書館學研究,2012(19):93-97.
[ 5 ] 王捷.大數據時代下圖書館開展信息服務的對策[J].現代情報,2013(3):81-83.
[ 6 ] 姜山,王剛.大數據對圖書館的啟示[J].圖書館工作與研究,2013(4):52-54,79.
[ 7 ] 張濤甫.大數據時代的出版困局及其突破[J].編輯學刊,2013(2):6-10.
[ 8 ] [英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:12.
[ 9 ] 韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館,2013(1):121-122.
[10] 李奕.大數據應用方式:從數據服務、信息服務到知識服務[N].中國計算機報,2012-07-09(24).
袁紅軍 鄭州師范學院圖書館副研究館員,河南鄭州,450044。
(收稿日期:2013-09-15 編校:劉勇定)