李 恬
其實,數據的存在由來已久,人類自從誕生以來就在源源不斷地創造著數據,各行各業的發展都離不開對數據的處理,當數據量增長到一定程度就形成了海量數據(達到TB級別的數據),但一般認為海量數據還不足以稱作“大數據”[1]。在飛速發展的數字信息環境中,數據成本的下降促使數據量急劇增長至PB級別(1024TB)甚至更多,根據IDC作出的估測,預計到2020年,全球將總共擁有35億GB的數據量[2];數據類型除了結構化數據外,還有半結構化數據和非結構化數據,而且有調查發現,85%的數據屬于廣泛存在于社交網絡、物聯網、電子商務之中的非結構化數據,這些非結構化數據的產生往往伴隨著社交網絡、移動計算和傳感器等新的渠道和技術應用的不斷涌現[3]。
事實上,在“大數據”這個概念產生以前,一些商家就已經發現了大規模數據的價值。早在20世紀70年代末,沃爾瑪公司就開始通過挖掘數據來改善自己的供應鏈,陸續采用了條形碼掃描系統和公司內部衛星系統,使得總分部之間可以實現實時、雙向的數據和聲音傳輸,在此基礎上于2007年建立了一個超大的數據中心,其存儲能力高達4PB以上[3]。通過對數據中心內消費者的購物行為等非結構化數據進行分析,沃爾瑪成為了最了解顧客購物習慣的零售商,并創造了“啤酒與尿布”的經典商業案例[4]。同樣,在醫療、交通、電信、城市管理等其他領域,移動終端、社交網絡的全民化應用以及信息化程度的提高,也使數據有了巨大的應用空間。也就是說,大數據是伴隨著信息技術和數字信息環境的發展,信息量呈指數級增長、數據類型及數據結構的日趨復雜化的情況下產生的。
對于大數據的定義目前還沒有明確的界定,得到公認的是大數據的“4V”特性,即容量(Volume)、速度(Velocity)、價值(Value)和類型(Variety)。其中容量(Volume)指收集和分析的數據量巨大;速度(velocity)指數據處理速度要足夠快;價值(Value)指數據中蘊含著潛在的價值轉化;類型(variety)指數據類型多樣復雜。所以,有人總結大數據是“海量數據+復雜類型”的數據,包括分析、帶寬、內容三個要素,其核心因素是蘊含價值[5]。
大數據的廣泛存在已經得到從企業界與政府層面越來越多的重視,人們看到了其中隱藏的價值和非同尋常的機會,但大數據只有在數據、技術、思維三個條件同時具備時才會發揮它的價值。谷歌的首席經濟學家哈爾·范里安(Hal Varian)說“數據非常之多而且具有戰略重要性,但真正缺少的是從數據中提取價值的能力”[6],這種能力除了技術能力外,也包括運用大數據的思維能力,隨著計算機業的發展,技術上的困難終將被克服,大數據能否發揮作用,最終取決于分析數據的思維能力。而且,大數據概念的出現本身就給人們提供了一個思維方式,即可以從很多看似平常的數據或資源中挖掘有用的信息,通過對海量數據的分析,獲得更多有價值的產品和服務。從這個意義上說,大數據不僅是一種資源,更是一種理念,其最大的價值不是數據本身,而是通過對數據的分析來改善和提高工作質量和水平,這就是大數據理念,其具體內涵有以下幾方面。
(1)從數據的視角分析問題。大數據是復雜類型的數據,這里的復雜可以是結構上的,也可以是形式上的,包括結構化、半結構化和非結構化的數字、文字、圖片、聲音、影像等一切存在形式都可以作為數據進行分析和研究。如谷歌對翻譯功能的改進,就是將互聯網上的語言視為能夠判別可能性的數據,而不是語言本身,甚至它所發布的上萬億語料庫囊括了互聯網上的很多廢棄內容和錯誤的數據,依此推算出英語詞匯搭配在一起的可能性。
(2)重視數據整體。一般認為只有當數據規模達到一定程度才算得上大數據,但有些情況下,小規模的數據也能幫助人們發現問題和解決問題,那么它便也具備了大數據的意義。其實,這里的“大”只是相對意義上的,它更強調數據的整體,而非部分或樣本。盡可能多地掌握所有數據,這是大數據與一般數據的區別之一,只是數據規模越大,越有可能準確地考察細節和全面地分析問題。
(3)從數據中尋找關聯關系。即從大量的數據流中發現異常,通過尋找數據之間、數據與其他事物的關聯關系發現事物發展的規律和預測趨勢。大數據的核心就是“建立在相關關系分析法基礎上的預測”[7],亞馬遜的個性化推薦系統就是通過分析大量的用戶瀏覽記錄和購買記錄的關聯關系,預測用戶的需求和興趣點,從而有針對性地推薦相關產品。
圖書館在長期的工作中積累了大量數據,雖然在規模和數據處理速度上遠未達到大數據的標準,但在圖書館變革和向知識服務轉型的實踐中仍有很高的利用價值,它們就是圖書館的“大數據”。運用大數據理念,我們有必要充分挖掘圖書館“大數據”的價值來拓展工作和服務方向。
圖書館最大的優勢就是擁有大量包括紙質資源、電子資源、網絡資源、圖片、音頻、視頻等各種內容和載體形式的館藏資源,這是圖書館開展服務工作的基礎。但根據帕累托定律,用戶主動獲取的、利用率較高的資源主要集中于20%的館藏資源上,即圖書館的大部分館藏資源沒有物盡其用,而且隨著人們獲取知識的方式和途徑日益網絡化,越來越多的圖書館資源處于閑置狀態。產生這個問題的根源是傳統的圖書館服務是被動式的文獻提供,而人們需要的是能快速高效地獲取具體的知識,現代圖書館應該更多地側重于發展“在復雜創新需求下的知識組織、知識集成、知識融匯、知識發現、知識創造”[8]的知識服務。毫無疑問,知識正是圖書館的主體資源,用大數據思維看,圖書館的館藏實質是知識數據的集合。相對于零散、無序的網絡資源,圖書館館藏資源已經通過科學的方法和特定的標識符(分類號、主題詞)進行了初步的整序,形成了一個個有序的知識塊,但知識服務不僅是對知識存儲的整序,更是基于知識內容的融合分析與歸納,即通過分析各種知識因子及相互之間隱含的關聯關系,從中找出與用戶需求相匹配的知識。因此,開展知識服務的關鍵環節是從館藏知識數據集中尋找關聯,揭示規律或發現新知識。但目前知識服務仍限于口號,缺乏實質性的轉變,除了圖書館在認識上對知識服務缺乏理解外,在實踐中也沒有從“大”圖書館資源觀和數據的角度對館藏資源進行分析和處理,這使得知識挖掘與整合的力度遠遠不夠。隨著信息技術的發展,包括電子圖書、電子期刊、數據庫、音視頻資源、網絡資源在內的圖書館數字資源也在急速增長并占據了相當大的比例,這將為圖書館運用大數據技術和大數據理念進行知識挖掘提供了便利條件。
上世紀90年代初,美國就通過啟動“完全、開放、無償”的科學數據共享計劃[9]鼓勵民眾把數據流動過程中和數據應用過程中的各種價值充分挖掘出來,既提高了科學數據的利用率,又為人們發揮才華創造了良好環境,并促進了整個社會的經濟發展。
書目數據,作為圖書館界的科學數據,是海量的、高度規范的結構化數據,圖書館每年投入大量人力物力建設的這些數據卻長期以來處于非常閉塞的環境中,未能充分發揮其潛在價值。2010年,大英圖書館宣布向研究人員和其他圖書館免費提供書目數據,讓用戶超越傳統圖書館的局限開發和利用這一重要的國際資源[10];2012年,哈佛大學圖書館也向公眾開放了涵蓋73所分館的1200萬書目記錄,希望以此來促進世界范圍書目數據的開放以及對新型應用性產品的研發,正如哈佛大學圖書館實驗室的副主任David Weinberger所說“這就是書的大數據”[11]。書目數據不僅用于檢索,還可以發揮更多的價值,如大英圖書館提供給知識產權辦公室(IPO)的八百萬條書目記錄,用于1650年以來出版行業的動態研究,并從中揭示出反對知識產權立法進程的種種模式。
與此同時,書目數據的關聯化研究則成為書目大數據的另一開發領域。書目數據的關聯化是指“使用URI作為書目記錄的名稱,通過使用HTTP、URI,可以定位到書目記錄,并且通過相關的URI鏈接發現更多的對象”[12],包括書目記錄的關聯和書目數據的關聯。前者是從一條書目記錄鏈接到其他書目記錄,在有相似或相關特征的書目或不同載體形態的資源之間建立關聯;后者則首先將書目記錄分解為書目數據(記錄書目信息的最小獨立單元,包括題名、責任者、主題詞等),再將每一條書目數據作為獨立資源建立URI鏈接,如責任者可鏈接到責任者個人信息、職業、其他著作、相關其他責任者。通過書目關聯使用戶不僅能更深入全面地了解館藏,還能進行擴展查詢和知識發現,實現多類型知識內容的整合和集成,也可從社會網絡反向鏈接到圖書館館藏信息,吸引更多的用戶群,由此便會產生大量的書目關聯數據,或者說書目關聯的“大數據”。
以大數據理念處理書目數據,還可以促使我們進一步思考如何編制書目記錄,以便于向關聯數據轉化,例如最早將書目數據發布成關聯數據的瑞典聯合目錄(LIBRIS)所使用的詞匯表就是包含了元數據、書目本體和簡單知識組織系統的綜合體,而并不局限于圖書館領域[13]。隨著越來越多的圖書館開放書目數據和發布關聯數據,書目大數據的開發利用存在著廣闊的發展前景。
由于長期受“以文獻資源為中心”的思想束縛,圖書館一直將工作重心放在自身建設與技術開發應用等方面,忽視了對用戶需求的分析。知識服務是基于用戶需求的服務,需要從用戶類型、群體特征、年齡、職業等各方面對用戶的需求狀態、特點、信息心理、行為及信息利用過程和效果等展開研究,這樣才能針對不同的用戶提供相應的知識信息,取得最佳服務效果[14]。因此,用戶資源已成為現代圖書館最重要的戰略資源之一,對用戶數據的管理和研究則成為圖書館提高服務水平的關鍵問題。
圖書館獲取的用戶數據有兩種,一種是傳統的問卷調查數據,一種是用戶使用圖書館服務系統所產生的交互數據。前者是目前用戶研究的主要途徑,但這種方法存在一定的弊端,如效率低、樣本數量有限,調查效果取決于調查問卷的設計是否合理、是否充分準確地表達了調查者的意圖、調查結果又是否充分反映了用戶意見、被調查者的態度是否真誠等各種因素,使調查結果存在誤差或無法充分表達用戶的真實想法和具體需求,事實上,用戶有時很難準確地表達自身需求;而交互數據是用戶在使用圖書館的過程中所產生的自然數據,包括讀者信息、訪問數據(訪問時間、路徑、相關鏈接)、借閱信息、咨詢信息、檢索數據、下載數據,甚至RFID射頻數據等,它們是直觀、客觀、實時和動態變化的,能迅速反映出用戶需求的變化趨勢,關注和分析這些數據,可了解和揣摩用戶的心理和習慣,并根據變化及時調整服務策略,快速滿足讀者需求。但在實際中,圖書館對這部分數據的利用還遠遠不夠。
大數據理念就是利用全部數據,沒有偏見地關注更多的細節,從不同的角度更細致入微地觀察和研究數據的方方面面。圖書館可以從讀者訪問路徑中了解讀者的閱讀傾向;根據讀者常用的檢索方式改進檢索系統;從檢索結果為“0”的數據中發現資源購買漏洞。大數據可以幫助人們從數據之間的關聯關系中分析某一現象產生的原因,例如:為什么圖書館的利用率越來越低?通過數據則只需關注圖書館在資源供給和服務上出現了什么問題;當學科館員因遭受冷遇對自己的價值產生懷疑時,可以通過圖書館網頁上“學科館員”的訪問數據了解究竟有多少人關注學科館員,從訪問數據和咨詢數據的對比中,分析用戶是根本對學科館員不感興趣,還是對學科館員的服務不滿意。
很多時候,大數據正是把研究者的視角從表面延伸到真實的內核,更客觀準確地洞察用戶,不僅及時發現問題,還能發展受用戶歡迎的新業務和新功能。
工作效率受工作理念、工作制度、工作模式、技術效率等多方面因素的影響,依賴于管理者在掌握現有工作數據的基礎上對資源的合理調配。圖書館工作的自動化和數字化在技術上提高工作效率的同時,也產生了大量使管理者可以掌握工作人員及業務處理的相關數據。
(1)流通數據。包括讀者到館的時間、次數、到館率、文獻借閱率、借閱記錄、流通率等,這些數據一方面能反映讀者利用圖書館的情況,另一方面能客觀反映讀者閱讀傾向、及時了解讀者需求的變化和各類圖書的供求狀況。對流通數據的分析可作為圖書采購和館藏建設的依據,從而利用好購書經費,有效合理地補充藏書,有針對性地改善文獻服務,開展文化閱讀活動。
(2)采訪數據。采訪工作是圖書館資源建設的基礎,其過程中產生的大量包括書商提供的書目數據、訂購數據、入藏數據、到館周期、到館率、入藏利用率等采訪數據,如果加以充分利用將在很大程度上影響著后來的采訪工作,也是圖書館用戶考察圖書館供貨商(又稱“書商”)的重要依據。可以說,采訪數據是采訪工作研究的著眼點,不僅能為圖書館的管理者和決策者提供經費預算的執行情況,評估采訪計劃及合理性,預測資源建設及經費支出發展趨勢,還能了解各學科資源建設狀況、不同載體文獻占用資金的比例,從而制定圖書館資源建設發展方向和最佳采購方案,盡最大努力滿足全校師生的學習、教學和科研需求。
(3)編目數據。除了指書目數據外,還包括編目工作相關數據,尤其當編目大量外包以后,對外包編目員的管理和書目數據的質量控制就成了編目工作的重點。外包編目員的個人信息、工作經歷、業績、流動更替等數據可幫助圖書館根據需要考察和選擇合適的編目員;編目數據來源、審核記錄、出錯率、錯誤類型等數據能幫助領導者分析和評估外包工作的質量和效率,從而制定科學合理的人員管理和質量控制策略。
(4)咨詢數據。互聯網和通訊技術的發展使圖書館的參考咨詢工作呈現出形式多樣化的局面,FAQ、BBS、電子郵件咨詢、IM咨詢、社交網絡(微博、博客)咨詢等產生了大量非結構化的咨詢記錄,有的圖書館還開發了咨詢管理信息系統[15],通過記錄和統計功能形成了結構化的咨詢數據。無論是非結構化的咨詢記錄還是結構化的咨詢數據,從大數據的視角去思考和分析,對研究用戶、評估咨詢質量和效果、開發咨詢新業務等方面都大有裨益。
圖書館變革的目標就是為了適應在信息量不斷增長的情況下更好地滿足人們獲取有效信息和知識的需求。當人們抱怨信息過量,需要借助一些媒介從海量的信息中篩選出有用信息甚至直接獲取知識時,正是圖書館發揮作用的時候,但服務水平仍亟待提升。毫無疑問,大數據為圖書館提供了新的視角,不僅更細致準確地洞察用戶,而且能更深入地剖析業務工作,引導圖書館向更人性化、專業化的層面發展。即使目前還無法預測大數據在實際工作中將會產生何種具體效用,但其獨特的魅力和理念將吸引研究者們進行更多的探索。
[1]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012(11):63-68.
[2]云計算環境下大數據及其智能處理技術[EB/OL].[2013-07-12].http://wenku.baidu.com/view/b20357b065ce050876321384.htm l.
[3]大數據藍海[EB/OL].[2013-07-12].http://content.businessvalue.com.cn/post/6687.htm l.
[4]啤酒與尿布[EB/OL].[2013-08-30].http://baike.baidu.com/view/1978239.htm.
[5][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:176,75.
[8]李麟,初景利.國外文獻信息服務機構知識服務實踐研究[J].圖書情報工作,2012(15):5-8.
[9]數據開放與國家振興[J].科技成果縱橫.2002(4):4-15.
[10]大英圖書館宣布開放數據服務 [EB/OL].[2013-10-12].http://www.nlc.gov.cn/newtsgj/gtqk/tyck/2010nzm l/120/120dt/201012/t20101202_23991.htm.
[11]Andrey Watters.Strata Week:Harvard Library releases big data for its books[EB/OL].[2013-07-24].http//strata.oreilly.com/2012/04/harvard-book-datacloudera-hadoop-splunk-ipo.htm l.
[12]張海玲.圖書館書目數據的關聯數據化研究[J].圖書館論壇,2013(1):120-125.
[13]杜敏.圖書館書目數據關聯化淺議[J].科技信息,2013(6):204.
[14]杜也力.知識服務模式與創新[M].北京:北京圖書館出版社,2005:96.
[15]宋潔,張敏.大學圖書館參考咨詢服務數據的管理和利用實踐[J].農業圖書情報學刊,2011(6):186-189.