馬曉亭( 蘭州財經大學信息工程學院 蘭州 730020 )
·專題研究·
圖書館思維的變革:從小數據思維到大數據思維
馬曉亭
( 蘭州財經大學信息工程學院 蘭州 730020 )
隨著互聯網的發展、智能閱讀終端設備的普及,圖書館的大數據時代已經來臨。大數據時代需要有大數據思維。大數據引發圖書館員重新認識數據的價值,使得解決問題的思維從追求因果關系向注重關聯關系方向轉變。因此,圖書館員的思維模式必須實現從小數據到大數據的轉變,才能從海量數據中獲取價值,才能為讀者提供滿意的個性化閱讀服務。
圖書館 大數據思維 變革
〔引用本文格式〕馬曉亭.圖書館思維的變革:從小數據思維到大數據思維[J].圖書館,2016(5):61-65
目前,圖書館界已進入大數據時代。作為新的生產要素和生產力的重要組成部分,大數據已成為圖書館界服務模式變革、管理理念提升、服務生產力發展和讀者閱讀QOS保障的決定性因素。同時,也為圖書館精準發現讀者需求和優化內部業務流程,實現從以服務系統建設為中心向以讀者為中心的轉變,提供科學的大數據決策支持。
管理咨詢公司麥肯錫的報告《大數據:創新、競爭和生產力的下一個前沿》中給出的大數據定義是:大數據指的是大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。并指出:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產要素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”[1]大數據研究專家維克托·邁爾-舍恩伯格和肯尼斯·庫克耶在編寫的《大數據時代》一書中描述大數據具有Volume(海量)、Velocity(高速)、Variety(多樣)、Value(價值)的4“V”特性。并明確指出:大數據時代最大的轉變就是放棄對因果關系的渴求,而取而代之關注相關關系[2]。這條理論改變了人類對外部未知世界的知識發現和思維方式,提高了人類對外部世界認知和交流的效率與準確度。
伴隨大數據時代的到來,圖書館數據環境呈現海量、數據總量指數級遞增、數據關系復雜和低價值密度的特點。傳統的實驗科學、理論科學和計算科學模式,難以實時、準確和快速地發現大數據中蘊含的知識和數據關系,不能有效實現數據到知識、知識到技術、技術到創新、創新到服務之間的轉換。因此,圖書館必須轉變傳統的知識發現和思維理念,構建全新、科學的大數據思維模式,才能高效、實時、精確和快速地發現大數據中蘊含的價值,才能為讀者閱讀服務和圖書館發展提供可靠的大數據決策支持。
2.1大數據與大數據思維的關系
大數據的數量、范圍和價值密度,是決定大數據可用性和決策科學性的關鍵因素。因此,圖書館應采用智能、自動化和便捷的數據采集模式,在提高大數據采集總量、廣度和價值密度的前提下,大幅度降低圖書館大數據的采集成本。圖書館通常利用監控服務器、服務器運營日志、網絡監控器、視頻監控系統、用戶閱讀終端、可穿戴閱讀設備和讀者管理系統等,完成圖書館相關大數據的采集[3]。
這些大數據具有數據海量、種類繁多、低價值密度和高時效性的特點,并且大數據的價值總量和價值密度是由數據的采集規模、顆粒度、多維度、活性和相關性共同作用。因此,大數據與有限數據在數據環境、數據特點和數據應用方式等方面的差別,導致圖書館必須采取與傳統思維不同的大數據思維模式。首先,大數據思維摒棄了傳統思維對數據進行隨機采樣分析的模式,實現了對海量大數據整體的全面性處理與分析。其次,大數據思維更加追求對數據復雜性和所蘊含知識的挖掘,弱化了傳統思維模式對知識和信息的精準發現。第三,大數據思維更加注重對數據相關性的發現,而摒棄了傳統思維模式對事物因果關系的精準探索。第四,大數據思維的最終目的是實現數據、知識、智慧和決策之間的轉化,為圖書館的變革、管理和用戶服務提供科學的大數據決策支持。
2.2圖書館大數據思維在數據應用上的三個重大變化
圖書館大數據具有Volume(海量)、Velocity(高速)、Variety(多樣)、Value(價值)的4“V”特性,并且讀者對圖書館閱讀服務有精準、智慧、實時和個性化的需求,因此,圖書館必須轉變傳統的大數據應用理念,才能高效、全面、精確和低成本地挖掘、發現大數據價值。
對包括與圖書館變革、管理、運營和讀者服務相關的數據進行全樣本采集,是圖書館大數據思維,在數據應用與傳統隨機樣本處理理念上的一個重要區別。圖書館在傳統的數據采集分析中發現,分析結果的精確性與數據采集的隨機性成正比關系,而與所采集數據的總量相關性較小。因此,采樣對象的局限性、方法的科學性、采樣周期在時間軸上的正態分布等,決定著圖書館采樣數據的價值和可用性,進而影響著傳統數據思維模式的科學性和決策可靠性。伴隨圖書館大數據采集技術的發展和采集成本的大幅下降,數據采集已不是制約圖書館全量數據獲取和數據全維度保證的主要因素。圖書館可通過高效、實時、經濟和低成本的全樣數據采集,從多角度和多層面挖掘大數據的價值,為大數據決策提供可靠支持。
多閱讀模式和個性化服務保障是讀者閱讀活動發展的一個大趨勢。據統計分析,當前圖書館大數據總量中僅有15%的數據是結構化數據,而85%的大數據是非結構化數據,且隨著圖書館服務模式的發展和變革,非結構化數據所占大數據總量的比例逐年上升。受到數據采集技術、工具和方法的影響,大數據的采集與有限數據采集相比,具有較高的不精確性和較低的價值密度。圖書館大數據思維應重點關注大數據帶來的高價值和新洞察屬性,通過數據的過濾與清洗過程,消除大數據不精確、高混雜性、低價值密度和實時性等特性對大數據思維的不利影響。
大數據思維致力于對數據之間相關關系的分析與發現,取代了傳統探求事物因果關系的思維模式,這是大數據思維的又一個重大變化。讀者在閱讀活動中,其閱讀需求、閱讀行為、閱讀模式和閱讀社會關系數據的產生具有較強的隨機性。圖書館通過對這些不相關大數據的整理、清洗、轉換和分析,可發現大數據之間隱匿的相關性和知識,并基于圖書館大數據分析系統的“分析即服務”支持,為讀者個性化閱讀活動提供科學、即時的大數據決策支持,而不必過分探究與讀者閱讀活動QOS保證無關的事物因果關系。
2.3大數據思維與圖書館的大規模個性化定制服務
大數據研究權威維克托·邁爾-舍恩伯格教授在其著作《大數據時代》中描述:大量的數據能夠讓傳統行業更好地了解客戶需求,提供個性化的服務[4]。隨著云計算技術的發展及其在圖書館界應用的深入,圖書館的大數據采集、存儲、計算和傳輸效率快速提升,其應用成本在服務總成本中所占比例大幅度下降。圖書館可利用云計算技術,對讀者閱讀活動相關大數據進行全面的采集、高效處理、精準分析和科學決策,以此來掌握每一位讀者的閱讀需求、模式、愛好和習慣,并為龐大的讀者群提供大規模的個性化定制服務。因此,如何提升圖書館大規模個性化定制服務的效率、精確度、實時性和QOS(服務質量)保證有效性,是圖書館大數據思維應重點關注的一個問題。
大數據的4“V”特性,使得圖書館大數據思維必須堅持全面、連續、大規模和快速的數據應用原則,來替代傳統小數據思維抽樣、片面、局部的模式。通過對大數據全體的價值發現、挖掘、分析和決策,可對圖書館的服務模式變革、讀者需求發展、系統管理運營和外部競爭環境變化宏觀趨勢,給出科學、高效、實時、經濟的預測和決策支持。因此,大數據思維的一個主體就是堅持以讀者為中心的思維模式。
此外,為龐大的讀者群定制個性化的產品和服務,是圖書館服務模式變革的一個重要方向。在個性化服務的定制中,如何在保證服務滿足讀者個性化需求的前提下,具有較低的服務成本投入和較高的實時性保證,是關系圖書館服務投資收益率的一個重要問題。因此,大數據思維應基于海量數據的決策支持,從關注事物因果性轉向數據之間關聯性,從因果關系的串聯思維轉向大數據相關關系的并聯思維,努力提升圖書館對讀者閱讀需求和服務變革發展的感知力,才能實現讀者大規模個性化服務定制從量變到質變的過程[5]。
2.4“小數據思維”與“大數據思維”
“小數據”環境下,圖書館的思維與決策常常依據管理者對事物發展的假設做出,以及管理層在圖書館建設、運營和讀者服務過程中的經驗來制定,然后通過對“小數據”的采集、分析和判斷,來驗證小數據思維與決策的正確性和可行性。這種“小數據”思維模式具有較強的主觀性、隨機性和不確定性。大數據思維通過對海量、全景數據的實時分析,可準確發現大數據中隱匿的數據相關性和知識,并基于在大數據中發現的知識來進行大數據決策,具有科學、高效、實時和快速的特點。與“小數據思維”相比,“大數據思維”位于新的數據環境和思維模式中,面臨著諸多新的挑戰。
核心數據是關系圖書館發展變革、運營管理、QOS保證和綜合競爭力提升的關鍵數據,是圖書館大數據的重要組成。首先,圖書館在大數據思維中,往往過分強調對全量數據的實時、快速處理和分析,而忽視了核心數據在圖書館核心業務決策中的重要性,導致圖書館在大數據決策中主次不分,影響了服務的總體收益率。其次,從數據的來源和范圍劃分,圖書館大數據可分為內部數據與外圍數據兩大部分。如何通過內部數據與外圍數據的整合,增強圖書館大數據之間的交互性和關聯性,是實現圖書館大數據二次增值和提升數據價值總量、可用性、可控性的關鍵。第三,圖書館的云計算技術水平、數據的共享與開放程度、大數據的分析能力、大數據算法科學性、管理人員的大數據素養、主體業務對大數據思維的依賴程度等,都是關系圖書館大數據思維有效性的關鍵因素,圖書館在上述任何一個主要環節的失誤,都會影響大數據思維的科學性和準確性[6]。第四,時效性是圖書館大數據的一個根本特性,因此,大數據思維隨著大數據生命周期的發展,也會有一個發展、成長、成熟、衰退和消亡的過程。圖書館如何依據大數據生命周期發展規律,構建科學的大數據思維失效預警機制,是保證大數據思維與決策科學、可用的關鍵。
3.1圖書館大數據思維應實現四個緯度的轉變
隨著云計算和網絡傳輸技術的發展,數據的采集、傳輸、存儲、處理和分析技術,已不是影響圖書館數據思維科學性的主要因素,圖書館的思維模式已從小數據樣本思維轉向大數據整體思維,使圖書館能夠全面、立體和系統地認識自身組織結構和服務的相關性。基于大數據的4“V”特性,圖書館大數據思維應實現四個緯度的轉變。
首先,是從定量思維向總體思維的轉變。維克托·邁爾-舍恩伯格認為:“我們總是習慣把統計抽樣看作文明得以建立的牢固基石,就如同幾何學定理和萬有引力定律一樣。但是,統計抽樣其實只是為了在技術受限的特定時期,解決當時存在的一些特定問題而產生的,其歷史不足一百年。如今,技術環境已經有了很大的改善。在大數據時代進行抽樣分析就像是在汽車時代騎馬一樣。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數據的主要方式。[7]”當前,圖書館數據環境已實現了從抽樣本數據到全樣本數據的轉變,傳統小數據的精準性思維向混亂、復雜的大數據整體思維轉化,從探尋事物因果關系向發現大數據間的規律、相關性轉化,這必然要求圖書館應站在全數據高度,堅持總體思維的方式。
其次,是從精確思維向容錯思維的轉變。在“小數據”環境下,圖書館受到數據采集、傳輸、處理和計算技術的限制,具有數據采集總量小、數據采集隨機性強和數據價值密度分布不均勻的特點。因此,為了提升小數據思維、決策的科學性和精確度,圖書館必須保證有限小數據精確、結構化、高價值和可控,并通過小數據精確思維來彌補圖書館在數據采集、傳輸、處理和計算能力上的不足。大數據環境下,數據的價值總量、相關性是關系圖書館大數據可用性的最重要因素。因此,圖書館必須降低對數據精確性、價值密度和結構化程度的要求,適當忽略數據在微觀層面上的精確度,將“小數據”的精確思維向“大數據”的容錯思維模式轉變。
第三,完成從因果思維向相關思維的轉變。舍恩伯格指出:“大數據的出現讓人們放棄了對因果關系的渴求,轉而關注相關關系,人們只需知道是什么,而不用知道為什么。[8]”小數據樣本的有限性,導致小數據所擁有的價值總量和數據可用性有限,只能幫助圖書館解析、證明具體事物內部的因果關系,而不能有效揭示數據之間隱匿的復雜數據關系和巨量知識。大數據思維可以幫助圖書館挖掘出大數據之間存在的復雜、非線性相關關系,理解圖書館管理員、服務基礎設施、讀者和服務競爭環境之間的復雜相關性,而不需要知道事物或現象背后的復雜深層原因,可直接為圖書館提供大數據決策支持服務。
第四,實現從人工思維向智能思維的轉變。通過智慧的感知、分析、集成,來增強圖書館的讀者個性化服務響應、信息資源融合、服務平臺協同和智能服務能力,是不斷提高讀者個性化推送服務效率、精確性、交互性、時效性、連續性和業務彈性的關鍵。小數據時代,圖書館的管理、服務系統處于人工智慧與自動化相結合的半智慧狀態,系統的思維方式屬于線性、簡單、物理的自然思維,不能象“人腦”一樣主動、立體、邏輯地分析數據,并在分析過程中實現自主學習和智慧思維。大數據時代,圖書館基于大數據思維而獲得的知識和經驗,可與物聯網、云計算、社會計算、可視化技術等相結合,實現了機器設備和服務系統從自然思維向智能思維的轉變,提升了圖書館的智慧思維和智慧服務的能力。
3.2圖書館大數據思維必須以數據價值為中心
當前,隨著高速無線傳輸網絡、云計算技術和閱讀終端制造技術的發展,圖書館的用戶服務已能夠滿足讀者實時閱讀、支持快速移動和高速視頻播放的需求。圖書館在讀者閱讀服務過程中產生的大數據,除具備4“V”特性外,還具有在線數據采集、全景數據和可實時快速調用的特點。同時,圖書館大數據也隨著圖書館服務模式的變革和發展,其價值總量和可用性快速累積、提升,已成為決定圖書館服務生產力提升和服務模式科學變革的決策依據和可靠保證。因此,圖書館大數據思維必須以數據的價值為中心,才能保證大數據價值的完全發現和科學思維。
傳統小數據環境下,圖書館在數據的取樣、處理、分析和決策過程往往注重以流程為中心,科學的流程雖然可以提高結構化小數據的思維效率、準確性和經濟性,但無法解決大數據本身存在的數據海量、非結構化、復雜相關性和低價值密度等問題。因此,大數據思維應從流程為中心轉變到以數據為中心,在大數據的采集、傳輸、處理、存儲和計算上體現出數據核心的理念,不斷提升大數據的價值密度和可用、可控性[9]。
此外,圖書館在讀者的服務定制和服務提供中,應將以產品服務功能為中心轉變到數據價值為中心上來。圖書館在讀者服務中,應利用視頻監控設備、傳感器網絡、監控服務器和閱讀終端等設備,采集與讀者個性化閱讀服務相關的大數據。通過圖書館大數據總量的不斷積累和增長,實現大數據到知識、知識到科學決策、科學決策到服務保障的轉變,完成圖書館個性化定制服務從量變到質變轉變的過程。
大數據價值的準確發現和完全提取,是關系圖書館大數據思維科學性的又一個重要因素。伴隨云計算技術和數據處理算法效率的不斷提升,圖書館的數據處理和計算能力快速增長,但仍不能滿足圖書館以指數級增長的大數據處理需求。因此,圖書館的大數據思維應放棄對海量數據處理精度的要求,而將關注點放在對大數據價值挖掘的效率和總量上,不斷提升大數據思維的效率、速度和實時性。
3.3數據開放與共享是圖書館大數據思維的必要前提
大數據時代,伴隨用戶服務和讀者閱讀模式多樣性的發展,圖書館的大數據呈現出多源、海量、實時和動態變化的新發展趨勢。圖書館可利用可穿戴閱讀終端、智能網絡、物聯網等,將所有的用戶服務過程相關信息和知識數據化,才能確保圖書館全面、適時感知讀者的閱讀行為和準確判定用戶服務質量。
CUP、內存儲器和電池性能,是制約圖書館大數據移動采集、實時處理和快速存儲有效性的瓶頸因素。隨著科技的發展,圖書館服務設備和讀者閱讀終端的CUP呈現高集成、多核、超高速緩存和散熱性好的特點;內存儲器具有巨量存儲、高速傳輸和體積小等優點,此外,電池能量的效率高轉換、微型、低損耗和持續工作等特性,可支持圖書館移動、高速、動態和不間斷地采集與處理數據。因此,對自身大數據的采集、處理和存儲能力,已不是影響圖書館大數據思維科學性的主要因素。如何實現圖書館不同部門之間、圖書館與相關第三方服務商之間的數據開放和共享,已成為關系圖書館大數據價值總量快速增長和二次增值的重要問題[10]。
蘋果、百度、Facebook、Google、Amazon等公司是世界著名的信息服務與咨詢公司,所擁有的大數據總價值、大數據發現與處理效率、大數據的二次增值能力,是關系這些公司競爭力和未來發展的關鍵因素。圖書館可在保證讀者服務安全性和用戶隱私的前提下,將讀者服務與上述公司的軟硬件產品結合,完成對讀者服務前置產品和海量用戶數據入口的掌控。并通過對海量、異構、持續更新和跨行業的數據共享,實現圖書館大數據的開放、共享、融合和二次增值[11]。
3.4大數據思維應以讀者個性化服務定制為目的
目前,隨著圖書館生產要素組成和數據環境的變化,其思維模式正在從互聯網思維向大數據思維轉型。互聯網環境下,網絡是圖書館服務承載和信息交流的主要載體,圖書館通過互聯網完成讀者閱讀體驗反饋、服務質量評估、CRM(客戶關系管理)和優質客戶群發展等工作。但其有限的數據采集、傳輸、存儲和處理能力,已無法滿足圖書館對海量服務與讀者個體數據的大數據應用。大數據時代,圖書館通過大數據的全面采集、深度挖掘、系統分析和科學決策,實現了對服務和用戶更加全面、詳細和精準的認知,有效保證了讀者閱讀服務更加智慧、精準和個性化。
圖書館大數據思維應以讀者個性化服務定制為目的,就是要求圖書館依靠大數據完成讀者的精準畫像,使圖書館明確讀者是誰?有什么個性化閱讀需求?閱讀社會關系是什么?閱讀模式是什么?閱讀習慣是什么?同時,圖書館還應基于第三方服務商的大數據資源支持,對所定制讀者服務的個性化精準性進行判定和評估,依據讀者個性化需求進行動態的閾值設置與校正。此外,圖書館大數據思維的另一個重要目的,是通過大數據實現對讀者個性化服務未來發展趨勢的科學預測,并依靠預測結果對用戶服務系統進行改進和完善,使服務系統具備自主學習、自我優化、自動分析和自覺決策的智能功能,最終實現圖書館讀者個性化服務定制的智慧感知、智慧管理、智慧服務和智慧決策[12]。
目前,圖書館已進入大數據時代。隨著數據采集技術、云計算與云存儲技術、高速網絡傳輸技術的發展,圖書館的計算、存儲和網絡傳輸性能已不是影響其大數據應用的關鍵因素。圖書館已能夠安全、高效、快速和經濟地,從海量、快速變化、多類型和低價值密度的大數據中發現與挖掘數據價值,為圖書館的管理與決策提供可靠的大數據支持。大數據思維、決策的科學性與可用性,已成為關系圖書館大數據價值發現和科學決策的重要因素。
隨著圖書館大數據應用環境和主要矛盾的轉變,其傳統的計算和思維方式已不適應新型大數據應用的需求,圖書館員應重新構建符合大數據應用實際的思維模式。在大數據新思維模式的構建中,圖書館必須將大數據思維與讀者閱讀服務需求相結合,結合大數據環境變化實際和大數據決策需求,實現樣本數據思維到全體數據思維、精確思維到混雜性思維、因果關系思維到相關關系思維的轉變[13]。同時,大數據思維還應注重讀者的隱私保護,提升讀者對大數據決策和大數據服務的可信度,才能確保圖書館員大數據思維的科學性和精確性,才能構建安全、高效、智慧和低碳的圖書館,才能為讀者提供基于科學大數據思維支撐的個性化智慧閱讀服務。
(來稿時間:2015年12月)
1.(英)維克托 · 邁爾-舍恩伯格,(英)肯尼思 · 庫克耶.大數據時代[M].盛楊燕,周濤, 譯.杭州:浙江人民出版社,2013:17-21
2.高琳.大數據思維與圖書館知識資源發現[J].圖書與情報,2015(1):122-124
3.鄔賀銓.大數據思維[J].科學與社會,2014, 4(1):1-13
4.王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013, 36(6):1125-1138
5.和婷.大數據思維對圖書館信息服務工作的啟示[J].圖書館建設, 2014(1):64-68
6.楊繹.基于文獻計量的“大數據”研究[J].圖書館雜志,2012(9):29-32,37
7.大數據帶來的四種思維[EB/OL]. [2015-11-01].http:// www.techxue.com/techxue-12814-1.html
8. Cox B L, Jantti M H. Capturing Business Intelligence Required for Targeted Marketing, Demonstrating Value, and Driving Process Improvement [J].Library & Information Science Research,2012, 34(4):308-316
9.馮登國,張敏,李昊.大數據安全與隱私保護[J]. 計算機學報, 2014, 37(1):246-258
10. NetApp .Big Data Solutions for Government [EB/OL]. [2015-11-01]. http://www.netapp.com/us/solutions/industry/ government/bigdata.html
11.陳宇新.互聯網思維PK 大數據思維[EB/OL]. [2015-11-02]. http://mt.sohu.com/20140819/n403586440.shtml
12.陳臣.基于大數據的圖書館個性化智慧服務體系構建[J].情報資料工作, 2013(6):75-79
13.(英)維克托·邁爾-舍恩伯格.大數據時代:生活、工作與思維的大變革[M].周濤, 譯. 浙江:浙江人民出版社, 2013:78-83
Change of Library Thinking : From Little Data Thinking to Big Data Thinking
Ma Xiaoting
( School of Information Engineering, Lanzhou university of Finance and Economics )
〕With the development of the internet industry, popularity of smart reading terminals, the era of big data in library has arrived, the era of big data requires big data thinking. Big data make librarian rethink of the value of data, and the pursuit of causality shifts to the pursuit of relevance in problem solving. So the librarian’s thinking must change from little data thinking to big data thinking, to get value from endless data, and can provide satisfactory personalized reading service for readers.
〕Library Big data thinking Change
G250.76
馬曉亭(1974-),女,碩士,副教授,研究方向:大數據、數字圖書館建設。