馬曉亭 李強


[摘要]圖書館已進入大數據時代,大數據的規模性、高速性和數據來源的多樣性,使數據產生不一致和沖突,嚴重影響了圖書館大數據決策的科學性。本文提出了一種圖書館大數據資源質量評估與整體優化的方法,可為用戶提供準確高效的大數據質量評價結果,并能夠大幅度提升圖書館大數據決策的科學性。
[關鍵詞]大數據;圖書館;數據資源;評估;優化
Jim Gray的新摩爾定理認為,大數據時代每隔18個月全球新增信息量是計算機有史以來全部信息量的總和。據國際數據資訊(IDC)公司監測,全球數據量大約每兩年翻一番,預計到2020年,全球將擁有35ZB的數據量,并且85%以上的數據以非結構化或半結構化的形式存在。伴隨云計算、物聯網、大數據等技術的快速發展及其在圖書館服務中的廣泛應用,圖書館的服務模式呈現出復雜、多樣化的發展趨勢,導致圖書館的數據總量與數據環境復雜度快速增長,并呈現出“4V+1C”的大數據特征(分別是數據體量巨大(Volume)、數據類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)和具有較強的復雜性(Complexity),圖書館已進入大數據時代。
當前,圖書館數據除具備大數據的“4V+1C”特征外,還具有數據來源多樣、多維度、突發性、異構性、分布式、動態、實時和不完全等特點,復雜的數據環境在增加大數據處理、分析和科學決策的難度與復雜度同時,也降低了圖書館從數據中發現知識和大數據決策的有效性。例如谷歌公司利用Google搜索日志大數據進行流感監測的方法(Google FlueTrend,GFT,谷歌流感趨勢),在2007-2008年的預測結果雖然與官方最終統計數據的相關性高達97%,但在2011-2012的流感季節,隨著日志數據復雜度的增長和可用性的下降,它的預測結果競比實際值高估了50%;而在2012-2013流感季節中,它預測的結果竟然是美國疾控中心(CDC)最終記錄結果的兩倍。此外,據估算,數據錯誤每年造成美國工業界經濟損失約占GDP的6%,導致98000名患者喪生,大約50%的數據倉庫因數據質量的問題而取消或延遲使用嘲。因此,隨著圖書館大數據總量、復雜度和價值量的快速增長,如何將數據質量管理貫穿于圖書館大數據采集、傳輸、存儲、共享、維護、應用和消亡的生命周期全程,并通過大數據價值的發現、判定、監控、預警和優化流程,不斷提升大數據的準確性、完整性、實時性、價值密度、可控性和可用性,是圖書館全面挖掘大數據價值和提升大數據決策科學性,實現圖書館管理與服務,從館員“經驗決策”向大數據“科學決策”轉變的重要保證。
1關系大數據決策科學性的數據質量問題與數據價值保證
1.1數據噪聲影響了數據決策的正確性
預測專家納特·西爾弗在其著作《信號與噪聲》中分析到:“如果信息的數量以每天250兆億字節的速度增長,則其中有用的信息肯定接近于零。大部分信息都只是噪聲而已,而且噪聲的增長速度要比信號快得多。”由此看來,大數據中的噪聲信號隨著大數據總量的增長而快速增長,且噪聲信號增長的速度要遠大于價值數據增長的速度,并最終會將高價值數據淹沒于噪聲信號中,導致大數據的價值密度和數據決策可用性快速下降,嚴重干擾和影響大數據決策的科學性與準確性。此外,大數據的結構復雜度和數據價值發現的難度也隨著噪聲信號的增長而增長,將導致圖書館數據分析與決策過程中的系統資源損耗、算法復雜度和分析成本快速增長,最終會降低圖書館的大數據決策的可用性和收益率。第三,噪聲數據總量的快速增長會大幅提升圖書館對大數據庫存儲、數據處理和網絡傳輸能力的需求,增加了圖書館數據中心IT基礎設施系統的運營負荷。
1.2大數據的真實性與準確性保證
為了保證大數據決策的科學性與可用性,圖書館通常利用用戶閱讀終端、傳感器、視頻監控設備、監控服務器和第三方共享數據,完成對圖書館IT系統設備運營、讀者個性化服務活動、讀者閱讀行為和圖書館管理等過程的全數據采集。由于圖書館源數據采集設備、采集方法和數據傳輸網絡性能的巨大差異性,導致所采集的大數據中存在著巨大數量的干擾數據、錯誤數據和低價值數據,因此,如何在大數據的采集、傳輸、處理和存儲過程中執行科學的數據質量管理策略,是圖書館提高大數據準確性和決策科學性應重點關注的問題。此外,圖書館大數據具有多源性和結構多樣性的特點,會導致大數據的格式和質量標準不統一,嚴重影響了大數據在處理、分析和決策過程中的可用性,因此,如何通過對大數據的清洗、濾噪和標準化處理等預處理方法檢查數據的準確性與一致性,糾正大數據中的無效值和缺失值,也是圖書館增強大數據真實性、準確性的重要步驟。
1.3大數據的價值因決策對象和方式的不同而動態變化
隨著“互聯網+”時代的到來,圖書館利用互聯網絡和計算機技術完成了讀者——服務器——物體三者的融化,實現了圖書館服務資源的優化和大數據融合,提升了圖書館的服務創新力和讀者個性化服務定制水平。但是,“互聯網+”時代在提升圖書館大數據價值總量和可用性的同時,也使大數據的多源特性、開放性和數據關系復雜度進一步增強,大數據的價值也會隨著圖書館管理和服務決策的對象、方式不同而動態變化。其次,伴隨圖書館大數據總量和數據結構復雜度的增長,大數據中的錯誤、缺失、冗余和不相關數據會嚴重影響大數據決策的效率與準確性,因此,如何依據圖書館大數據決策的對象、方式和目標來采集、處理、分析和應用數據,是關系圖書館大數據決策收益率的重要因素。第三,大數據處理的“1秒定律”表明,大數據決策必須在秒級的時間范圍內分析出結果并傳輸出去,如果超過了這個時間大數據就失去了價值。因此,圖書館如何有效結合大數據生命周期發展規律和數據價值在時間軸上的變化趨勢,實時、快速和動態地進行大數據決策,是提升圖書館大數據決策相關性和時效性的關鍵。
1.4數據的完整性與唯一性保證需求endprint
為了保證大數據的高價值性和可用性,圖書館在大數據采集中通常會采用對數據源進行全數據采集的方法。雖然采集的大數據具有較高的價值總量和決策可用性,但也存在著數據低價值密度和信息維度缺失的問題,會導致大數據結構不完整和數據中的知識難以被挖掘。其次,多來源和多途徑采集大數據的方式,會導致圖書館大數據的結構類型和數據集合的多樣性,數據管理員難以對大數據進行統一的描述、格式規范和標準化編碼。第三,由于大數據采集源的多樣性和采集過程的不間斷性,圖書館采集的大數據中會存在巨量的冗余和重復數據,這不但造成圖書館大數據庫的存儲成本上升和網絡傳輸效率下降,而且還導致大數據的結構復雜、難以識別、以及低時效性和不準確。因此,如何通過科學、高效的大數據重復檢測方法查找重復數據,有效地清除大數據存儲系統中重復的冗余文件和數據塊,對圖書館大數據的完整性與唯一性保證也有著重要的現實意義。
2大數據質量維度的劃分與評估標準的構建
圖書館大數據具有數據體量巨大(Volume)、數據類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)的“4V”特征,并且大數據的“4V”特征隨著數據總量的指數增長而快速增強,致使大數據的質量管理復雜性與難度不斷增長,嚴重影響了圖書館大數據決策的科學性和可用性㈣。大數據質量的管理是一個貫穿于數據規范與標準制定、數據采集與處理、分析與決策、管理與使用、質量評估與反饋優化等大數據生命周期全程的活動,結合大數據生命周期全程中對數據的質量和大數據決策科學性影響的最主要因素,本文設計的圖書館大數據質量維度劃分與數據質量評估流程如圖1所示:
大數據質量主要由大數據的規范與標準化、大數據的表示與可讀性、大數據相關技術的科學性、大數據質量的管理因素等4部分組成。大數據的規范與標準化評估指標由數據的規范性與完整性、真實性與準確性、唯一性、時效性、價值總量與密度、可用性與可控性等組成,是圖書館科學、批量、快速和高效處理與決策大數據的關鍵指標。大數據的表示與可讀性評估指標,與大數據存儲的模式和位置、元數據描述的準確性、數據度量的標準、數據標準化的定義、數據知識表述的可理解性等組成,與所采集的大數據能否易于被解讀、知識發現和決策應用有較強的相關性。大數據應用相關技術的科學性主要涉及數據采集的誤差、網絡傳輸干擾、數據存儲效率、數據融合有效性、分析與決策科學性、噪聲過濾有效性等幾部分組成,這些技術與大數據的采集、去噪、價值挖掘、分析與決策過程有強相關性,這些指標的參數將最終影響大數據價值發現過程的效率、成本、收益率和決策可用性。大數據質量管理的評估指標由數據生命周期管理科學性、管理人員的大數據素養、管理制度的科學性、制度執行的有效性、數據的評估與優化等部分組成,涉及圖書館大數據采集、管理和決策人員素質,以及與大數據質量管理機制相關的制度、流程和措施的評估等內容,是大數據生命周期管理流程科學性、管理措施缺陷發現和效率評估質量保證的關鍵環節。大數據質量維度劃分與數據質量評估標準的制定,應隨著大數據4“v”特征和數據決策需求的變化而動態調整變化,并依據大數據決策科學性和可用性評估結果而反饋優化,才能確保評估過程科學、高效、動態和可用。
3圖書館大數據質量管理與優化的流程
圖書館大數據質量管理涉及大數據的產生、采集、傳輸、處理、存儲、分析、決策和銷毀生命周期全程的多個環節,主要包括數據需求質量控制、數據的定義與規范、集成節點檢查數據質量、大數據的清洗、數據質量的評估、數據質量管理流程的反饋優化控制、大數據決策和數據過期銷毀等流程,不僅涉及對圖書館大數據質量的管理和改善環節,而且還包括與大數據質量保證相關性較大的系統組織、管理流程、質量評估、質量監督等過程的優化。本文設計的基于數據生命周期理論的圖書館大數據質量管理與優化流程如圖2所示。
數據需求管理是圖書館大數據生命周期的起始階段,數據管理員通過對大數據的需求進行預測、描述和分析,明確圖書館大數據定義與規范的標準、方法與步驟。大數據的定義與規范是圖書館依據大數據決策對數據質量的要求,通過數據模型構建、數據標準的定義與更新、數據語義的識別等操作,使圖書館對內外部采集、傳輸、交換和使用的大數據能夠統一標準,確保所有大數據在數據業務屬性、技術屬性和質量管理屬性上具有較高的一致性。集成節點檢查大數據質量是指基于對大數據的準確定義與規范,圖書館通過在數據采集節點、數據傳輸節點、數據存儲節點、大數據存儲庫等,這些與大數據采集、傳輸和交換緊密相關的數據集成點上進行基于抽樣方式的數據質量檢查,來確定途經這些關鍵節點的大數據是否滿足大數據決策對數據質量的區間要求。大數據的清洗是圖書館在相關大數據傳輸、交換和存儲的數據節點上,依據數據節點上大數據質量檢測的結果,通過數據清洗操作來提升大數據的一致性、唯一性、完整性和準確性的過程。數據質量的評估是圖書館對已清洗過的大數據進行質量與可用性評估的過程,評估的標準包括大數據的正確性、實時性、規范性、業務邏輯性、完整性、相關性、重復性和可用性等8個方面的內容,大數據質量的評估應堅持智能、實時、動態和自動化的原則,為大數據的質量管理與控制提供科學的決策依據。大數據質量評估后,評估結果如果滿足圖書館大數據決策對數據質量的要求,則將合格大數據傳輸至大數據分析與決策系統,為圖書館的系統管理、用戶服務和宏觀發展提供科學的數據決策支持,并在數據決策后對過期數據進行銷毀。大數據質量評估結果如果不滿足圖書館大數據決策對數據質量的要求,則依據評估結果明確大數據在數據的正確性、實時性、規范性與可用性等數據質量維度上存在的問題,并通過數據質量評估結果對數據需求質量控制、數據的定義與規范、集成節點上大數據質量的檢查、大數據的清洗等,大數據生命周期相關重要環節的反饋控制、規范和優化,最終提升大數據的價值量和可用性,為圖書館大數據決策提供科學、可靠的大數據質量保證。
4結束語
大數據的質量管理與數據價值保證,是一個關系圖書館大數據可用性和大數據決策科學性的重要問題,與圖書館IT服務系統構建、用戶服務模式變革、讀者個性化服務定制與推送、個性化服務的質量保證等息息相關。因此,在圖書館大數據質量的管理中,我們應將圖書館員、大數據決策需求、數據質量管理的流程和大數據質量保障的相關技術完美結合,依據圖書館大數據決策對數據質量的要求,科學構建大數據的質量監控、管理、評估和優化體系,并將大數據的質量管理融人大數據的需求分析、定義、采集、清洗、處理、決策和銷毀生命周期全程中去,才能確保圖書館大數據安全、高價值、實時和可用,才能為圖書館服務系統構建和讀者個性化服務推送提供科學、可靠的大數據決策支持。endprint