王居一
摘? 要:本文認為檔案數據不具備多維度、完整性和實時性,將大量檔案數據稱之為檔案大數據是不準確的,甚至是錯誤的。大數據時代,檔案數據不能缺位,要使檔案數據成為真正意義上的大數據,就應改變不能適應時代的固有模式與方法,積極主動融合到社會大數據之中。
關鍵詞:大數據;特征;檔案;檔案大數據;誤區
Abstract: This article believes that archive data does not have multi-dimensionality, completeness and real-time. It is inaccurate or even wrong to call a large amount of archive data as big archive data. In the era of big data, archival data cannot be absent. To make archival data into big data in the true sense, it is necessary to change the inherent patterns and methods that cannot adapt to the times and actively integrate it into social big data.
Keywords: Big data; Characteristics; Archives; Archive big data; Misunderstanding
大數據研究是當今檔案界最熱門的研究內容之一。自2003年第一篇有關檔案大數據論文問世后,據從知網文獻數據庫中檢索統計,至今主題為“檔案大數據”的已有2436篇相關研究成果發表,18年間翻了超過11番。對這2436篇文獻再使用“檔案大數據”在題名中檢索得到64篇,僅占2.63%;如果對這2436篇文獻使用“檔案大數據”在全文中進行檢索就有549篇,占22.54%。就是說有1/5以上的作者將檔案數據視為大數據。這表明,有相當一部分研究者將檔案數據視為大數據,或者等同于大數據。如,鄭金月認為:“從大數據的本質分析,檔案數據無疑也是大數據”,“檔案數據最符合大數據本質的真諦。”[1]秦利認為:“大數據就是檔案”[2]而這種認知是不準確的,本文就此作一些探討。
1 大數據的四個特征
對于大數據,目前并沒有統一的定義,而對于大數據的特征,“當前,較為統一的認識是大數據有四個基本特征:數據規模大(Volume) ,數據種類多(Variety) ,數據要求處理速度快(Velocity) ,數據價值密度低(Value) ,即所謂的四V特性。”[3]對于大數據的這四個特征,檔案界應當在數量、維度、完整、實時等四個方面進行理解。
第一,數據量大。至于數據量多大才合適,從置信度的意義上看,數據至少要大到讓統計結果具有非常高的置信度。
第二,多維度。多維度至少包括兩個方面,一是數據類型多。不僅有通常事先定義好的結構化數據,也有非結構化的數據,而且非結構化的數據量更多。二是數據內容種類多。如政府部門有政務信息數據、業務信息數據、政務媒體(網站、微博、公眾號等)信息數據、內部管理信息數據、其他類信息數據等。
第三,完整性。這是對“數據價值密度低”特征的檔案話語解讀。所謂“數據價值密度低”,是“從大數據整體角度出發,為了保證數據信息的完整性,計算機會將數據的關聯內容進行存儲,導致很多價值不高的信息被納入處理范圍,直接降低了數據的整體價值,造成數據信息的價值密度降低。”[4]從檔案的角度看,只有數據完整,才能反映事物的細枝末節,反映事物的真相。過去,在小數據和數據不易獲得的年代,只能采用抽樣的辦法來獲取,根本不可能做到完整,所以只能忽略。但只要是抽樣統計,就有小概率事件覆蓋不到,如果發生的事情正好落在那被忽略小概率事件上,那些不完整的數據就失去了作用。雖然,大數據的量大帶來大量可能沒有價值的信息,造成了數據價值密度低,但是,也應當看到,由于數據的完整,也使得不會讓任何一條有價值的信息漏掉。
最后,實時性。大數據的價值就在于實時性,“數據不是靜止不動的,而是在互聯網絡中不斷流動,且通常這樣的數據價值是隨著時間推移而迅速降低,如果數據尚未得到有效的處理,就失去了價值,大量的數據就沒有意義。”[5]要做到實時性,就必須對數據進行快速處理,這就是“數據要求處理速度快”。“大數據要求數據在線開放,能實現實時動態數據處理,不在線的、不能實時處理的數據不屬于大數據。”[6]
2 檔案數據特征分析
檔案數據是不是大數據呢?對照大數據的四個特征逐條分析一下。
第一,關于數據量大。究竟多大的數據量算是大數據呢?“根據IDC 的定義至少要有超過100TB 的可供分析的數據”[7]才能算是大數據。那么,就某一個檔案室或者某一個檔案館保存的檔案數據達沒有達到這一數據規模呢?據統計,2017年,“全國數字化檔案資源達2243萬GB”,[8]當年,全國共有各級各類檔案館4210個,[9]另據粗略統計,各省、自治區、直轄市直屬機關檔案機構95000個左右(2013年為95362個[10])。這樣,平均每個檔案館(室)有數字化檔案只有226GB,而100TB=102400GB,即每個檔案館(室)的檔案數據量離大數據的最低可供分析的數據量還差400多倍。可以說,從數據量來說,檔案數據離大數據還是有相當大的距離。
第二,關于多維度。以環境大數據為例,“從數據種類來看,環境大數據涉及部門政務信息、環境質量數據(大氣、水、土壤、輻射、聲、氣象等)、污染排放數據(污染源基本信息、污染源監測、總量控制等各項環境監管信息)、個人活動信息(個人用水量、用電量、廢棄物產生量等)等。各級政府部門、社會公眾、媒體、環保NGO 等都是可能的披露主體。它不僅包括關于事物物理、化學、生物等性質和狀態的基本測量值,即可用二維表結構進行邏輯表示的結構數據,也包括了隨著互聯網、移動互聯網與傳感器飛速發展涌現的各種文檔、圖片、音頻、視頻、地理位置信息等半結構化和非結構化數據。”[11]大多數環保機構檔案室很難將這些數據收集齊全。就目前,各單位檔案室說是綜合檔案室,其實都很難做到綜合。