劉慶悅 楊安蓮
摘要:針對檔案數據概念不清、語意不明的現狀,文章立足于實踐觀點和歸納演繹法,確定了適用于檔案領域的“數據”概念以及“檔案數據”的概念,辨析了檔案數據與檔案信息、數字檔案資源、檔案大數據的區別。最后,基于對檔案數據概念的理解,進一步劃分了檔案數據的類型,歸納了檔案數據的特點。
關鍵詞:檔案數據;檔案管理;數據
分類號:G270.7
一直以來,檔案數據都存在于檔案工作之中。在20世紀90年代,得益于計算機和數據庫技術的普及,檔案數據很早就受到檔案部門關注,成為檔案研究、實踐的主題之一。近年來,由于觀念、方法和技術環境的巨大變革,檔案數據開始從簡單的處理對象轉變為一種基礎性資源,如何更好地管理和利用檔案數據逐漸成為我國檔案領域的焦點話題。但長期以來,檔案數據概念不清、語意不明、混淆使用等問題較大地阻礙了檔案數據研究和實踐進程。因此,立足于歸納演繹法和實踐觀點,本文試圖劃定檔案數據概念,探究檔案數據的分類及特點,以期為檔案數據研究筑牢根基。
1檔案數據研究的興起動因
追本求源,檔案數據研究的興起主要來自外部和內部兩個方向的推動。從外部看,檔案數據是社會發展的產物,探討研究檔案數據是歷史的必然;從內部看,檔案數據是檔案信息化建設的基礎,同數字檔案資源的管理、開發具有密切聯系。無論為順應外部環境發展,還是為做好檔案本職工作,檔案數據研究都是無法回避的基礎性課題。
1.1外部動因
(1)數據爆炸導致大量檔案數據生成
計算機自誕生起就迅速成為社會實踐的重要組成部分。作為計算機世界的基礎,數據大量產生并存儲在計算機系統中,記錄著社會生活的各個方面。作為數據家族的一員,檔案數據隨數據總量的爆炸式增長而增長,逐漸形成巨大的規模。這些檔案數據分布于各類信息管理系統中,利用程度各不相同,但整體上具有很高的價值。探討研究檔案數據,一方面有助于將其納入統一管理,提升檔案工作效率;另一方面也有利于開發利用檔案信息的更多價值。
(2)技術進步推動檔案數據價值挖掘
在我國信息化建設早期,傳統技術無法滿足檔案部門對檔案數據價值的開發需求,檔案數據高價值量與低價值實現間的矛盾長期無法化解。隨著時代的發展,云計算、大數據等技術逐漸成熟,有力地提高了檔案部門的數據處理能力,為高效開發檔案數據價值提供了可能。通過發掘檔案數據價值,檔案部門能夠了解自身業務效率和業務質量,分析檔案利用者的行為特征及需求,并從檔案數據中提煉更多信息、發現更多知識,從而輔助決策,為社會發展提供動力。
(3)社會發展提出檔案數據服務需求
在信息社會,電子政務改革如火如荼,無紙化辦公推行愈發深入,數字人文研究日漸興起,“讓群眾少跑腿,讓數據多跑路”已成為社會的呼聲。在檔案“收管用”的上下游階段及數字化程度越來越高的今天,檔案數據服務能力已不能很好地滿足政府辦公、學術研究等方面的需求。檔案學來源于實踐也最終服務于實踐。面對數字化浪潮席卷社會的現狀,檔案人不得不緊跟時代,研究、接收、管理檔案數據,及時向社會提供檔案數據服務,高效跟進政府、社會的改革與建設需求。
1.2內部動因
(1)數字檔案資源建設亟須探索檔案數據
近年來,面對檔案事業“十三五”規劃的目標要求,全國各級各類檔案館的數字化館藏比例逐年提高,電子化歸檔試點范圍逐漸擴大。有抽樣調查結果顯示,截至2018年,我國已有33.1%的國家綜合檔案館數據存儲量達到了1TB以上。但與此同時,檔案數據內容不完整、格式不規范、標準不統一、運用思路不清晰等問題逐漸顯現,制約了數字檔案資源的管理與開發。面對日益龐大的檔案數據規模,盤點數據資產、理清管理思路、提升數據質量便成為數字檔案資源建設的重要需求之一。
(2)數字檔案資源管理需從數據粒度展開
從傳統檔案資源到數字檔案資源,檔案管理的最小單位已從“件”細化至“數據”。對數字檔案資源的管理最終會落實為對其內容數據、管理數據和利用數據等多類數據的管理。在電子化歸檔試點單位,浙江省衢州市檔案局便用“接收了4萬余條歸檔數據”描述其歸檔接收情況。隨著我國檔案工作“存量數字化,增量電子化”戰略的展開與落實,數字檔案資源進一步深入到檔案實務,檔案數據即將成為未來檔案工作面對的主要對象。
(3)數字檔案資源整合共享要求數據互聯互通
我國一直實行檔案集中統一管理的原則,這是基于歷史實踐的發展需要確定的。數字檔案資源的整合共享是集中統一管理原則的體現,也是未來的發展趨勢。要實現數字檔案資源的整合共享,必須先實現數據層面的互聯互通,解決各單位不清楚收集哪些數據的“數據不可知”,數據質量過低導致的“數據不可控”,用戶無法便捷獲取的“數據不可取”,以及數據與知識關聯較弱的“數據不可聯”等問題。只有數據層面貫通無阻,資源層面才能形成體系,順利保障國家數字檔案資源的整合共享。
2檔案數據的概念
2.1檔案數據概念的既有認知
在檔案領域,“檔案數據”不是一個新興術語。近年來,“檔案數據”一詞頻繁地出現在各類規劃綱要、報告成果中。在文獻調研基礎上,筆者將既有的“檔案數據”指代對象歸納如下:第一,指代數字檔案資源;第二,指代數據庫的管理數據或檔案信息系統的業務流程數據;第三,指代各單位的統計數據;第四,指代網站、論壇、社交媒體等平臺中采集得到的數據??傮w而言,“檔案數據”一詞的指代對象范圍廣泛,在不同的語境中有不同的理解。
在學術界,檔案數據并無公認的概念,僅有于英香教授系統地梳理過“檔案數據”的內涵與外延。她認為:從內涵看,“檔案數據是具備檔案屬性的數據”;從外延看,基于檔案業務,檔案數據在時間角度包含傳統檔案數據和后來產生的新的實時數據,在空間角度包含檔案及在檔案業務活動中產生的數據,在狀態角度包含文檔、數據庫、微博記錄、微信推送以及產生這些數據的軟硬件環境等。然而該研究沒有具體說明應怎樣理解“數據”和“檔案屬性”,這仍可能導致理解上的分歧。
2.2概念演繹:從數據到檔案數據
(1)數據概念的確定
作為檔案數據的上位概念,數據本身具有極為豐富的含義。在詞源上,數據一詞來源于拉丁文dare,是使用測量、記錄等方法,從現象中抽象出來的元素。在哲學界,有學者將數據定義為“兩個符號之間一致性的缺失”;也有學者認為數據是一種人工物,即“數據是被構造的”;還有學者將數據理解為“實在世界的表征”,是描述客觀事物的符號。在人類科技發展歷程中,最后一種理解被廣泛接受。計算機科學即基于這一認識,將數據定義為“所有能被輸入計算機中,且能被計算機處理的符號集合”,它以字節(Byte)為單位,是數據原子、數據項、數據對象和數據集的統稱。同樣基于上述廣為接受的哲學認識,信息管理領域的學者強調數據是信息的基礎,是人類思想和社會活動客觀映射的數字化、序列化、編碼化和結構化。在信息管理領域,數據是“載荷或記錄信息的,按一定規則排列組合的物理符號”。在筆者看來,研究檔案數據的最終目的是將其高效地轉化為信息和知識,實現更大的價值。因此,信息管理領域的數據定義更適于作為檔案數據的基本解釋。綜合考慮檔案研究和實踐面對的對象后,檔案領域應用的數據概念更多地反映為“一組按一定規則排列組合的,用于表達信息的物理符號”。
(2)檔案數據的概念
實踐的觀點是馬克思辯證唯物主義的基本觀點,也是檔案學研究的基本觀點。實踐是認識的目的和歸宿,認識對實踐具有反作用。在檔案領域,檔案數據概念的提出也必須來源于檔案實踐,并有效指導檔案實踐。
近年來,伴隨“檔案數據”一詞的使用,人們對檔案數據有廣義或狹義的理解。在廣義的理解中,檔案數據可視為“與檔案有關的數據”,包括與檔案相關的視頻、語音、程序軟件、聊天記錄等豐富的存在形式,甚至人腦記憶的與檔案相關的數據也屬于檔案數據。這里“有關”的范圍過于寬泛,難以確定并落實。在狹義的理解中,檔案數據可視為“作為檔案的數據”,即檔案數據既是數據又是檔案。這種理解略顯狹隘,不僅與數字檔案資源的內涵重合,還忽略了大量存在于檔案工作中,可被管理和利用的元數據、統計數據、實時數據等數據。總體而言,這兩種理解均不適用于指導檔案實踐。
從實踐的角度,檔案數據概念的確定應緊緊圍繞檔案利用需求和檔案管理工作展開。筆者傾向于將檔案數據理解為“承載檔案信息的數據以及在檔案信息管理利用活動中產生的數據”。由于無法進行大量且復雜的計算,傳統環境中較少將檔案數據用作獨立術語。在當代,檔案數據概念的應用更多地伴生于計算機技術的發展,指向數字環境。
(3)相關概念辨析
在前期檢索和閱讀以“檔案數據”為主題的文獻資料時,筆者發現在實際運用中檔案數據常與檔案信息、數字檔案資源以及檔案大數據等概念混淆。因此,在認清檔案數據概念的基礎上,有必要從理論上進一步梳理上述概念間的關系。
檔案信息是依附于一定載體的人類活動原始信息的集合。由數據和信息的關系演繹得到,檔案數據經解釋可轉化為檔案信息,檔案信息需經過數據化轉變方能存儲和傳輸。數字檔案資源指“辦公自動化條件下形成的,電子文件歸檔后形成的數字檔案資源和檔案館(室)藏傳統載體檔案數字化后形成的數字檔案資源?!彼鼘嶋H包含于檔案數據的概念范疇中,是檔案數據最重要的組成部分。檔案大數據更多地指代一種現象:當檔案數據的數據量、復雜程度以及數據處理要求超出傳統數據的能力范疇時,我們稱之為檔案大數據現象。究其本質,檔案大數據是檔案數據的拓展和延伸。
3檔案數據的分類及特點
根據檔案數據的概念劃定,可以進一步劃分出檔案數據的分類,并歸納出檔案數據的特點。了解這些分類和特點,又能反過來幫助理解檔案數據的概念,指導檔案數據的管理和使用。
3.1檔案數據的分類
檔案數據的分類是對檔案數據概念進行理解的結果,對檔案數據研究及實踐具有宏觀指導意義。筆者結合實際,依據產生檔案數據的活動類型將檔案數據劃分為檔案內容數據、檔案管理數據和檔案利用數據三類。
檔案內容數據承載了檔案中蘊含的信息內容,是在檔案形成單位各項活動中產生的數據。檔案內容數據主要包括傳統檔案數字化后形成的檔案數據、電子環境下形成的檔案數據以及檔案編研時形成的檔案數據。它一般具有最高的真實完整性和較低的結構化程度,反映了檔案形成單位各項活動的歷史事實?,F階段,檔案內容數據主要用作憑證或參考資料,此外還有大量潛在價值未得到開發。
檔案管理數據是由檔案管理及相關活動產生的,面向檔案管理的數據。檔案管理數據多指對檔案信息數據進行收集、鑒定、整理、保管、統計時形成的數據以及檔案行政管理工作時形成的數據。與其他類型檔案數據相比,檔案管理數據結構化程度較高,客觀性較強,較易收集和分析。
檔案利用數據主要由檔案利用活動產生,是面向檔案利用的數據。檔案利用數據不僅包括檔案部門收集的檔案提供利用數據,例如檔案利用者基本信息、檔案借閱時間等,而且也包括檔案利用者發布的利用數據,如檔案利用評論、建議等。檔案利用數據是了解檔案數據需求的重要抓手,其分布較為零散,客觀程度及結構化程度不一。總體而言,檔案部門收集的提供利用數據客觀性更強,結構化程度更高,用戶發表的利用數據主觀性更強,結構化程度較低。
3.2檔案數據的特點
從數據到檔案數據的演繹可以看出,檔案數據首先是一種數據,擁有數據的某些共同特點,如物理性、信息性、共享性。同時,檔案數據的形成環境又為檔案數據賦予了某些特性,例如真實性、完整性、體系性、保密性和高價值性等。具體來看:
(1)真實性
作為社會生活真實可靠的原始記錄,檔案內容數據本身具有毋庸置疑的真實性。同時,檔案管理數據和檔案利用數據是依法依規形成且由組織認可的數據,也具有較高的真實性。因此,與真偽難辨的其他類型數據相比,檔案數據整體上具有較高的真實性。
(2)完整性
檔案內容數據是對社會活動的最全面的記載,檔案管理和檔案利用數據體現了檔案業務活動全程,相對而言集中且完整。
(3)體系性
檔案數據彼此間相互關聯,小則體現了一個單位的業務活動狀況,大則體現了一個時代的人民生產、生活狀況。檔案內容數據是這一體系的主體,時間順序和全宗原則是這一體系的主要秩序。圍繞按全宗分類的檔案內容數據,其管理、利用數據按時間順序依次排列。
(4)保密性
檔案數據中涉密數據比重較大,密級較高,有較強的保密需求。這一點也有別于其他類型數據。
(5)高價值性
一方面,檔案數據具有極高的憑證價值、情報價值和潛在價值,無論是用作查考糾紛時的憑證,還是為學術研究提供相關的參考,又或是根據檔案數據分析結果提出預測或支持決策,檔案數據能夠滿足社會生活的多種利用需求;另一方面,承載了檔案信息的檔案內容數據價值密度較高,且在檔案數據中有較高的占比,這也使檔案數據整體具有了較高的價值。
除上述特點外,檔案數據還具有許多源自其數據本質或源自其形成環境的特點,此處不再逐一列舉。
4結語
新環境、新問題意味著新機遇、新挑戰。數據驅動型研究和實踐已成為新技術環境下當代社會的發展趨勢之一,若想通過數據賦能于檔案工作,就必須深刻透徹地了解檔案數據,高效地管理檔案數據,并盡可能地挖掘其中價值。理清研究檔案數據的必要性和基本概念是這項工作的第一步,有利于檔案工作梳理出更明確的目標和思路,向實現以信息化為核心的檔案管理現代化大步前進。