張夏子鈺 周林興

摘要:大數據時代,檔案管理工作對象向數據態轉型,檔案數據質量是檔案數據研究的關鍵課題之一。在解讀檔案數據質量概念內涵的基礎上,依據國內外數據質量標準,劃分檔案數據形式、內容、效用等評估維度,詳細闡述規范性、完整性、準確性、安全性、時效性、可用性等檔案評估指標。提出檔案數據收集和創建集成化、存儲和備份協同化、開發和利用知識化等優化路徑,從而預防和修正檔案數據質量問題,提高檔案數據質量。
關鍵詞:大數據 檔案數據 數據質量
Abstract: In the era of big data, the objects of ar? chive management have been transforming into data so that archival data quality becomes one of the cru? cial issues of archival data research. Based on inter? preting archival data quality, this paper presents three assessment dimensions of archival data quali? ty, which are form, content and utility according to the domestic and international data quality standards, and elaborates six assessment indexes of archival da? ta quality including standardization, completeness, ac? curacy, security, timeliness and usability. Further? more, this paper proposes four suggestions to pre? vent and correct archival data quality problems so as to improve archival data quality, which are integrating archival data resources when collecting and creating archival data, employing several techniques when or? ganizing and keeping archival data, providing archival knowledge services when developing and utilizing ar? chival data.
Keywords: Big data; Archival data; Data quality
人類歷史上從未有哪個時代像今天一樣產生如此海量的數據,數據量正在以前所未有的速度增長,數據表現形式千變萬化,我們已經進入大數據時代。2021年12月,中央網絡安全和信息化委員會印發《“十四五”國家信息化規劃》,對我國“十四五”時期信息化發展做出部署安排,指出大數據在行政管理、社會治理、產業發展等方面的應用潛力。[1]2021年6月,中共中央辦公廳、國務院辦公廳印發《“十四五”全國檔案事業發展規劃》,明確提出“加強檔案資源質量管控”“加快檔案資源數字轉型”“推動檔案全面納入國家大數據戰略”。[2]大數據的真正意義在于大價值。單純數據量的累積不能滿足人們對大數據的期待,只有建立適當的模型,使用合適的技術工具處理大量的數據,發現并利用數據背后的信息,才能實現大數據的全部價值。檔案數據具備檔案的基本屬性和基本價值,[3]與其他數據相比,是更加真實可靠的決策依據。數據質量對決策質量具有決定性作用,[4]檔案數據質量是檔案數據規范管理與有效開發的基礎,[5]所有數據管理的原則都應有助于提高數據質量,[6]需重視檔案數據質量管理。
將“檔案數據質量”分解為“檔案數據”與“數據質量”有助于理解“檔案數據質量”。國內檔案界最初使用“檔案數據”一詞,主要是指根據國家有關標準對檔案進行著錄、標引并錄入檔案計算機檢索系統,轉換成機讀形式的檔案元數據。[7]隨著大數據時代的正式到來,以云計算、人工智能等為代表的新一代信息技術讓檔案界開始關注檔案部門保管和產生的數據資源,[8-10]也促使檔案界思考外部數據是否具有檔案屬性。[11-13]目前檔案數據的概念還沒有形成統一的認識,不同學者從不同角度進行了闡述。[14-16]基于現有研究中對檔案數據的描述,本文認為檔案數據既包括檔案內容數據、檔案目錄數據等與檔案本身直接相關的數據,也包括檔案利用數據等檔案管理過程中積累的數據。此外,網絡行為數據由以新媒體、網頁為來源的各種非結構化數據構成,這類數據超越了檔案學科對檔案數據的固有理解,其管理還沒有被納入檔案部門的職能范疇,但網絡行為信息符合檔案原始記錄的本質屬性,網絡行為數據也屬于檔案數據。GIGO原則(Garbage In Garbage Out)反映出數據質量決定信息質量,即輸入的數據是低質量的,則最終輸出的信息也是無用的。更為完整的思路是,輸入數據的高質量是信息用戶得到高質量信息的必要不充分條件,低質量的數據不可能得到高質量的信息,但受到信息用戶數據素養的影響,利用高質量數據的結果未必就是得到高質量的信息。在大數據視角下,數據質量管理的目的主要是為了應用,因此數據質量的內涵傾向于以結果為導向。[17]數據質量指“在指定條件下使用時,數據的特性滿足明確的和隱含的要求的程度”。[18]
ISO 8000數據質量系列標準填補了ISO 9000質量管理系列標準和數據產品之間的空白,是國際認可的全球性數據質量標準。我國2018年發布的國家標準《信息技術數據質量評價指標》(GB/T 36344—2018)規定了數據質量評價指標的框架,是目前國內最權威的數據質量評價標準。檔案領域還沒有專門的數據質量管理文件,本研究參考ISO 8000、GB/T 36344—2018,根據檔案數據質量的概念內涵,提出檔案數據質量評估框架,從形式、內容和效用三個維度梳理說明檔案數據質量評估指標。檔案數據形式的評估,是指針對檔案數據的外在形式表現對檔案數據質量進行評估;檔案數據內容的評估,是指針對檔案數據本身的具體內容對檔案數據質量進行評估;檔案數據效用的評估,是指針對檔案數據能夠提供利用者使用的程度對檔案數據質量進行評估,具體如表1所示。
(一)檔案數據形式維度
1.規范性。規范性用于評估檔案數據的數據結構、數據格式、數據類型、數據值域等是否符合國內外標準及系統預設方案的各項規定。2009年、2014年、2017年國家檔案局分別發布《文書類電子文件元數據方案》(DA/T 46—2009)、《照片類電子檔案元數據方案》(DA/ T 54—2014)和《錄音錄像類電子檔案元數據方案》(DA/ T 63—2017),規定了電子檔案在檔案管理過程中元數據設計、捕獲、著錄的一般要求,以及電子檔案元數據實體和元數據構成。對復雜的電子檔案元數據的抽取和表達需要面向語義和關聯的規范作為基礎,因而元數據規范普遍采用XML作為其默認描述格式。[19]《檔案關系型數據庫轉換為XML文件的技術規范》(DA/T 57—2014)面向檔案數據對象進行規范管理,旨在實現檔案數據庫記錄格式開放且不依賴軟硬件保存。
2.完整性。完整性用于評估檔案數據是否保持統一整體的狀態,數據實體和數據屬性等是否缺失。數字時代的“新來源觀”突破了檔案來源就是檔案的形成者和形成機構的理解,將來源原則擴展為以形成文件的個人、團體或組織的職能、過程及活動為中心。除檔案內容外,檔案的背景和結構信息也成為檔案不可缺少的部分,完整性對保證檔案真實可信更加具有重要意義。檔案數據語義由遵循一定語法的形式化語言來表達,為保證檔案內容、背景和結構的理解,在檔案管理過程中需要維護檔案數據語義完整。
(二)檔案數據內容維度

1.準確性。準確性用于評估檔案數據是否客觀、真實地反映檔案記錄的事實。準確性是決定檔案數據價值大小的關鍵屬性,如若檔案數據缺乏準確性,檔案將不再能夠作為人類社會實踐的證明,進而失去可信度。檔案數據的準確性不等同于內容的正確性,錯誤信息的產生和傳播也是真實發生的社會實踐活動,應予以記錄。同時,由于混淆人們判斷的信息的存在通常另有目的和意圖,了解錯誤信息的生命周期有助于完整還原真實情況,更加貼近社會現實。檔案數據的準確性既包括收集或創建的原始數據的準確性,也包括經過存儲、傳輸、運行等處理過程的準確性。
2.安全性。安全性用于評估檔案數據內容是否涉及個人隱私和國家秘密,是否采取必要措施確保數據處于有效保護和合法利用的狀態。在數據價值被不斷強調的當下,數據泄露或黑客攻擊等數據安全問題的破壞性也愈發不容輕視。2021年6月通過的《中華人民共和國數據安全法》第二十一條提出:“建立數據分類分級保護制度,根據數據在經濟社會發展中的重要程度,以及一旦遭到篡改、破壞、泄露或者非法獲取、非法利用,對國家安全、公共利益或者個人、組織合法權益造成的危害程度,對數據實行分類分級保護。”檔案數據不僅涉及個人隱私和組織機密,還可能關系到國家秘密和社會穩定,處于整個數據體系中的較高保護級別,有必要設定具有針對性的安全保護制度管理檔案數據。
(三)檔案數據效用維度
1.時效性。時效性用于評估檔案數據是否隨目標資源的使用而及時發生變化。檔案數據在檔案管理業務流程中不是固定不變的,通常要經過多次格式轉換、網絡傳輸、導入導出等操作,在數據更新不及時的情況下,會出現所讀取的數據已被修改而該數據卻沒有得到相對應更新的情況,形成“臟數據”。檔案數據的時效性在時間段上,表現為一定時間范圍內檔案數據記錄數量或頻率分布符合業務需求的程度;在時間點上,表現為基于時間戳的檔案數據記錄數量、頻率分布、響應時間符合業務需求的程度;在時序性上,表現為檔案數據元素之間的相對時序關系。
2.可用性。可用性用于評估檔案數據是否能夠被獲取并被理解。由于政府數據開放的社會需求和大數據的應用,檔案開放成為一種新的檔案治理理念,檔案數據開放成為歷史發展的必然趨勢。我國《“十四五”全國檔案事業發展規劃》提出“檔案開放力度明顯加大”的發展目標,將“加快推進檔案開放”作為“十四五”期間檔案事業發展的主要任務之一。[20]檔案數據開放是檔案機構服務升級的重要舉措,在確保數據集和數據接口的開放種類、開放格式、開放權限具有系統規定的條件下,可考慮開放已經度過封閉期并且不在保密范圍內的檔案數據。同時,檔案數據的組織開發程度直接影響著用戶對數據質量的感受,間接影響數據發揮的作用和產生的結果。
從檔案數據管理流程的角度,可將檔案數據形成產生到價值發揮的過程劃分為檔案數據收集和創建、檔案數據存儲和備份、檔案數據開發和利用等三個階段。檔案數據管理過程中的諸多因素都可能導致數據質量問題,數據質量問題的表現可能具有延遲性。檔案數據質量管理應當貫穿于檔案數據管理流程始終,并在各階段有不同側重。
(一)檔案數據收集和創建:集成化
以是否需要對檔案進行數據化加工為區別,檔案數據資源整合存在收集和創建兩種方式。大數據是一種新的價值觀和方法論,全數據模式要求記錄、儲存和分析的數據從部分樣本擴展到所掌握的全體數據,[21]信息資源管理主體走向多元化。屬于檔案收集范圍的數據,在成為檔案之前,在各種平臺和系統中大量形成和運轉,分散保管在各個部門和機構中,由于管理體制、軟硬件系統、技術標準的差異,部門和行業間數據格式異構、語義異構、系統異構。檔案數據收集和創建要突破單一主體界限,在跨層級、跨系統、跨部門、跨區域間實現資源整合,[22]對數字檔案進行結構化、顆粒化處理,使之成為標準化數據對象。進行集成化預處理能夠打通不同平臺間由于不相互共享數據而形成的孤立狀態,解決多個數據源中字段間的語義差異、結構差異,以及關聯關系、數據冗余等問題。[23]
(二)檔案數據存儲和備份:協同化
檔案數據長期保存是一項專業性強的復雜工作,某種單一的技術不可能完成所有任務,而是需要多種技術和管理措施配合使用。[24]區塊鏈技術集合了分布式數據存儲、點對點傳輸、共識機制、加密算法等多重技術,數據一旦進入區塊鏈,在多個節點的共同監督維護下,被篡改的可能性極大降低,從而能夠保障檔案數據的真實性。云存儲是以數據存儲和管理為核心的云計算系統,對檔案部門來說,云存儲可用作分布式數據備份云庫房;對用戶來說,云存儲是使用整個云存儲系統帶來的一種超越存儲設備實體的數據訪問服務。2021年6月,安徽寶葫蘆信息科技集團股份有限公司依托所承擔的國家檔案局科技計劃項目,研發推出國內首款以區塊鏈為核心技術的檔案一體機。[25]中國石油化工集團有限公司從2017年開始關注到區塊鏈技術對電子檔案真實性保障的優勢,現已基于中國石化云平臺建設,將電子文件通過非結構化存儲中心進行管理,并將電子文件歸檔系統與企業長城鏈同步對接,實現招投標電子文件單套制管理。[26]
(三)檔案數據開發和利用:知識化
大數據環境中的數據質量具有動態性,與應用情境和任務類型密切相關,從數據的客觀屬性向主體感知視角轉換。隨著人們對現代信息技術的深入應用,用戶對檔案服務的期望超越了單向信息傳遞的傳統展覽和“關鍵詞輸入、列表式呈現”的常規檢索。迫切需要進行檔案信息組織,提供檔案知識服務。檔案學界已經開始了檔案數據知識化開發利用的實踐探索。為切實推動口述歷史檔案資源深度開發,構建口述歷史檔案資源知識發現模型,引入南京大學抗戰老兵口述資料中心的數據源進行可視化展示;[27]設計名人檔案知識聚合模式,對名人檔案實現知識關聯聚合,以吳寶康檔案為例實現可視化呈現;[28]珍貴檔案文獻遺產承載民族記憶,針對水書檔案文獻構建本體,并通過知識推理完善水書檔案實例庫。[29]檔案數據是最細粒度的檔案形式,應當梳理檔案數據要素與語義關系,構建檔案知識本體模型,基于關聯數據技術進行檔案知識組織和構建關聯數據集,最終構建檔案知識庫和檔案知識服務平臺,提供知識圖譜、可視化、虛擬現實等檔案知識服務形式。
大數據時代,數據概念日益流行,數據的戰略資源地位凸顯,檔案信息化發展至檔案數據化。數據質量管理貫穿檔案數據管理的整個過程,是質量分析、發現問題、解決問題、質量反饋的不斷反復的過程,尚未有任何一種方法能畢其功于一役。面對技術浪潮,檔案部門應主動作為,提高檔案數據治理能力和治理水平,合理運用現代信息技術為檔案之治引入新范式、創造新工具、構建新模式。
*本文系國家社會科學基金項目“國家大數據戰略背景下檔案數據質量優化控制研究”(項目編號:21BTQ016)的階段性成果。
注釋及參考文獻:
[1]中共中央網絡安全和信息化委員會.“十四五”國家信息化規劃[EB/OL].(2021-12-27[2023-03-01].http://www. cac.gov.cn/2021-12/27/c_1642205314518676.htm.
[2] [20]中共中央辦公廳,國務院辦公廳.中辦國辦印發《“十四五”全國檔案事業發展規劃》[EB/OL].(2021-06-09)[2023-03-01]. https : //www. saac. gov. cn /daj /toutiao/ 202106/ecca2de5bce44a0eb55c890762868683.shtml.
[3] [14]金波,添志鵬.檔案數據內涵與特征探析[J].檔案學通訊,2020(3):4-11.
[4] LEE Y W, PIPINO L L, FUNK J D, et al. Journey to data quality[M]. Cambridge:The MIT Press, 2006:8.
[5]金波,楊鵬.大數據時代檔案數據治理研究[J].檔案學研究,2020(4):29-37.
[6]DAMA國際.DAMA數據管理知識體系指南[M].DA? MA中國分會翻譯組,譯.2版.北京:機械工業出版社,2020:4.
[7]馮惠玲,李華.檔案工作現代化的重大課題——論檔案計算機檢索的數據準備[J].檔案學通訊,1992(1):41-45.
[8]陶水龍.大數據視野下檔案信息化建設的新思考[J].檔案學研究,2017,No.156(3):93-99.
[9]錢毅.數據態環境中數字檔案對象保存問題與策略分析[J].檔案學通訊,2019(4):40-47.
[10]周林興,崔云萍.大數據視域下檔案數據質量控制實現路徑探析[J].檔案學通訊,2022,265(3):39-47.
[11]于英香.檔案大數據研究熱的冷思考[J].檔案學通訊,2015(2):4-8.
[12]鄭金月.關于檔案與大數據關系問題的思辨[J].檔案學研究,2016,153(6):37-40.
[13]何嘉蓀,譚建月.檔案概念再認識——大數據引起的思考[J].檔案與建設,2017(8):4-6;10.
[15]陳雪燕,于英香.從檔案管理走向檔案數據管理:大數據時代下的檔案管理范式轉型[J].山西檔案,2019(5):24-32.
[16]趙生輝,胡瑩.檔案數據基因系統:概念、機理與實踐[J].檔案學研究,2021,178(1):40-48.
[17]孫俐麗,袁勤儉.數據質量研究述評:比較視角[J].農業圖書情報,2019,31(7):4-13.
[18]金波,周楓,楊鵬.檔案數據研究進展與研究題域[J].情報科學,2021,39(11):187-193.
[19]錢毅,馬林青.基于三態視角的檔案描述標準特征及演進脈絡分析[J].檔案學通訊,2021(5):40-48.
[21]邁爾-舍恩伯格,庫克耶.大數據時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:39.
[22]金波,陳堅,李佳男,等.大數據時代檔案數據資源整合探究[J].檔案與建設,2022,405(9):18-23.
[23]孟鈺瀟,周西平.基于數據生命周期的公安情報數據治理方法[J].情報探索,2021(10):33-40.
[24]劉越男,吳云鵬.基于區塊鏈的數字檔案長期保存:既有探索及未來發展[J].檔案學通訊,2018(6):44-53.
[25]王春艷.區塊鏈智慧檔案一體機發布會在北京舉行[N/ OL].中國檔案報,2021- 06- 24(2) [2023- 3- 10].http:// www. zgdazxw. com. cn / news / 2021- 06/25/content_ 322284.htm.
[26]戰立秋.物資裝備招投標電子檔案國家試點項目通過驗收[N/OL].中國石化報,2022-08-05(1)[2023-03-10]. http://enews.sinopecnews.com.cn/zgshb/html/2022-08/ 05/node_2.htm.
[27]鄧君,王阮.數字人文視域下口述歷史檔案資源知識發現模型構建[J].檔案學研究,2022,184(1):110-116.
[28]牛力,展超凡,高晨翔,等.人物事件導向的多模態檔案資源知識聚合模式研究[J].檔案學通訊,2021,260(4):36-44.
[29]張偉民,宋雪雁,邢閣.水書檔案文獻遺產本體構建與知識推理研究[J].蘭臺世界,2022(12):31-36.
作者單位:1.武漢大學信息管理學院2.武漢大學圖書情報國家級實驗教學示范中心3.上海大學文化遺產與信息管理學院