何思源
(1.中國人民大學信息資源管理學院 北京 100872;2.中國人民大學電子文件管理研究中心 北京 100872)
數據管理使檔案事業面臨的生態環境、管理對象和工作內容發生巨大變革,業務數據化催生海量數據,要求檔案部門參與數據管理,確保對國家和社會有保存價值的數據符合檔案管理要求。同時,檔案部門作為信息機構一員,長期積累的檔案化管理經驗能夠為建立健全數據管理體系提供支撐,通過參與數據管理為數據社會貢獻檔案力量,提高檔案事業在經濟社會中的貢獻度。參與數據管理是檔案部門釋放價值、順勢而為的重要選擇。在此背景下,各級檔案事業發展規劃明確提出推動檔案納入大數據戰略,檔案部門如何參與數據管理已成為亟待解決的現實問題。
目前,已有學者[1-3]梳理檔案與數據相關領域的研究進展,但存在一定局限,無法勾勒出檔案參與數據管理相關研究的整體面貌,一是多聚焦檔案部門內檔案數據的管理與治理,側重“引進來”(即數據管理理論與方法在檔案領域的應用),較少關注“走出去”的問題;二是較少涉及英文文獻。因此,本研究將通過系統性文獻綜述梳理國內外檔案參與數據管理相關研究,總結檔案部門參與數據管理的角色定位及路徑方法,批判分析當前研究的局限和不足,展望未來研究趨勢。
本研究采用系統性文獻綜述探究檔案部門參與數據管理的角色定位及路徑方法。首先是文獻檢索;其次,根據研究問題及檢索得到的文獻確定篩選標準(表1),并進行篩選和去重;最后,通過引文追蹤及研究者日常積累進行文獻補充,得到104篇文獻,如圖1。在此基礎上,逐篇閱讀文獻,對相關文獻的核心觀點進行標記,并進行歸納總結。

圖1 文獻檢索策略

表1 文獻篩選標準
2.1.1 基本邏輯
檔案部門的核心職責是檔案收集、整理、保管和提供利用。對國家和社會有保存價值的數據屬于檔案,需要歸檔,因此,立足本職工作,基于現行檔案管理模式,檔案部門可作為接收者參與數據管理(圖2)。在此場景中,檔案部門通常被視作資源的保管者和守護者,符合人們對檔案部門最傳統和最經典的形象認知,檔案部門通過歸檔架起數據生命周期和檔案生命周期溝通的橋梁,在歸檔環節介入數據管理,強調數據從形成部門流向檔案部門。需說明的是,在檔案學文獻中,尤其是數據歸檔語境中,“數據”通常是指以數據庫等形式存在的結構化數據,因此接下來主要關注結構化數據歸檔的相關研究。

圖2 檔案部門作為接收者參與數據管理的基本邏輯
2.1.2 歸檔范圍
在數據歸檔過程中,檔案部門首先要明確歸檔范圍,清晰界定管理對象。首先,就單份檔案而言,需在理解數據結構的基礎上,明確檔案構成要素,建立識別歸檔對象、確定歸檔單元的方法論體系。一種觀點傾向于從數據形成角度出發,將數據視作數據采集等數據形成活動的產物,從整體上將數據庫、數據體作為歸檔單元進行鑒定、歸檔[4];另一種觀點傾向于從數據利用角度出發,將數據視作查詢訪問等數據利用活動的產物,將呈現在用戶面前的視圖等數據對象作為歸檔單元[5]。以溫哥華市地理信息系統為例,檔案既可以是整個地理信息數據庫,也可以是用戶創建的特定地圖視圖[6]。有學者綜合上述兩種視角,提出更為靈活的“檔案數據體”概念,即因系統管理需要而經檔案化組織聚集在一起的數據集合[7],在物理層面(數據形成視角)是易于系統管理的數據,在邏輯層面(數據利用視角)是可識別的檔案。
其次,就檔案集合而言,需要明確哪些數據具有歸檔保存價值。一種觀點是從職能角度出發,采用基于職能的業務流程分析方法制定數據歸檔范圍和保管期限表[8]。一種觀點是從信息系統出發,按照信息系統梳理所有數據,制定歸檔范圍和保管期限表[9],中石油據此將信息系統分為生產運行類、連續監測類、經營管理類和綜合管理類,每類系統有不同類型的數據,對應不同的歸檔范圍[10]。綜上,檔案部門可以探索“職能—系統—數據”三要素聯動的歸檔范圍識別方法[7]。
2.1.3 歸檔思路
數據歸檔思路主要有物理歸檔和邏輯歸檔。其中,物理歸檔是“根本之道”,邏輯歸檔是新技術環境下的妥協性選擇、過渡性方案[11]。目前,具有實際可操作性的成果集中在物理歸檔,主要有技術典藏、留存快照、降維歸檔、數據交換等4種思路(見表2)。對結構化數據歸檔而言,重要的不是保存數據的外觀,而是維護數據再現的能力,無論采用何種思路,都要考慮語義保存的問題,關注規則、模型、算法等數據所依賴的語義邏輯[12],在保存數據本身的同時保存數據的相關文檔(如布局、代碼、算法等),并用元數據及說明文檔對數據進行描述[12-15],確保數據能在未來按照既定的邏輯再現。

表2 結構化數據物理歸檔的方法
2.2.1 基本邏輯
后保管時代,檔案部門的角色不僅是保管者,也是指導者。作為指導者,檔案部門應立足檔案理論、方法與工具,為解決數據管理問題提供指導和協助。可為數據管理提供支持的檔案理論、方法與工具主要有來源原則、價值鑒定、連續性管理、長期保存等理論與方法及分類方案、案卷登記冊及目錄等檔案管控工具。針對數據管理的核心目標,檔案理論、方法與工具主要解決兩類數據問題(如圖3)。一類是基礎問題——數據范圍把控,關注當前應留存哪些數據供未來利用,哪些數據可以開放共享。檔案部門長期關注價值鑒定,在評估數據價值方面積累了豐富經驗,且具有分類方案、數據目錄等一系列管控工具,對數據范圍把控具有借鑒意義。一類是核心問題——數據質量管控。采用來源原則,通過分類方案呈現有機聯系,通過元數據捕獲背景信息,能為數據提供更多的解釋性信息,構建可信數據;采用連續性管理,通過前端控制和全程管理,將質量要求前置到數據形成乃至系統設計階段,能實現數據質量源頭治理;采用遷移、仿真、封裝、格式登記等長期保存策略,能確保數據在未來持續可用。

圖3 檔案部門作為指導者參與數據管理的基本邏輯
2.2.2 檔案部門作為指導者參與科學數據管理
首先,隨著時間推移,科學數據的價值存在巨大差異[21],考慮到成本收益和利用效率[22],永久保存持續增長的所有科學數據并不現實,檔案工作者可憑借檔案價值鑒定專業知識,為科學數據價值評估提供基本框架[21,23],尤其是關于第二價值的培訓和指導[23]。根據檔案價值鑒定的來源標準、內容標準、形式特征標準、相對價值標準、效益標準等[23,24],可從數據來源和背景的重要性、收益(數據的科學價值、歷史價值、經濟價值及數據重用的可能性)、成本(包括處理成本、保存成本、替代成本等)、數據質量(準確可靠性、非冗余性、完整性、可用性、獨特性等)、相對性(與保管機構任務的相關性、與館藏數據的互補性)、法律道德限制等方面進行科學數據價值評估[23-25]。
其次,檔案工作者可借助來源原則、連續性管理、長期保存等方面的經驗提高科學數據質量,促進數據重用。來源原則要求維護科學數據的背景信息和有機聯系。Kathleen Fear等學者的實證研究表明,結合科學數據倉儲中提供的其他信息及科研人員的經驗和先驗知識,來源信息及檔案聯(archival bond)能夠幫助科研人員確定數據可信度[26]。一方面,需要充分記錄數據的形成環境、處理過程、質量控制措施等背景信息[27],并通過高質量的元數據及說明文檔呈現[28-29];另一方面,需要維護科學數據之間的有機聯系,按照業務來源對科學數據進行分類整理[22],同時也要維護科學數據與其他科研文件材料(如標本、出版物)之間的有機聯系[26]。連續性管理要求提前謀劃科學數據管理。由于數據生命周期每個階段所采取的行動都具有累積效應,因此檔案工作者需要理解數據生命周期,將鑒定、記錄背景信息等實踐活動前置到數據生命周期早期階段[27]。長期保存要求數據形成者采取合適的存儲和保存策略,檔案工作者可為科研人員提供存儲庫選擇建議及數據管護最佳實踐[23]。
2.2.3 檔案部門作為指導者參與開放政府數據
首先,在開放政府數據運動中,政府需要清楚自己掌握哪些數據,并有效檢索這些數據[30],檔案部門可憑借其管理工具和經驗輔助開放數據集的定位和挑選。基于分類方案和登記冊,可從整體上把握組織機構的職能、活動、形成者、文件及構成文件的數據,結合應用程序目錄、個人數據案卷登記冊等其他管理工具,依據價值鑒定經驗,可解決組織機構有哪些數據、數據在哪、哪些數據可以開放、哪些敏感數據不能開放等問題[31-32]。
其次,可靠的高質量文件是開放政府數據的基礎。從來源原則的角度來看,背景信息維護是確保數據可追溯、真實可靠的核心要素[30]。因此,關于開放數據集的描述必須準確、清晰、精確,檔案領域的方法可提供關于數據集內容及來源、生成數據的法律依據、數據提取限制等方面的描述[31],確保數據集可追溯至原始可靠的數據源[33],實現數據可信。從連續性管理的角度來看,只有在數據形成時進行管控才能有效保障數據質量,如果事后管理,數據質量將變得復雜[31]。因此,檔案工作者需考慮數據全生命周期,在全程管理框架下及時參與數據管理[34],可指導系統設計者和數據形成者通過良好的元數據和互操作的系統實現數據的捕獲和管理[35]。從長期保存的角度來看,檔案工作者可以介入開放數據產品的管理和保存[31-32],為開放數據的長期歸檔保存提供建議,確保這些數據在未來仍然可用、可分析。
2.3.1 基本邏輯
20世紀80年代,有學者率先提出檔案管理與數據管理協同的理念[36],但并未引起廣泛關注,直至近些年,獨立于檔案管理體系的數據管理體系興起,檔案管理與數據管理的邊界出現交匯和沖突,檔案部門與數據部門協同開展數據管理的問題才漸漸得到重視(如圖4)。

圖4 檔案部門作為協同者參與數據管理的基本邏輯
從歷史維度看,檔案管理與數據管理同根同源,有著共同的歷史烙印[37]。從理論維度看,檔案管理與數據管理的核心概念與話語體系在底層邏輯上共通[38],具備協同基礎與合作空間。雖然檔案與數據的概念紛繁復雜、角度各異,但二者始終存在緊密聯系[36,39];而且檔案管理與數據管理在目標理念、管理流程、質量要求等方面[37,39-42]也具有一致性。從現實維度看,檔案管理和數據管理在體制、制度、業務、行業組織及從業人員的教育背景、技能、技術與工具等方面呈現相對割裂的狀態[11,36,39,42-43]。這種現象帶來一系列現實問題,包括業務要求沖突[37,41];檔案部門與數據部門的管理重疊與管理真空并存,信息資產存在流失風險[39];資源重復投入與配置失衡,沖擊較為弱勢的檔案管理體系[37,39,41];阻礙信息資源統一發現與共享利用[39]。
協同既有其歷史與理論根基,也有其現實必然性。有學者在檔案管理與數據管理的協同方面展開探索性、框架性研究,提出囊括共同問題、制度、主體、業務、資源、服務、系統等內容的協同框架[42,44],據此系統考察了國內外科研檔案和科學數據協同治理的實踐現狀[45],明確了檔案部門作為協同者參與數據管理的基本要素。由于現有文獻主要關注主體、制度、業務等方面的協同,接下來主要圍繞這三個方面作進一步分析。
2.3.2 主體協同
主體協同關注責任主體間協同關系的建立與維護。在實際協同過程中,受制于認知、體制、制度、能力等因素,檔案部門與數據部門在協同意愿、職能關系、溝通聯系、協同內容等方面存在問題[46]。為解決這些問題,首先,需要建立協同治理組織架構。理想狀態是建立信息資源(包括檔案和數據)綜合治理機制[45,47],但更現實的方式是將檔案部門納入數據議事協調機制[47-48],或將數據部門納入檔案議事協調機制[48-49]。其次,需要靈活選擇一體式、委托式、業務集成式、資源交換式等具體協作模式[44]。再次,利益主體不可避免地存在矛盾沖突,在目標、預期、術語等方面[42,50]存在差異,所以相互理解[50]和利益均衡[46]尤為重要。最后,需要關注外部環境,注重產學研用深度合作,構建共生演化的良性協同治理生態[11]。
此外,實現主體協同還需要厘清職責邊界。第一種情況是檔案局、檔案館和大數據管理機構的協同。數據管理側重數據共享利用等現實需求,具有應用導向,關注數據內容及所含信息的現行和經濟價值[40,51];檔案管理側重高價值信息的鑒定與保存[40],注重維護數據的原始性及業務憑證/證據與文化/記憶/歷史等方面的價值[40,52]。因此,檔案局和檔案館需要將管理重心置于業務數據和文化數據治理[49]。第二種情況是組織機構內設檔案部門(如檔案室)和數據部門(如數據中心)的協同。考慮到檔案管理側重非結構化數據、數據管理側重結構化數據的現實[36,53],可將文檔與內容管理作為立足點,將檔案部門定位為非結構化數據、歷史數據和憑證性數據的管理部門,將檔案管理系統定位為非結構化數據管理平臺,將檔案工作者定位為“內容管事”[42,49]。
2.3.3 制度協同
制度協同涉及法律法規和制度規范兩個層面。在法律法規層面,王玉玨等[48,51]和陳怡[54]基于我國立法現實,對比分析《網絡安全法》《數據安全法》《個人信息保護法》等數據法律與《檔案法》等檔案法律在規制對象、責任主體、管理環節等方面的異同,發現二者在歸檔、長期保存、分級分類、跨境流動、數據保護等方面存在銜接不暢的問題,并提出針對性對策。
在制度規范層面,統一的政策、策略和程序是避免沖突的必要舉措[52],檔案和數據制度規范需要強化相互銜接、參照和映射,為解決共性問題提供具體方法[44]。從內容層面來看,制度協同包括政策合作、政策協調和政策整合三個階段,政策合作側重單項制度標準的合作,政策協調側重多項制度之間的關聯,政策整合旨在產出一體化制度體系[42]。從形式層面來看,制度協同的理想狀態是內容層面的相互包含,次之是形式上的相互引用,若上述兩點均無法實現,制度制定主體需要提供檔案和數據制度規范如何保持一致的指導說明[32]。
2.3.4 業務協同
業務協同是指站在全局視角管理檔案和數據,整合被視為不同領域的檔案管理和數據管理,采取措施融合二者所用工具和技術[36],在分析異同、找準協同點的基礎上實現共贏[55]。
首先是收集階段的協同,需重點考慮三個方面:一是收集范圍的協同。檔案部門和數據部門應聯動梳理各自的資源管轄范圍,盡可能避免數據資源的重復或流失[42,55]。二是收集方式的協同。對檔案部門而言是物理歸檔的數據,對數據部門而言就是邏輯歸檔;反之亦然[55]。三是收集流程和要求的協同。從優化工作流的角度出發,檔案部門和數據部門可將數據收集流程合并[56],并在整體框架下共同進行數據質量管控,維護數據的可知、可用和可控[40]。
其次是管理階段的協同,需重點考慮兩個方面:一是分類協同。檔案部門和數據部門可以共同構建基于職能的檔案和數據一體化分類體系[42],或結合來源與事由等不同分類原則,對檔案與數據進行統一多維分類[45]。二是著錄(元數據)協同。檔案部門和數據部門在多級著錄、多實體著錄、受控詞表的使用等方面存在共性[49,57-58],能為相互協作、資源整合奠定基礎。例如,《信息技術 數據溯源描述模型》(GB∕T 34945-2017)中的數據、活動、執行主體等實體,與《信息與文獻 文件管理流程 文件元數據》(ISO 23081-1:2017)中的文件、業務、責任者等實體基本一致。
再次是保存階段的協同。一是長期保存協同。檔案部門與數據部門需在長期保存目標、制度規范、策略與方法等方面實現優勢互補[42],在安全存儲領域建立數據互備份機制,提升數據安全管理效能[56]。二是處置協同。雙方需要分析檔案保管期限表與數據更新/刪除/退役周期的關系[36],據此構建協調一致的處置標準,確保同一業務對象的檔案保管期限等于或高于數據保管期限[42]。
當前研究內容較為豐富,對接收者、指導者和協同者等場景下檔案部門參與數據管理的路徑方法進行了有益的探討,但仍然存在一定局限,需要進一步拓展完善。
關于接收者的相關研究,主要存在3點局限:一是結構化數據的歸檔對象仍較為模糊。采用數據形成和數據利用的不同視角可能產生關于歸檔對象的不同認知。當前研究提出的“檔案數據體”[7]是與數據環境相適應且具有靈活性的概念,但究竟如何在數據驅動的業務系統中識別“檔案數據體”、如何應用“檔案數據體”這一概念,并不清晰。二是當前研究提出的物理歸檔方法普遍存在成本過高、語義缺失等問題,尤其是長期保存和方便利用之間存在突出矛盾,歸檔后的開發利用尚未得到解決。三是邏輯歸檔的實現機理和路徑方法尚未明確。與世紀之交的集中與分布保管模式之爭類似,不能僅停留在何種歸檔思路更科學合理的層面,而是要結合實際情況明確在何種情況下采用何種歸檔思路。就邏輯歸檔而言,亟需解決基于元數據的統一目錄、檔案化管理要求、檔案實體和管理權分離情況下檔案部門的監督保障機制等。因此,需要進一步研究如何在高度結構化、集成化的數據環境中識別歸檔對象、界定檔案構成要素,探究憑證性維護、語義保存和開發利用之間的平衡機制,在收集更多實證數據的基礎上深入探索邏輯歸檔的應用理論與實踐方案。
關于指導者的相關研究,主要存在2點局限:一是雖然論證了檔案部門作為指導者參與數據管理的潛在可能性和必要性,但并未深入探索如何實現及實現效果等應用層面的問題。理想與現實之間不可避免地存在落差。例如,Elizabeth Shepherd等學者基于《國際檔案著錄規則(總則)》[ISAD(G)],延續其多級著錄的特點,重點對系列級、案卷級的著錄項進行擴展和優化,形成目前已知、唯一的基于檔案著錄標準的結構化數據集著錄標準[59],并曾應用于隸屬于英國國家檔案館的國家數據集數字檔案館(National Digital Archive of Datasets,NDAD),但NDAD已于2010年停用,且英國國家檔案館沒有繼續采用基于ISAD(G)的數據集著錄標準[57]。該案例表明檔案理論、方法與工具應用于數據環境可能面臨各種現實問題、挑戰和阻力。二是在多數指導者相關研究中,研究者面臨(或預設)的場景是,數據形成部門面臨數據管理相關難題,在沒有數據部門的情況下,檔案部門以其積累的經驗輔助形成部門進行數據管理,側重形成部門和檔案部門的交互。但現實中可能會存在數據部門、圖書館、IT部門、信息中心等其他指導者角色,當前研究較少探討不同的指導者角色之間的關系以及如何處理這種關系。因此,需要進行深入的識別和分析,研究檔案部門如何指導數據管理活動,尤其是當數據管理涉及多種指導者角色時,需進一步探索如何處理檔案部門的指導者角色與其他指導者角色的關系、如何實現不同指導者角色的合作與協調等問題。
關于協同者的相關研究,主要存在3點局限:一是研究重心在主體和制度要素,資源、服務、技術等要素的協同受到的關注較少。檔案部門作為協同者參與數據管理的研究仍處于起步階段,但隨著研究的深入,需逐步探索其他要素的協同。二是業務協同的研究深度不夠。業務要素在協同要素中居于核心位置,雖然當前研究探討了業務協同的方向性和原則性內容,但尚未深入管理生命周期、質量管控、分類、元數據、存儲與保存等方面的具體協同與融通策略。此外,檔案資源與數據資源匯聚整合的方式方法、檔案與數據融合應用的成效及價值規律等內容也都有待深入的實證研究和理論提煉。三是缺乏利益相關者視角下協同意愿和動機研究。當前研究對協同動因的分析多站在國家宏觀層面或檔案部門的角度,缺少數據部門的視角,而實踐中的協同需要多主體配合。研究表明,從數據部門的視角來看,協同能給數據管理帶來什么并不明確,數據部門參與協同管理的動機和意愿不如檔案部門[55]。因此,需要在主體、制度等要素協同的基礎上,以業務協同為軸心,兼顧資源、服務、技術等其他要素,統籌考慮檔案部門與數據部門的利益訴求,考察數據部門等其他利益相關者的協同態度和意愿,為檔案部門作為協同者參與數據管理提出更務實的針對性策略。
檔案與數據、檔案管理與數據管理有著天然聯系。檔案參與數據管理已經引起一些國家檔案館的關注。美國國家檔案與文件署發布的《機構首席數據官與文件管理項目的協調》指出“以前認為文件管理和數據管理是不同領域……現在應將其視為相關領域,并在機構信息管理框架內進行協作、互惠和更緊密的整合”[60]。檔案工作者和文件管理者在實際工作中推動數據管理并非新鮮事,檔案領域可以為數據管理提供有用的建議[61]。如馮惠玲教授所言,“文件和檔案管理是數據管理中具有特殊使命、特殊功能的重要方面軍,我們必須理直氣壯地以‘在其中’的姿態證明自身的意義和價值”[62]。未來需要結合檔案部門的接收者、指導者、協同者等角色定位展開持續深入的研究,在數據社會發出檔案聲音、貢獻檔案力量。