李星照
(北京空間機電研究所,北京 100094)
“互聯網+”是信息技術快速發展的延伸產物,代表著先進互聯網思維,反映現代先進生產關系,成為創新性發展新業態。借助“互聯網+檔案”理念,使航天檔案數據資源更加全面化、數字化、信息化。“這是一次革命”,哈佛量化社會科學研究所主任GaryKing 說:“我們的確正在起航,在龐大的新數據來源的支持下,量化的前進步伐將會踏遍學術、商業和政府領域,沒有一個領域可以不被觸及。”[1]航天檔案也毫不例外,自上古結繩記事到“互聯網+”時代的到來,巨大的數據量給航天檔案帶來了很大的沖擊。本文從數據管理的重要性、數據管理當前問題、數據治理路徑建設三個方面,對航天檔案數據管理和治理予以解構和規劃,為建立數字化檔案室(館)奠定基礎,也為推動檔案數據治理路徑的轉變提供依據。
2008年我國各級國家檔案館共保存檔案1.93 億卷,較上年增加1769萬卷,增幅達10%[2],到2011年各級國家檔案館館藏已達3.3 億卷,而到2019年各級國家檔案館館藏已達到6 億多卷[3]。
由此可看出,隨著“互聯網+”時代到來,檔案數據資源飛速增長,信息技術傳輸及數據快捷存儲使得大量碎片化的數據信息快速產生,大大豐富了傳統館藏檔案的數據資源。
“互聯網+”的最大特點就是能夠連接一切有關數據,使得各行各業都能夠借助互聯網有機融合在一起,進而形成互聯互通的生態系統,這必然會大大提高數據資源的傳遞能力,使得數據資源整合及共享成為可能[4]。在“互聯網+”時代下,借助其中的云計算及大數據技術,縱向地將我國各個階段存儲的航天檔案資源鏈接在一起,并且將整合后的數據資源整合到云檔案中,使得檔案信息資源能夠在不同的區域之間進行自由的結合及交流,使得各個區域的信息交流更加便捷。
“互聯網+”時代背景下,航天檔案數據管理要充分利用信息化這一平臺,為航天檔案數據利用者提供高效便捷的服務。在權限匹配的情況下,能夠讓用戶快速查閱到所需的數據資源信息,并且形成關聯數據的知識網絡,減少用戶的搜索時間,提高檔案數據資源的價值,使得檔案數據資源能夠最大價值地被利用。
航天檔案在建立企業數字檔案室(館)中面臨著數據管理日益嚴峻的挑戰,低質量的數據信息已經成為信息化與業務深度融合過程中的關鍵制約因素。
航天檔案數據管理面臨的主要問題有:1)缺乏數據管理體系的制定;2)缺乏數據管理組織的選定;3)缺乏信息化支持與工具使用;4)缺乏對數據管理與利用的正確認識;4)缺乏數據信息間的關聯性。
具體表現為:1)數據管理思維滯后;2)檔案數字化成果有限;3)檔案數據對科研生產的被利用率不高;4)檔案數據庫質量控制不足。
“互聯網+”的時代是信息化的時代,決策行為將日益基于數據分析,而不是更多地依賴于經驗,甚至直覺。目前,我國航天檔案數據管理工作,仍保留著不少傳統固有思維模式,導致檔案數據以孤立數據和分散鏈接的形式存在,不能將數據的共性和網絡的整體特征隱藏在數據網絡中,因此,要掌握數據就要對數據背后的網絡進行深層次的探析,并且形成嶄新的數據管理思維模式及體系。
“數據管理體系該如何建立”“航天檔案的數據治理路徑是什么”均是航天檔案數據管理需要思考的重要問題,數據治理路徑的科學范式建立絕非易事,需要信息化技術的不斷創新運用,更需要數據管理者思維的快速前進。
近十年,航天各級檔案館的數據資源“光速般”遞增,面對傳統檔案數字化工作,以及具有歸檔價值的音視頻傳統載體潛在的數字化工作,其數量龐大及資金、物力不足的客觀特點,使得航天檔案數字化工作的進程較為緩慢。除上述客觀因素外,造成檔案數字化成果有限的主要原因還有以下兩點:
1.航天檔案數字化工作缺乏重視度
航天集團為科研單位,比起檔案工作更加重視科研生產,而檔案工作以業務完成后的副產品存在,使得航天檔案數字化工作的被重視程度遠遠不夠。
2.航天檔案數字化工作缺乏專業人才
檔案信息化管理專業性較強,業務知識更新快,技術標準升級速度快,對從業人員的技能水平要求較高。我國的檔案管理工作者的專業匹配程度及能力考核程度均有較大差距,也是造成數字化成果有限的重要原因之一。
目前,對于航天檔案數據,在數字文本(圖像)轉換、條目規范、著錄索引、專題數據庫建設等各個方面,與科研生產的配合度和利用率并不高。其問題主要為以下兩點:
1.缺乏檔案數據管理的規范性
檔案管理機構、人員、日常管理等檔案工作缺乏全方位數據化,檔案清點、統計、分析等檔案業務管理工作不夠系統,使得科研人員在數據查全率、查準率和服務效率上得不到很好的使用體驗,成為檔案數據被利用率不高的因素之一。
2.缺乏檔案數據管理的創新意識
檔案部門缺乏推進數據創新性,例如,用戶檢索檔案數據信息時,其檢索行為能否被數據化,并作為向其推送定制化信息服務的數據源,使得檔案數據管理業務成為主動服務業務。類似的想法,均是檔案部門推進數據創新、挖掘檔案數據的價值潛力。但目前檔案數據管理創新意識缺乏,使得檔案數據的智能化程度不夠,亦是檔案數據得不到科研生產高效利用的原因之一。
錢毅[5]認為對于檔案數據庫質量控制,檔案分類理論起著導向作用,有利于在來源單位層次上建立實體數據庫。
航天檔案數據庫存在的質量控制問題,主要表現為:1)檔案數據庫設計規范性缺乏;2)數據錄入準確性不足;3)數據安全性能差;4)數據管理不完善;5)數據轉換成本高等。
數據治理是組織中涉及數據使用的一整套管理行為。基于航天業務特點,需要明確數據治理的重點和涵蓋的數據范圍,本文摒棄了以往以技術路線為主的數據治理實施框架與思路,創新地提出了以提供用戶便捷為目的的數據戰略制定方法。以支撐數據戰略為重點,以是否解決難點作為數據治理的考核標準,以管理部門為主要責任主體,以實際使用用戶為數據評價單位,建立相關數據治理的組織架構與治理實施方法,如圖1。

圖1 數據治理組織戰略架構
檔案數據由產品數據管理系統、生產制造管理系統、工藝管理系統等數據源層經三大治理路徑最終通過數字檔案室(館)的形式表現出來,從而構成檔案數據治理平臺。檔案元數據標準化、數據資源知識化管理和門類治理為檔案數據治理平臺提供體系支撐,實現精準數據基礎服務、數據知識化管理、數據快捷利用等,實現來源于各系統端的數據匯集和融合,實現檔案數據統一管控和精細化管理,讓數據變得業務化、可視化,如圖2。

圖2 數據治理平臺架構
1.提供“數據精準化”的檔案服務
提供準確的檔案數據是推動數據治理的關鍵一步,其中,元數據的管理是提供“數據精準化”的檔案服務的重中之重。元數據在檔案領域的引用緣于檔案學者試圖通過元數據來解決概念來源的現實施行,并將其定義為:電子文件管理元數據,元數據是自始至終地描述文件的背景、內容、結構及其管理的數據。其作用可歸納為以下幾點:1)檢索及確認,主要致力于如何幫助用戶檢索和確認所需的數據資源。2)著錄描述,包括文檔內容、載體、位置與獲取方式、制作與利用方法、相關數據單元方面等。3)數據資源管理,包括:權限管理、資源評鑒、電子簽署等方面的信息。4)資源保護與長期保存,數據元素除對資源進行確認和描述外,往往包括詳細的格式信息、條目信息、轉換方式等內容。5)電子文件的憑證作用,有利補充了電子文件的著錄內容,在一定程度上保證電子文件的長期可讀性。
綜上所述,提供“數據精準化”的檔案服務,須制定符合航天檔案的元數據管理標準,確保元數據的準確性,即保證nb 數據的準確性,也使外來數據得以尋根溯源,此為邁出數據治理的第一步。
2.建立“數據知識化”的管理體系
從國外的檔案數據治理路徑來看,知識圖譜技術或將成為建立航天檔案數據知識化的有效工具之一,它具有強大的語義處理和開放互聯組織能力,米特·辛格(AmitSinghal)認為,知識圖譜就是一張巨大的語義網絡圖,由真實世界中存在的各種實體或概念及其關系構成,節點表示實體或概念,邊則有屬性或關系構成。
航天檔案數據特點為:數據量巨大、類型繁多、組織結構零散等,均對用戶有效獲取信息提出了挑戰。在此背景下,建立知識圖譜正是航天檔案建立“數據知識化”管理體系的所需,以“實體(Entity)-關系(Relationship)-實體(Entity)”構成的知識圖譜結構來描述不同對象(包括屬性)以及它們之間的關系,如圖3。

圖3 知識圖譜示例
知識圖譜應用于航天檔案數據知識化的建設體系中,可采用基礎數據資源庫和檔案知識庫的雙庫設計來實現數據資源平臺的搭建,雙庫協同作業,以基礎數據庫為數據資源,以知識庫為利用數據來源,充分挖掘檔案文件關聯性,提高檔案數據的利用率。
3.打破“數據門類化”的思維模式
我國航天檔案劃分為:文書、經營、會計、科技研究、航天產品等門類,傳統的管理模式是按照門類進行歸檔整理,形成了“數據門類化”的思維模式。
為了解決門類管理造成的困擾,筆者認為,打破門類固有限制,不拘泥于在各自門類中管理檔案,將不同門類的檔案數據建立其關聯關系,在此基礎上做到關聯耦合建設檔案專題數據庫。關聯性原則不單單指關鍵詞,還包括關鍵字對應的檔案信息及信息的存儲位置,包括一個關鍵字或多個關鍵字對應的相似信息,甚至一個關鍵字對應多門類的檔案信息。
本文主要分析航天檔案數據治理路徑方向,在分析的過程中本文提出建立檔案元數據管理標準,提出打破傳統檔案門類管理,建立知識圖譜,建立完善的數據治理平臺,以此提高航天檔案的數據管理,發揮出航天檔案數據資源的最大化價值。