李春偉
摘要:企業在業務系統立項建設時,大多沒有考慮歸檔需求,面對數量眾多、部署各異、功能復雜的各類業務系統,歸檔接口開發和運維面臨較大的技術困難、成本壓力。通過建立規范、統一的通用歸檔接口方案,統一歸檔接口建設標準,可以有效降低業務系統歸檔接口開發難度與開發成本,促進企業數字檔案館(室)建設。
關鍵詞:數字檔案館(室) 歸檔接口 歸檔信息包
進入數字經濟時代,企業各類業務高度數字化、智能化,形成和積累的海量電子文件需要歸檔。由于企業在業務系統立項建設時,大多沒有考慮歸檔需求,面對數量眾多、部署各異、功能復雜的各類業務系統,歸檔接口開發和運維面臨較大的技術困難、成本壓力。企業數字檔案館(室)亟須建立規范、統一的通用歸檔接口方案,以滿足當前歸檔需求。
自2009年以來,國家先后出臺了一系列電子文件歸檔與電子檔案管理的規范標準,內容涵蓋電子文件元數據方案、電子文件封裝、電子檔案四性檢測、業務系統歸檔接口功能要求等內容。由于涉及較多的電子文件、信息技術等跨學科專業知識,缺乏具體、通用、先進的技術支撐,企業數字檔案館(室)在業務系統歸檔接口開發過程中,存在較大的困難和障礙。歸檔接口開發主要存在以下問題。
(一)歸檔信息不完整
完整的歸檔信息應包括電子文件及其元數據,其中元數據應包括文件實體塊、機構人員實體塊、業務實體塊等內容。部分單位的歸檔信息不規范、不完整,主要表現在以下幾個方面。
1.電子文件元數據不齊全,業務系統僅捕獲文件實體塊的內容描述元數據,沒有捕獲文件實體塊的其他元數據,以及機構人員實體元數據、業務實體元數據等內容。
2.在數據傳輸過程中,由于網絡波動、系統運維、計算機資源不足、服務器重啟等意外事件影響,易出現數據丟包、傳輸中斷等情況,導致條目和電子文件原文傳輸不全或傳輸失敗。而且受限于企業內網帶寬,超大電子文件無法在線歸檔。
3.由于綜合檔案管理系統著錄字段數量限制,檔案條目僅記錄了主要的文件實體元數據,沒有記錄電子文件在收集、整理和歸檔過程中形成的各類元數據,造成歸檔信息不完整。
(二)歸檔接口功能不完善
部分單位受限于成本、技術等原因,業務系統歸檔接口功能缺失或存在缺陷,比如歸檔接口沒有四性檢測功能,無法檢測歸檔電子文件及其元數據的完整性,歸檔后易出現條目元數據和原文不規范、缺失等情況,人工處理效率很低;歸檔接口沒有自動查重功能,易出現重復歸檔;歸檔接口沒有格式轉換功能,部分歸檔的電子文件格式沒有轉換為通用格式;歸檔接口沒有斷點續傳功能,無法確保歸檔信息包的完整性;歸檔數據為明文傳輸、存儲,沒有加密,存在安全漏洞。
(三)歸檔接口無法靈活擴展
部分單位在開發歸檔接口時,沒有考慮業務系統升級、歸檔范圍變化、檔案管理系統升級、檔案門類模板變化等系統變更因素,或者進行了固化處理,如只支持固定的元數據、固定的歸檔范圍、固定的版式文件等。出現系統變更時,歸檔接口的可擴展性差,需要對歸檔接口重新開發,二次開發成本較高。
對于企業而言,由于各類業務系統數量眾多、部署各異、功能復雜,歸檔接口開發需要考慮規范化、標準化,制訂規范、統一的歸檔接口方案,統一歸檔接口建設標準,無疑成為首選。同時,為降低業務系統歸檔功能開發的技術難度與開發成本,避免四性檢測不合格的電子文件進入綜合檔案管理系統,有必要單獨建設獨立的歸檔接口平臺,在業務系統與綜合檔案管理系統之間搭建一座“橋梁”,專門用于電子文件在線歸檔的預處理。歸檔接口設計方案如圖1所示。

(一)歸檔接口平臺主要功能
歸檔接口平臺被定位為電子文件在線歸檔的預處理平臺,主要包括:元數據管理、四性檢測、格式轉換、智慧編號、SDK(軟件開發工具包)管理、中間庫管理等功能。該平臺的主要作用在于:將元數據方案動態封裝到SDK并集成到前端業務系統中,簡化業務系統歸檔功能開發工作,實現企業標準化歸檔信息包結構;將電子文件歸檔四性檢測前移到歸檔接口平臺,避免將檢測不合格的數據歸檔到綜合檔案管理系統。
1.元數據管理。將企業各門類電子檔案元數據方案分別配置到歸檔接口平臺,定義電子文件元數據結構,配置業務系統與綜合檔案管理系統各門類檔案的字段映射關系,從而實現電子文件元數據方案的集中、統一、規范管理。
2.四性檢測。將歸檔環節四性檢測前移到歸檔接口平臺,只有四性檢測通過的電子文件方可被傳輸到綜合檔案管理系統并創建條目、掛接電子文件,四性檢測不通過的電子文件將被拒絕傳輸到綜合檔案管理系統,從而避免在綜合檔案管理系統人工排查歸檔失敗數據。
3.格式轉換。由于部分業務系統不具備格式轉換功能,可以在歸檔接口平臺配置格式轉換策略,將業務系統歸檔電子文件自動轉換為通用格式(比如PDF格式、JPG格式等),并與原始格式電子文件同時保存。
4.智慧編號。歸檔接口平臺可以自動檢測綜合檔案管理系統已編制檔號的各類數據,為待歸檔的電子文件自動編制檔號,從而減輕電子文件編制檔號工作量,提高工作效率,提高編號準確性,避免人工編號錯誤。
5.SDK管理。SDK是為特定的軟件包、軟件框架、硬件平臺、操作系統等建立應用程序時所使用的開發工具的集合。由于業務系統歸檔功能要求較多,如果由每個業務系統單獨開發元數據封裝、四性檢測、格式轉換、智慧編號、加密標準、斷點續傳、時間戳服務等通用功能和服務,歸檔接口開發將面臨技術復雜、開發成本高、開發周期長、后期運維困難等問題,而若將相關通用功能和服務集成到SDK并提供給業務系統供應商,則業務系統不需要單獨開發相關功能和服務,通過調用SDK即可具備豐富的歸檔功能,極大地降低歸檔接口開發難度,降低開發成本,縮短開發周期,降低運維難度。
6.中間庫管理。部分業務系統受限于技術、成本等因素,或者供應商無法配合,無法直接收集電子文件和提交歸檔信息包,可以通過中間庫方式開發歸檔接口;通過在歸檔接口平臺配置中間庫,使用ETL工具(數據倉庫技術)將業務系統數據庫遷移到中間庫,并在中間庫進行電子文件封裝和提交歸檔信息包。
(二)數據傳輸模式
1.電子文件元數據與原文同步傳輸。業務系統將電子文件及其元數據封裝成一個歸檔信息包,同步傳輸到歸檔接口平臺。只有傳輸完成并通過四性檢測的歸檔信息包,才會被傳輸到綜合檔案管理系統創建條目、掛接電子文件,從而避免電子文件元數據與原文異步傳輸造成的問題。
2.數據傳輸使用斷點續傳技術。業務系統向歸檔接口平臺傳輸歸檔信息包時,通過調用歸檔接口的斷點續傳服務,將歸檔信息包切片分割傳輸,切片大小一般應小于斷點續傳的最高網速,確保歸檔信息包完整、快速地傳輸,避免因意外事件造成電子文件元數據與原文的不完整、缺失,同時,超大文檔歸檔不再受限。斷點續傳服務應配置傳輸限速、傳輸數量限制等措施,避免過度占用或獨占企業內網專線的帶寬,影響其他業務系統正常運行。
3.數據傳輸使用加密傳輸。業務系統向歸檔接口平臺傳輸歸檔信息包時,先將歸檔信息包采取DES對稱加密,在數據傳輸過程中,將文件切片后采取FTPS加密傳輸,保障電子文件傳輸信號難以被截取解析。FTPS的密鑰由企業掌握,從而避免歸檔信息包明文傳輸、保存造成的安全漏洞。
(三)歸檔信息包封裝策略
根據《基于XML的電子文件封裝規范》(DA/T 48—2009)中的定義,電子文件封裝包中包含文件、文件元數據、電子簽名、封裝描述信息等,封裝包是一個格式規范的XML文件,其擴展名為EEP。計算機文件的二進制流因應XML技術特點,在封裝包中用BASE64編碼表示,在實踐過程中發現,較小文檔的二進制流BASE64編碼字符數較少,寫入后形成的XML文件較小,而企業各類業務系統情況復雜,普遍存在每份電子文件包含超大文檔等情況,其二進制流 BASE64編碼字符數很多,寫入后形成的XML文件超大(可能超過數百兆)。由于歸檔接口平臺在解析XML文件時,需要將XML文件加載到系統內存,超大XML文件非常消耗內存或無法解析處理。另外,由于XML文件超大,在綜合檔案管理系統查看XML文件中的元數據信息亦非常困難。
因此,電子文件封裝結構需要尋找一種新方法,經過改進后的電子文件歸檔信息包是由電子文件元數據XML、電子文件元數據XSD、文檔FILE等多個電子文件構成的壓縮包,其擴展名為SIP,歸檔信息包封裝結構如圖2所示。
1.電子文件元數據XML是一個格式規范的XML文件,其擴展名為XML,元數據結構參考DA/T 48—2009附錄A進行描述,主要用于記錄電子文件元數據、綜合檔案管理系統創建條目等。主要改進點在于:文件編碼數據不再記錄二進制流BASE64編碼,改為記錄數字摘要。數字摘要是文件通過MD5算法生成的散列值,每份文件的數字摘要一般不超過50個字符,寫入數字摘要后形成的XML文件一般不超過100KB,從而確保XML文件被快速解析、快速查看、有效保存。
2.電子文件元數據XSD是一個格式規范的XML文件(XML Schema Definition),其擴展名為XSD,元數據結構參考DA/T 48—2009附錄B進行描述,主要用于校驗元數據XML文件的完整性、規范性。業務系統每次歸檔前,通過歸檔接口從歸檔接口平臺自動獲取最新的元數據XSD文件,在歸檔信息包傳輸到歸檔接口平臺后,將XSD文件與XML文件結構進行校驗,校驗通過,方可歸檔。
3.文檔FILE是一個文件夾,用于保存業務系統形成的多個文檔。公文處理單、正文、附件等歸檔電子文件均被保存在以FILE命名的文件夾中。
(四)數字簽名策略
綜合檔案管理系統配備專用的時間戳服務器,時間信號由我國唯一法定時間源——國家授時中心負責授時和守時,可以保障時間的權威和準確。業務系統在封裝元數據XML文件時,通過SDK調用時間戳服務,可使用加密算法(例如:國密算法SM2、SM3等)結合時間戳對XML文件的被簽名對象進行數字簽名,并記錄在XML文件的數字簽名塊,具備防冒充、防篡改、防重放、防抵賴、防泄密等特點,能有效證明被簽名對象產生的時間及內容完整性、真實性,確保歸檔信息包的完整性、真實性、保密性,保障電子檔案的來源可靠。

制訂規范、統一的通用歸檔接口方案,建設獨立的歸檔接口平臺,對企業檔案信息化建設具有積極的推動作用和顯著的經濟效益,能夠有效滿足企業數字檔案館(室)建設需求。
1.有效降低業務系統歸檔接口開發成本,切實為企業降本增效。業務系統通過調用歸檔接口平臺提供的SDK,不需要獨立開發通用功能和服務,極大地減少了歸檔接口開發的工作量,降低了開發成本。以筆者所在單位為例,每個業務系統歸檔接口開發成本平均約100萬元,在歸檔接口平臺上線后,歸檔接口開發成本平均約30萬元,集團各類業務系統約3000個,節約歸檔接口開發成本顯著。
2.促進業務系統電子文件歸檔,滿足企業數字檔案館(室)建設要求。通過歸檔接口平臺的建設,極大地簡化了業務系統歸檔功能開發工作,降低了業務系統改造難度,減少了來自相關各方的阻力,促進了各單位及時、完整、規范地完成電子文件歸檔任務,更好地滿足了企業數字檔案館(室)建設對業務系統電子文件在線歸檔的要求。
3.驗證了國家電子文件歸檔的標準規范,形成可推廣復制的經驗做法。在國家相關標準規范的指引下,結合企業實際,積極探索國家電子文件歸檔標準規范在企業具體實踐中的實現路徑,進一步明確和完善了國家電子文件歸檔的通用技術和功能要求,形成一套完整、規范、先進的通用歸檔接口方案。
參考文獻:
[1]楊迪.基于OAIS模型的歸檔接口實現[J].中國檔案,2016(5):65-66.
[2]國家檔案局.文書類電子文件元數據方案:DA/T 46—2009[S/OL].(2009- 12- 16) [2010- 06-01]. https: //www. saac. gov. cn/daj /hybz /201806/ af2c513b5e284571952d6595fd5383b8/files/ 9b2a46526ddb4b66b5b5bef32d7aa21a.pdf.
[3]國家檔案局.基于XML的電子文件封裝規范:DA/T 48—2009[S/OL].(2009- 12- 16) [2010- 06-01]. https: //www. saac. gov. cn/ daj/hybz /201806/ af5bf561f75343f69bf2efb78913a284/files/ 08d2e2120d134cf58f927d9766c6e4b9.pdf.
[4]國家檔案局辦公室.企業電子文件歸檔與電子檔案管理指南(檔辦發〔2015〕4號)[EB/OL].(2015-12-02)[2023-03-31]. https: // www. saac. gov. cn / daj / fxwj/201910/1d5c7e2b0230445e8acaf0457c8e92a7.shtm.
作者單位:華潤(集團)有限公司