田偉 蔣冠
摘要:檔案資源數據化應是新時代檔案事業發展的目標。文章基于OFD標準,以高校為具體應用場景,研究滿足檔案資源數據化需求的實施策略,包括對數據化資源充分包容與主要資源形態間順暢轉換的支持、對檔案資源元數據體系充分支持、對本體論知識庫充分支持、對檔案資源協同過濾機制充分支持等方面。
關鍵詞:OFD;數據化;高校檔案;協同過濾;本體論
分類號:G270.7
Research on University Archives Resource Datalization Strategy Based on the OFD Standard
Tian Wei, Jiang Guan
(Management School of Tianjin Normal University, Tianjin, 300387)
Abstract:The datalization of archival resources should be the goal of the archives development in the new era. Based on the OFD standard, the paper takes universities as specific application scenario, and studies the implementation strategies to meet the needs of archival resources datalization. These strategies mainly include being supportive to sufficient inclusiveness for various datalized resource and smooth transition between major resource forms, being supportive to archival resources metadata, being supportive to ontological knowledge base and being supportive to archival resources collaborative filtering mechanism.
Keywords:OFD;Datalization; University Archives; Collaborative Filtering; Ontology
檔案資源的數據化是新時代檔案事業發展的根基與前提。當前學界往往將“數據化”作為一個與“數字化”相對的概念,把檔案資源的“數據化”定義為:將檔案資源的形式與內容轉化為電子計算機可處理的數據,并通過檔案數據管理系統實現有效管理的系統化工作。
從實踐角度來看,離開了充分有效的檔案數據化資源,新時代檔案事業將成為無源之水、無本之木。根據調查結果,受訪各高校檔案部門幾乎都存在檔案資源檢索遺漏現象(即未能找到實際上存在的館藏檔案資源),給檔案工作帶來了一系列問題,而問題的根本原因在于檔案資源的數據化程度不足。
從理論角度來看,四重境界理論[1]表明,新時代“互聯網+檔案”的建設應從第一到第四重境界逐步開展。第一重境界建設完成的標志是:實現傳統介質檔案的充分數據化,并建立相應完善的元數據標引體系。可見,數據化是實現“互聯網+檔案”建設的基礎條件。
當前,檔案界在不斷探索大數據、智能化等問題時,實際上亦應思考一個“根基問題”:檔案資源的形式與內容都很好地進入計算機世界了嗎?這就是檔案資源“數據化”的要義所在。
如上所述,當前“找到”檔案資源的問題甚至尚未很好地解決,“第一境界”尚未實現,又談何檔案資源的“高級應用”?檔案資源“數據化”問題尚未研究透徹而言他,就相當于還沒有解決“走”而直接去研究“跑”。
因此,必須對檔案資源數據化問題給予充分重視,對檔案資源數據化實現策略應加以系統性研究。當前,國家正在出臺一系列政策,推動OFD版式文件標準的廣泛應用,OFD代表著我國檔案資源數據化未來的發展方向。因此,本文基于OFD標準,著眼于高校檔案這一具體應用領域,提出檔案資源數據化的若干實現策略。
1相關研究
OFD是我國自主的版式文檔格式規范,由《電子文件存儲與交換格式版式文檔》(GB/T 33190-2016)確立。OFD標準體系使我國首次擁有了國家級的電子文檔自主版式格式標準及相應技術,對于實現新時代檔案資源“數據化”具有重要意義。
自相關標準發布后,圍繞OFD在檔案領域的應用研究逐步展開。例如,王姝等[2]對OFD在檔案領域的主要應用、存在的問題進行了分析,進而提出形成OFD標準族、加大應用試點等檔案OFD發展策略;高林等[3]對OFD標準進行了系統解讀,給出了其在電子公文、檔案等領域的應用實例;周楓等[4]對OFD格式應用場景進行了探討,以SWOT分析法對OFD在檔案領域的發展進行了分析;郭曉云[5]在研究中對OFD應用于電子公文檔案一體化的策略進行了研討;梁凱[6]對檔案部門應用OFD的應對之策進行了研究。
從總體上看,OFD作為我國大力推廣的、具有全面自主知識產權的版式文件標準,日益受到業界與學界的重視。相關工作具有良好的價值,但對OFD的研究尚處于初步階段。而一些研究也提到,OFD應進一步面向實踐領域推動落地研究,以突破當前其所存在的局限性。
因此,我們應結合檔案具體領域的應用場景,加緊研究面向實際的OFD應用策略,以具體實踐推動整體研究,促進OFD廣泛應用與檔案資源數據化的實現。
2高校檔案資源“數據化”需求
2.1高校檔案資源主要特點
文章將高校檔案作為主要研究領域,是由于實現高校檔案資源的數據化具有典型示范意義。從總體上看,高校檔案具備以下特點:
一是檔案資源門類較齊全、數量豐富。當前各高校基本根據《普通高等學校檔案管理辦法》等文件設立了門類齊全的檔案資源體系,包含了黨政、教學、財務、基建等多種類型的檔案資源,在資源數量上有相當的規模,從而為檔案資源數據化提供了堅實的資源基礎。
二是對檔案資源的管理較為規范。當前國家出臺了一系列的規章制度與技術標準以規范高校檔案事業的開展,在實踐中這些法規基本得到了較好的執行,使高校檔案資源處于良好有序的管理體系之下,從而為檔案資源數據化提供了較好的運行環境和制度保障。
三是對檔案資源的利用需求日益旺盛。根據以往課題的調查統計,當前對高校檔案資源的利用需求數量逐年遞增,對資源需求的種類也在逐步擴大。隨之由于對檔案資源未充分數據化而造成的各種問題也日益凸顯出來,給新時代檔案事業發展帶來了一定阻力,從而對檔案資源數據化的開展提出了迫切的要求。
2.2高校檔案資源主要形態
從總體上看,當前高校檔案資源主要包括以下幾種主要呈現形態。
(1)文檔。即文本文檔,以字符作為主要表達形式的文件。它有電子文件和非電子文件兩種形式。典型的文檔諸如政府文件、總結報告、文章稿件、統計報表等。電子文檔文件的格式包括TXT、DOC、PDF、XLS等。
(2)圖像文件。即以圖像信息為主要形式的文件。主要包括照片、圖紙、繪畫、地圖等檔案資源。它有電子文件和非電子文件兩種形式。電子圖像文件的主要格式包括JPG、PNG、BMP、TIFF等。紙質文檔經數字化掃描而得的圖片文件亦屬于此類。
(3)音頻音像文件。即以視頻或音頻為主要形式的文件。主要包括錄像資料、錄音資料等檔案資源。它有電子文件和非電子文件兩種形式,電子形式又可細分為磁介質文件、光介質文件、半導體介質文件等。其電子文件主要格式包括MP4、WMV、ASF、3GP、RMVB等。
(4)數據庫文件。即由數據庫管理系統(DBMS)所定義、操縱的數據文件。數據庫文件全部為電子文件形式,包括關系型數據庫與非關系型數據庫兩種類型。典型的高校檔案資源中的數據庫文件包括教學成績數據、財務系統數據、各類統計數據等。數據庫文件的主要格式包括DBF、MDB、MDF等。
(5)軟件及其數據文件。即除上述四種形態資源之外的檔案資源中其他軟件及其數據文件。所包含的種類較為廣泛。隨著大數據、“互聯網+”等新時代技術環境的到來,各種應用軟件及其產生的數據越來越多地加入到檔案資源建設范圍中來。例如典型的軟件及數據文件歸檔包括工程CAD文件、網頁歸檔文件、社交媒體歸檔文件、科研軟件系統文件等。
五種形態之間互有包含、緊密聯系。如文檔中往往不單單含有文字,還包含一定的表格、圖像等,而圖像文件也必然含有文字說明要素,數據庫文件實際上是軟件及數據文件的特例。
2.3高校檔案資源數據化需求
以上五種形態檔案資源對于版式文件具有不同的需求。在“四重境界”理論的視域下,我們以形態和境界為兩個維度,總結高校檔案資源數據化任務需求(表1)。
3基于OFD標準的檔案資源數據化策略
基于以上的檔案資源數據化典型需求,結合OFD標準自主性、安全性、兼容性的特點,提出以下的檔案資源數據化實現策略。
3.1對數據化資源充分包容與主要形態間順暢轉換的支持
當前國家相關部門致力于推動使檔案資源版式文件格式統一于OFD標準。因此OFD標準應對多種形態的檔案資源具有較好的包容能力。OFD標準應充分包容各形態檔案資源,避免使檔案資源數據化成果呈現形態過于紛雜,同時實現檔案資源數據化成果統一于我國自主知識產權標準。
OFD標準擅長于實現各類文檔排版后的固化呈現,因此文檔與圖像文件可較為直接地應用OFD標準實現數據化成果存儲。當前電子證照、政令文件等領域已經成功地開展了OFD標準應用。因此,高校檔案資源中的類似數據化成果可參照實現。同時,應擴展OFD文件對于音頻音像文件的包容能力,使這類檔案資源能夠通過OFD標準實現有效的存儲與利用。

OFD是基于XML與壓縮技術的電子文檔格式標準。因此OFD對數據庫文件應該具有較好的支持度。XML善于描述結構化數據,是一種存儲與傳輸數據的格式標準,與多數數據庫支持模型原理相通,具備對數據庫文件的良好支持度。當然,XML僅僅關注于存儲數據,而不提供數據索引、排序、查找、相關一致性等功能。這就意味著,可保持數據庫文件的原有格式作為數據化資源形態,不必一定將數據庫文件轉為OFD文檔存儲,但應保持數據庫文件歸檔后的長期可用性及其生成OFD版式文檔的能力。
應用OFD文檔存儲檔案數據化資源,應保障資源在相關形態間順暢轉換。例如,高校檔案資源中的教學成績單文件,往往以文檔的形態呈現,但生成成績單文件的支持數據來源于教學數據庫,往往以關系型數據庫文件形態呈現。那么,成績單檔案資源應以何種形態實現數據化?是應以一個個獨立文檔(每個文檔對應一份成績單)的形態還是以數據庫文件(利用時再生成獨立成績單)的形態進行歸檔存儲?這是權衡多重因素應加以確定的問題,以確保文檔版式呈現與數據挖掘兩方面需求的充分滿足。
3.2對檔案資源元數據體系充分支持
檔案元數據是描述檔案資源與檔案業務活動的數據集合,其主要可分為基本元數據、管理元數據和業務元數據等。“互聯網+檔案”建設“四重境界”的發展要求對檔案資源元數據加以充分重視,各重境界的目標必須依靠檔案元數據的有效支持方能實現。這也就意味著,除了對檔案資源本身充分包容之外,OFD文檔也必須充分支持檔案資源元數據體系的存儲。
高校檔案資源元數據往往采用諸如都柏林核心元素集、MARC、GILS、FGDC/CSDGM等技術標準,因此OFD文檔應對相關的元數據實現充分有效的存儲,并保障其長期可用性。
相關研究表明[7],在一些情況下,OFD對于檔案文檔資源的屬性元數據保存存在信息損失現象。一些格式的流式文檔在轉換為OFD版式文檔后,一部分元數據會發生損失。這種缺失元數據副本的問題對于電子檔案資源來講并非是可忽略的小問題,應著力加以解決。在建設OFD文檔資源工程中,應充分認識到元數據對檔案資源的戰略意義,推動實現OFD對檔案資源元數據體系的充分支持。
3.3對本體論知識庫充分支持
以本體論所構建的檔案資源信息概念模型是計算機可理解的智能工具,這是傳統的主題詞表等工具所不具備的能力。本體方法比傳統的分類法、主題法等具有更強的知識導航功能,從而實現對檔案資源更有效的智能管理與組織。因此,本體知識庫對于實現檔案資源智能檢索等方面具有重要意義。
本體技術一般具有四個核心:一是形式化(Formal),本體是計算機可理解的;二是概念模型(Conceptualization),從現實世界抽象得到的、獨立于具體環境的概念集合;三是共享(Share),本體中所涵蓋的是人們對于事物的共同認知;四是明確(Explicit),本體中的概念與概念之間的聯系均有明確約束。本體的描述語言主要包括RDF、RDFS、OWL等。
檔案資源領域的本體知識庫建設一般通過領域專家的系統性設計實現。通過將檔案資源所含知識建為本體知識庫,實現以本體形式化描述檔案資源,以有效揭示檔案資源所反映的豐富內容,提升檔案資源管理利用的智能化水平。所建設的本體知識庫作為智慧結晶,應確保可靠的長期可用性。因此,應探索應用OFD文檔標準對檔案資源本體知識庫實施可靠存儲。通過發揮OFD標準在持續可解釋、顯示一致性、可轉換性等方面的優勢,使檔案資源本體知識庫獲得一種良好的存儲環境,發揮其應有作用。
3.4對檔案資源協同過濾機制充分支持
個性化推薦是實現檔案資源智慧檢索的重要支持機制之一,協同過濾是實現個性化推薦的核心機制。為實現檔案資源協同過濾,需要收集存儲檔案用戶對檔案資源的評價反饋數據、檔案用戶自身屬性數據、檔案資源利用行為數據等。這些數據應與檔案資源數據化成果密切結合,有效驅動檔案智慧檢索系統的運作。因此,對檔案資源協同過濾支持數據的有效存儲和可用性保障可作為OFD文檔的一項應用。
OFD文檔標準是基于XML實現的,具有較強的描述結構化數據的能力。而協同過濾支持數據在概念模型層面往往是矩陣的形式,在邏輯存儲層面則可采用結構化數據結構。因此,應用OFD標準對協同過濾支持數據進行存儲是較為可行的。也就是將協同過濾支持數據作為若干獨立的OFD文檔進行歸檔存儲。該方式可較大程度上發揮OFD標準的優勢,實現檔案資源協同過濾平穩有效運行。
與將協同過濾支持數據嵌入檔案資源本身存儲相比,將協同過濾支持數據作為若干獨立的OFD文檔進行歸檔存儲有諸多優點。例如檔案用戶評分反饋數據可獨立作為一系列OFD文檔存在,從而實現矩陣計算等方面的快速調用與運算,無需每次都調用檔案資源本身對應的各個OFD文檔。而檔案用戶屬性等數據作為獨立的OFD存儲,則有利于避免數據冗余與數據不一致等問題的出現。
3.5對檔案資源跨界獲取數據交換充分支持
應充分發揮OFD標準在安全性、兼容性等方面的優勢,促進檔案資源數據化成果的遠程跨界交換共享的實現。
檔案資源的跨界獲取完備主要可分為兩類應用場景:一是事務辦理類,二是興趣研究類。前者要求檔案資源在事務所涉及的組織機構之間能夠實現交換共享,后者要求與研究主題相關的檔案資源能夠打破物理位置限制而實現交換共享。當前應充分利用OFD標準推進實現這兩類場景檔案資源的跨界獲取交換。
由于OFD格式基于業界主流的“XML描述+ZIP打包”模式,因此OFD標準產品從其內在機制上就較為適合實現數據化檔案資源的遠程跨界交換。一方面,XML是各種應用程序之間進行數據傳輸的最常用的工具,為異構平臺間交換數據提供了良好的描述能力。另一方面,ZIP打包支持諸如ASIP、TSIP、AIP、DIP等信息包交換,易于實現數據化檔案資源的跨界共享。此外,OFD標準支持以數字簽名等方式進行數據交換過程中的安全認證,在數據交換安全性方面有較好保障。在以OFD標準存儲檔案資源數據化成果的基礎上,應進一步開發OFD文檔跨界交換應用軟件,制定相應數據交換規章制度,實現四重境界的建設目標。
4總結
OFD當前是一個主標準,解決了數據存儲、壓縮、位置等問題,但其相關標準族尚待研究完善。這不僅是一個圍繞OFD的技術問題,更是對于檔案資源數據化拓展與深化認識的問題。只有全面深刻認識檔案資源數據化、以數據化實踐拓展OFD應用領域,才能形成建立在實際需求之上的完善標準體系。
為此本文基于OFD標準提出若干檔案資源數據化實現策略,對于拓展OFD標準應用、推動檔案資源數據化工程具有積極意義。
*本文系中國高等教育學會檔案工作分會研究課題“‘互聯網+’時代高校檔案館發展研究”(項目編號:ZGD-Y-2018-05)階段性研究成果。
注釋與參考文獻
[1]田偉,韓海濤.基于“四重境界”的“互聯網+檔案”建設策略研究[J].檔案學研究, 2019(3):55-61.
[2][7]王姝,徐華,王少康.OFD版式文檔應用研究[J].檔案學研究,2019(1):95-100.
[3]高林,李海波,叢培勇,王寒冰.OFD版式文檔國家標準解讀[J].信息技術與標準化,2016(10):42-44.
[4]周楓,呂東偉,鄧晶京,黃麗萍,駱建珍.OFD格式在檔案領域的應用初探[J].檔案管理,2018(4):35-37.
[5]郭曉云.國家版式文檔格式規范(OFD)標準[J].蘭臺世界,2018(3):33-36+12.
[6]梁凱.檔案部門應用OFD格式的若干思考[J].浙江檔案,2017(1):64.