張正強
(國防大學政治學院 上海 200433)
國際標準化組織于2016年最新發布了文件檔案領域中的核心國際標準《ISO 15489-1:redline:2016信息與文獻-文件管理-第1部分:概念與原則》(簡稱“ISO 15489-1紅標版”,下同)。該國際標準是在國際文件檔案領域中影響最為廣泛的標準,在國際上其采標率達到百分之九十以上,所以,該國際標準是國際文件檔案工作者在文件檔案領域共同的智慧結晶。
該國際標準在文件檔案管理的基本原則中首次從元數據視角明確了文件和檔案的構成,指出文件和檔案是由“內容和元數據”兩部分構成。所謂元數據,就是“關于數據的數據”,所以,文件和檔案的“內容”實際上就是“數據”,而文件和檔案的“元數據”就是關于文件和檔案“內容”這一數據的背景、結構和管理等方面的數據。
在當今時代,電子文件是文件和檔案的主要組成部分,顯然,電子文件的構成,也必然由“內容和元數據”兩部分構成,所以,沒有電子文件元數據,就沒有電子文件,也就沒有電子檔案,由此,也就決定了“電子文件元數據是電子文件管理的命脈”的這一地位與作用。
對于電子文件元數據的作用與功能,在文件檔案領域做過許多研究與探討,但對其做出權威系統闡述的最早的是2006年國際標準化組織正式發布的國際標準ISO/TS 23081-1:2006《信息與文件-文件管理過程-文件元數據-第1部分:原則》,在該標準中,基于電子文件管理流程,提出了10個方面的功能:
(1)自始至終地保護作為憑證的文件,確保其可利用性和可提供使用性;
(2)便于對文件的理解;
(3)支持和確保文件的憑證價值;
(4)保證文件的真實性、可靠性和完整性;
(5)對文件的利用、文件的內容及文件利用的產權提供支持和管理;
(6)支持高效率的檢索;
(7)在創建和管理電子文件的不同的技術和業務環境中,支持文件的捕獲,從而支持互操作策略的實施,以及文件的長期可利用性;
(8)以結構化的、可靠的和有意義的方式提供文件與其創建、管理背景信息的邏輯關聯;
(9)為識別數字文件的形成(或捕獲)環境提供支持,同時對維護文件的技術環境管理提供支持,以便可以復制文件;
(10)為高效、成功地從一種環境(或計算機平臺)向另一種環境(或計算機平臺)遷移提供支持,或者為其它的保管戰略提供支持。
2007年國際標準化組織又正式頒布了國際標準ISO 23081-2:2007《信息與文件-文件管理過程-文件元數據第2部分:概念與實施》,該標準又進一步從八個方面再次對電子文件元數據的功能進行強調:
(1)在業務系統中捕獲與管理文件;
(2)保證系統的互操作;
(3)支持文件的風險管理;
(4)保證文件的跨機構利用與檢索;
(5)防止非授權利用文件;
(6)確保機構業務工作可持續地展開;
(7)確保電子文件的長期保存;
(8)確保檔案系統中的元數據捕獲。
2010年11月10日,聯合國教科文組織向全世界發布的《世界檔案宣言》中明確指出:在國際文件與檔案領域要保證文件和檔案的真實性、可靠性、完整性和可用性。所以,電子文件,不管其形式與結構如何,都必須具有真實性、可靠性、完整性和可用性,只有這樣,才能進一步實現電子文件具有權威性的證據價值和憑證價值。由此,從這個意義上而言,概括地講,電子文件元數據的功能:就是保證電子文件的真實性、可靠性、完整性和可用性,進而保證電子文件所應具有的權威性的證據價值和憑證價值。
電子文件元數據的概念本體是指在概念層次上由電子文件元數據元素及其關系所構成的結構體系。這個體系在直讀(人讀)層面上,就表現為電子文件元數據的邏輯結構體系。電子文件元數據的邏輯結構體系是一個帶有分面的結構體系。對于這一結構體系在最新發布的國際標準ISO 15489-1紅標版中又明確的規定為兩部分:一部分是實體分面,另一部分是屬性分面。
實體分面主要包括四個亞面:文件亞面、責任者亞面、職能業務亞面和法規亞面。然后在每一個實體亞面下再細分出子類,各亞面細分如下:
(1)對于文件亞面,分出了件、案卷、全宗和全宗群等子類;
(2)對于責任人員亞面,分出了人員、單位、部門和機構等子類;
(3)對于職能業務亞面,分出了處置、活動、機構職能和社會職能等子類;
(4)對于法規亞面,分出了業務規章、政策和法規等子類。
由此,經過以上各亞面的細分就形成了完整的電子文件元數據的實體分面,如下圖1所示:
電子文件元數據的屬性分面主要由六個亞面構成,即:描述亞面、使用亞面、計劃事件亞面、事件歷史亞面和關系亞面構成,然后,再在每一個屬性亞面下再細分出子類,各亞面細分如下:
(1)對于描述亞面,分出了題名、分類、提要、存貯位置、所有權、外部標識符等子類;
(2)對于使用亞面,分出了技術環境、權限、利用、文件使用對象、語種、完整性、文件類別等子類;
(3)對于計劃事件亞面,分出了事件時間、事件類型、事件描述、事件關系、觸發事件等子類;
(4)對于事件歷史亞面,分出了事件時間、事件類型、事件描述、事件關系、事件編號等子類;
(5)關系亞面,分出了關系標識符、相關實體的標識符、關系類型、關系時間等子類。
由此,經過以上各亞面的細分就形成了完整的電子文件元數據的屬性分面,如下圖2所示
然后將電子文件元數據的實體分面與屬性分面進行組配,就可以基于概念邏輯地形成一個個具體的元數據,如下圖3所示。
從以上電子文件元數據的實體與屬性兩個分面可以看出:實體分面采用的是一種劃分標準,屬性分面采用的是另一種劃分標準,這種多維劃分的分面體系與傳統的一維劃分的線型體系相比,其結構顯得十分簡潔、十分靈活,結構體系的性能就能大大提高。電子文件元數據的這種分面結構體系就構成了電子文件元數據的概念本體,具有強大的優勢,其可以:
(1)對文件進行標識并對文件進行檢索;
(2)將文件與所變更的規章制度、政策和法規關聯起來;
(3)將文件與責任者以及將授權與權限與相關文件關聯起來;
(4)將文件與其相關的業務活動關聯起來;
(5)對文件進行留痕,如對利用規定的變更過程進行留痕或對文件遷移至新的系統的過程進行留痕。
由于電子文件元數據的概念本體具有如此強大的優勢,從而使其為進一步實現電子文件的功能與作用從概念體系上奠定了邏輯基礎。
電子文件元數據的概念本體,雖然具有很強的優勢,但畢竟是供直讀(人讀)的結構,對于這種結構,計算機還無法讀取。所以,還必須將其映射并描述為計算機可讀的語言本體,只有這樣,才能真正地實現與發揮電子文件元數據在管理電子文件中的功能與作用。
電子文件元數據的語言本體是指采用本體語言來完整地映射與描述電子文件元數據的概念本體所構成的形式化語言結構體系。本體語言主要是指RDFS[3](資源描述框架)、OWL[5](Web 本體語言)或SKOS[4](簡約知識體系)等,電子文件元數據的語言本體之所以可以對電子文件元數據的概念本體完整地進行映射與描述,這是由于其形式化語言結構體系的本質特性所決定的。
凡是語言都是由語詞、句子和語法這三個基本要素構成的,因此,電子文件元數據語言本體的形式化語言結構體系,也同樣是由語詞、句子和語法這三個基本要素構成的。
首先,電子文件元數據語言本體的語詞是基于控制的語詞,故在語詞構成體系上:
(1)電子文件元數據語言本體可通過其所具有的表達實體概念的類別詞,來映射與描述電子文件元數據概念本體的實體分面中的一個個具體的表達類別概念的元數據元素;
(2)電子文件元數據語言本體可通過其所具有的表達屬性概念的屬性詞,來映射與描述電子文件元數據概念本體的屬性分面中的一個個具體的表達屬性概念的元數據元素;
(3)電子文件元數據語言本體可通過其所具有的表達具體實例概念的實例詞,來映射與描述電子文件元數據概念本體中的一個個具體的表達實例概念的元數據元素;
由此,可以看出電子文件元數據語言本體的語詞在映射與表達概念本體中的元數據概念時具有精確的一一對應性,從而排除了一般自然語言中語詞的“一詞多義”與“多義一詞”的現象,因而具有“一詞一義”與“一義一詞”的“概念詞”的本質特性。
其次,電子文件元數據語言本體的句子是基于組配的句子,故在句子構成體系上:
(1)電子文件元數據語言本體利用資源、屬性和屬性值這三元組形式來進行組配形成句子,其中,表示資源的一元在句子的層面就是主語,表示屬性的一元在句子的層面就是謂語,而表示屬性值的一元在句子的層面就是賓語。所以可以十分有效實現電子文件概念本體的實體分面和屬性分面中各個元數據元素的組配。
(2)電子文件元數據語言本體利用資源、屬性和屬性值這三元組形式來進行組配形成句子,由于在該句子中的主語、謂語和賓語都是基于控制的概念詞,因而可以十分準確地映射與描述電子文件元數據分面結構的邏輯體系。
(3)電子文件元數據語言本體利用資源、屬性和屬性值這三元組形式來進行組配形成句子,從而規定并規范了句子結構,使其映射與描述的電子文件元數據概念本體的分面結構所形成的邏輯體系具有跨平臺的互操作性,達到了高度的標準化。
由此,可以看出電子文件元數據語言本體的句子具有靈活的組配性、嚴密的邏輯性和高度的規范性的本質特性。
再次,電子文件元數據語言本體的語法是基于描述邏輯的語法,所謂描述邏輯亦稱為概念語言邏輯,就是建立在概念和屬性之上的形式規范,具有推理機制,故在語法構成體系上:
(1)電子文件元數據語言本體的類公理是基于描述邏輯的語法表達的公理,其反映的是不同概念類之間所對應的實際電子文件對象間的真實關系,且這真實關系是公認的事實并構成了類的推理規則,通過類公理可以構建起電子文件元數據類等級結構的類系及類橫向關系的類列與同位類,因此,可以對電子文件元數據進行類推理。
(2)電子文件元數據語言本體的屬性公理亦是基于描述邏輯的語法表達的公理,屬性可以是電子文件元數據類與類中的元數據元素之間的關系,也可以是指定特定的值,通過屬性公理,其可以推理出電子文件屬性與類之間的關系,因此,可以對電子文件元數據進行關系推理。
(3)由于電子文件元數據語言本體的公理是基于描述邏輯語法所表達的公理,可以將具體的電子文件元數據與電子文件元數據概念本體進行核對檢查,即判斷某一個體是否為某個類的實例,因此,可以進行電子文件元數據的一致性檢測和實例檢測。
由此,可以看出電子文件元數據語言本體的語法具有類推理的特性,屬性推理的特性和一致性檢測和實例檢測特性,因而在建立電子文件元數據本體時運用其語言本體的語法可以從概念或屬性推導出隱含的概念或屬性,這就是電子文件元數據本體比傳統的電子文件元數據數字化、信息化更為智能化的方面。
當今,在人類由信息時代邁向知識時代的進程中,又迎來了人工智能這一歷史性發展階段。2017年在我國全國兩會上,“人工智能“第一次被寫入政府工作報告,2017年7月,我國首部國家級人工智能規劃——新一代人工智能發展規劃——正式出臺,將人工智能提高到了國家發展的戰略高度。由此我國的智慧城市、智慧工業、智慧農業、智慧交通等等的“智慧+”建設在各個領域蓬勃興起。各個領域的電子文件全面地記錄了各個領域的實踐活動,而電子文件又是當今檔案館管理的重中之重,由此,又迎來了我國檔案館由傳統檔案館建設、數字檔案館建設向當今智慧檔案館建設這一新的時代高度邁進的歷史機遇。
在建設智慧檔案館的全生命過程中,要使電子文件的捕獲、登記、分類、標引、鑒定、保管、存儲、跟蹤、監視、審計和檢索、利用的全過程都得到有效的控制與智能化管理,就必須建立基于本體的電子文件元數據。因為沒有電子文件“元數據”,就沒有電子文件,而沒有基于“本體”的電子文件元數據,就沒有“智慧”檔案館,之所以如此,這是因為智慧檔案館的概念本體是智慧檔案館之所以有“智慧”的內在根據,而智慧檔案館的語言本體則是智慧檔案館之所以有“智慧”的運行方式和顯現形式,由此,建立基于本體的電子文件元數據就成為建設智慧檔案館的關鍵與核心。
目前,在我國要建立基于本體的電子文件元數據,其概念本體可以依據與遵循的標準是國際標準23081,這是一個系列標準,共有三個部分,第一部分已被我國采標,并于2013年已正式發布,其標準名為GB/T 26163.1-2010《信息與文獻—文件管理流程—文件元數據—第1部分:原則》,但該國際標準的第二部分ISO 23081-2:2009《信息與文獻—文件元數據管理—第2部分:概念和實施(Information and documentation—Managing metadata for records—Part 2:Conceptual and implementation issues)》和第三部分ISO 23081-3:2011《信息與文獻—文件元數據管理—第3部分:自評方法(Information and documentation—Managing metadata for records—Part 3:Self-assessment method)》這兩個部分目前還未被我國采標,所以,在依據與遵循我國國家標準GB/T 26163.1-2010的同時還要依據與遵循國際標準23081的第二與第三部分。
對于電子文件元數據概念本體,還有一項可供參考的標準就是國際標準化組織與2014年10月15日正式發布的國際標準ISO21127《信息與文獻—文化遺產信息交換用參考本體(Information and documentation—Areference ontology for the interchangeof cultural heritage information)》,這也是一個涉及檔案領域元數據概念本體的國際標準。
關于電子文件元數據語言本體的標準,目前在我國還未有國家標準與檔案領域的行業標準,2011年發布的檔案行業標準DB32/T1893-2011《電子檔案基礎元數據數據庫結構和封裝格式》還不是一個元數據的本體語言標準。
但是,在國際上,國際標準化組織與國際電工委員會聯合于2013年專門發布了一項標準,即ISO/IECTR20943-6《信息技術—保證元數據注冊內容一致性程序—第六部分:本體建構框架》可供參考。
綜上所述,我們可以很清楚地看出:智慧檔案館是新時代的新生事物,其建設與發展面臨著巨大的挑戰:如在我國檔案學的教學方面,相關教學內容還未跟上;在我國智慧檔案館科學研究方面關于電子文件元數據本體研究的科研人才還偏少,科研項目有質量的成果還不多;在我國檔案領域的標準規范方面相關標準還亟待制定,等等。然而,唯物辯證法的基本觀點又告訴我們:事物都是一分為二的。正是建設與發展智慧檔案館所面臨的這些巨大的挑戰才構成了其建設與發展的巨大動力,推動著我國檔案館由傳統檔案館建設、數字檔案館建設向智慧檔案館建設的高度不斷前進。