尚珊+苗媛



摘 要:本文通過對現有的電子文件鑒定成果進行梳理,指出電子文件自動鑒定的必要性。為了使電子文件自動鑒定結果更準確,筆者以元數據內容為切入點設計了電子文件保管期限自動鑒定的元數據庫,數據庫中收錄了不同保管期限的元數據項目,在此基礎上,提出一些鑒定規則對自動鑒定進行規約,期望能最大限度實現鑒定的準確性和自動化。
關鍵詞:檔案; 元數據; 電子文件; 保管期限; 自動鑒定
1 電子文件鑒定研究綜述
隨著電子文件的出現及其對傳統紙質檔案鑒定理論的沖擊,國內外許多學者對電子文件的鑒定理論進行了研究。劉越南認為電子文件自動鑒定的方法是在系統中納入并維護電子文件保管期限表。[1]于慧敏提出可以根據機關或部門的職能重要程度編寫程序由系統自動鑒定,自動給文件保管期限。[2]譚琤培和章丹指出要建立元數據系統與制定元數據標準,通過系統自動記錄與手工記錄獲取檔案元數據。[3]由于電子文件的迅速增長,關于電子文件鑒定的迫切性在業內已經達成了共識,而大家期盼的最理想的目標是對電子文件實行自動鑒定。從綜述看現有的理論研究并未達成共識,沒有形成電子文件自動鑒定相對成熟的理論體系,需要相關研究不斷地總結與完善。目前的研究成果大都集中在電子文件鑒定內容、程序、方法、原則等宏觀方面的研究,缺乏微觀方面的研究。
對電子文件的鑒定主要包括價值鑒定和保管期限的鑒定。價值鑒定十分復雜,需要考慮的內容很多,而且容易受鑒定者的主觀影響,因此本文對價值鑒定不做過多的闡述。檔案的鑒定同樣可以通過保管期限來完成,在實際鑒定保管期限時,目前還是參照國家檔案局出臺的文書檔案保管期限表進行判斷,由于保管期限表條款劃分過粗、加之人為的因素或者判斷標準不統一的情況,使得電子文件的保管期限判斷不夠準確。筆者試圖從電子文件的部分元數據內容入手來判斷電子文件的保管期限。
本文以元數據為切入點,主要采用在文獻調查的基礎上,通過統計方法構建元數據庫,將元數據內容信息作為電子文件保管期限自動鑒定的依據。筆者通過選取文件標題、主題詞這兩個能反映文件全貌的元數據內容項目進行了實證分析,對自動鑒定結果進行了驗證。
2 電子文件元數據庫的內容創建
元數據是指描述文件背景、內容、結構及其整個管理過程的數據。檔案元數據描述的內容有以下三方面:(1)內容信息:如標題、檔號、分類號、主題詞等;(2)結構信息:如段落層次、文體、發(收)文者等;(3)背景信息:如形成文件的機構及其職能、業務活動等。[4]通過觀察,檔案元數據描述的內容中除了文件標題和主題詞能反映文件全貌,其他元數據項目難以用來判斷一份文件的保管期限。因此本文只選用了文件標題和主題詞這兩個項目來判斷一份電子文件的保管期限。適當的情況下,在判斷保管期限時,還可以加入責任者項目。
為了使電子文件自動鑒定具有可操作性,筆者根據國家檔案局發布的第10號令《企業文件材料歸檔范圍和檔案保管期限規定》,將其中涉及的元數據內容抽取出來,該元數據庫要嵌入檔案管理系統自動鑒定模塊中。部分元數據庫如表1所示:
表格說明:
(1)一級標識限定了電子文件的內容方向,二、三、四級標識隸屬于一級標識,只有同時滿足一級標識、二級標識、三級標識或四級標識才能判斷某份電子文件的保管期限。
(2)由于政策的變化,長期、短期、永久劃分沒有絕對的標準,各單位依據自身具體情況,參照國家檔案局出臺的保管期限劃分等相關規定進行區分,短期可能是3年、5年、10年或15年不等,長期可能是15年或30年不等。
3 電子文件自動鑒定規則、流程與實例
3.1 電子文件自動鑒定規則。要使電子文件實現自動鑒定,只有元數據庫是不夠的,還需要一些規則對其進行規約,筆者歸納出以下鑒定規則:
3.1.1 元數據庫中的元數據項目彼此之間存在從屬或并列的關系,因此在設計數據庫的時候,要把元數據項目之間的這種關系表達清楚,能提高自動鑒定的準確度。如下所示:
1 黨政企事業單位設立、變更、解散
1.1 籌辦申請、設立申請、批準設立 永久
表中內容是永久元數據庫中的項目,一級標識是代表黨政企事業單位在設立、變更或解散過程中形成的文件材料;二級標識是代表在滿足一級標題的情況下,如果涉及籌辦申請、設立申請和批準設立的文件要永久保存。每一級標識里的元數據之間是并列的關系,而上一級標識和下一級標識之間是從屬的關系。
3.1.2 當判斷一份歸檔文件的保管期限時,系統自動從檔案著錄系統中提取專業人員擬定的主題詞、文件標題等元數據,然后與元數據庫進行匹配,可以設置精確匹配、模糊匹配、前向匹配等多種匹配方法。
3.1.3 當抽取的電子文件元數據與元數據庫進行匹配時,匹配的內容之間可能存在同一關系、同涵關系、包含關系、參照關系。因此從電子文件中抽取元數據的時候要依據概念關聯規則,尋求蘊含關系,力求匹配準確和全面。
3.1.4 如果匹配記錄為0的話,就需要相關檔案專業人員結合國家檔案局對電子文件保管期限的相關規定確定該元數據項目的保管期限,并參照表1及時將新增加的元數據添加到元數據庫中。
3.1.5 在檔案管理系統中設定歸檔電子文件到期自動檢測功能,根據電子文件歸檔時間和保管期限,將到期的電子文件篩選出來以方便檔案人員對其鑒定。
3.1.6 標題相同的兩份文件,在添加和刪除的時候,可以根據責任者、主題詞、文件形成時間等其他元數據項目進行判斷,以防重復添加或誤刪重要文件。
3.1.7 通過對抽取出來的元數據進行分析,發現大部分元數據的詞性均為動詞或名詞,因此在抽取詞匯的時候,首先應當過濾掉名詞與動詞以外的詞匯,以減少計算的復雜度。此外,考慮到抽取出來的元數據還有一少部分是副詞詞性,主要有重大、重要和一般三種。鑒于此,筆者認為需要編一個例外詞庫,將這三個副詞分別標明代碼為1,2,3。對于某些三級、四級標識中的一般、重要以及二級標識中重復的詞可以放到例外詞庫中,減少重復判斷的次數。將一、二、三級標識中不重復的名詞和動詞放入元數據詞庫中。當判斷一份電子文件的保管期限時,將抽取出來的關鍵詞與元數據詞庫和例外詞庫中的詞進行匹配即可。
3.1.8 對于事先有保管期限的電子文件,當自動鑒定完成后,要將自動鑒定結果和原有的保管期限進行匹配。如果匹配結果不一致,系統將文件的保管期限修正為自動鑒定保管期限。
3.1.9 規則說明:例如,表中15.2.10職工培訓,一般的為短期保存,重要的為永久保存;15.5綜合治理工作一般的為長期保存,重要的為永久保存。此外表中二級標識中多次出現通知、請示、批復、報告、總結、決議、決定等詞語,可以將其放入例外詞庫中。
3.2 電子文件自動鑒定流程。將表征電子文件內容的元數據項目抽取出來,如:文件題名、主題詞、責任者等項目。然后判斷鑒定模塊中的元數據庫中是否存在該元數據,若存在,則進行匹配;若不存在,則人工判斷該元數據是否需要添加到元數據庫中。流程如圖1所示:
3.3 電子文件自動鑒定實例。為了證明該方法的合理性和易操作性,筆者選取了部分電子文件,來驗證該方法的可行性。筆者以建國后山西省×××局部分檔案為例進行說明,如表2所示:
由表2可以看出第5份和第7份文件保管期限的鑒定結果與原有的不符,究其原因可能是鑒定人員缺乏相應的專業理論知識、各組織單位為了豐富館藏、領導對檔案鑒定工作不重視,等等。對于新產生的電子文件,可通過將元數據庫嵌入檔案管理系統中一次完成保管期限的鑒定。總的來說,該方法具有很強的適用性和準確性。
4 電子文件自動鑒定的實施
筆者認為電子文件鑒定需要經過三個步驟:事前鑒定、事中鑒定和事后鑒定。
4.1 事前鑒定。對原有的電子文件,首先由各職能部門檔案人員對其進行初次鑒定;若是新產生的電子文件,直接轉到第二步。
4.2 事中鑒定。當電子文件由部門傳輸到內部檔案室時,需要檔案室人員對其進行二次鑒定。對于原有的電子文件,為了避免人為判斷造成的影響,要使用檔案管理系統中的元數據庫對其進行自動鑒定,來修正保管期限。對新產生的電子文件直接使用自動鑒定模塊來確定保管期限。此外,檔案人員應對電子文件自動鑒定過程進行記錄和實時監控,以防設備出現異常。
4.3 事后鑒定。為了減輕檔案管理系統的負荷量,當電子文件到期后,檔案人員應該使用元數據庫重新判斷到期電子檔案是否需要繼續保管,如果需要,保管期限是什么。對于沒有保存價值的到期檔案,檔案人員應該做好銷毀記錄,將需要銷毀的電子檔案導出到銷毀清單中,經領導和各部門同意后方可進行銷毀。
參考文獻
[1]劉越南.關于檔案價值鑒定的理論與實踐(五) ——對電子文件鑒定問題的思考[J].檔案學通訊,2001(5).
[2]于慧敏.國外電子文件的鑒定理論分析及啟示[J].蘭臺世界,2003(3).
[3]譚琤培,章丹.檔案元數據在電子文件鑒定中的運用——元數據研究之三[J].浙江檔案,2002(6).
[4]馮惠玲主編.電子文件管理教程[M].中國人民大學出版社.
(作者單位:山西大學經濟與管理學院 來稿日期:2014-07-18)