摘要:本文通過對(duì)現(xiàn)有的電子文件鑒定成果進(jìn)行梳理,指出電子文件自動(dòng)鑒定的必要性。為了使電子文件自動(dòng)鑒定結(jié)果更準(zhǔn)確,筆者以元數(shù)據(jù)內(nèi)容為切入點(diǎn)設(shè)計(jì)了電子文件保管期限自動(dòng)鑒定的元數(shù)據(jù)庫,數(shù)據(jù)庫中收錄了不同保管期限的元數(shù)據(jù)項(xiàng)目,在此基礎(chǔ)上,提出一些鑒定規(guī)則對(duì)自動(dòng)鑒定進(jìn)行規(guī)約,期望能最大限度實(shí)現(xiàn)鑒定的準(zhǔn)確性和自動(dòng)化。
關(guān)鍵詞:元數(shù)據(jù)電子文件自動(dòng)鑒定
一、電子文件鑒定研究綜述
隨著電子文件的出現(xiàn)及其對(duì)傳統(tǒng)紙質(zhì)檔案鑒定理論的沖擊,國(guó)內(nèi)外許多學(xué)者對(duì)電子文件的鑒定理論進(jìn)行了研究。馮惠玲教授提出對(duì)電子文件的鑒定應(yīng)該從內(nèi)容和技術(shù)兩方面來進(jìn)行,在電子環(huán)境中,這項(xiàng)工作需要及早進(jìn)行,文件管理系統(tǒng)設(shè)計(jì)階段是鑒定文件最合適的階段。[1]何嘉蓀等人指出電子文件需要進(jìn)行四次鑒定。[2]劉越南認(rèn)為電子文件自動(dòng)鑒定的方法是在系統(tǒng)中納入并維護(hù)電子文件保管期限表,在鑒定的時(shí)候?qū)⑽募c保管期限表對(duì)照進(jìn)行判斷。[3]于慧敏提出在設(shè)計(jì)文檔管理系統(tǒng)軟件時(shí),可以根據(jù)機(jī)關(guān)或部門的職能重要程度編寫程序由系統(tǒng)自動(dòng)鑒定,自動(dòng)給文件保管期限。[4]麻新純對(duì)電子文件價(jià)值綜合鑒定進(jìn)行了闡述,即在電子文件生命周期的不同階段采用不同的價(jià)值鑒定方法。[5]李雯以電子公文為例,介紹了一種基于業(yè)務(wù)知識(shí)庫,借助信息雷達(dá)、文本挖掘等信息技術(shù)實(shí)現(xiàn)電子文件智能分析的鑒定模式。[6]譚琤培和章丹對(duì)與電子文件鑒定密切相關(guān)的檔案元數(shù)據(jù)進(jìn)行了一系列的研究,指出要建立元數(shù)據(jù)系統(tǒng)與制定元數(shù)據(jù)標(biāo)準(zhǔn),通過系統(tǒng)自動(dòng)記錄與手工記錄獲取檔案元數(shù)據(jù)。[7]葉曉林指出由于傳統(tǒng)文件的管理理念和手段不能適應(yīng)電子文件的管理,需要引入元數(shù)據(jù)技術(shù)對(duì)電子文件進(jìn)行全程管理。[8]DAVID·A·WALLACE在《元數(shù)據(jù)和電子記錄檔案管理:回顧與展望》一文中提到幾個(gè)最有影響力的電子檔案工作者都主張用元數(shù)據(jù)系統(tǒng)的方法來管理電子記錄,并指出元數(shù)據(jù)系統(tǒng)的方法會(huì)影響檔案的鑒定和保存。[9] JAMES·WHITMAN提出記錄保存的出處屬性、真實(shí)性、完整性和元數(shù)據(jù)系統(tǒng)的發(fā)展是記錄鑒定工作的關(guān)鍵。[10]由于電子文件的迅速增長(zhǎng),關(guān)于電子文件鑒定的迫切性在業(yè)內(nèi)已經(jīng)達(dá)成了共識(shí),而大家期盼的最理想的目標(biāo)是對(duì)電子文件實(shí)行自動(dòng)鑒定。從綜述看現(xiàn)有的理論研究并未達(dá)成共識(shí),沒有形成電子文件自動(dòng)鑒定相對(duì)成熟的理論體系,需要相關(guān)研究不斷地總結(jié)與完善。目前的研究成果大都集中在電子文件鑒定內(nèi)容、程序、方法、原則等宏觀方面的研究,缺乏微觀方面的研究。
對(duì)電子文件的鑒定主要包括價(jià)值鑒定和保管期限的鑒定。價(jià)值鑒定十分復(fù)雜,需要考慮的內(nèi)容很多,而且容易受鑒定者的主觀影響,因此本文對(duì)價(jià)值鑒定不做過多的闡述。檔案的鑒定同樣可以通過保管期限來完成,在實(shí)際鑒定保管期限時(shí),目前還是參照國(guó)家檔案局出臺(tái)的文書檔案保管期限表進(jìn)行判斷,由于保管期限表?xiàng)l款劃分過粗、加之人為的因素或者判斷標(biāo)準(zhǔn)不統(tǒng)一的情況,使得電子文件的保管期限判斷不夠準(zhǔn)確。筆者試圖從電子文件的部分元數(shù)據(jù)內(nèi)容入手來判斷電子文件的保管期限。
本文以元數(shù)據(jù)為切入點(diǎn),主要采用在文獻(xiàn)調(diào)查的基礎(chǔ)上,通過統(tǒng)計(jì)方法構(gòu)建元數(shù)據(jù)庫,將元數(shù)據(jù)內(nèi)容信息作為電子文件保管期限自動(dòng)鑒定的依據(jù),期望能使電子文件自動(dòng)鑒定更加完善,且具有實(shí)際操作性,從而提升電子文件歸檔管理的效率。筆者通過選取文件標(biāo)題、主題詞這兩個(gè)能反映文件全貌的元數(shù)據(jù)內(nèi)容項(xiàng)目進(jìn)行了實(shí)證分析,對(duì)自動(dòng)鑒定結(jié)果進(jìn)行了驗(yàn)證。
二、電子文件元數(shù)據(jù)庫的內(nèi)容創(chuàng)建
元數(shù)據(jù)是指描述文件背景、內(nèi)容、結(jié)構(gòu)及其整個(gè)管理過程的數(shù)據(jù)。檔案元數(shù)據(jù)對(duì)電子文件自動(dòng)鑒定有著不可忽視的作用。檔案元數(shù)據(jù)描述的內(nèi)容有以下三方面:(1)內(nèi)容信息:如標(biāo)題、檔號(hào)、分類號(hào)、主題詞等;(2)結(jié)構(gòu)信息:如段落層次、文體、發(fā)(收)文者、發(fā)(收)文者地址、稱謂等;(3)背景信息:如形成文件的機(jī)構(gòu)及其職能、形成文件的業(yè)務(wù)活動(dòng)、文件使用情況、應(yīng)用軟件、文件使用權(quán)限、文件的保存與處置決定等。[11]檔案元數(shù)據(jù)描述的內(nèi)容中除了文件標(biāo)題和主題詞能反映文件全貌,其他元數(shù)據(jù)項(xiàng)目難以用來判斷一份文件的保管期限。因此本文只選用了文件標(biāo)題和主題詞這兩個(gè)項(xiàng)目來判斷一份電子文件的保管期限。適當(dāng)?shù)那闆r下,在判斷保管期限時(shí),還可以加入責(zé)任者項(xiàng)目。
為了使電子文件自動(dòng)鑒定具有可操作性,筆者根據(jù)國(guó)家檔案局發(fā)布的第十號(hào)令《企業(yè)文件材料歸檔范圍和檔案保管期限規(guī)定》,將其中涉及的元數(shù)據(jù)內(nèi)容抽取出來,將元數(shù)據(jù)分別歸到短期、長(zhǎng)期和永久元數(shù)據(jù)庫中,該元數(shù)據(jù)庫要嵌入檔案管理系統(tǒng)自動(dòng)鑒定模塊中。
三、電子文件自動(dòng)鑒定規(guī)則和流程
(一)電子文件自動(dòng)鑒定規(guī)則
要使電子文件實(shí)現(xiàn)自動(dòng)鑒定,除了元數(shù)據(jù)庫是不夠的,還需要一些規(guī)則對(duì)其進(jìn)行規(guī)約,筆者歸納出以下鑒定規(guī)則:
1.元數(shù)據(jù)庫中的元數(shù)據(jù)項(xiàng)目彼此之間存在從屬或并列的關(guān)系,使用等級(jí)分類的方法對(duì)它們進(jìn)行表示,因此在設(shè)計(jì)數(shù)據(jù)庫的時(shí)候,要把元數(shù)據(jù)項(xiàng)目之間的這種關(guān)系表達(dá)清楚,能提高自動(dòng)鑒定的準(zhǔn)確度。
2.當(dāng)判斷一份歸檔文件的保管期限時(shí),系統(tǒng)自動(dòng)從檔案著錄系統(tǒng)中提取專業(yè)人員擬定的主題詞、文件標(biāo)題等元數(shù)據(jù),然后與元數(shù)據(jù)庫中事先保存的元數(shù)據(jù)項(xiàng)目進(jìn)行匹配,可以設(shè)置精確匹配、模糊匹配、前向匹配等多種匹配方法。
3.當(dāng)抽取的電子文件元數(shù)據(jù)與元數(shù)據(jù)庫進(jìn)行匹配的時(shí)候,匹配的內(nèi)容之間可能存在以下關(guān)系:(1)同一關(guān)系,指內(nèi)容完全一樣。(2)同涵關(guān)系,指描述形式不同,但內(nèi)容一致,如計(jì)算機(jī)和電腦。(3)包含關(guān)系,指兩個(gè)元數(shù)據(jù)描述的內(nèi)容在語義上存在層級(jí)關(guān)系。(4)參照關(guān)系,指元數(shù)據(jù)的描述形式和內(nèi)容均不一致,但內(nèi)容之間互有參考的作用。因此從電子文件中抽取元數(shù)據(jù)的時(shí)候要依據(jù)概念關(guān)聯(lián)規(guī)則,尋求蘊(yùn)含關(guān)系,發(fā)掘隱含信息,力求匹配準(zhǔn)確和全面。
4.如果匹配記錄為0的話,一時(shí)無法判斷該份電子文件的保管期限,就需要相關(guān)檔案專業(yè)人員結(jié)合國(guó)家檔案局對(duì)電子文件保管期限的相關(guān)規(guī)定確定該元數(shù)據(jù)項(xiàng)目的保管期限,并及時(shí)將新增加的元數(shù)據(jù)添加到元數(shù)據(jù)庫中,以不斷擴(kuò)充和完善元數(shù)據(jù)項(xiàng)目,確保鑒定結(jié)果的準(zhǔn)確、統(tǒng)一,方便下次鑒定使用。
5.在檔案管理系統(tǒng)中設(shè)定歸檔電子文件到期自動(dòng)檢測(cè)功能,根據(jù)電子文件歸檔時(shí)間和保管期限,將到期的電子文件篩選出來以方便檔案人員對(duì)其進(jìn)行鑒定。
6.標(biāo)題相同的兩份文件,在添加和刪除的時(shí)候,可以根據(jù)責(zé)任者、主題詞、文件形成時(shí)間等其他元數(shù)據(jù)項(xiàng)目進(jìn)行判斷,以防重復(fù)添加或誤刪重要文件。
7.通過對(duì)抽取出來的元數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)大部分元數(shù)據(jù)的詞性均為動(dòng)詞或名詞,從語言學(xué)角度看,名詞和動(dòng)詞能更好地表達(dá)主題,因此在抽取詞匯的時(shí)候,首先應(yīng)當(dāng)過濾掉名詞與動(dòng)詞以外的詞匯,以減少計(jì)算的復(fù)雜度。此外,考慮到抽取出來的元數(shù)據(jù)還有一少部分是副詞詞性,主要有重大、重要和一般三種。鑒于此,筆者認(rèn)為需要編一個(gè)例外詞庫,將這三個(gè)副詞分別標(biāo)明代碼為1、2、3。對(duì)于某些三級(jí)、四級(jí)標(biāo)識(shí)中的一般、重要以及二級(jí)標(biāo)識(shí)中重復(fù)的詞可以放到例外詞庫中,減少重復(fù)判斷的次數(shù)。將一、二、三級(jí)標(biāo)識(shí)中不重復(fù)的名詞和動(dòng)詞放入元數(shù)據(jù)詞庫中。當(dāng)判斷一份電子文件的保管期限時(shí),將抽取出來的關(guān)鍵詞與元數(shù)據(jù)詞庫和例外詞庫中的詞進(jìn)行匹配即可。
8.對(duì)于事先有保管期限的電子文件,當(dāng)自動(dòng)鑒定完成后,要將自動(dòng)鑒定結(jié)果和原有的保管期限進(jìn)行匹配。如果匹配結(jié)果不一致,系統(tǒng)將文件的保管期限修正為自動(dòng)鑒定保管期限。
當(dāng)歸檔電子文件到期后,要對(duì)系統(tǒng)中待銷毀的檔案進(jìn)行鑒定,通過從檔案管理系統(tǒng)中導(dǎo)入電子文件歸檔日期,限定時(shí)間段,如長(zhǎng)期保存的時(shí)間跨度是30年,短期保存的時(shí)間跨度是10年,查詢出系統(tǒng)中哪些到期檔案需要銷毀。在銷毀前,從著錄系統(tǒng)中導(dǎo)入期滿檔案的主題詞、文件標(biāo)題等元數(shù)據(jù)項(xiàng)目,調(diào)用檔案管理系統(tǒng)中的元數(shù)據(jù)庫,然后將其進(jìn)行匹配,確認(rèn)檔案是否需要繼續(xù)保存。若需要,則判斷保管期限類型進(jìn)行歸檔;若不需要,則做好銷毀檔案目錄清單,保留銷毀記錄,對(duì)期滿檔案進(jìn)行銷毀。
(二)電子文件自動(dòng)鑒定流程

將表征電子文件內(nèi)容的元數(shù)據(jù)項(xiàng)目抽取出來,如:文件題名、主題詞、責(zé)任者等項(xiàng)目。然后判斷鑒定模塊中的元數(shù)據(jù)庫中是否存在該元數(shù)據(jù),若存在,則與元數(shù)據(jù)庫進(jìn)行匹配;若不存在,則人工判斷該元數(shù)據(jù)是否需要添加到元數(shù)據(jù)庫中。
參考文獻(xiàn):
[1]馮惠玲.電子文件的雙重鑒定[J].檔案學(xué)通訊,1998(3)
[2]何嘉蓀等.OA系統(tǒng)中電子文件內(nèi)容價(jià)值鑒定[J].山西檔案,2002(1)
[3]劉越南.關(guān)于檔案價(jià)值鑒定的理論與實(shí)踐(五)——對(duì)電子文件鑒定問題的思考[J].檔案學(xué)通訊,2001(5)
[4]于慧敏.國(guó)外電子文件的鑒定理論分析及啟示[J].蘭臺(tái)世界,2003(3)
[5]麻新純.電子文件價(jià)值綜合鑒定論[J].檔案學(xué)通訊,2005(6)
[6]李雯.電子文件價(jià)值智能鑒定探析[J].檔案學(xué)研究,2011(6)
[7]譚琤培,章丹.檔案元數(shù)據(jù)在電子文件鑒定中的運(yùn)用——元數(shù)據(jù)研究之三[J].浙江檔案,2002(6)
[8]葉曉林.電子文件全程管理之思考[J].檔案學(xué)研究,2005(1)
[9]DAVID A. WALLACE. Metadata and the Archival Management of Electronic Records: A Review[J].ARCHI? VARIA 36,1993
[10]JAMES WHITMAN.Systems of appraisal for the management of research records–content,value and con? tingency[J].Records Management Journal,2000,10(2)
[11]馮惠玲主編.電子文件管理教程[M].中國(guó)人民大學(xué)出版社
作者單位:山西大學(xué)經(jīng)濟(jì)與管理學(xué)院