王楠 丁原 李軍
摘 要:貫徹新《檔案法》,加大檔案開放力度,是《“十四五”全國檔案事業發展規劃》的主要任務之一。文章采用語義工程技術,在構建語義層次網絡的基礎上,開發了檔案智能開放審核系統。選取江蘇省檔案館4個全宗的11萬余件檔案,分別利用關鍵詞過濾法和基于語義層次網絡的語義分析法進行檢測。檢測結果顯示,基于語義層次網絡的語義分析法較之關鍵詞法,在精確率方面有顯著提升,說明語義層次網絡可以突破傳統關鍵詞技術只能匹配文書檔案字面詞義的局限,有效降低關鍵詞技術帶來的語義失真,從而減少開放審核中的誤判、漏判和對不準的問題。
關鍵詞:語義層次網絡;檔案開放審核;文書檔案
《“十四五”全國檔案事業發展規劃》明確將“加快推進檔案開放”納入“十四五”期間檔案事業發展的主要任務,并進一步提出“新一代信息技術在檔案工作中的應用更為廣泛,信息化與檔案事業各項工作深度融合,檔案管理數字化、智能化水平得到提升,檔案工作基本實現數字轉型”的發展方向。[1]2021年1月起正式施行的新《檔案法》針對加大檔案開放力度做了重要修訂。[2]采用智能化輔助手段提升檔案開放審核工作效率,已是大勢所趨。
一、 研究背景
1. 業內對檔案開放審核的相關實踐
近年來,各地紛紛嘗試利用信息化手段提升檔案開放審核工作效率,如:青島市檔案館編制敏感詞庫,通過軟件對檔案目錄中的敏感詞進行掃描;福建省檔案館利用類別特征詞進行開放審核;上海市浦東新區檔案館借助人工智能技術對關鍵詞進行審核;寧波市檔案館開發的館藏資源管理系統可進行敏感詞輔助鑒定提示。[3]利用關鍵詞方式輔助檔案開放審核具有投入成本低、門檻低的優勢,已成為當前業內主流。
2. 關鍵詞技術存在的問題及解決之道
利用關鍵詞方式輔助檔案開放審核,其有效程度嚴重依賴檔案題名或全文中是否存在可供判斷的關鍵詞。此方法的局限性在于關鍵詞的詞義必須和鑒定條件的語義完全對應。而在以下情境中,很難僅憑關鍵詞判斷該檔案是否應予繼續控制。
情境一:關鍵詞與主語義不匹配。如因涉及商業或技術秘密,“工藝”作為關鍵詞有可能成為控制條件。若某檔案題名是“關于印發《加強某中藥制劑工藝流程管理》的通知”,雖然題名含有“工藝”,主語義卻是“通知”,與關鍵詞不匹配。
情境二:檔案不含命中控制條件的關鍵詞,只有對應的語義。例如,行政案件的原告或被告是行政機關,假設某控制條件為“行政案件相關檔案應予以繼續控制”,但在相關檔案的題名和全文里,作為關鍵詞的“原告”“被告”“行政機關”字樣可能都沒有出現,行文中只有對具體機構名稱和案件的描述。
情境三:語義的層次性造成關鍵詞范圍難以界定。如涉及我國“重要資源”的材料需要控制,該控制條件的內涵層次則極豐富,本地土地、氣候、水、生物、礦產等方面的重要資源都在范圍中,單靠整理收錄關鍵詞難以窮舉。
上述情境都可以看作語義層次的問題。情境一是文書檔案中的詞義與檔案分析人員期望的語義脫節。情境二是文書檔案中只有一些語義,而沒有對應的詞及其詞義。情境三是詞義和語義的層次太深,在不知曉語義層次關系的情況下,很難確認文書檔案中的詞義與哪些深層語義存在對應關系,或文書檔案中的一些基層詞義與哪個抽象的高層語義對應。因此,構建語義層次網絡并用以支撐檔案開放審核中的條件匹配,是解決上述關鍵詞技術缺陷的可行之道。
3. 業內對語義層次網絡的相關研究
近幾十年,闡述概念及概念之間關系的理論——本體論(Ontology)被應用到計算機界。[4]1968年,奎林提出語義網絡(Semantic Network)概念。1998年,蒂姆·伯納斯提出語義網(Semantic Web)概念。兩者共同的基礎是本體論。國內,夏天、錢毅把本體論、語義網絡以及元數據的思想運用到了檔案數據建設中。[5]相關研究雖然都提出了語義網絡的概念,但都未將語義層次作為研究重點,語義層次僅包含在網絡概念中。根據奎林的語義網絡[6]、菲爾墨的格語法[7]、山克的概念從屬邏輯理論[8]及漢語“字義基元化,詞義組合化”現象,中科院聲學研究所黃增陽教授創立了語義層次網絡(Hierarchical Network of Concepts,HNC)理論。[9]HNC理論認為,所有的自然語言空間對應著同一個語言概念空間。[10]HNC理論的創新點是專門針對層次的論述,缺陷在于把靜態的概念和動態的事件混雜在一起,使得層次關系冗雜紊亂。
基于此,本研究采用人工智能領域前沿的語義工程技術,打造突出層次關系的語義層次網絡。與此同時,對本體論中的概念定義進行了細化,重點區分了靜態實體概念和動態事物或事件(即在特定環境中發生的事物)概念。在此基礎上,開發了檔案智能開放審核系統,以期改善以往主要借助關鍵詞技術的檔案開放審核系統的不足。
二、 技術方案
1. 開放審核的機理
利用計算機輔助檔案館進行開放審核可以有兩個設計方向:一是讓計算機自動找出應予以控制的檔案;二是讓計算機自動找出應予以開放的檔案。即使前者將一部分應予以開放檔案誤識別為應予以控制檔案,只要誤判率足夠小就可以接受,因為被誤判的檔案尚處于檔案館管控中,未來還有開放機會,而并未造成泄密。但對于后者,哪怕只有一份應予以控制檔案被誤開放,也是嚴重的泄密事故。
保證計算機識別的有效性主要靠條件匹配法。一方面,把國家規定的抽象劃控鑒定條件與檔案館自身的具體情況相結合,細化出適合本檔案館的鑒定條件集;另一方面,讓計算機從檔案中自動提取適合鑒定條件的線索,與細化后的鑒定條件匹配,匹配成功就會觸發對檔案的劃控識別。
2. 基于語義分析的解決方案
準確匹配文字內容的技術是語義匹配,只要檔案中所表達的意思與鑒定條件的意思相同,則觸發劃控識別的準確率是100%。故此,開放審核的問題轉化為如何解析鑒定條件到一系列具體語義,如何在檔案中準確識別語義,以及如何匹配二者的問題。
實際上,關鍵詞匹配也是一種語義匹配。如果一個關鍵詞不足以表達目標語義,可以用一組關鍵詞來映射檔案原文中蘊含的語義。如果一組關鍵詞不夠,可以把詞出現的順序(即詞序)和出現的次數(即詞頻)也用上。如果加入詞序和詞頻還不夠,可以把詞性、語法和句法等關系都用上。以上所有方法有一個共同的特點,即完全依賴檔案原文中的詞及詞與詞之間的關系。因此,這類語義分析方法稱為字面語義分析或淺層語義分析。
檔案中還有很多語義不是直接通過字面語義表達出來的,需要結合語境、語義模型等進行推斷才能獲得。以“聚眾賭博”為例,不是含有這個詞的檔案都需要控制使用,如《某單位職工行為規范》;但如果“聚眾賭博”一詞出現在與評鑒某人相關的文件里,則該檔案應予以控制使用。這類語義分析稱為隱含語義分析或深層語義分析。本研究開發的利用語義層次網絡的語義分析技術就是一種深層語義分析技術。
3. 語義層次網絡的構建
語義層次網絡是一種專門為解決對不準問題而設計的語義模型。一般的語義網絡中,節點之間的關系可以是任意關系,包括同級節點之間的關系、相鄰節點之間的關系、跨節點的關系、相鄰層級之間的關系以及跨層級的關系等。語義層次網絡只包括相鄰層級之間的關系,不包括同層級的任何關系,即:同層級節點之間相互獨立,也不包括任何跨節點關系和跨層級關系(二者的區別見圖1)。

語義層次網絡是解析抽象檔案鑒定條件的基礎。語義層次網絡建設越完備,抽象鑒定條件就可以被解析得越具體,越容易被計算機匹配成功。同樣,語義層次網絡也是在檔案中從抽象字面語義挖掘具體語義的基礎。語義層次網絡可以使檔案原文和鑒定條件中邏輯距離看似很遠的詞組之間在任意語義層次中實現對齊,完成匹配,以此有效解決檔案開放審核工作中對不準的問題,同時減少誤判和漏判。
(1)概念的表示
語義層次網絡與泛化的語義網絡都是以概念為節點,語義層次網絡的節點不僅包括靜態的實體概念,還包括動態的事物,采用定義更寬泛的參數作為特征描述量。本研究定義的概念將實體和事物作了明確區分,有利于規范它們各自的關系和相互之間的關系。
針對文書檔案,概念節點指一類文字語義,由概念名(n)、概念語義定義(d)和概念值(v)組成的三元組[n、d、{v}]表示。{v}代表所有符合d的v值的集合。例如,“人名”是一個概念,其名稱就是“人名”,其語義定義為“人的稱呼”,其值為原文中所有符合該語義定義的具體人名。
(2)概念的層次
概念層次(Hierarchy,簡稱:h)的分層方法由各種層次分明的關系決定,包括但不限于如下類型。
① 組成關系,即:字段之間具有“局部”功能組成“整體”功能的關系(見圖2)。
② 包含關系,即:客觀存在的空間形式邏輯關系定義下的局部與整體關系,“局部”包含在“整體”之內(見圖3)。
③ 種屬關系,即:相同分類特征定義下的一事物類與其子類的關系(見圖4)。
④ 嵌套關系,即:事物過程與步驟的關系(見圖5)。
鑒于語義層次網絡的完整性,設計該網絡的節點時可設計一定數量在檔案原文中無對應內容的節點,稱為“虛節點”,而在原文中有對應內容的節點稱為“實節點”。如果將語義層次網絡視為“樹”,在設計和表示語義層次網絡時,末端節點都是實節點,但可以“剪枝”。“剪枝”后的末端節點,無論是實節點還是虛節點,應繼承其下所有未展開節點的特性。
事物或事件為節點時,以它們之間的組成關系、包含關系、屬種關系或嵌套關系為分層依據,可以組成更高層次的抽象概念,包括但不限于:一系列簡單事物類概念組成的多層次復雜事物概念是“復雜事物”類概念,如出訪、交易等;由一系列相關的典型性事物概念組成的高級抽象概念是社會事務類概念,如外交、經濟等;由一系列相關的、集中發生的事件概念組成的高級抽象概念是社會運動類概念,如戰爭、改革等;由一系列相關的、經常發生的事件概念形成的高級抽象概念是社會現象類概念,如科技創新、精神文明建設等。業內所指的“關鍵詞”,在本研究中也是一種特殊的概念,概念名就是對象關鍵詞本身,其語義定義可能是其自身的詞義,也可能是語義層次網絡定義人員認為重要的任意語義,關鍵詞概念的值是原文中對象關鍵詞的所有同義詞。
(3)概念的參數

定義概念和概念的層次在很大程度上有助于進行語義識別,但對于利用概念做語義分析、為文書檔案開放審核設計鑒定規則還遠遠不夠。為增強語義分析能力,不僅須定義出概念名表達的語義和層次關系,還須定義或識別出圍繞概念的參數(Parameter,簡稱p),并掛接在其修飾的概念下。概念擁有屬性、性質、方面、數量、能力等基本參數,事物或事件節點還擁有方式、目的、指向、能愿等參數。
屬性(Attribute),所有可測量或可感知的量,其特性是可排序、可比較。它的名稱是該屬性維度的名稱,值是該屬性維度中的一個特定項。
性質(Nature),只可做定性比較的量,一般只有三個值:左極端值、右極端值、中間值。性質的名稱一般是性質兩個極端值的組合,例如好壞、強弱、優劣等;其值是該性質的三個值之一,例如名稱是“優劣”,值是“中”。性質的名稱也可以由形容詞加“性”字后綴表示,如“重要性”,其正值就是形容詞本身,如“重要”;負值就是形容詞前加“不”字,如“不重要”;中間值就是“既+形容詞+又不+形容詞”,如“既重要又不重要”。
方面(Aspect),修飾宿主概念的其他概念,例如形式、趨勢等。除專門解釋這類概念的句型,這類概念在句中一般不單獨使用,須與宿主概念搭配表達才有意義,例如合作形式、發展趨勢等。方面類參數的名稱是文書檔案中表示方面的概念詞,其值類似性質值的表述,即:用幾個簡單的等級做定性描述,例如名稱是“形勢”,值是“好”。
數量(Quantity),即宿主概念的可數特征,如概念的“數量”,行為的“頻次”,對于事物或事件而言,則既可是數量,也可是頻次。數量類參數的名稱是文書檔案中該數量的宿主實體或事物的數量表示,例如總人數、銷售額、比賽成績等,其值就是它們的具體數值(+度量單位),如80人、1000萬元、129分等。
能力(Ability),表示其修飾的實體概念能夠干什么。能力類型的參數名多以表示能力的事物或事件的“行為+客體”形式命名,如踢球、學習英語等,或用“主體+行為”的形式命名,如自我安慰、火山爆發等。能力的值常用“會+事物”“能+事物”“干過+事物”等類似短語表示,例如會武功、能爬山、當過兵等。
事物或事件概念還存在以下參數:方式(Method),即如何實施,包括參考依據、所使用的工具等;目的(Purpose),即實體概念實施行為的目的;指向(Point),指實體概念行為作用的對象;能愿(Desire),代表實體概念實施某類行為的可能性、傾向性。
值得注意的是,本研究定義的“參數”與一些學者在自然語義處理技術中定義的“元數據”類似,都是描述或限定概念的量。不同之處是,參數更強調原文中宿主概念自身擁有的、代表語義的特征量,可以用于語義分析,而元數據更強調文字工作者為使用文本內容定義給宿主概念的名稱,適用于內容管理。
(4)概念的狀態
“狀態”是概念的一個動態參數,指概念任意變化在某個時點或時段的值。狀態類參數的名稱與其宿主概念有關。如果宿主概念與狀態參數的關系明確,狀態名可直接使用變化量的名稱,否則按“宿主名+‘.’+變化量名”命名。例如,“案卷.質量”“館藏檔案.保存情況”等。狀態值可能有三種形式:一是變化量,如“全宗增加了三個”;二是在某個時段的值,如“立檔單位合并撤銷”;三是發展趨勢,如“脫貧攻堅檔案整理扎實推進”。
在語義層次網絡中,一個節點的基本概念可由[n,d,{v}]表示,該節點可能擁有的參數可由{p}表示,該節點對相鄰節點的所有層次關系可由{h}表示(注意同層級節點之間是相互獨立的),則語義層次網絡節點的完整表述可以是一個五元組[n,d,{v},{p},{h}]。參數集合{p}中包括動態參數“狀態”,因此這個五元組既表示語義層次網絡節點的靜態關系,也表示其動態關系。
4. 基于語義層次網絡的文書檔案開放審核系統

在上述概念的基礎上,本研究繪出了基于語義層次網絡的文書檔案開放審核系統總體框架圖(見圖6)。其中,解決方案包括五個組成部分:①檔案預處理;②檔案文本解析;③檔案語義分析;④檔案開放審核;⑤檔案人工審核。
檔案預處理模塊把非文本檔案轉化為純文本檔案。這是后續所有語義分析模塊的基礎。
檔案文本解析模塊把純文本檔案轉化為一個可以進行語義分析的文件。有兩個子任務:一是恢復純文本檔案的版面格式,例如正確劃分段落、句子,正確區分標題、正文等;二是對文本的每個自然句進行自然語言解析,包括切詞、詞性標注、詞語聚合、短語識別等。
檔案語義分析是核心模塊,分為格式語義分析、淺層語義分析和深層語義分析。
格式語義分析模塊能夠將檔案版面位置所隱含的語義“翻譯”出來,如識別密件的密章或“內部材料”“機密”等標密格式,使之成為開放審核線索之一。它可以在檔案預處理的結果上運行。在格式語義庫的支持下,其分析結果直接輸出至基于語義分析的開放審核模塊。
淺層語義分析主要依靠字符串匹配技術實現。淺層語義分析又分為全文檢索和字面語義分析。語義主要由詞義體現,沒有層次。如果一次只匹配一個詞,則為全文檢索。全文檢索采用業內成熟模塊,在純文本檔案的基礎上,由一個關鍵詞庫支持。如果一次匹配多個字符串,并集齊字符串的上下文信息用以分析句子乃至整個檔案的語義,則為字面語義分析。字面語義分析較之全文檢索,語義失真程度明顯更低。
深層語義分析是本研究的重點創新。文書檔案中的字符串只是語義層次網絡節點概念的名稱,其語義由語義層次網絡各層相應節點的語義決定。因此,深層語義分析不再是簡單的字符串匹配技術,而是在語義層次網絡的不同語義層中的語義匹配,由此可以挖掘字符串名下隱含的深層語義。
深層語義分析和鑒定條件解析都由基于語義層次網絡的語義知識庫支撐。進行開放審核時,輸入的鑒定條件往往非常抽象,不能為計算機直接使用。條件解析模塊將簡單抽象的鑒定條件在語義層次網絡中解析,不斷細化、具體化,直到計算機從檔案原文中提取的語義線索為容易匹配的層次,由此形成鑒定條件庫。
格式語義分析、淺層語義分析和深層語義分析的結果都會輸入“基于語義分析的檔案開放審核”模塊,在鑒定條件庫的支撐下,實現文書檔案語義與鑒定條件語義的相互匹配,完成對檔案的開放審核,輸出不可開放的檔案(集)。在輸出不可開放檔案的同時,系統會將候選開放的檔案移交人工審核。經人工確認無誤,系統輸出可以開放的檔案(集)。
三、 實驗驗證
為驗證語義層次網絡在文書檔案開放審核中的作用,本研究做了一個對比實驗,從江蘇省檔案館選取了4個全宗的11萬余件檔案,分別利用傳統的關鍵詞過濾法和基于語義層次網絡的語義分析法各檢測一遍,并將兩次結果進行比較。
需要說明的是,基于語義層次網絡的語義分析法也包括關鍵詞技術。當語義層次只有一層時,字符串匹配就很重要,如果每次只匹配一個字符串,就是關鍵詞匹配。理論上講,基于語義層次網絡的語義分析法在關鍵詞技術的基礎上增加了更多、更強大的功能,較之單獨使用關鍵詞匹配技術的方法應用效果應該更好。
1. 評價方法
本次實驗采用的評價方法為業內標準的評價方法,為便于理解實驗結果,僅對相關術語做了調整。本實驗主要采納三個評價指標:
① 檢出率(Acc),在整個件數樣本N中,被檢出的需要劃控的檔案件數M,即:Acc=M/N;
② 精確率(Pre),在被檢出的需要劃控的檔案件數M中,確實需要劃控的件數m,即:Pre=m/M;
③ 召回率(Rec),假設真實需要劃控的檔案件數為Z,上述機器識別出的正確的劃控件數m與Z的比為召回率,即:Rec=m/Z。
由于在具體的實驗中,真正需要劃控的檔案件數Z是一個未知數,我們用人工鑒定的結果來代替,即:把與人工鑒定結果完全一致的檔案件數稱為“確實需要劃控的檔案件數m”,把人工鑒定需要劃控的檔案總件數稱為“真實需要劃控的檔案件數Z”。因此,本實驗的精確率和召回率實際上只是個近似值,取決于人工鑒定結果的質量。
為保證實驗結果的可比性,本研究嚴格遵守“其他條件完全相同”的原則,即人工鑒定結果造成的系統誤差對關鍵詞法和語義分析法的影響相同,以此保證兩種方法實驗結果的相對可比性。
2. 實驗數據
實驗結果數據如表1所示。對比各組檢測結果和平均值,基于語義層次網絡的語義分析法較之關鍵詞法,在精確率方面有較大提升。由此可知,語義分析法更接近人工開放審核的真人判斷。該結果為本研究的理論假設提供了證據,即:語義層次網絡的設計可以有效減少關鍵詞技術缺陷導致的語義失真,減少誤判、漏判和對不準的問題。

實驗結果顯示,在檢出率方面,基于語義層次網絡的語義分析技術較之關鍵詞技術,改進并不明顯。其原因主要在于:一個全宗內能檢出的應劃控檔案的數量,取決于實際應劃控檔案在該全宗內的數量。有的全宗內大部分都是需要開放的檔案,因此就算把應劃控檔案全部識別出來,也不會產生高檢出率;而對于一個大部分檔案都需要劃控的全宗而言,檢出率相應就會很高。因此,對于計算機自動開放審核而言,主要目標是把應劃控檔案盡量都檢測出來,檢出率只是節約人力程度的參考指標。
與檢出率相比,召回率更能體現機器算法與人類意見的一致性。如果召回率高一些,說明計算機判定劃控的標準制定得寬松了一些;反之,召回率低一些,說明相應標準嚴苛了一些。這正是本實驗語義分析的精確率徘徊在90%左右的原因。理論上,只要鑒定條件設計合理,計算機檢出的應劃控檔案一定押中了某條鑒定規則,精確率應接近100%,但是,本實驗對比的標桿是人工檢測結果,人機認識上的偏差必然導致精確率的下降。換言之,改進、完善語義層次網絡,使計算機的鑒定規則更加貼近人的認識,是提高檔案開放審核精確率和召回率的關鍵。
四、 結論
本研究提出的語義層次網絡能夠在文書檔案字面語義與開放審核條件所蘊含的深層語義之間搭起一座橋梁,打破了傳統關鍵詞技術只能匹配文書檔案字面詞義的局限性,有效降低關鍵詞技術帶來的語義失真,從而減少開放審核中的誤判、漏判和對不準問題。
提高文書檔案開放審核質量的關鍵在于完善用于支撐開放審核的語義層次網絡以及基于該網絡的語義知識庫,繼而完善基于該語義知識庫的文書檔案語義識別、分析、判斷和審核系統。此外,考慮到基于語義層次網絡的文書檔案開放審核系統需要對待鑒定檔案進行全文解析,因此系統在設計功能時應具備全文OCR提取能力。與此同時,鑒于當下國內檔案館多采用國產信創環境,系統設置也應做到充分兼容,可無障礙對接檔案館現有管理系統,從而實現審核結果高效率回填。
*本文系國家檔案局科技項目“基于語義分析的檔案館劃控開放智能鑒定的研究”(項目編號:2021-X-71)階段性研究成果。
注釋與參考文獻
[1]中華人民共和國國家檔案局.中辦國辦印發《“十四五”全國檔案事業發展規劃》[EB/OL] .[2021-06-09].https:// www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb5 5c890762868683.shtml.
[2]中華人民共和國國家檔案局.中華人民共和國檔案法[EB/OL] .[2020-06-20].https://www.saac.gov.cn/daj/falv/202006/ 79ca4f151fde470c996bec0d50601505.shtml.
[3]參考自江蘇省檔案館館長陳向陽在2021年12月15日召開的“江蘇省館藏檔案開放工作視頻會”上作的報告:《聚焦主責主業、勇于擔當作為,全力提升館藏檔案開放工作水平》。
[4]Stanford Encyclopedia of Philosophy.Logic and Ontology[EB/OL].[2022-06-28].https://plato.stanford.edu/entries/ logic-ontology/.
[5]夏天,錢毅.面向知識服務的檔案數據語義化重組[J].檔案學研究,2021(2):36-44.
[6]語義網絡[EB/OL].[2022-06-28].https://baike.baidu. com/item/%E8%AF%AD%E4%B9%89%E7%BD%91%E7%BB%9C/ 2841346 fr=Aladdin.
[7]Fillmore C J. The case for case[J].Universals in Linguistic Theory,1967(4):16-24.
[8]Schank R C. Conceptual Dependency: A Theory of Natural Language Understanding[J].Cognitive Psychology, 1972,3:552-631.
[9]溫有奎.文本知識分析中的語義層次網絡方法[J].情報科學,2002(3):260-261.
[10]中國科學院聲學研究所.HNC(語義層次網絡)理論[C]//中國中文信息學會第六次全國會員代表大會暨成立二十五周年學術會議中文信息處理重大成果匯報展資料匯編,2006:139-143.