屈垠岑,趙銀亮,酒沖沖,劉 碩
(西安交通大學計算機科學與技術學院,西安 710049)
閱卷一直是司法訴訟工作中不可缺少的一步,充當著串聯訴訟各階段的重要角色。刑事、民事和行政等訴訟案件在不同程序環節都需要相關人員對卷宗進行閱卷,一份卷宗往往包含大量文件材料,閱卷者通常需要閱讀所有的文件材料來發現案件的實體事實和程序事實,避免遺漏和錯誤。比如在審查起訴環節,辦案人需要在有關利害關系人參與下,對偵查過程及結論進行審查,并確定是否起訴。審查的方式主要是書面閱卷,同時也必須訊問有關利害關系人的意見。其中,書面閱卷審查的內容重點為犯罪嫌疑人的情況、犯罪事實與情節、證據材料、訴訟文書和法律手續、有無遺漏罪行、是否應予追究刑事責任、偵查活動是否合法等[1]。伴隨多樣化閱卷目標和大量的卷宗文書,閱卷審查所需思維過程復雜、工作量大。在訴訟實踐中,辦案人錯誤地認定事實、錯誤地定性、錯誤地起訴的深層次原因在于人類的認知能力,包括偵查發現事實的能力、公訴中判斷證據與事實及其性質的能力都是有限的[2]。
面對大量文書數據和多樣化閱卷目標,由于普通人的認知能力有限,在閱卷過程中常會面臨信息過載和知識迷航兩大挑戰[3]。其中,信息過載是指閱卷者接收了太多的信息卻無法有效整合、組織成自己需要的信息[4]。知識迷航是指閱卷者在信息收集過程中可能出現類似在大海中航行迷失方向而不知所措的現象[5]。在司法實踐中,通過對辦案實踐的總結形成閱卷流程和方法,并制作閱卷筆錄[6]可以一定程度上緩解這兩個問題,如“先簡后繁”“先供后證”的閱讀方式有利于減輕閱卷迷航的問題,“對照閱讀”“邊閱邊問”的閱讀方式有利于減輕認知負載的問題,但這些方法依然需要閱卷者有豐富的閱卷經驗,并且需要花費閱卷者大量的時間精力。
為了解決上述問題,采用一個合適的模型來自動組織卷宗知識、表達卷宗內容信息是很有必要的,知識森林模型采用與人類認知更一致的方式表示卷宗內容,利用主題分面樹以及主題間關系作為卷宗的知識化表示,已在教育領域顯示出顯著緩解信息過載和知識迷航的效果。本文以隨案電子卷宗為研究對象,研究目標是為每一份案件卷宗數據自動構建卷宗知識森林,展現卷宗完整信息。本文的主要工作如下:
1)提出隨案電子卷宗的知識森林模型,它由主題分面樹和主題關系組成,主題分面樹組織卷宗主題的相關信息,從而緩解信息過載問題,主題關系展示卷宗主題間的關系鏈路來緩解迷航問題。通過該模型的知識組織形式,選擇部分主題和少量卷宗碎片實現閱卷目標成為可能,避免了全面瀏覽卷宗內容以完成閱卷任務的困難。
2)提出了一種自動構建卷宗知識森林的方法,包括信息抽取、知識融合等,并驗證了該方法的準確性與有效性。
卷宗知識是事實和數據的集合,這些分散的事實和數據需要被組織成有序的結構。針對卷宗文書的研究,常見的知識組織模型有主題圖和知識圖譜。在主題圖領域,劉秀如等[7]分析了公安案件中文書數據的主題及主題間的關聯,并實現了主題圖可視化;Jungiewicz 等[8]利用波蘭法院的判決文書集生成了主題圖;Chen 等[9]利用公安案件的主題圖實現了案件導航系統。利用主題圖的主題關系可以方便地進行信息總覽和信息導航,從而能在一定程度上解決迷航問題,但主題圖在組織知識片段時粒度太大,忽略了主題信息,因此難以解決信息過載的問題。在知識圖譜領域,Filtz[10]和Markovi? 等[11]提出了法律的表示方法,并構建了法律知識圖譜;洪文興等[12]通過實體抽取和關系抽取等方法針對相關法律和裁判文書構建了司法知識圖譜;Lian 等[13]針對裁判文書和相關社交媒體信息構建了案件知識圖譜。上述工作通過知識圖譜可視化和后續的知識搜索等功能可以在一定程度上緩解信息過載問題,但實體沒有經過層次化組織直接展示,無法提供清晰的主題間關系路徑,因此難以解決迷航的問題。
為了改善知識迷航和信息過載的問題,Zheng 等[14]提出了知識森林的概念。知識森林由主題分面樹和主題間關系構成,其中主題是指課程中的知識概念,主題分面樹圍繞相應主題以層次化的形式組織wikipedia 相關描述和網絡爬取的知識碎片,主題間關系指主題間的學習依賴性。在在線教育場景中,以數據結構課程為例,該課程中包含棧、線性表等知識概念,將它們作為知識森林中的主題,線性表和棧的學習依賴性由線性表主題指向棧主題的主題關系表示,代表了應該先學線性表再學棧。知識森林模型既可以表達主題間的關系鏈路,又可以展示主題的相關信息,有利于緩解迷航和信息過載的問題。但上述知識森林模型針對的是教育場景,因此針對卷宗文書特殊的知識形式和主題信息,本文根據卷宗文書的特點研究卷宗知識森林的定義和表示,并構建卷宗知識森林。
卷宗本體是卷宗知識森林的表示基礎,本章利用司法相關本體論和行業標準定義了卷宗本體,并利用卷宗本體定義了卷宗知識森林的基本構成。
本體是對一個特定領域的重要概念的形式化描述。卷宗本體定義了卷宗常見概念及其相關信息和相互關系,對卷宗內容進行系統描述。首先,本文給出卷宗本體的形式化定義,定義卷宗本體為一個五元組O={C,A,R,H,X},其中:C為卷宗中的概念集合,A為屬性集,R為卷宗概念之間的關系集合,H為卷宗中的概念層次,X為公理集。C中每個概念ci表示相同類型的一組對象,A(ci)表示概念ci的屬性集,關系集合R中每個關系表示概念cp和概念cq的二元關系,H表示了概念集C中的父子關系,X中的公理是對卷宗本體的概念、關系或者概念對象的關系的限制。
基于“一案一卷”原則,本文依據案件要素本體論[15]對卷宗本體結構進行定義。本文以案件“人物事時空”五要素論為基礎,參照法院行業標準中的電子卷宗閱卷目錄規范(FYB/T 52021—2018)對本體結構做出調整,得到卷宗本體中4 個頂層概念:案件相關人、案件相關物、案件相關行為、卷宗基本信息。對各頂層概念簡要概述如下:
1)案件相關人概念包括辯護人、被告、原告、訴訟代理人等實體類,被告和原告分別有年齡、身份證號碼、民族、籍貫等數據屬性,如果是法人,則有單位的全稱和所在地址等數據屬性,并且在卷宗中有被告身份證明等相關文件或文本片段對原告、被告進行描述。
2)案件相關物概念包括涉案工具,犯罪、侵權痕跡等實體類,如書證、物證、筆錄等證據材料均是一種物化的形式[16]。涉案工具指實施犯罪、侵權行為所用之物,如刀、槍、信件等,有長、寬、高、型號、數量、價值等數據屬性,在卷宗中有物證處理材料等相關文件或起訴書等文本片段進行描述;犯罪、侵權痕跡是指犯罪、侵權行為引起的客觀變化,包括相關行為形成之物和針對之物、相關人員遺留和黏附之物,如現場留下的指紋、足跡、工具破壞痕跡、贓款贓物等,相關屬性包括勘驗人、勘驗地點等實體,在卷宗中有勘驗筆錄、鑒定意見等相關文件或文本片段對犯罪、侵權痕跡進行描述。
3)案件相關行為概念包括案件事實。案件事實是指在案件發生過程中的事件,有事件的施加者、承受者、發生時間、發生空間屬性,并且在卷宗中有起訴書、判決書等相關文件片段對案件事實進行描述。
4)卷宗基本信息概念包括判決結果、卷宗編號和案件流程。判決結果指法院做出的具有法律效力的書面文書處理決定,判決結果通常依據相關法律條文,因此有審批依據屬性,在卷宗中有判決書等相關文件片段對判決結果進行描述。每份卷宗都有獨特的編號,編號是卷宗中重要的信息,在卷宗各文件重復出現。案件流程指立案、司法拘留等與案件執行有關的程序,在卷宗中有立案審批表、案件審判流程管理信息表等相關文件對案件流程進行描述。
基于上述本體的概念集合、概念層次和屬性集,可以推斷出關系集合和公理集,關系集合包括包含關系、依據關系、執行關系、判定關系、順承關系、參與關系、被影響關系、產生關系、持有關系、證明關系、起訴關系、代理關系、辯護關系,并對關系的domain(定義域)和range(值域)進行約束得到公理集。
本文使用資源描述框架(Resource Description Framework,RDF)進行卷宗本體的知識表示和存儲,基于RDF 的本體論描述了卷宗中4 類頂層概念、10 類底層概念、10 類關系和5 類數據屬性。本體結構如圖1 所示,其中內層為頂層概念,外層為底層概念,最外層為底層概念對應的數據屬性。

圖1 卷宗本體結構Fig.1 Structure of case file ontology
卷宗知識森林由主題分面樹結合主題關系構成,可以表示為二元組KF=(FT,TR)。其中,對于卷宗主題集T={t1,t2,…,tn},FT={FTi|ti∈T}是指與T中元素一一對應的主題分面樹的集合,TR?T×T表示T中主題關系的多重集合。
卷宗主題ti∈T為卷宗中具有實際意義的事物,即本體中底層概念對應的所有實體類和事件。根據XTM(eXtensive markup language Topic Maps)1.0 標準,主題就是現實事物的具體化,它可以是表示任何事物對象的名詞。本文依據卷宗本體頂層概念,將卷宗主題分為案件相關人物、物體或司法概念,以及案件發生經過4 類。比如,被告某某屬于案件相關人主題類、某某組織吸毒事件屬于案件相關行為主題類,卷宗主題集為卷宗中所有的主題,包括被告某某、某某組織吸毒事件、販毒罪、現場證據等。
主題分面樹是指圍繞一定主題將實體、事件、屬性、卷宗碎片形成層次化的樹。主題ti的主題分面樹可以表示為元組FTi=(Fi,RFi)。其中Fi是指與ti相關的分面集合,對應本體中最外層底層概念的數據屬性,包括屬性、卷宗碎片和非主題實體,屬性指對某主題相關概念特征或性質的描述,卷宗碎片指卷宗中對同主題進行描述的最小文本片段或文件,非主題類實體指不屬于任一主題類但是和主題存在特定關系的實體,形式化描述為Fi=A(ci),ci為主題ti的對應本體概念,A(ci)表示概念ci的屬性集。RFi?({ti}∪Fi)×Fi表示主題ti和分面的關系,對應本體結構中底層概念和最外層數據屬性之間的關系,形式化描述為RFi=(ci,A(ci))。主題分面樹將多方面的分面、碎片通過層次化的形式組織起來,針對閱卷目標中的不同關注點,用戶都可以在使用過程中方便地定位相關知識、理解相關內容。比如,在勘驗筆錄主題中,勘驗筆錄主題的分面表示為F勘驗筆錄={事故時間,二月一日,勘驗人,丁某,…},而勘驗筆錄主題的主題和分面關系可以表示為RF勘驗筆錄={(勘驗筆錄,勘驗人),(勘驗人,丁某),…}。
主題關系ri,j∈TR指卷宗中主題ti和主題tj之間某種預定義類型的關系,對應本體結構中頂層概念之間的關系和外層底層概念之間的關系,形式化描述為ri,j∈R(ci,cj),ci為主題ti的對應本體概念,cj為主題tj的對應本體概念。主題之間以關系連接形成主題鏈路,通過選擇鏈路上的相關主題實現閱卷目標,可以避免尋找閱卷內容重點時全面瀏覽卷宗帶來的困難。如被告某某主題和某某組織吸毒主題是參與關系,表明被告參與了某某組織組織吸毒的事件,針對查找嫌疑人有無遺漏罪行的閱卷目標,可以確定嫌疑人相關的犯罪事件,并依據事件間的順承關系可確定閱卷范圍和順序。
卷宗文書中除了包含豐富的主題和關系以及隨時間變化的案情發展邏輯之外,也存在重復的信息。針對上述特點,構建卷宗知識森林存在一定的挑戰性,本文結合卷宗知識森林和卷宗文書的特點,對于構建卷宗知識森林過程中存在的問題提出了相應的解決方法。
1)卷宗中有豐富的主題。卷宗中包含多個文書,不同文書有不同的主題,同一份文書也會包含多個主題。通過碎片化將多主題文書分割為單一主題的碎片,使碎片內部具有最大的主題相關性,碎片之間具有最小的主題相關性,避免了多主題混合對閱卷帶來的認知負擔。
2)卷宗存在案情發展邏輯。卷宗中的案情以事件作為最小單元,隨著事件發展可以構建案情發展邏輯,事件作為卷宗發展的主線,是信息關聯的關鍵節點。因此除了常規的實體抽取、關系抽取之外,還需要對卷宗中的相關部分進行事件抽取,并通過順承關系形成事件鏈,展現案件的發展經過。
3)卷宗中存在重復的信息。在卷宗不同文書中部分信息會反復出現,如果不處理重復的信息,會帶來閱卷認知上的阻礙和信息過載問題。因此,通過實體對齊、事件共指等方法合并同義主題,提煉卷宗內容,避免重復閱讀的認知過載問題。
4)卷宗主題包含多樣化的信息,主題之間存在復雜的關系。依據卷宗本體結構,將復雜的卷宗內容映射到知識森林的主題分面樹和主題關系,以與人的認知更一致的方式展示卷宗內容。其中,卷宗知識森林通過主題分面樹多樣化的分面和與其相關聯的卷宗碎片來表達卷宗中豐富的主題信息,滿足閱卷中不同的關注目標。卷宗知識森林中主題關系形成的關系鏈路,為選擇閱卷目標相關主題實現閱卷目標提供了可能,緩解閱卷過程中出現的迷航問題。
知識森林的構建可以看作是卷宗知識的再組織過程,依據上述卷宗知識森林模型的相關問題分析,本章實現了一種卷宗知識森林構建方法,該方法可以在實際卷宗數據中構建出知識森林模型。
如圖2 所示,面向隨案電子卷宗的知識森林構建的總體框架包含5 步。

圖2 卷宗知識森林構建方法Fig.2 Case file knowledge forest construction method
第1 步 碎片化。本文通過對卷宗進行碎片化,分割出案件相關人、案件相關行為、案件相關物、卷宗基本信息這4種類型的多個碎片。本文利用關鍵詞對結構化文書和非結構化文書進行分類,由于文書名稱的規范性,本文總結了卷宗文書的常見類型并整理了文書分類的觸發詞詞表,利用觸發詞分類出案件相關人、卷宗基本信息、案件相關物三種類型的結構化文書。本文對得到的非結構化文書進行文本分割,采用SECTOR(SEgmentation and TOpic Classification)模型[17]通過BiLSTM(Bidirectional Long Short-Term Memory)網絡學習文檔潛在主題的向量表示,對向量進行主題分類,并利用主題的變化對文檔進行分割,將文書分割出案件相關人、案件相關行為、案件相關物、卷宗基本信息4 種類型的碎片。碎片化的流程如圖3 所示。

圖3 碎片化流程Fig.3 Fragmentation flowchart
第2 步 信息抽取。結構化文書通過文書格式提取出固定類型的信息,非結構化文書本文通過劃分不同的語義段落來針對性地提取不同信息。在結構化文書中,本文利用相應文書格式模板和Tabula表格提取工具抽取結構化文書的信息,獲得相關實體和實體的屬性信息,如“現場勘驗記錄”作為犯罪痕跡類實體,抽取出的“勘驗時間”和“勘驗地點”等值作為該實體的屬性。在非結構化文書中,本文參考Wang等[18]的方法使用語義角色標注(Semantic Role Labeling,SRL)結合啟發式規則的方法進行事件抽取,抽取出事件的施加者、承受者、時間、地點、動作、方式屬性;其余碎片本文采用LSTM-CRF(Long Short-Term Memory-Conditional Random Field)模型[19]進行實體抽取和 GRU-attention(Gated Recurrent Unit with attention mechanism)模型[20-21]進行關系抽取,抽取卷宗本體中定義的實體和實體關系。信息抽取的流程圖如圖4所示。

圖4 信息抽取流程Fig.4 Information extraction flowchart
第3 步 知識融合,主要分為實體對齊和事件共指兩方面。在結構化文檔和非結構化的文檔中抽取的實體可能是同一實體的不同名稱,因此實體對齊主要采用基于同義詞表的方法,手動標注出領域同義詞表,對齊后的實體屬性為合并前兩個實體屬性的并集。由于卷宗中不同文本文書會對同一事件重復描述,因此還需要識別出共指事件并合并,事件共指主要采用平均事件句的Word2Vec 詞向量計算余弦相似度的方法,如果大于給定閾值,則認為事件共指,將兩個事件合并到一起,認為這個新事件對應兩個事件句,新事件的事件屬性為合并前兩個事件的事件屬性的并集。
第4 步 知識森林構建。本文利用預構建的卷宗本體將卷宗信息映射到知識森林,依據卷宗本體結構,將所有事件和部分實體放入主題集,屬性、非主題實體、卷宗碎片屬于分面集,主題和分面的關系由主題對應的本體結構確定。對于特殊的“案件相關行為”類型主題,本文認為在同一個句子中的事件表達同一主題,因此將一句中所有事件的集合表示為一個主題,并通過依存句法分析將句子的主謂賓成分連接起來為該主題命名。知識森林的主題預定義關系由關系抽取的結果轉化而來,本文保留主題分面樹的主題間實體關系,但由于關系抽取的結果只限于實體之間,本文還需要進一步挖掘“案件相關行為”類主題分面樹的主題關系。因此本文加入啟發式規則作為補充:如果“案件相關行為”類主題分面樹中事件的施加者、承受者屬性和其他主題分面樹的主題實體對齊,如果該主題是“案件相關人”類實體本文認為該分面樹和“案件相關行為”類主題分面樹的關系是參與,如果該主題是“案件相關物”類實體本文認為該分面樹和“案件相關行為”類主題分面樹的關系是證明;本文利用文檔敘述事件的先后順序作為“案件相關行為”類主題分面樹之間的順承關系。知識森林構建的偽代碼如下。


第5 步 知識森林存儲及可視化。本文將知識森林的數據寫入關系型數據庫Mysql 進行存儲,使用SpringBoot 框架Java 開發的后端,并基于Angular 框架利用D3.js 和echarts插件實現前端進行可視化展示。
為了驗證知識森林自動構建方法,本文對部分方法做了小范圍內的評估,包括卷宗碎片化、事件抽取、事件共指。本實驗環境在1080Ti 8 GB GPU 環境下進行,使用PyTorch 框架進行開發。
3.2.1 數據集
本文在8 份完整脫敏的卷宗上進行了測試,其中有3 份刑事卷宗、1 份民事卷宗、4 份行政卷宗。平均每份卷宗包括31 份文件材料,最多的包含了52 份文件材料。對于單個文書來說,結構化文書2 頁篇幅最為常見,非結構化文書平均篇幅5 頁,最長可以達到9 頁。
由于卷宗數據的特殊性,不能大量獲取卷宗,在裁判文書網下載了300 份公開的裁判文書作為訓練和測試的補充數據,考慮到刑事、民事、行政文書之間的內容和格式都有所不同,本文隨機抽取100 份民事文書、100 份刑事文書、100 份行政文書。
3.2.2 卷宗碎片化
對于文書分類,本文在8 份完整卷宗上進行測試并交由人工審核,評估得到基于觸發詞進行分類的效果的精確率為89.4%,召回率為87.5%,F1 值為88.4% 。對于文本分割,本文對300 份判決書進行人工標注,最終獲得標注數據6 481 條,隨機選擇5 833 條作為訓練數據,648 條作為測試數據,評估結果如表1 所示,該結果表明該碎片化方法可以較為準確地分割實際卷宗文書。其中,“案件相關行為”類別的F1 分數為89.91%,與“案件相關人”類別和“案件相關物”類別相比,該類別分數較低,這是因為“案件相關行為”類碎片在判決書中出現在案件事實相關段落,文書中常多處提及案件事實且內容豐富多樣,因此訓練集和測試集差異較大,模型在測試集上擬合不夠充分,考慮增加更多提及事實的文書進行訓練。

表1 文本分割結果Tab.1 Results of text segmentation
3.2.3 事件抽取
對于事件抽取,本文采用了一種比較元組的方法進行結果評估,如果只比較兩個元組是否完全相同,會忽略掉那些部分正確的元組,因此本文參照Wang 等[18]的5W1H 事件屬性抽取方法中的評估方式,采用字符串相似性度量來評估,結果如表2 所示。

表2 事件抽取結果Tab.2 Results of event extraction
本文隨機選取30 份民事文書、30 份刑事文書、30 份行政文書,在90 份文書上進行測試,發現“時間”和“地點”屬性的抽取效果比“施加者”和“承受者”屬性更好,這是因為“施加者”和“承受者”在相同主語賓語的情況下經常被省略或用代詞代替導致出現抽取結果出錯的情況,且由于卷宗文書多長句,“承受者”和“施加者”屬性和“行為”屬性關聯度更高,SRL 系統受到長句中多個“施加者”“行為”“承受者”屬性的信息干擾,難以發現其潛在相關聯系,因此“承受者”和“施加者”屬性的抽取精度較低。SRL 系統輸出的結果還會出現分詞錯誤等問題,如觸發詞和屬性分詞錯誤,導致抽取的結果含義不清,從而影響事件抽取的結果,但這種情況對知識森林構建方法而言僅為獨立影響并允許獨立改善。
3.2.4 事件共指
本文將事件間余弦相似度大于給定閾值的事件識別為共指事件。本文選擇一份卷宗中不同文書對同一事件進行描述的事件句作為正例,隨機選擇不同事件句作為負例,正負例比例為1∶1,共200 組數據,構建卷宗語義匹配數據集。為了確定最佳的閾值,本文在卷宗的語義匹配數據集上進行了實驗,計算了不同閾值對結果的影響。表3 顯示了不同閾值下對相似性判斷結果的影響。最終,本文設定閾值為0.7,最佳的準確率(acc)值為0.73。

表3 事件共指結果Tab.3 Results of event coreference
本文以一刑事初審卷宗為例,對該卷宗構建知識森林后,卷宗知識森林的主題及其對應分面碎片數量和主題關系數量統計情況如表4、5 所示。

表4 卷宗知識森林主題分面樹構建結果Tab.4 Results of topic facet tree construction of case file knowledge forest
卷宗知識森林可視化界面如圖5 所示,該界面由兩個組件組成,包括知識森林概覽和主題分面樹展示。在知識森林概覽部分可以總覽所有的卷宗主題和主題關系,然后在主題分面樹部分提供有關所選主題的主題分面樹信息。可以看到在此案件中,在“案件相關人”“案件相關物”“案件相關行為”“卷宗基本信息”主題類下存在多個主題,如“案件相關人”主題類下對應的被告“盧*玲”等主題,“案件相關行為”主題類下對應的“于*海提供車輛”等主題,在此部分,用戶可以針對具體的閱卷目標選擇相關主題,避免了因閱卷目標難定位帶來的迷航問題。

圖5 卷宗知識森林可視化結果Fig.5 Case file knowledge forest visualization result

表5 卷宗知識森林主題關系構建結果Tab.5 Topic relationship construction results of case file knowledge forest
用戶可以在知識森林概覽部分點擊某個主題,主題分面樹部分會顯示所選主題的主題分面樹信息,同時知識森林概覽部分也會展示只與該主題有關系的主題。如圖6 所示,通過點擊“于*海提供車輛”主題,可以看到該主題對應的主題分面樹信息,包括事件屬性和對應的卷宗碎片,并直接地展示該事件的參與者、該事件前后順承發生的事件,以及證明該事件發生的證據。通過提供相關主題和主題分面樹信息,用戶可以選擇閱讀相關分面和對應的卷宗碎片來滿足閱卷中不同的關注目標,“順承”關系相連的事件展現了案情發展經過,提供該主題發生的上下文,“參與”和“證明”關系連接了與該事件相關的人或物,為針對不同閱卷目標選擇相關主題進行閱卷提供了可能。

圖6 卷宗知識森林點擊效果Fig.6 Case file knowledge forest clicking result
本文認為提取的主題和主題關系能夠滿足用戶閱卷中的不同的關注點。具體來說,案件相關行為類主題中分別包含從起訴書和上訴狀中提取的多個案件事實,能夠滿足發現案件事實沖突等相關閱卷目標。案件相關人類主題中被告“張*”包含嫌疑人身份證明和起訴書案件相關人部分兩個碎片,能夠滿足確定犯罪嫌疑人情況的閱卷目標。案件相關物類主題的“訊問筆錄”和“補充偵查函”等主題能夠滿足確定偵察活動是否合法的閱卷需要。案件相關人和案件事實類主題之間的參與關系能夠滿足判斷有無遺漏罪行、是否應予追究刑事責任的閱卷目標。案件相關物類主題和案件相關行為類主題之間的證明關系能夠滿足判斷證據是否充分的閱卷目標。
知識森林提供了卷宗的相關內容展示,用戶可以針對具體的閱卷目標選擇相關主題,避免了因閱卷目標難定位帶來的迷航問題,通過瀏覽主題分面樹的相關分面,為針對不同閱卷目標選擇相關主題進行閱卷提供了可能。同時,在知識融合、知識森林構建步驟中的信息處理方法可以緩解冗余信息帶來的信息過載問題。在知識森林可視化界面中,用戶通過選擇特定卷宗和點擊卷宗知識森林的樹就能夠實現卷宗內容的大致了解和問題定位,滿足用戶友好性和易用性的要求。
因此,本文認為知識森林的可視化結果能夠滿足用戶的閱卷需求,且提高了閱卷效率,可以緩解閱卷過程中的信息過載和迷航問題。
本文提出了一種表達卷宗內容的知識森林模型,可以較為完整、準確地展示卷宗信息,組織分散的知識碎片和復雜的卷宗主題,其中卷宗本體提供了一個系統性的卷宗內容表示框架。然后本文結合知識抽取、知識融合等方法實現了一種卷宗知識森林構建方法,并以實驗驗證了該方法可以在實際卷宗中構建知識森林,最后本文通過實例展示了本文方法的有效性和合理性。
在以后的工作中,如何將多媒體的知識比如現場照片或審問錄音等視聽資料類證據融入卷宗知識森林也是重要的研究內容。需要指出的是,本文提出的知識森林自動構建的實現方法還有待進一步改進,如面對復雜案件時,計算事件共指的方法錯誤率較高,可以結合結構化的事件抽取結果對其進行改進。