基于本體的檔案知識共享服務模式構建＊

2022-02-19 13:24:40李海平李京林

甘肅科技 2022年24期

馬強，李海平，李京林，徐濤△

（1.西北民族大學，甘肅蘭州 730030；2.甘肅省檔案館，甘肅蘭州 730010）

1 引言

2020年底，全國檔案局長館長會議上明確提出“要加快推進檔案信息化戰略轉型，切實保障信息化建設的前瞻性、針對性、實效性，進一步加強頂層設計，大力完善基礎設施，加強標準規范建設，積極推動互聯網、云計算、大數據、人工智能、區塊鏈技術和檔案工作的深度融合，加快檔案信息資源共享服務平臺建設，拓展檔案工作數字化、網絡化、智能化的應用場景。”

在這種發展要求下，將新一代信息技術和檔案信息化工作相結合，對于研究檔案領域智能化、個性化的知識共享服務已經有了一定進展。黃雪梅和黃永勤[1]從體系結構、業務模式等幾個方面，進一步闡明檔案知識業務系統的規劃設計和使用理念；呂元智[2]從用戶實際利用檔案服務行為的不同視角出發，分析與設計檔案管理知識服務信息系統框架；在分析國內外關于區塊鏈技術建立電子檔案管理系統的研究和實踐的基礎上，左晉佺和張曉娟[3]又提出了采用“聯盟+公眾”雙區塊鏈技術的電子文檔系統；張斌等[4]提出了如何構建基于檔案館的大型知識庫，從而向廣大用戶實時提供知識集成服務。

傳統檔案館的知識服務管理系統通過收集用戶信息，并提供單一的檢索、瀏覽服務機制，存在檔案資源利用率低、針對性弱、異構化資源難以實時共享等主要缺陷[5]。為此，通過利用本體技術關聯自然語言處理、知識圖譜等知識構建檔案知識庫，使檔案信息資源結構化、語義化和知識化，再融合用戶偏好特征，以準確獲取、動態更新用戶檔案需求，從而強化用戶使用檔案的獲得感和滿足感。本文將從檔案本體構建出發，闡述人工智能技術在檔案知識共享服務中使用的主要方法和技術，從而為提高檔案用戶體驗和優化服務效果提供參考。

2 基于本體的檔案知識共享服務

1.1 基于本體的檔案知識共享服務

構建檔案領域本體前提下，通過信息技術和人工智能技術支撐構建檔案知識庫[6]，結合不同用戶在數據查詢時的行為和興趣愛好信息，構建并實時更新用戶興趣行為模型，全面描述用戶興趣特征及個性化需求，智能拓展與滿足用戶潛在相關知識需求，從而可以有效地實現協同管理客戶的資源,從而提升客戶服務、服務質量的全過程[7]。與傳統檔案信息服務的對比見表1。

表1 基于本體的檔案知識共享服務與傳統檔案知識服務對比

1.2 檔案知識共享服務模式框架與核心內容

基于檔案本體的知識共享服務模式核心內容有核心技術、用戶興趣與行為建模、知識庫管理、知識服務機制和知識應用。建設框架如圖1所示。

圖1 建設框架

2 基于本體的檔案知識共享服務核心內容研究

2.1 核心技術

2.1.1 本體技術

本體是用來定義如何組成某個“領域”的一個詞匯表及其中的具體術語與其詞的關系，并用來明確定義一個詞匯的列表及其外延的基本規則。本體知識是相關概念的一種結構化知識規范和表現形式，可以直接形成對某一領域相關概念的知識共享和共同性的理解，完成知識資源共享和性能重用[8]。

本體語義描述語言是一種具有良好的描述語法和基本語義，以及具備一定表達能力的形式化描述語言。OWL是一種描述標準本體類型的語言，它具備很強的語義表達能力，有利于領域本體的資源描述和構建，更有助于資源的整合與共享。

領域本體的復合構造設計技術有很多種，國內主流是斯坦福大學醫學院研究的七步法[8]，適合于各個領域自然本體的復合構造。本文借鑒七步法，重點考慮以檔案主題詞內容為依據建立檔案的本體。詳細步驟如圖2所示。

圖2 檔案領域本體構建過程

2.1.2 自然語言處理

自然語言處理技術（NLP）是溝通機器語言與人類自然語言的主要橋梁，是一種以快速實現各類人機交互為主要目的信息技術[9]。NLP有兩大類核心的內容：自然語言理解和自然語言生成，包括核心步驟，如分詞、詞性標注、起名實體識別等。

分詞是通過把包含詞語、句子、文字等信息的資料,分解成以詞為基本單元的結構,方便人們進行資料的后續管理以及資料操作的管理。

詞性標注是在任何已給出的句子中，得出每個詞的語法范圍，確定其詞性，并對其詞進行定義標注，在自然語言處理中也是一項非常重要的基礎性任務[10]。

命名實體識別(NER)是指在自然文本中識別各種實體所指稱的特定界限和語義類別，包括人名、地名、機構名稱、專有名詞等。在分析檔案的信息時,可對文檔信息中的信息進行訓練與整合,便于文檔知識庫中各種實體的特殊語義關系的填充[10]。比較經典的深度學習模型有BERT+BiLSTM+CRF。

2.1.3 知識圖譜

知識圖譜是基于Google為加強其搜索引擎知識性能而設計的知識庫，其實質是用來準確描述處于客觀世界的各個概念語義實體以及各概念實體之間的客觀關系的大型概念語義知識網絡，是指以實體概念為節點，以客觀關系為邊，由三元組結構構成的一種以實體視角看待世界客觀關系的結構。三元組是由實體、屬性或特殊屬性值和關系所形成，圖3是一種簡易社交網絡圖譜。

圖3 社交網絡圖譜

知識圖譜的整體構建包括邏輯架構和知識管理架構，分為知識模式層和建立數據層，其中數據層由一系列知識事實數據構成，新知識將管理存儲在以這些事實為單位的基礎之上。知識模式層是建立本體數據庫規范其在數據層的一系列知識事實和表達[11]；知識管理架構指的是建立模型架構，知識圖譜大多采用自底向上的構造法。

知識圖譜的關鍵技術[12]主要有知識表示抽取、知識形式表示、知識融合和知識邏輯推理，其中知識表示抽取指的是抽取知識中實體、關系與屬性等事實性的表達形式；知識形式表示指的是通過三元組準確地表達知識中的實體、關系與屬性之間的復雜語義聯系；知識融合指的是同一框架規范下對異構數據信息進行整合、消歧等綜合處理操作的過程；知識邏輯推理指的是進一步解析推理和發掘隱藏的相關知識，從而擴充可用知識庫[13]。

2.2 用戶興趣行為與建模

用戶興趣行為建模是從用戶注冊的基本信息和瀏覽、檢索等歷史瀏覽活動中分析和建立用戶興趣模型的重要步驟,力求準確、全面地描述用戶的個性化知識要求,建模過程可以細分為用戶模型表示、模型初始值優化和用戶模型更新。

2.2.1 用戶模型表示

通過本體語義概念層次結構、語義邏輯推理以及功能語義分析用戶個性潛在需求，將其中自然語言邏輯關系轉換為用戶本體語義概念間邏輯關系，滿足用戶個性潛在需求并及時發現其潛在興趣，實現滿足用戶興趣的語義抽象化、結構化語義表示與信息存儲[14]。

2.2.2 用戶興趣模型初始化

興趣采集內容為用戶個性化信息，有主要信息，如姓名、性別、年齡等；網頁瀏覽、檢索、訪問歷史、評價等行為記錄信息，通過深挖，摸清用戶的需求，構成用戶特征行為數據庫。利用數據挖掘、自然語言處理等技術，將用戶利用行為信息進行分類，總結不同用戶的行為偏好與行為模式、習慣等的相互變化，構建基于不同用戶需求的用戶行為管理知識庫。圖4為用戶興趣模型搭建過程。

圖4 用戶興趣模型構建流程

2.2.3 用戶興趣模型更新

根據用戶使用歷史與興趣愛好變化，動態改善與修正用戶興趣模型，以長期反映用戶個性化需求。

2.3 知識服務機制

基于檔案領域本體的檔案知識服務過程如圖5所示。首先,利用概念推理方法提取文件信息,建立結構化的文檔數據庫。其次,通過提取用戶的興趣愛好、行為特點,并存入檔案用戶行為本體庫,從而形成了語義的檔案用戶興趣愛好行為模式[14]。然后，通過檔案知識的處理與分析及成果的呈現,制定服務策略與處理檢索結果，生成用戶個性化信息檢索、推薦信息列表及相關知識語義鏈接等展示給用戶。最后，對檔案用戶的反饋信息進行動態收集，對檔案本體庫和用戶興趣行為模型進行更新。

圖5 檔案知識服務機制

2.4 知識庫管理

分為知識抽取、表示、存儲及更新，主要管理用戶興趣資源、檔案知識以及服務檔案用戶過程中產生的新知識。

2.4.1 知識抽取

從各種異構檔案數據源中分別抽取檔案實體、特定檔案實體關系以及實體屬性等結構化數據信息。對檔案實體的識別提取，可以轉化成標號順序的問題，常用的方法有深度循環神經網絡結合條件隨機場（CRF）[15]；提取特定檔案實體關系常用的是根據訓練數據分析設計有效的關系特征值，根據監督提取方法學習各種分類問題模型的方法；實體屬性的提取主要是從不同的檔案信息來源中，對具體的檔案實體進行屬性信息的采集，一般情況下等同于實體關系抽取問題。

2.4.2 知識表示

由于檔案實體擁有各種各樣的屬性關系，因此可以用檔案實體、檔案實體關系的屬性圖來表示知識。除了數據屬性圖之外，這里主要介紹用資源信息描述框架（RDF）來進行知識的表示，主要特點是數據易于獨立發布和實時分享各類數據，通過兩個實體的關系鏈接而形成一個有向的數據網絡。見表2和圖6所示。

表2 三元組表

圖6 三元組有向圖

2.4.3 知識存儲

把各種關系信息保存到數據庫系統中，以實體-關系-實體或實體-屬性-值的三元組形式為信息的主要表達方式，從而形成了一種強大的實體關聯語義網絡。由于檔案知識關系結構復雜，主要使用Neo4J圖數據庫（如圖7），還可以使用MySQL關系型數據庫等。

圖7 圖數據庫表示多家公司之間關系

2.4.4 知識更新

知識的自動更新主要包括新增數據后將新的概念添加到本體庫中，在充分考慮現有數據源的安全可靠性、數據的一致性等因素，實體、關系和屬性值均有新增或更新。

2.5 知識應用

根據不同檔案用戶個性化需求行為，可以主動提供專業知識資源問答、知識資源推薦和專業知識資源檢索等各類服務。

2.5.1 知識問答

利用本體語義表示與邏輯推理能力有效回答用戶問題，首先進行本體預處理，明確用戶提問意圖；然后匹配檔案知識庫中相似度高的知識，若成功則自動返回測試結果，否則自動刪除匹配用戶關聯的數據并及時更新反饋用戶意見[15-16]。

2.5.2 知識推薦

根據相應用戶興趣愛好和訪問歷史，準確地預測其潛在用戶需求，通過系統檢索收集檔案知識庫中符合相應用戶潛在需求的檔案知識，經系統分類、排序后以適當方式對其進行用戶推薦。

2.5.3 知識檢索

利用本體的綜合邏輯推理與語義表示理解能力，分別處理多個檢索查詢請求，實現語義表示理解與邏輯拓展，并對檢索結果進行語義匹配、排序及數據顯示，從而大大提升檔案數據的知識利用率。

3 結語

文章概述了基于本體的檔案知識服務核心內容，主要從內涵、主要技術、用戶興趣模型構建、知識服務過程、知識管理與應用5方面介紹了檔案知識服務模式過程。此外，檔案信息化資源、利用、安全體系建設全面推進，檔案信息化戰略轉型不斷深化，也成為新時期檔案科技與信息化建設的重點。