文/劉靖昌、李楊,廣州地鐵集團有限公司
隨著城市軌道交通行業快速發展,檔案館藏量急速增加,在人工智能技術廣泛應用和數字化轉型的大背景下,如何有效挖掘和利用城軌企業檔案的價值,推動城軌企業科技創新與發展逐漸成為檔案學界以及城軌行業關注的焦點。通過構建知識圖譜模型,借助于NLP自然語言處理、實體抽取與實體融合等人工智能技術,細化檔案數據解析顆粒度,提高檔案知識的語義關聯,以此解決檔案利用中存在的現實問題,提高檔案利用的深度,通過有效挖掘檔案知識,實現檔案知識智能搜索和個性化知識推送,提升城軌企業檔案利用的服務水平。
城軌企業檔案是城軌企業的財富,是城軌企業歷史數據的重要載體,在城軌企業的生產活動、人才培養、科研創新等方面發揮著重要作用。檔案多以非結構化數據為主,是企業的“暗數據”,也是企業亟待挖掘的一大“數據礦產”。隨著城軌線路規模的飛速擴張,城軌企業檔案將達到前所未有的體量,對傳統的檔案管理模式提出了新的挑戰。目前,部分國內城軌企業檔案管理具有一定的信息化基礎,依托檔案管理系統開展檔案歸檔和檔案利用等工作。在當前在人工智能技術廣泛應用和數字化轉型的大背景下,如何有效地開展檔案知識開發,充分挖掘檔案的價值,提升檔案利用服務功能,更好地滿足城軌企業發展的需求,已經成為城軌企業普遍關注的新課題。
隨著數字化時代的到來,以及新檔案法的頒布實施,傳統的檔案管理及檔案利用模式已經無法滿足城軌企業檔案管理的要求,更不能滿足用戶對檔案利用越來越高的訴求,簡要來說,主要存在以下問題:
1.檔案全文檢索能力差。經過多年的積累,檔案的數據量不斷增長,但是,目前檔案管理系統中存儲的大部分歸檔文件以紙質掃描件為主,且檔案的元數據標注太少,導致無法實現檔案全文檢索功能,甚至有的檔案系統題名檢索功能都不全,檢索命中率低,體驗差,嚴重影響檔案的利用效率和效果。
2.檔案知識語義關聯不足。目前檔案系統主要以檔案分類進行存儲和管理,沒有對檔案文件中的內容根據實際利用的需要進行打標簽和分類,由于是掃描的文件,知識單元的提取和加工較為困難,無法跨分類與其他檔案知識進行關聯,利用難度大。
3.檔案利用流程復雜。目前檔案利用服務多以檔案系統與檔案室借閱結合開展為主,在用戶利用的過程中需要先查詢到相關的檔案題名,再通過借閱流程進行申請,審批通過后才能到檔案室現場進行借閱,管理和服務的效率低。
知識圖譜的概念最早由Google公司于2012年提出,并將其應用于提高搜索的準確率和提升用戶的搜索體驗。在2012年以后,知識圖譜快速發展,現在全球知識圖譜的構建案例除了有通用類的知識圖譜如Wikidata、Freebase等,還有專業類的知識圖譜如生物醫學領域Linked Life Data、社交領域Facebook等。在國內,以百度、阿里、騰訊以及一些大數據公司均開始探索知識圖譜在搜索引擎、電子商務、教育、醫療、安防、金融等行業和領域的應用,例如百度百科知識圖譜、阿里巴巴商品知識圖譜、XLORE多語言百科知識圖譜等。
知識圖譜的構建一般來說分為兩部分,第一部分為概念層構建,即對知識圖譜中的實體、屬性及關系進行明確的界定,構建知識圖譜本體模型;第二部分為數據層填充,即開展實體、屬性及關系數據的填充工作。在知識圖譜的構建中,數據可能包含大量的結構化數據、非結構化數據、半結構化數據等數據源,需要通過數據整合與知識抽取技術進行處理,通過知識融合技術完成實體對齊和本體對齊,并通過質量評估、知識更新、知識推理等過程,不斷修正和補充,最終構造完整的知識圖譜。

目前,知識圖譜已廣泛應用于智能搜索、知識推薦、知識問答等應用領域。以搜索引擎為例,知識圖譜在搜索引擎中的應用如下圖所示。

隨著大數據和人工智能技術的不斷創新和突破,知識圖譜的應用實踐越來越廣泛,也為城軌企業檔案知識的利用提供了新的解決思路。通過構建檔案知識圖譜本體模型,結合知識抽取與知識融合技術,實現檔案知識的細粒度加工、語義關聯分析,以此提升檔案知識利用效率,深化檔案知識利用層次,充分發揮城軌企業檔案的價值。
知識圖譜的構建,首先要進行本體構建,即概念層構建,目前比較具有代表性的構建方法主要有METHONTOLOGY法、TOVE法、骨架法、斯坦福七步法、KACTUS工程法等。我們通過開展城軌企業檔案業務調研和數據調研,對城軌企業檔案知識體系進行了整理,結合檔案知識的特點,確定核心概念、屬性、關系,完成檔案知識圖譜本體模型構建。構建過程主要分為以下幾步:
第一步,確定本體的構建范圍。本體構建是為了增強檔案知識關聯,提高檔案利用的效率和價值,而城軌企業檔案中,以工程建設檔案的利用需求更多,利用價值最高,因此,可以以工程建設檔案為切入點,待達到預期的效果后再逐步擴展到其他類別檔案。第二步,確定核心概念和術語。采用自頂向下的方法,與業務專家一起,進行數據收集和分析,初步定義工程建設檔案頂層最抽象的概念,然后再逐層細化。第三步,定義關系。明確概念間的關系,包括關聯關系、包含關系等。第四步,定義概念的對象屬性,描述概念的內部結構。第五步,本體形式化,即本體實例的構建和展示,可以使用專業的本體構建工具Protégé,也可以使用其他制圖工具,能清晰表示本體之間的關系即可。
在初步構建了本體模型之后,接下來就是數據層的工作了,通過知識抽取,需要完成實體、屬性及關系數據的填充。由于檔案數據量大、時間跨度長,數據來源包含以數據庫類型為主的結構化數據和以文檔、圖紙、照片為主的非結構化數據。
對于結構化數據,可以采用D2R(注釋:D2R是一個能夠將關系數據庫中的內容轉換成RDF三元組的工具,由于知識圖譜中儲存的數據要求為三元組格式,而我們的結構化數據儲存在關系數據庫中,所以需要進行轉換)將檔案系統關系數據庫中的數據映射到RDF中,實現數據的解析,抽取題名、案卷、人員、單位、合同、日期等實體,并獲取相關實體的屬性值及實體間的關系。

工程建設檔案知識圖譜本體模型實例
對于非結構化數據,其文檔為了保留原始記錄,大部分是以掃描的圖片形式存入系統中,另外還存在部分尚未電子化的紙質檔案。因此,在數據處理過程中,ORC文字識別顯得非常重要。非結構化數據的處理過程中,首先要通過引入OCR文字識別算法,提取非結構化數據中的文字,再通過自然語言處理技術,對文字識別的檔案內容完成元數據標注和知識標簽提取,并通過實體抽取、關系抽取、屬性抽取過程,將檔案內容進行語義關聯,從知識層面串聯人員、單位、工程、項目、成果以及合同、圖紙、報告等。
實體抽取主要是從檔案內容中辨別和提取已定義實體的實例數據,如機構、線路、工程、標段、人員、知識標簽、方案、指標等。實體抽取的完整性、準確率、召回率等直接影響知識圖譜構建的質量和效率,為了提高實體抽取的效果,可以使用規則和監督學習相結合的方法提取檔案中的實體,規則和監督學習相結合的方法既解決了單純使用監督學習算法在準確率和召回率上的不足,又可以解決基于規則和詞典抽取需要大量的專家參與的難題,且可以較好的適應數據變化的新需求。
關系抽取從文本中發現實體之間的語義關系,并將其映射到實體關系三元組上,關系抽取具體過程比實體抽取更為復雜。由于檔案數據量巨大,通過使用特征標注的有監督機器學習方法完成關系的抽取,并通過基于規則的方法完成自動標注,同時人工介入進行校對,確定檔案實體的語義關系類型,這樣可以大大提高關系抽取的效率和質量。屬性抽取主要實現對實體的完整描述,可以把實體的屬性也看作是一種關系,即實體與屬性值之間的一種名詞性關系,所以屬性抽取任務就可以轉化為關系抽取任務。
在完成檔案知識圖譜模型構建,并抽取實體、屬性、關系等數據進行填充之后,一個初步的檔案知識圖譜就完成了。然而,通過知識抽取獲得的數據往往都存在歧義性問題,需要引入知識融合的相關技術。知識融合包括概念層和數據層兩方面,概念層主要是本體對齊,即確定概念、關系、屬性等本體間關系的過程,通過機器學習算法對本體間的相似度進行計算來完成。知識融合在數據層的工作包括共指消解和實體對齊,共指消解是將同一信息源中同一個實體的不同表述實現消歧;實體對齊是將不同信息源中同一實體進行統一,使信息源之間產生聯結。我們可以通過Dedupe工具(注釋:Dedupe是一個python庫,使用該工具只需用戶標注計算過程選擇的少量數據,即可有效地對結構化數據快速執行模糊匹配,相似計算等操作)開展知識融合的工作,將來自于不同來源和不同文件的數據中對同一實體的不同表達融合起來,解決冗余數據的問題,提高知識圖譜的質量。
傳統的搜索引擎是基于關鍵詞或字符串的,并沒有對查詢的目標和用戶的查詢輸入進行理解,因此搜索的準確度較低,體驗差。而智能搜索引擎,除了需要自然語言處理技術之外,更少不了知識圖譜技術,Google和百度等互聯網搜索引擎就是最早的實踐者。在檔案搜索中加入知識圖譜技術,使得搜索引擎可理解用戶的檢索需求,并向用戶展示檔案知識圖譜的全貌,揭示檔案實體間的關系,甚至將檢索結果顯示為結構化的檔案知識。在查詢具體的項目檔案時,可以結構化匯聚展示該項目過程的各種數據,如項目可行性分析報告、立項報告、招投標資料、合同文件、項目計劃、項目人員、成果文檔、會議紀要等,也可以通過圖譜獲取與該知識點相關的其他知識或相似的項目,通過這種方式實現整個檔案知識圖譜的關聯查詢。
知識推薦可以基于用戶屬性、用戶行為、業務場景進行分析,為用戶主動推薦其感興趣或與當前工作相關的知識內容。檔案知識推薦轉變傳統的被動式檔案利用服務模式,通過收集和調查檔案使用部門、用戶的需求,結合系統內用戶動態行為,如其訪問頻率、頁面停留時間以及檢索行為等數據,實時洞察用戶行為意圖,主動為其推送潛在感興趣和當前需要的檔案知識,進一步精準和高效的開放與共享檔案知識成果。
智能問答嵌入擬人化的語義理解能力,用戶可用自然語言提問,其背后就是通過知識圖譜作為問答系統的知識來源,實現問答智能化,提高問答效率。

通過探索,期望對軌道交通企業的檔案利用提供一種可行的思路,利用知識圖譜提升檔案服務和利用水平,實現檔案管理數字化、檔案利用智能化。
1.提升檔案管理數字化水平。在數字化的大環境下,檔案數據量不斷增加,由于檔案的內容和結構相對于互聯網數據規范性更高,因此具有更高價值?;谥R圖譜的檔案管理,更重視檔案使用人員的需求,通過檔案數據的知識化提取和關聯分析,細化檔案管理粒度,主動挖掘檔案深層次的價值和知識。
2.提高檔案利用效率和效果。通過計算機可識別、具有較強操作性以及富含語義關系的檔案知識圖譜模型,可以揭示和關聯檔案知識。通過檔案知識圖譜數據層實例的填充和聚合,采用知識抽取與知識融合等技術,實現檔案的精細化加工,實現檔案資源知識語義關聯,提高檔案利用效率和效果。
雖然知識圖譜技術的試點應用看到了一定的效果,但其應用還需要不斷深化和完善,由于檔案知識一個動態更新的,在完成知識圖譜建設后,為持續完善檔案的語義關聯,需要對檔案知識之間深層次關系開展推理和挖掘,通過知識推理和知識更新,不斷更新和完善檔案語義關聯。本文目前沒有進行檔案知識推理的應用探索,因此如何實現檔案知識圖譜的知識推理,進一步完善和填充檔案知識圖譜是非常具有挑戰性的。