基于知識圖譜的西藏文物問答系統構建與實現

2023-08-04 05:52:02王博王澤輝張坦杜鵬彭家凱滕俊哲

電腦知識與技術 2023年18期

王博，王澤輝，張坦，杜鵬，彭家凱，滕俊哲★

(1.西藏大學信息科學技術學院，西藏拉薩 850000；2.西藏大學工學院，西藏拉薩 850000)

0 引言

西藏地區位于青藏高原西南部，具有濃厚的民族文化和宗教色彩，孕育了悠久的歷史文明。現如今，網絡上的數據以指數倍的速度增長，當瀏覽網頁時，經常在不知凡幾的數據中迷失方向，這對于想要了解西藏歷史文化及文物的人來說，是一件惝恍迷離的事。但目前除了傳統的網站、App和微信小程序等形式展現西藏歷史文化外，還未發現采用最新的人工智能和大數據等技術來展示西藏文物給廣大用戶，鑒于此，本文將研究基于知識圖譜的西藏文物問答系統，用戶可以通過問答的形式了解西藏文物資源。

1 相關理論與技術

1.1 知識圖譜概述

知識圖譜(Knowledge Graph) 是一種結構化的知識表示形式，用于表達實體、概念、屬性及它們之間的關系。知識圖譜可以分為通用領域知識圖譜和垂直領域知識圖譜，通用圖譜強調知識的廣度，如Wikidata、FreeBase 等，垂直圖譜面向特定的領域或行業，強調的是知識的深度，如王電化等人[1]構建的檔案領域知識圖譜，張德亮[2]構建的小型金融知識圖譜等，知識圖譜的構建可以分為幾個方面，通過將不同來源的數據進行知識抽取、知識融合、知識加工、知識存儲，最終形成知識圖譜。

知識可以通過資源描述框架(Resource Description Framework，RDF)三元組模型來進行表示，每一個知識可以被分解為（主、謂、賓）三種形式，如（清雍正七世達賴喇嘛金印，意義，是中央政府有效治理西藏、規范藏傳佛教儀軌的重要物證），知識可以進行推理，基于圖譜中已有的事實或關系推斷出未知的事實或關系，假設知識庫中存在（刺繡藏傳佛教唐卡，內容，佛教哲理），（佛教哲理，目的，傳播教化眾生）兩條知識，可以推斷出刺繡藏傳佛教唐卡是藏傳佛教用來傳教步道所用，知識推理在概念層和本體層都要有可滿足性，如果不滿足說明是空集，那么推理也就不存在，總之，知識推理可以幫助我們對知識圖譜中未知的關系以合理的方式進行補全。

知識抽取通過從不同來源、不同結構的數據中進行抽取，形成知識存入到知識圖譜中，結構化數據可以使用圖映射和d2r 轉換，半結構化數據可以使用包裝器，純文本數據可以使用信息抽取，針對非結構化文本的實體關系抽取方式有pipline 和聯合抽取兩種方式，pipline 先識別出句子中的實體，然后通過文本分類判斷兩個實體間的關系，例如“清乾隆折枝蓮托八寶紋青花盉壺是乾隆皇帝給達賴喇嘛的饋贈禮物”，通過ner 先識別出實體“清乾隆折枝蓮托八寶紋青花盉壺”“乾隆皇帝”“達賴喇嘛”，然后判斷相鄰兩者之間的關系，輸出（清乾隆折枝蓮托八寶紋青花盉壺，御賜，乾隆），（清乾隆折枝蓮托八寶紋青花盉壺，饋贈，達賴喇嘛）。由于pipline 模式在實體識別和關系分類任務中完全分離，所以當命名實體識別任務存在誤差時，這種誤差便會在關系分類任務中累積，而聯合抽取在實體識別和關系分類的過程是共同優化的，文獻[3]提出casrel（層疊式指針標注）模型，該模型在實體識別和關系分類任務中共享同一個編碼器，但使用不同的解碼器，指針標注識別句子中的實體，將一個句子中的實體通過兩個矩陣進行表示，矩陣長度為原句子長度，實體頭標注為1，實體尾也標注為1，實體中間不進行標注，如表1所示：

表1 指針標注

層疊式指針標注即構造多個矩陣對應多個關系，casrel 模型首先識別句子中的主語，然后針對這些主語進行關系判斷，看是否存在主謂賓關系，即構造對應的三元組。

完成了知識抽取后，將構造出大量的三元組，但數據可能來源于不同的地方，例如第三方知識庫You-Tube，yago，freebase 等，而對于不同的數據來源，它們對知識的表示可能有所不同，需要判斷不同知識庫所描述的類別，實例，屬性是否是真實世界里相同一個對象，所以要將生成的數據進行知識融合，最后將數據進行知識存儲，完成知識圖譜的構建。

1.2 問答系統概述

問答系統(Question Answering System)是一種人工智能應用，它可以回答用戶提出的問題，類似于人與人之間的對話。它是自然語言處理(NLP)領域的一個重要研究方向，旨在將人類語言能力應用于計算機上，使計算機能夠理解和回答自然語言問題。

問答系統按照答案來源可以將其分為三類，基于問答對的問答系統、基于機器閱讀理解的問答系統、基于知識圖譜的問答系統。基于問答對的問答系統通過找到已經存在于知識庫中，并且和用戶所提問題相似度最高的問句，將結果返回給用戶。基于機器閱讀理解的問答系統通過在知識庫中查找問句對應實體的介紹文本，將其作為閱讀理解的上下文輸入到系統中得到答案。基于知識圖譜的問答系統首先解析用戶的問句，對用戶的意圖進行識別，然后構建查詢語句，查詢圖譜返回結果。由于知識圖譜存儲的是結構化的語義信息，并且具有知識推理能力，因此查詢效率很高。目前Knowledge-based QA 有三種主流的處理方法，基于語義解析、基于信息抽取、基于向量建模，基于語義解析是將用戶所提問題變成機器能夠理解的查詢語言，基于信息抽取的方法識別問句實體，用分類器識別問句信息，結合圖譜查詢結果，基于向量建模的方法首先將問句和候選答案映射到低維空間，通過訓練使得問題向量和正確答案向量之間損失函數最小，最后找到相似度最高的向量作為正確答案。

2 西藏文物知識圖譜構建

圖譜數據來源分為三個部分，1 采用網絡爬蟲技術，從互聯網爬取了相關西藏文物的一定數據，2采用casrel模型對文本數據進行知識抽取,3前往西藏博物館實地考察相關的展品。將數據存儲為csv 文件格式，標簽分別為文物名稱、文物介紹、文物起源時間、文物價值、文物地址。

構建西藏文物知識圖譜，以文物名稱為主體，與文物介紹、文物起源時間、文物價值、文物地址實體建立關系，將數據存儲到neo4j 數據庫中，Neo4j 是一種圖形數據庫管理系統，專門設計用于存儲、管理和查詢圖數據。它采用圖形數據模型，以節點(Node)和關系(Relationship) 的形式來表示和存儲數據。構建成功后用瀏覽器打開網址localhost:7474，可以看到構建的部分圖譜如圖1所示。

圖1 西藏文物知識圖譜

3 西藏文物問答系統設計

問答功能需要使用自然語言處理技術構建出cypher 查詢語句，查詢語句要實現意圖識別和槽位填充，意圖識別用文本分類技術實現，槽位填充用命名實體識別技術實現。

3.1 命名實體識別

命名實體識別技術是用來識別文本中的實體信息，一般來說包括人名，地名，時間，組織機構等，NER作為自然語言處理技術的上游任務，可以為知識抽取，機器翻譯，文本分類等下游任務提供幫助。命名實體識別技術按照發展時間可以分為三種方法，基于規則，基于統計，基于深度學習，基于規則的方法不需要經過訓練，可以基于實體詞表和基于規則匹配，詞表需要手工構建，在特定領域準確率高，但是需要花費大量的時間，規則匹配可以基于正則表達式，也是依賴于手工對規則的制定。基于統計的方法是利用標注好的數據進行訓練，輸出為字符作為實體組成部分的概率，如果某個候選字段的概率值大于設定好的閾值，則標注為實體。基于深度學習的方法不需要手工提取特征，使用神經網絡進行訓練，包括輸入層，隱藏層，輸出層，常見的深度學習模型有cnn[4]，lstm[5]等。

在對西藏文物的命名實體識別中，使用了bilstm_crf[6]模型，如圖2所示。

圖2 bilstm-crf模型

bilstm作為rnn的擴展，可以處理上下文之間的關系，并且加入了門控機制，可以處理具有長期依賴的信息，crf維護了概率轉移矩陣，有效地提升了命名實體識別的精度。

3.2 文本分類

文本分類是一種廣泛應用于自然語言處理領域的技術，可以對文本內容進行解析并將其劃分到不同的類別，在問答系統中，需要對用戶的意圖進行識別，例如，“我想了解一下貝葉經”，那么，系統就要將此文本歸為“介紹”一類，早期文本分類的方法是基于規則特征匹配的，例如在情感分析中，通過文本中出現了“喜歡，‘討厭’”等詞語來進行評判，隨著機器學習的發展，基于統計學習的模型開始占據主導地位，SVM[7]通過尋找最優超平面，將文本歸為不同的類別，KNN[8]通過離輸入文本最近的k個文本判斷所屬類別，樸素貝葉斯算法在給定類別的條件下計算不同特征的概率，并使用這些特征判斷未知文本所屬類別，后來深度學習興起，機器能夠從數據中自動學習特征，并通過神經網絡進行分類。和機器學習相比，深度學習在某些領域擁有更好的性能。

對用戶輸入問題的意圖識別使用了Textcnn 模型，TextCNN 的基本思想是通過卷積操作來提取文本中的局部特征，并通過最大池化操作將這些特征合并成全局特征表示。TextCNN 在訓練過程中采用交叉熵損失函數和反向傳播算法。模型通過不斷調整權重來最小化損失函數，以提高分類性能。

3.3 構建問答系統

首先構建查詢模板，match(n：antique) where n.antique=‘{name}’return n.‘{intention}’，當用戶輸入問題如“請介紹一下元八思巴肖像唐卡”時，系統解析出意圖為‘intro’，槽位實體為‘元八思巴肖像唐卡’，通過替換查詢模板中的‘name’，‘intention’，構建出最終的查詢語句match (n：antique) where n.antique=’元八思巴肖像唐卡’return n.intro，通過查詢圖譜，返回問答結果。

為了能使用戶有著更好的體驗，對系統進行了前端設計，問答結果如圖3所示：

圖3 問答結果展示

至此，基于西藏文物知識圖譜的問答系統構建完成。

4 結束語

針對目前并未有使用人工智能技術介紹西藏文物，構建了西藏文物知識圖譜，采用bilstm-crf 命名實體識別模型，textcnn 文本分類模型，對查詢語句進行了意圖識別和槽位填充，最終完成了問答系統，問答旨在幫助人們更好地了解西藏的文物，進而對西藏的思想，文化有著更深入的了解，后續會加大工作投入，不斷推進問答系統的發展與完善。