








摘要:知識圖譜是實現開放領域問答的關鍵技術之一,開放領域問答任務往往需要足夠多的知識信息,而知識圖譜的不完備性成為制約問答系統性能的重要因素。利用外部非結構化的文本與基于知識圖譜的結構化知識相結合填補缺失信息時,檢索外部文本的準確性和效率尤為關鍵,選取與問題相關度較高的文本可提升系統性能。相反,選取與問題相關性較弱的文本將引入知識噪聲,降低問答任務的準確性。因此,設計了一種融合文本與知識圖譜的問答系統模型,其中的文本檢索器可充分挖掘問題和文本的語義信息,提高檢索質量和查詢子圖的準確性;知識融合器將文本和知識庫中的知識結合構建知識的融合表征。實驗結果表明,相較對比模型,該模型在性能上存在一定優勢。
關鍵詞:問答系統;知識圖譜;外部知識;文本檢索;融合表征
中圖分類號:TP183;TP391.1 文獻標志碼:A 文章編號:1000-582X(2024)08-055-10
開放領域問答[1?2]需要找到使用自然語言所描述問題的對應答案。當前開放領域的問答系統往往需要覆蓋面足夠廣的知識庫作支撐,而當今知識圖譜的規模尚不足以作為開放領域問答系統的唯一知識源,其不完備性限制了問答系統性能。隨著互聯網發展,各類百科網站記載了越來越多領域的知識,以非結構化文本的形式呈現。陳丹琦等[3]首次將維基百科文本語料庫引入開放領域問答。一方面,其擁有的知識量大、覆蓋面廣,并且規模日益增長;另一方面,其語言滿足專業性和規范性,有利于轉化為計算機易于存儲的結構化形式。因此,文本語料庫可作為不完備知識庫的外部信息補充,與知識庫相結合作為開放領域問答系統的知識源。圖1 顯示了為回答無法直接從知識庫中找到答案的問題需要結合非結構化文本信息的案例。
國內外有一些研究者設計了結合外部文本知識的知識圖譜開放領域問答系統,雖然取得一些效果,但仍存在問題,導致效果未達預期。其中包括:1)檢索文本的方法未曾涉及句子的語義信息,導致檢索到的文本相關性被限制,無法充分挖掘文本中所蘊含與問句有關的信息,影響最終答案的準確性。例如Sun 和Xiong等[4-5]利用詞頻信息檢索文本,未涉及語義信息;2)知識圖譜節點的表征未考慮差異化、鄰接節點及邊對其的重要性,使節點過于孤立,難以準確定位目標答案。例如,圖卷積神經網絡(graph convolution network,GCN)[6?8]在對查詢子圖節點的鄰接節點進行卷積操作時使用相同的權重。