文/吳宇豪 陳昕雯 計慧芳 梁葉
隨著信息技術的不斷發展,微軟小娜、蘋果的Siri、GoogleNow等個人智能助理應運而生,主要利用問答方式便利人們日常生活。
本文實現一個基于機器學習的壯族非物質文化遺產限定域知識問答系統。主要通過搜集并整理廣西壯族非物質文化遺產的相關內容,將壯族非物質文化遺產數據分類整理后錄入數據庫,并對壯族非物質文化遺產的知識進行自然語言處理,并根據問句類型構建廣西壯族非物質文化遺產的問答模型。最終實現壯族非物質文化遺產知識問答系統。
目前,問答系統備受關注并且具有廣泛前景。1993年,START是世界上第一個基于網絡系統的英文自然語言將簡短而非冗長的語句返回給用戶。
國內問答系統起步較晚,于20世紀20年代開始系統進行基于中文問答系統的研究。但中文自然語言較英文而言,其句法結構更為復雜,語義表達更為靈活,處理起來更為困難,無法直接參考國外已有技術和研究成果。其次,國內缺乏豐富的原料庫、知識庫以及一整套完整規范的評測標準及體系。
2.1.1 問句集的構造
問句是問答系統設計的基礎,通過問句的種類和特征,我們才能夠準確的從數據表中將對應的數據抽取出來,返回給提問者。問句集的構造的基礎便是壯族非物質文化遺產數據表,在數據表的各個字段的基礎之上構造問句,可以保證問答系統的準確性和一致性。構造問句集分為三步:
(1)整理每個數據表的字段集合W;
(2)對字段集合W中的每個字段的內容進行問句構造;
(3)將所構造的問句集進行同義句擴充。最終得到完整問句集合Q。
2.1.2 問句集句型分類
我們根據問句集中所得到的結果分析得到以下兩大類句型,共分為以下五種。
(1)總體類句型。①總體概述類。②條件概述類。③最值概述類。
(2)單項類句型。①單表類。②多表連接類。
2.2.1 中文分詞及其算法
問答系統的研究第一步要做的處理就是對于用戶輸入問句的分詞處理,將問句加以分詞,得到句子中所有分詞所得詞匯的集合S,之后再通過詞性標注進一步判斷哪些詞是關鍵詞,哪一些詞是輔助詞。我們將二者分到兩個集合當中,一個是關鍵詞集合,另一個則是輔助詞集合。之后根據輔助詞和問句類型判斷屬于何種問句,而關鍵詞集合則是用于識別用戶問句中的條件,問題類型及目標答案屬性,便于在答案抽取過程中準確構建查詢語句,進而得到較高正確率的結果。
關鍵詞集合和輔助詞集合的構造是否準確將會影響接下來的處理過程以及最終得到的答案,由于本項目是圍繞壯族非物質文化遺產的知識進行問答,從而用到的中文分詞工具必須具備較強的命名體識別能力,才能夠將問句中的核心部分的詞匯分割出,使后續處理工作中降低問答錯誤率。
2.2.2 問句分析
在問句分析階段需要就我們所收集到的現有的壯族非物質文化遺產的相關文獻記錄,以及非物質文化遺產的傳承人等信息構造可能存在的問句。之后,我們再對收集好的問句集進行分析和處理,共分為三步:
(1)問句集分詞處理;
(2)問句集句型分類;
(3)構造問句集中每個問句對應的關鍵詞集合和輔助詞集合。
2.2.3 答案抽取
通過對用戶輸入的問句進行分析,構建SQL查詢語句,連接數據庫,對壯族非遺數據模塊的數據進行查詢,進而得到與問句相匹配的數據(記錄)作為候選答案,然后再根據問句類型及目標答案類型加以篩選作為最終結果輸出。
本文首先介紹了問答系統的發展現狀,目前國內的中文問答系統不斷發展,但在非物質文化遺產知識上卻少有應用。本文就壯族非物質文化遺產的知識問答的研究過程做了詳細描述,通過系統的開發實現總體上實現了壯族非物質文化遺產限定域知識問答系統的功能需求。
本文所做的主要研究工作如下:
(1)研究和學習問答系統的處理流程;
(2)對壯族非物質文化遺產的文獻資料進行收集和整理分類;
(3)問句收集和構造,對問句進行分類;
(4)根據問句類型歸納SQL查詢語句的構造方法,精準提取答案。