楊亞菲
(國家開放大學 信息化部,北京 100039)
隨著計算機和網絡等相關技術的成熟發展,遠程教育已在教育界起到越來越重要的作用,而問答系統在遠程教育平臺中可以起到及時解決學生的疑問以方便其學習的作用。但目前隨著遠程學習學生規模的增長,現有的問答方式無法及時解答學生問題。基于此現狀,本文介紹了自動問答系統并探討了涉及到的相關技術。
自動問答系統 (Automatic Question and Answering System,簡稱“問答系統QA”),是對于用戶使用自然語言描述的問題,基于大量非同構數據自動搜索出簡潔且準確答案的信息檢索系統。問答系統在及時解決學生在學習過程中所遇問題的同時,還促進了學生學習的積極性,此外可以使教師不用將大量精力花費在重復回答相似問題上,而是集中于教學的改革和研究。
目前我國在遠程教育領域的問答系統主要分為以下三種:
(1)沒有獨立的問答部分,教學中的交互只能通過使用電子郵件、留言板或聊天室等簡單方式進行。這種遠程教育系統可以視為電視大學的網絡版,沒有展現網絡教學的優點。
(2)具有簡單問答方式的問答系統,這種系統類似于BBS形式,為師生提供交互環境,或是在教師的主導下以線上聊天的方式進行交互,這種方式比較粗糙地實現了師生之間的互動,但不一定是及時的。
(3)采用比較復雜的技術在某種程度上實現自動的問答系統。這類系統減少了教師參與,縮短了問答互動延時。根據采用技術不同大致分為三種類型:①基于FAQ庫的智能答疑系統。基于常見問題庫(Frequently Asked Question,FAQ)的QA是指將常見問題與對應答案存儲到常見問題庫,系統使用自然語言處理技術分析問題并抽取出關鍵詞,然后在FAQ庫中匹配和提取最優項反饋給用戶。②基于全文檢索的問答系統。這種系統搜索答案的范圍是相關文檔。系統利用自然語言處理技術分析用戶問題,然后在文檔庫中使用信息檢索技術搜索文檔并按照查詢相似度排序文檔,最后提取出與問題相似度較高的文檔返回給提問者。③面向知識自動化的問答系統。這種系統利用知識自動化的方法對虛擬空間的大數據進行深度開發和智力挖掘,以有效解決不確定、多樣且復雜的問題。
現代遠程教育是我國終身教育體系中至關重要的一個組成部分。根據現代遠程教育的特點,它不再是使用以往教育中教師灌輸知識、學生被動學習的方式進行教學,而是在教學過程中更側重以學生為核心的自主學習,因此,及時回答疑問是決定遠程教育教學質量的必要環節。然而在遠程教學過程中,教師和學生在時間和空間上的分離導致難以實現師生一對一實時互動,所以需要問答系統解決學生在自主學習過程中遇到的疑難問題,這使得問答系統對遠程教育質量高低起著決定性作用,因此,研究問答系統對我國現代遠程教育的發展具有深遠的意義。
無論采用何種方式進行分類,QA系統架構通常包括三個主要過程:問題分析、信息檢索和答案抽取。具體流程為首先對用戶提出的問題進行自然語言分析處理;然后在相關庫中對關鍵詞進行檢索,得到問題答案候選集;最后使用問題答案候選集對問題進行相似度計算以提取出最優答案。其基本體系結構如圖1所示。

圖1 問答系統基本體系結構
問題分析是指對用戶提出的問題進行預處理和文本分類,其中用到的關鍵技術有中文分詞、命名實體識別、詞性標注、問題分類、句法分析以及關鍵詞提取與擴展等。這些涉及到的自然語言處理各個細分部分的性能都直接或間接影響著整個問答系統的性能。下面分別介紹以上涉及的關鍵技術。
中文分詞是將漢字序列切分成單個獨立的詞。例如對句子“如何理解會計系統設計內部控制的方向?”進行中文分詞的結果為 “如何理解會計系統設計 內部控制 的 方向”。近乎所有涉及到中文文本處理的任務都在中文分詞的基礎上完成,因為在中文信息處理中,一組單詞通常被用作最小處理單位。常見的分詞技術有基于字符串匹配法、基于統計原則和基于理解的方法。
命名實體識別即專名識別,用于識別文本中具有特定含義的對象,主要是人名、地名、組織名、專有名詞等。在具有問句的文本中命名實體基本具有可以區別其它文本信息特殊的含義,因此識別命名實體不僅利于后續信息檢索性能的提高,而且在抽取答案時給相似度計算提供較好的特征。
詞性標注又稱詞類標注或標注,用于標注分詞結果中每個單詞的正確詞性,以確定每個單詞的詞性是名詞、動詞、形容詞或其它詞性。詞性標注是自然語言處理領域中許多任務必不可少的步驟,例如句法分析、文本分類、信息抽取以及語音識別等。常見的詞性標注方法包括基于統計模型的注釋方法、基于規則的注釋方法、統計方法與規則方法相結合的注釋方法。
問題分類是指通過確定問題的目標答案的類型來為隨后的答案抽取提供語義限制。問題分類可以縮小候選答案搜索空間,以提高定位答案的準確性。因此,問題分類對提高問答系統的性能方面起到關鍵性作用。常用分類方法有貝葉斯分類方法、支持向量機、最大熵等。
句法分析是分析句子的詞語語法。在對句子中的單詞串進行句法分析之后,會構造出一個解釋句子語法結構的句法分析樹。對文本的預處理僅限于句子中詞及其相關屬性級別,則不能分析出句子中詞與詞之間以及句子與詞之間的關系。而句法分析可以準確揭示認識對象的結構特征并迅速把握語義,所以本文預處理過程中句法分析必不可少。
關鍵詞是指在某種程度上可以代表句子主要含義的詞或詞組。在對句子進行文本處理的任務中,通過提取關鍵詞可方便理解句子的主要語義,為后續信息檢索和答案提取操作降低難度。常用的關鍵詞提取方法可分為有監督學習算法和無監督學習算法。此外關鍵詞需要擴展,因為在不同問題和答案中具有相同含義的關鍵詞或許具有不同的詞型,如果不擴展關鍵詞的詞型,可能會降低定位答案的準確性。
信息檢索是通過相應的檢索技術將提取出的關鍵詞在相應的知識儲備數據庫中進行信息檢索,得到候選問題集;信息檢索的本質是將描述用戶所需信息的問題特征與存儲在信息中的檢索標識符進行比較,并找到與問題特征一致或基本一致的信息。當前的問答系統無論是基于知識庫檢索問題答案,還是基于全文相關文檔檢索信息,都需要對相關信息數據創建索引,然后搜索索引以獲取信息檢索的結果。關于信息檢索目前有多種檢索模型,比如布爾模型、向量空間模型以及概率檢索模型。對于布爾模型,文檔與用戶查詢由其包含的單詞集合來表示,這種模型簡單直觀但無法結合數據的相關性,而且其搜索結果也不細致。向量模型把文檔看成一個向量,將查詢也表示成同一高維空間的向量,計算給定的查詢向量和每個文檔向量的tf-idf作為權重值進行檢索。對于概率模型,排序文檔與用戶查詢相關的概率作為最優處理方式進行檢索。以上三種模型中,布爾模型計算速度比其它兩個模型快,但是性能低于后兩個模型。
答案提取處理過程中相似度計算是關鍵技術。答案提取的主要任務是對問題與候選集中的問題進行文本分析以及相似度計算提取最終答案,相似度計算可以從關鍵詞詞類型相似度、句子長度相似度和關鍵詞詞序相似度等不同角度計算用戶問句和候選問題集中問題之間的相似度,若計算的相似度值大于預先設定的閾值,則檢索的結果滿足預期,便得到與用戶輸入問題最為相似的問題,抽取其對應的答案返回給用戶。其中關鍵詞詞類型相似度使用句子中關鍵詞的相同類型個數來度量,并且相同的個數越多,相似度越高。句子長度相似度是使用句子的長度來衡量,句子之間長度相差越小,相似度越高。關鍵詞次序相似度是使用關鍵詞在句子中的位置來衡量,關鍵詞的位置越相近,相似度越高。
目前遠程教育方面比較先進的問答系統是在英文環境下研究與開發的,而且英文環境下提供了大量先進技術和資源使用,而較少有研究涉及到其它語言包括中文領域。而且中文的語言結構比較多樣,相同問題因句子語境的不同可能表達的含義不一致,使得問答系統處理的數據源具有一定復雜性。另外,問答系統的整個處理過程需要很多步驟,每個步驟都需要改進算法提高性能,提高最終結果的準確性。因此,中文領域問答系統的研究仍面臨諸多挑戰,我們可以借鑒國外的技術和成果,但將此領域國外相關技術應用于中文領域仍需進一步努力以達到最佳適用度,這就需要我們加強對比與分析相關工具與方法,進而找到更好應用于遠程教育方面的中文領域問答系統。
現代遠程教學信息日益增多,其中除了包括結構化數據之外,還包括大量的半結構化數據以及非結構化數據,數據結構的復雜性使得問答系統在遠程教育信息資源整合方面存在困難。而且就目前國內遠程教育方面自動問答系統的研究現狀看,問答系統很少與其它相關系統如教務系統、考試系統、學習系統等進行關聯,導致無法利用相關系統中有價值的數據更好地進行有針對性的回答、擴展數據來源以及增加數據內容豐富性。所以在信息整合和推理方面的方法和技術并不成熟,對問答系統與其它系統的關聯研究還有很大的發展空間。我們可以在將問答系統與遠程教學中相關系統建立關聯的方向多做嘗試,使關聯系統的相關數據為問答系統服務,以提高其定位答案的準確率。
現代遠程教育主要是針對相關領域相關專業相關課程的知識進行的學習,根據現代遠程教育的特點,適用的問答系統應該具有實時性、準確性以及正確性,可以達到能快速且準確解答學生疑問的目的。但隨著教育行業相關政策的推行,問答系統已經不能滿足當前教育形式的發展需求。除了以上基本要求外,問答系統尤其需要具備個性化推薦功能,通過對學生的課程學習情況、科目考試情況等學習行為信息分析,并從中挖掘出有價值的數據構建針對學生個性特點的學習模型,進而實現相關問題的個性化推薦。目前已有問答系統尚不能滿足現代遠程教育對解答問題的個性化和智能化需求,仍需進一步研究。
答疑解惑是學習過程中不可或缺的步驟,而遠程教學中問答系統可以高效解答學生疑惑,因此問答系統是遠程教學體系中極其重要的模塊。目前我國在研究實現自動問答系統的技術方面取得了一定的進展,而且有不少領域已經實現了系統的實際應用,但是,將比較契合現代遠程教育的問答系統投入使用需要更多努力。本文對遠程教育領域問答系統的相關技術進行了闡述,并就目前的研究難點進行了分析,希望對相關研究者有一定的啟示和幫助。