
【摘要】以一種基于文本挖掘的自動答疑系統(tǒng)為研究對象,分析了目前教學(xué)軟件中老師自動答疑系統(tǒng)的現(xiàn)狀,提出了自動答疑系統(tǒng)的體系結(jié)構(gòu)和關(guān)鍵技術(shù),并進(jìn)行了初步設(shè)計。還提出了針對學(xué)生提問與回答對自動答疑進(jìn)行自動優(yōu)化的思想和方法。
【關(guān)鍵詞】自動答疑系統(tǒng);文本挖掘;數(shù)據(jù)挖掘;數(shù)據(jù)倉庫
【中圖分類號】TP392 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1672—5158(2012)08—0124-02
隨著各種教學(xué)網(wǎng)站的出現(xiàn)以及基于網(wǎng)絡(luò)教學(xué)研究的不斷深入,老師與學(xué)生的在線信息交流也日益豐富起來。在很多教學(xué)系統(tǒng)中,在線答疑已經(jīng)成為師生交流的基本工具。然而伴隨著信息量的增加,教師對于大量問題進(jìn)行一一回答的方式已經(jīng)明顯不能滿足學(xué)生學(xué)習(xí)的需要,在交流中學(xué)生更加希望能夠給予及時有效的回答,于是一種智能化的自動答疑系統(tǒng)成了迫切的需要。所謂自動答疑系統(tǒng),就是充分利用教學(xué)網(wǎng)站中所有學(xué)習(xí)與輔導(dǎo)的信息,利用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的相關(guān)原理及算法,對已有的信息進(jìn)行整理和提取,實現(xiàn)相關(guān)問題的自動解答。
1.自動答疑系統(tǒng)的現(xiàn)狀
隨著Internet的發(fā)展與應(yīng)用,智能化信息技術(shù)得到迅猛發(fā)展。網(wǎng)絡(luò)成了人們獲取信息的有效工具,面對面的提問解答已經(jīng)不是主要的學(xué)習(xí)方式,基于網(wǎng)絡(luò)的自主性學(xué)習(xí)已經(jīng)成了學(xué)生的另一主要學(xué)習(xí)方式,這使學(xué)生由聽眾變成了知識的主動索取者,所以遇到不能解決的問題時,及時有效的答疑便成了同學(xué)們必不可少的需求。最初學(xué)生可以通過電子郵件直接與老師交流,或者通過系統(tǒng)留言板發(fā)布公告消息;接著有了BBS聊天室,教師和學(xué)生同時進(jìn)入聊天室可以進(jìn)行“面對面”的交流;后來又出現(xiàn)了專門的在線答疑,仍以聊天室的形式出現(xiàn)的,但是由后臺數(shù)據(jù)庫管理員或?qū)<以谝欢ǖ臅r間內(nèi)針對所有問題統(tǒng)一做出回答,這種答疑方式已經(jīng)成了教學(xué)平臺的重要組成部分,更加方便了師生交流,也為質(zhì)疑和解答提供了優(yōu)良的渠道;接著又出現(xiàn)了進(jìn)行純文本的關(guān)鍵字查詢的在線答疑系統(tǒng),這種系統(tǒng)已經(jīng)初步具有自動答疑的特征,其后臺數(shù)據(jù)庫含有問題和與其對應(yīng)的答案,學(xué)生可以輸入問題的關(guān)鍵字對問題進(jìn)行搜索,這要求用戶具有一定的抽取關(guān)鍵詞的能力,輸入關(guān)鍵字若不夠精確,可能查到許多與其無關(guān)問題及其答案。
雖然以上幾種交流方式一直在進(jìn)步,但是每一種都要付出一定的人力與時間,給出的答案形式單一,準(zhǔn)確性也不高。這幾種答疑方式通常采用發(fā)帖子方式或者搜索匹配方式,沒有將解答和評價有效的結(jié)合起來,所以難以給同學(xué)們有效的解答。隨著學(xué)校學(xué)生規(guī)模的不斷擴(kuò)大,學(xué)生索取指示的需求積聚增加,網(wǎng)絡(luò)內(nèi)容的不斷豐富,非常有必要設(shè)計—種有效的答疑系統(tǒng)一即基于文本的自動答疑系統(tǒng)。
2.自動答疑系統(tǒng)的特征
所謂自動答疑系統(tǒng),關(guān)鍵在于“自動”二字,體現(xiàn)了其智能性。就目前的智能系統(tǒng)應(yīng)用來看,智能系統(tǒng)可以總結(jié)為一個記憶系統(tǒng)、計算系統(tǒng)、邏輯系統(tǒng)、感知系統(tǒng)、交互系統(tǒng)、學(xué)習(xí)系統(tǒng)、思維系統(tǒng)及進(jìn)化系統(tǒng)。因而自動答疑系統(tǒng)應(yīng)該是一個具有知識記憶、數(shù)據(jù)計算、邏輯推理、知識學(xué)習(xí)和實現(xiàn)友好人機(jī)交互的智能系統(tǒng),其本質(zhì)是一個具有智能性的知識系統(tǒng)。這種系統(tǒng)應(yīng)該具有以下特征:(1)支持自然語言的提問;(2)自動抽取并檢索問題呈現(xiàn)有效答案;(3)通過學(xué)習(xí)自動更新答案知識庫;(4)提供有自動特征的人工答疑;(5)具有知識庫和用戶信息庫的管理功能;(6)具有統(tǒng)計功能來評價有效性。
自動答疑系統(tǒng)中,用戶不僅可以根據(jù)關(guān)鍵字進(jìn)行提問查詢,而且可以通過自然語言來描述自己的問題。系統(tǒng)通過切詞對自然語言抽取出關(guān)鍵詞,根據(jù)關(guān)鍵詞到數(shù)據(jù)倉庫中檢索問題,并在用戶界面中顯示相應(yīng)的答案。管理員通過對后臺數(shù)據(jù)庫的原始數(shù)據(jù)進(jìn)行一系列的處理,將其轉(zhuǎn)換成有用信息,定期更新知識庫。自動答疑系統(tǒng)后臺數(shù)據(jù)庫雖然也需要人工管理,但是呈現(xiàn)給用戶的已經(jīng)不是一般意義上的人工答疑了,可以稱作具有自動特征的人工答疑系統(tǒng)。數(shù)據(jù)倉庫中不僅有答疑知識庫,而且還有教師個人信息庫,如專業(yè)特長、研究方向、發(fā)表文章、所授課程等內(nèi)容,學(xué)生對自己的問題進(jìn)行提問時,可以根據(jù)這些信息來指定某一位老師的解答,這樣提高了答案的有效性。用戶可以根據(jù)不同答案進(jìn)行評價,這個評價結(jié)果會返回到后臺數(shù)據(jù)庫中,每一種評價對應(yīng)著—個分?jǐn)?shù),系統(tǒng)進(jìn)行累計計分,并返回一個分?jǐn)?shù)最高的答案呈現(xiàn)在某一個特定區(qū)域作為該問題在某一時刻的最優(yōu)答案。
3.自動答疑系統(tǒng)的詳細(xì)設(shè)計
自動答疑系統(tǒng)關(guān)鍵在于它的自動性和智能性,包括抽取問題的智能化、對答案評優(yōu)的智能化和對信息維護(hù)的自動化。這一特點使得用戶可以更加方便的使用系統(tǒng),管理員可以更加容易的管理系統(tǒng),系統(tǒng)返回的答案具有更高的有效性。簡而言之,查詢更省時,管理更方便,答案更有效。
3.1 系統(tǒng)總體設(shè)計
從應(yīng)用的角度看,自動答疑系統(tǒng)共分為3大部分:提出問題部分、解答問題部分和在線討論部分。而就系統(tǒng)的體系結(jié)構(gòu)而言,也可分為3大部分:數(shù)據(jù)庫管理部分、答疑實現(xiàn)部分和系統(tǒng)評優(yōu)部分。數(shù)據(jù)庫的管理部分即答案知識庫的管理部分也是數(shù)據(jù)倉庫的設(shè)計部分,管理員對答疑數(shù)據(jù)源提取數(shù)據(jù),進(jìn)行必要的數(shù)據(jù)清理和變換(如對灌水內(nèi)容進(jìn)行刪除),并將處理后的數(shù)據(jù)輸入到數(shù)據(jù)倉庫中,實際上是一個采集、存儲、管理和分析數(shù)據(jù)的過程。這個過程的有效性可以使數(shù)據(jù)挖掘中的預(yù)處理階段大大簡化。答疑部分,對用戶問題運(yùn)用文本挖掘找出關(guān)鍵詞,這一步是系統(tǒng)實現(xiàn)的關(guān)鍵,然后在數(shù)據(jù)倉庫中找到對應(yīng)的問題并提取出對應(yīng)的答案。這一部分是本系統(tǒng)的難點也是本系統(tǒng)的重點。系統(tǒng)評優(yōu)部分,每種評價結(jié)果對應(yīng)著一個相應(yīng)的分?jǐn)?shù),通過統(tǒng)計計分找出分?jǐn)?shù)最高的答案返回到用戶界面作為該時刻的最優(yōu)答案。在用戶界面中還設(shè)置1個討論區(qū),用戶可以針對某一問題進(jìn)行回答,其他用戶可以對該用戶提供的答案進(jìn)行評價,系統(tǒng)也對其進(jìn)行計分統(tǒng)計,若計分結(jié)果比系統(tǒng)自動返回的答案分?jǐn)?shù)高,則將該答案作為最優(yōu)答案。系統(tǒng)流程如圖1所示。
3.2 系統(tǒng)用戶
自動答疑系統(tǒng)中有3類用戶,一是使用系統(tǒng)進(jìn)行提問問題的用戶,也是本系統(tǒng)的服務(wù)對象,用戶不僅可以進(jìn)行提問,而且可以對答案做出的評價,評價結(jié)果將影響到系統(tǒng)答疑的質(zhì)量。二是對用戶的問題做出答疑的專家,專家做出的回答直接影響到系統(tǒng)的有效性,只有答案的質(zhì)量很高,才能更好的體現(xiàn)出系統(tǒng)的智能性。其中在評優(yōu)過程中,討論區(qū)用戶的答案也是最優(yōu)答案的一個考慮因素,因此用戶在某種程度上也是提供答案的專家。三是系統(tǒng)管理員,管理員對后臺數(shù)據(jù)庫管理,定期對數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)清理分類和維護(hù),而且對討論區(qū)進(jìn)行管理,發(fā)布一些公告信息等。
3.3 系統(tǒng)的關(guān)鍵技術(shù)
自動答疑系統(tǒng)運(yùn)用了數(shù)據(jù)挖掘的基本原理及相關(guān)技術(shù),其中有數(shù)據(jù)倉庫技術(shù)、文檔分析、文本挖掘、聚類、分詞方法、串頻統(tǒng)計算法、過濾、模糊查詢等。其中最重要的是文本挖掘方面,利用文本挖掘技術(shù)來識別自然語言并切出關(guān)鍵詞,然后對關(guān)鍵詞實現(xiàn)模糊查詢方法來實現(xiàn)答疑過程。
1)數(shù)據(jù)倉庫的設(shè)計部分,即答案知識庫的管理部分。所謂數(shù)據(jù)倉庫是一種面向主題的、集成的、隨時間變化的、非易失性的數(shù)據(jù)集合,用于為管理層的決策制定過程提供支持。數(shù)據(jù)倉庫是為決策支持而設(shè)計的歷史數(shù)據(jù)庫。設(shè)計數(shù)據(jù)倉庫首先運(yùn)用專門用來存儲5至10年或更久的歷史數(shù)據(jù),以滿足用戶查詢之用的數(shù)據(jù)需求,如采用某答疑網(wǎng)站的答疑數(shù)據(jù)庫。管理員需要對歷史庫進(jìn)行必要的加工及維護(hù)。若在數(shù)據(jù)倉庫中找不到用戶新提出的問題,將問題及最優(yōu)答案進(jìn)行必要的處理后輸入到數(shù)據(jù)倉庫中,這樣可以不斷地采集存儲數(shù)據(jù)來擴(kuò)充優(yōu)化數(shù)據(jù)倉庫。
2)文檔分析,將文檔轉(zhuǎn)換成向量空間后就可以利用統(tǒng)計學(xué)和計算方法進(jìn)行分析。答疑系統(tǒng)用到的文本分析方法是聚類,即將文檔劃分幾個子集,各子集間的區(qū)別盡量大,子集內(nèi)的差異性盡量小。也可以利用監(jiān)督的機(jī)器學(xué)習(xí)方法將文檔劃分到預(yù)先設(shè)定的類中。因為詞向量是高維度的,且很稀少,對于文本集合,有時需要對其內(nèi)容進(jìn)行自動文摘化。
3)數(shù)據(jù)預(yù)處理,對自然語言進(jìn)行文本挖掘,實現(xiàn)計算機(jī)能夠識別并進(jìn)行查詢的詞,進(jìn)而實現(xiàn)問題的提取得出用戶想要的答案。所謂文本挖掘是利用數(shù)據(jù)挖掘技術(shù)在大量的文本集合中發(fā)現(xiàn)隱含知識的過程。文本挖掘的任務(wù)包括在大量文本中進(jìn)行信息抽取、語詞識別、發(fā)現(xiàn)知識間的關(guān)聯(lián)等。研究目標(biāo)是采用各種技術(shù)自動化理解和解釋文本信息。通常采用基于文本統(tǒng)計分析的方法,利用統(tǒng)計學(xué)原理分析文本所遇到的第1個問題是如何將文本轉(zhuǎn)換成計算機(jī)可處理的數(shù)字形式。基本的步驟包括抽詞、過濾停用詞、確定句子和段落的邊界,將文本轉(zhuǎn)換成可以進(jìn)行統(tǒng)計學(xué)分析向量。文本被轉(zhuǎn)換成向量之后利用統(tǒng)計學(xué)方法比較文本之間的相似性,或?qū)ξ谋具M(jìn)行聚類或分類,統(tǒng)計學(xué)文本分析方法中將文檔轉(zhuǎn)換成詞頻向量空間。在任何一個文本分析系統(tǒng)中首先要考慮哪些詞是應(yīng)該被分析的元素。
4)分詞的任務(wù)是將問題的自然語言轉(zhuǎn)化成可以代表數(shù)據(jù)倉庫中某個問題的關(guān)鍵詞,最簡單的方法是根據(jù)詞與詞之間的空格進(jìn)行分詞,復(fù)雜的抽詞方法需要考慮同義詞合并、詞組的確定等問題。現(xiàn)在分詞方法有以下3種:基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法。答疑系統(tǒng)用前兩種分詞方法,對于用戶問題的關(guān)鍵字在數(shù)據(jù)倉庫已有的問題中出現(xiàn)過,則可以直接運(yùn)用基于字符串匹配的分詞方法,否則運(yùn)用統(tǒng)計的分詞方法。
5)串頻統(tǒng)計,串頻統(tǒng)計的目的在于利用統(tǒng)計的方法來獲得系統(tǒng)中的一些新詞,這些詞被稱為臨時詞庫,它們與系統(tǒng)本身的常用詞詞庫一起作為切分時的依據(jù)。臨時詞庫中的詞的優(yōu)先級高于系統(tǒng)本身的常用詞庫的詞的優(yōu)先級。統(tǒng)計的思路是計算各漢字短字符串的所有子串(長度大于1)在全文中出現(xiàn)的次數(shù),并根據(jù)串頻和子串的長度對每個子串進(jìn)行加權(quán)計算。權(quán)值超過給定的閾值的子串作為系統(tǒng)自動識別出來的詞條存入臨時詞庫中。若出現(xiàn)系統(tǒng)本身詞庫的常用詞,權(quán)值初始化為1,每出現(xiàn)1次對權(quán)值做加1操作。最后將臨時詞庫與系統(tǒng)本身詞庫中權(quán)值在一個符合系統(tǒng)需要的范圍的詞作為關(guān)鍵字,到數(shù)據(jù)倉庫中查找問題即對應(yīng)的答案。
6)停用詞的過濾,謂停用詞是指那些詞頻過高、沒有實質(zhì)意義的詞,或者那些詞頻很低,不能代表文本主題的詞。過濾停用詞的常用方法是將文檔中詞頻高于某個數(shù)值和詞頻低于一定數(shù)值的詞剔除。
7)模糊查詢,將含有關(guān)鍵字得相關(guān)文檔都搜索出來。答疑系統(tǒng)中多次用到模糊查詢。對自然語言表示的問題文本先分詞,后根據(jù)系統(tǒng)本身詞庫進(jìn)行搜索,其實質(zhì)就是關(guān)鍵詞的邏輯與組合進(jìn)行搜索。除了在搜索文本問題的關(guān)鍵詞外,在根據(jù)關(guān)鍵詞從數(shù)據(jù)倉庫中進(jìn)行查找問題及相對應(yīng)的答案中也查到了模糊查詢。答疑系統(tǒng)還支持根據(jù)關(guān)鍵詞搜索相關(guān)資料的模糊查詢。
4.結(jié)束語
自動答疑系統(tǒng)是在普通的答疑系統(tǒng)上的一次智能化應(yīng)用。自動答疑系統(tǒng)的出現(xiàn),管理員不再需要每天去察看用戶問題并一一做出回答,用戶可以立即得到答案。系統(tǒng)對描述問題的自然語言進(jìn)行切詞并統(tǒng)計出頻數(shù)較高的詞作為關(guān)鍵詞,根據(jù)關(guān)鍵詞在數(shù)據(jù)倉庫中搜索出問題與答案,由系統(tǒng)自動返回答案。答案標(biāo)準(zhǔn)不再由管理員一個人來制定,而是通過討論區(qū)和多個教師兩種方法比較出最優(yōu)答案作為標(biāo)準(zhǔn),用戶對答案進(jìn)行打分評價,實現(xiàn)某一時刻的最優(yōu)答案。這樣在答案的有效性準(zhǔn)確性上有了很大的提高。
參考文獻(xiàn)
[1]翁敬農(nóng).數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2003
[2]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003
[3]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2003
[4]閃四清,陳茵.數(shù)據(jù)挖掘-概念、模型、方法和算法[M].北京:清華大學(xué)出版社,2003
[5]董彩云.數(shù)據(jù)挖掘及其在高校教學(xué)系統(tǒng)中的應(yīng)用[D],濟(jì)南:濟(jì)南大學(xué),2004