網(wǎng)絡(luò)答疑是多媒體網(wǎng)絡(luò)教學(xué)系統(tǒng)不可缺少的功能之一。近年來(lái),人們陸續(xù)研制和開(kāi)發(fā)了一系列網(wǎng)絡(luò)答疑系統(tǒng),這些網(wǎng)絡(luò)答疑系統(tǒng)已在教學(xué)過(guò)程中發(fā)揮較大作用,但其均不同程度地存在一些問(wèn)題。(1)系統(tǒng)的自適應(yīng)性能較差。如進(jìn)行問(wèn)題關(guān)鍵詞匹配時(shí),經(jīng)常答非所問(wèn)。(2)問(wèn)題及答案的表現(xiàn)形式不夠豐富,主要以文本為主,缺乏必要的圖像、聲音等多媒體支持能力。(3)數(shù)據(jù)管理功能薄弱,多采用e-mail、留言板或BBS等方式進(jìn)行問(wèn)題解答,難以充分利用高效的數(shù)據(jù)庫(kù)管理技術(shù),不便于數(shù)據(jù)的重復(fù)利用。(4)標(biāo)準(zhǔn)化程度不高,在設(shè)計(jì)時(shí)并未考慮標(biāo)準(zhǔn)化問(wèn)題,導(dǎo)致重要資源無(wú)法共享等。
本文以先進(jìn)的智能代理(Agent)理論與技術(shù)為基礎(chǔ),提出一種新的智能網(wǎng)絡(luò)答疑系統(tǒng)模型,討論該答疑系統(tǒng)中問(wèn)題庫(kù)的自動(dòng)形成機(jī)制,并介紹智能網(wǎng)絡(luò)答疑系統(tǒng)所涉及的關(guān)鍵技術(shù)。
多Agent技術(shù)簡(jiǎn)介
基于多Agent技術(shù)的系統(tǒng)是指多個(gè)Agent相互通訊、彼此協(xié)調(diào),共同完成作業(yè)任務(wù)的系統(tǒng),它不僅具備一般分布式系統(tǒng)所具有的資源共享、易于擴(kuò)張、可靠性強(qiáng)、靈活性強(qiáng)、實(shí)時(shí)性好的特點(diǎn),而且各Agent能夠通過(guò)相互協(xié)調(diào)解決大規(guī)模的復(fù)雜問(wèn)題,使系統(tǒng)具有很強(qiáng)的魯棒性、可靠性和自組織能力。在多Agent系統(tǒng)中,單個(gè)Agent是一個(gè)物理的或抽象的實(shí)體,能作用于自身和環(huán)境,操縱環(huán)境的部分表示,并與其他Agent通訊,具有感知、通訊、行動(dòng)及控制和推理能力等基本功能。多Agent技術(shù)的這些特點(diǎn),使得其在處理基于互聯(lián)網(wǎng)的知識(shí)問(wèn)題方面,具有廣闊的應(yīng)用前景。
智能網(wǎng)絡(luò)答疑系統(tǒng)的功能
總體說(shuō)來(lái),智能網(wǎng)絡(luò)答疑系統(tǒng)應(yīng)具備四項(xiàng)功能。(1)學(xué)員用戶能在學(xué)習(xí)過(guò)程中隨時(shí)中止課件演示進(jìn)程,運(yùn)用自然語(yǔ)言進(jìn)行提問(wèn),并可對(duì)提問(wèn)方式進(jìn)行選擇(同步提問(wèn)、異步提問(wèn)等),也可選擇系統(tǒng)自動(dòng)回答的相關(guān)參數(shù)(如答案材料大小等)。(2)系統(tǒng)既能通過(guò)在常見(jiàn)問(wèn)題庫(kù)、知識(shí)點(diǎn)庫(kù)及課件素材庫(kù)中搜索答案并自動(dòng)回答用戶所提問(wèn)題,又能通過(guò)e-mail、BBS或留言板等方式使學(xué)員用戶的問(wèn)題得以解答。(3)系統(tǒng)呈現(xiàn)在用戶瀏覽器上的答案應(yīng)包括兩方面內(nèi)容:一是多媒體形式(圖文并茂)的問(wèn)題解答;二是學(xué)員用戶應(yīng)鞏固復(fù)習(xí)的知識(shí)點(diǎn)建議、少量練習(xí)題等。(4)系統(tǒng)能夠自動(dòng)生成和維護(hù)常見(jiàn)問(wèn)題庫(kù)(FAQ庫(kù)),并保持其結(jié)構(gòu)良好性,同時(shí)還應(yīng)該支持專任教師用戶的人工維護(hù)(增加、刪除和修改等)。
智能網(wǎng)絡(luò)答疑系統(tǒng)的總體結(jié)構(gòu)
智能網(wǎng)絡(luò)答疑系統(tǒng)的用戶分三類。(1)請(qǐng)求解答疑問(wèn)的學(xué)員用戶,他們是系統(tǒng)的服務(wù)對(duì)象。(2)某課程的專任教師,他們負(fù)責(zé)構(gòu)建課件庫(kù)、知識(shí)點(diǎn)庫(kù),并提供對(duì)課件庫(kù)、知識(shí)點(diǎn)庫(kù)、FAQ庫(kù)的不定期維護(hù),同時(shí)負(fù)責(zé)回答系統(tǒng)無(wú)法自動(dòng)回答的問(wèn)題。(3)系統(tǒng)管理員,其負(fù)責(zé)整個(gè)答疑系統(tǒng)的安裝、軟硬件維護(hù)等,以維持整個(gè)網(wǎng)絡(luò)答疑系統(tǒng)的良性運(yùn)行。
根據(jù)設(shè)計(jì)目標(biāo)及用戶分析,同時(shí)結(jié)合Agent技術(shù),我們可以將智能網(wǎng)絡(luò)答疑系統(tǒng)組織成如下圖所示的總體結(jié)構(gòu)。

1.問(wèn)題代理
問(wèn)題代理是整個(gè)網(wǎng)絡(luò)答疑系統(tǒng)的核心部件,絕大多數(shù)問(wèn)題都由它來(lái)回答,并由它自動(dòng)生成FAQ庫(kù)。其基本工作過(guò)程為:當(dāng)學(xué)員用戶點(diǎn)擊“提問(wèn)”按鈕并選擇“計(jì)算機(jī)自動(dòng)答疑”選項(xiàng)后,系統(tǒng)將直接啟動(dòng)“問(wèn)題代理”模塊。該模塊首先將用戶輸入的自然語(yǔ)言問(wèn)題文本切分成“關(guān)鍵詞”的邏輯組合,然后結(jié)合用戶對(duì)答疑限制條件的選擇結(jié)果形成復(fù)合的全文搜索條件,對(duì)FAQ庫(kù)進(jìn)行搜索。如果能發(fā)現(xiàn)大于規(guī)定閾值的答案材料,就按權(quán)值大小返回給用戶,并對(duì)知識(shí)點(diǎn)庫(kù)也進(jìn)行全文搜索,將與問(wèn)題文本關(guān)鍵詞相匹配的知識(shí)點(diǎn)找出,給出用戶應(yīng)鞏固復(fù)習(xí)的知識(shí)點(diǎn)建議。如果在FAQ庫(kù)中沒(méi)有找到合適的答案材料,則先對(duì)知識(shí)點(diǎn)庫(kù)進(jìn)行全文搜索,再根據(jù)知識(shí)點(diǎn)庫(kù)中的線索和問(wèn)題文本關(guān)鍵詞的邏輯組合對(duì)課件庫(kù)進(jìn)行全文搜索。如果發(fā)現(xiàn)權(quán)值大于規(guī)定閾值的句子序列(兩個(gè)句號(hào)之間的字串為一個(gè)句子),就按權(quán)值由大到小的次序返回給用戶,并把它作為參考答案。同時(shí)發(fā)出用戶對(duì)該回答滿意程度的選擇,若用戶給出“比較滿意”以上的選擇,問(wèn)題代理則將該問(wèn)題題目及答案記入FAQ庫(kù)(可供其他用戶使用),并給用戶指出應(yīng)復(fù)習(xí)的知識(shí)點(diǎn)建議;否則,就將該問(wèn)題發(fā)給專任教師。專任教師解答以后,以郵件形式發(fā)給提問(wèn)用戶,同時(shí)將該問(wèn)題及其解答加入FAQ庫(kù)。
2.郵件(e-mail)代理
郵件代理是一個(gè)具有相對(duì)獨(dú)立結(jié)構(gòu)和功能的部件。當(dāng)學(xué)員用戶選擇了郵件答疑方式以后,系統(tǒng)將直接啟用郵件代理。該代理同樣首先讓用戶對(duì)答案材料的限制條件作選擇,然后讓用戶填寫所提問(wèn)題;接下來(lái),郵件代理先將用戶所交的提問(wèn)郵件進(jìn)行處理,從中提取出問(wèn)題文本后,交給問(wèn)題代理進(jìn)行處理,問(wèn)題代理即按上述方法尋找答案或加入到FAQ庫(kù)或轉(zhuǎn)到專任教師郵箱(由教師答疑)。這里要求郵件代理與Web自動(dòng)答疑無(wú)隙整合。而郵件代理的另一任務(wù)是將網(wǎng)絡(luò)答疑系統(tǒng)無(wú)法回答的問(wèn)題轉(zhuǎn)發(fā)給專任教師,并把專任教師的回答返回給學(xué)員用戶。
3.討論代理
如果學(xué)員用戶選擇了討論答疑,則系統(tǒng)立即啟用討論代理模塊。該模塊又劃分為兩個(gè)子模塊:實(shí)時(shí)討論代理和BBS討論代理。(1)實(shí)時(shí)討論代理。該代理實(shí)質(zhì)上是一個(gè)有專門任務(wù)的聊天室,方便討論和交流。如果學(xué)員用戶對(duì)某個(gè)同學(xué)的回答比較滿意,就點(diǎn)“問(wèn)題已解決”按鈕。這時(shí),系統(tǒng)就要求將學(xué)員滿意的答案用鼠標(biāo)左鍵拖黑并復(fù)制后粘貼到另一個(gè)指定小窗口中。這樣,既能讓學(xué)員用戶加深印象,又便于系統(tǒng)將該問(wèn)題及答案加入FAQ庫(kù)(如發(fā)現(xiàn)庫(kù)已有相同或權(quán)值大于規(guī)定閾值的答案,就放棄加入)。(2)BBS討論代理。該代理展示給用戶的是一個(gè)留言板,當(dāng)用戶輸入完問(wèn)題文本并點(diǎn)擊“確定”按鈕后,學(xué)員用戶的問(wèn)題就貼在留言板上。瀏覽留言后,如對(duì)某個(gè)回答比較滿意,就將該回答內(nèi)容復(fù)制粘貼到另一指定小窗口中,系統(tǒng)會(huì)自動(dòng)將該內(nèi)容加入到FAQ庫(kù)中。
系統(tǒng)實(shí)施的關(guān)鍵技術(shù)
1.Web瀏覽服務(wù)與e-mail服務(wù)的統(tǒng)一化
要實(shí)現(xiàn)Web瀏覽,只需將智能網(wǎng)絡(luò)答疑系統(tǒng)建立在Web服務(wù)器上,并將相關(guān)文件材料組織成HTML或XML(適用于IE 5.0以上瀏覽器)形式,同時(shí)利用FrontPage的自動(dòng)轉(zhuǎn)換技術(shù)將FAQ庫(kù)中的答案材料轉(zhuǎn)換成HTML形式。對(duì)于e-mail服務(wù)的支持,則需要在Web服務(wù)器端增加電子郵件處理代理,且郵件處理代理至少應(yīng)具備三種基本功能。(1)可以接收遠(yuǎn)程郵件服務(wù)器上某個(gè)郵件賬戶的郵件。它包括兩個(gè)方面:一是在服務(wù)器端定時(shí)執(zhí)行,接收學(xué)員用戶給系統(tǒng)專用郵件賬戶發(fā)送的提問(wèn)郵件;二是用戶可使用瀏覽器通過(guò)郵件代理來(lái)接收自己的郵件。(2)可以分析并提取郵件的組成部分,如收件人地址、發(fā)件人地址、主題、郵件正文和附件等。(3)可以發(fā)送電子郵件,可以指定收件人的郵件地址、抄送地址、主題、郵件正文、附件等。一般說(shuō)來(lái),上述功能可利用服務(wù)器擴(kuò)充API(Internet Information Server的ISAPI、Netscape公司的Web服務(wù)器NSAPI等)及服務(wù)器端腳本語(yǔ)言(如ASP、JSP、VB Script、JavaScript和PHP3等)來(lái)實(shí)現(xiàn)。
2.FAQ庫(kù)、知識(shí)點(diǎn)庫(kù)和課件庫(kù)的自動(dòng)分詞
考慮到FAQ庫(kù)與知識(shí)點(diǎn)庫(kù)是文本內(nèi)容,而課件庫(kù)多是HTML文檔,故分詞前往往需要先對(duì)課件庫(kù)進(jìn)行預(yù)處理,其基本過(guò)程為:將HTML文檔中“BODY”的文本、“TITLE”的“標(biāo)題文本”、“META”的“keywords”屬性值中的“關(guān)鍵詞”全部提取出來(lái),并對(duì)“TITLE”和“keywords”中的文本作上特殊標(biāo)記。根據(jù)網(wǎng)絡(luò)教學(xué)系統(tǒng)的領(lǐng)域知識(shí)專業(yè)性較強(qiáng)的特點(diǎn),本文采納字符串匹配與頻率統(tǒng)計(jì)相結(jié)合的方法來(lái)實(shí)現(xiàn)自動(dòng)分詞。總體說(shuō)來(lái),對(duì)FAQ庫(kù)、知識(shí)點(diǎn)庫(kù)和課件庫(kù)的自動(dòng)分詞包括分詞和加權(quán)兩個(gè)基本步驟。
◆ 分詞。為了識(shí)別一些本專業(yè)特有的新詞,并將新詞組成新詞詞庫(kù),進(jìn)行分詞操作之前,通常需要先根據(jù)標(biāo)點(diǎn)符號(hào)、數(shù)字、英文字母等非漢語(yǔ)符號(hào)把全文切分成短串序列,然后再對(duì)全文字符短串各字串的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)。其統(tǒng)計(jì)思路為:(1)計(jì)算所有漢字短串的字串。(2)利用經(jīng)驗(yàn)函數(shù)B=F×L計(jì)算出每個(gè)串的權(quán)值。其中,F(xiàn)為字串在全文中出現(xiàn)的次數(shù),L為該字串所包含的漢字個(gè)數(shù),B為該字串的權(quán)值。(3)把權(quán)值超過(guò)規(guī)定閾值的字串作為新詞放入到新詞詞庫(kù)中。
對(duì)FAQ庫(kù)、知識(shí)點(diǎn)庫(kù)和課件庫(kù)的分詞過(guò)程可描述為:首先把知識(shí)點(diǎn)庫(kù)中已指明的關(guān)鍵詞和課件庫(kù)抽取文本中的keywords屬性值中的詞語(yǔ)序列組建成關(guān)鍵詞庫(kù),然后把全文基于關(guān)鍵詞庫(kù)、新詞詞庫(kù)、常用詞詞典(優(yōu)先級(jí)依次減小)進(jìn)行正向最大匹配和逆向最小匹配分詞,最后選擇切分段數(shù)少的方案作為分詞結(jié)果。如果切分段數(shù)相同,以最小逆向匹配分詞方案作為分詞結(jié)果。
◆ 加權(quán)。對(duì)于知識(shí)點(diǎn)庫(kù)和課件庫(kù)中的分詞結(jié)果,關(guān)鍵詞的作用是不相同的。這里用關(guān)鍵詞相對(duì)于全文的滲透度來(lái)標(biāo)示,并采用統(tǒng)計(jì)的方法計(jì)算某關(guān)鍵詞相對(duì)于全文的滲透度。由Hash表得出每個(gè)詞的同現(xiàn)頻率(設(shè)為Fi),將知識(shí)點(diǎn)庫(kù)中的知識(shí)點(diǎn)關(guān)鍵詞的同現(xiàn)頻率額外加上一個(gè)整數(shù)K1,將課件庫(kù)的keywords屬性值中出現(xiàn)詞的同現(xiàn)頻率額外加上一個(gè)整數(shù)K2,將課件庫(kù)的TITLE標(biāo)記中出現(xiàn)詞的同現(xiàn)頻率額外加上一個(gè)整數(shù)T;接下來(lái)將每個(gè)詞的修正同現(xiàn)頻率全部計(jì)算出來(lái)(設(shè)為Fi′),并將所有修正同現(xiàn)頻率相加得到總和S,則關(guān)鍵詞的滲透度Ri=Fi′/S;最后,把滲透度大于某個(gè)規(guī)定值的關(guān)鍵詞存入到加權(quán)關(guān)鍵詞庫(kù),這對(duì)問(wèn)題文本的分詞和問(wèn)題答案的形成非常重要。

3.全文搜索技術(shù)
全文搜索是智能網(wǎng)絡(luò)答疑系統(tǒng)的關(guān)鍵技術(shù)之一。要順利實(shí)現(xiàn)全文搜索之目標(biāo),必須將原始文檔所有基本元素的位置信息記錄在索引庫(kù)中。索引庫(kù)一般有基于字表和基于詞表兩種形式。由于答疑內(nèi)容基本上是針對(duì)某學(xué)科(或某專有領(lǐng)域),因此本文采取詞表法來(lái)組織全文索引。全文索引庫(kù)的主要部分是每個(gè)關(guān)鍵詞的詞表,索引庫(kù)中的詞表結(jié)構(gòu)如下。
其中,詞語(yǔ)i就是被索引的、能夠代表目標(biāo)文檔j的文本特征關(guān)鍵詞。由于文本特征關(guān)鍵詞可能不只在某一個(gè)文檔中是關(guān)鍵詞,故后面的文檔選項(xiàng)則記錄了對(duì)應(yīng)目標(biāo)的文檔j的ID號(hào)。通過(guò)ID號(hào),可以在相應(yīng)文檔庫(kù)中查找文檔j的屬性信息。權(quán)值則是詞語(yǔ)i在文檔j中的權(quán)值(其計(jì)算方法在前面已敘述),位置序列則是詞語(yǔ)i在文檔j中出現(xiàn)的位置的數(shù)組(串號(hào),字號(hào))。
利用詞表法組織全文索引,檢索策略十分簡(jiǎn)單。對(duì)輸入的問(wèn)題文本,以索引庫(kù)中的詞條集合作為首選詞典,并配合新詞詞庫(kù)、常用詞詞典使用正向最大匹配和逆向最小匹配算法來(lái)進(jìn)行分詞,保留分段數(shù)小的方案或保留逆向最小匹配分詞方案(當(dāng)分段數(shù)相同時(shí)),同時(shí)對(duì)每個(gè)目標(biāo)文檔進(jìn)行關(guān)鍵詞權(quán)值和計(jì)算。權(quán)值和超過(guò)系統(tǒng)指定閾值的文檔(FAQ庫(kù)的答案材料、知識(shí)點(diǎn)庫(kù)中的知識(shí)點(diǎn)名稱等)將被返回。文檔返回的順序按照權(quán)值和的大小降序排列。
結(jié)束語(yǔ)
本文給出了一個(gè)自適應(yīng)性、實(shí)時(shí)性較強(qiáng)、表現(xiàn)形式豐富、操作簡(jiǎn)單的智能網(wǎng)絡(luò)答疑系統(tǒng)設(shè)計(jì)方案,隨著人工智能技術(shù)(尤其是自然語(yǔ)言理解技術(shù))和遠(yuǎn)程教育技術(shù)的迅猛發(fā)展,這種智能網(wǎng)絡(luò)答疑系統(tǒng)將會(huì)逐漸走向成熟和完善,并必將成為未來(lái)各種網(wǎng)絡(luò)教學(xué)平臺(tái)不可缺少的、具有相對(duì)獨(dú)立性的組件。