摘 要 隨著科技的進步,自動答疑系統開始廣泛的應用在了網絡教育平臺中,作為網絡教育平臺的重要組成發揮著非常重要的作用,它不但可以幫助加強師生之間的交流,還能夠讓學生認識到問題的本質,通過本質看問題迅速得到正確的答案信息。本文主要介紹了中文自動答疑系統中的FAQ庫、領域文本知識庫組織方式;并且闡述了問題的理解、檢索、求解等模塊的設計方案,通過這些方案力求滿足網絡教育平臺的需求,本系統在實際的應用中也起到了非常重要的作用。
【關鍵詞】中文自動答疑 FAQ庫 信息檢索
隨著經濟的發展,科技的進步,一些高科技的軟件開始進入人們的生活。其中自動答疑系統就是典型的軟件產品,它主要是一種利用語言的處理技術來自動分析用戶所提出的問題的一種軟件,這種軟件可以自動給予問題的答案。其工作流程主要包括識別用戶提交的每一句問題,然后對這些問題進行分詞,在這個分詞過程中運用到了中文分詞模塊,它在整個系統中起到非常重要的作用。自動答疑系統中的軟件開發環境是Visual-Prolog。它是利用Prolog語言來進行編寫的一種軟件,其主要優點包括具有模式匹配、內置數據庫、合一等等,這些優點可以看出它非常適合中文分詞模塊的編寫。本文主要闡述了自動答疑系統中的中文分詞模塊的設計,希望在對自動答疑系統的下一階段研究中,根據科學提出的需求進一步完善系統功能。
1 自動答疑系統的問句特點
1.1 面向具體課程
在詞典中有很多詞匯沒有收錄,我們把這種詞匯叫做未登錄詞,這種詞匯通常分為兩類,其一是新出現的一些詞匯或者是不常見的一些專業詞匯;其二是一些不知名的人名、地名等。由于整個答疑系統是面向具體的課程,因此在答疑過程中遇到第二類詞匯的幾率很小,即使遇到第一類詞匯也可以窮盡。
1.2 專業詞匯和疑問詞
自動答疑系統相對于傳統的系統來講功能比較完善,特別是在答疑系統中的問句部分,在我們正常語言中問句包括專業詞匯和疑問詞匯。無論是專業詞匯還是疑問詞匯都要在系統能識別出來,這樣才能體現自動答疑系統的智能性。
1.3 專業詞匯不易產生歧義,遵循長詞優先原則
在自動答疑系統中的問句中的專業詞匯基本上都是一種意思,不會出現一詞多意的情況。除此之外專業詞匯還會遵循長詞優先的原則。
2 中文自動分詞算法
在進行中文自動分詞算法的選擇中根據自動答疑系統的問句特點選用基于詞典的字符串最大匹配法,在這其中遵循專業詞匯和疑問優先的原則,不考慮未登記詞匯,根據這些要求來選擇自動分詞算法。基于詞典字符串最大匹配法是一種最基礎的分詞方法,在匹配的過程中又包括正向最大匹配和逆向最大匹配。自動答疑系統所采用的算法是雙向最大匹配法,這種方法是經過改進和完善的算法,利用這種算法如果出現分歧義時就會采用最小切分原則把最小的詞數切分出來。如果在切分的過程中出現切分詞數相同的歧義切分就利用詞頻來消除歧義,如果詞頻也無法消除歧義就選用逆向最大匹配法來切分。
3 中文自動分詞模塊的實現
分詞詞典的實現:
(1)詞的表示:
定義論域w和wl分別表示詞和詞序列。
domains
w=w(string V,iWeger F,s}ring-list(c).
wl=w*
(2)構建分詞詞典:
在自動答疑系統中分詞詞典的構件是在Visual-Prolog的環境下利用其內置的數據庫完成的,這種數據庫技術被稱為鏈式的數據庫技術,它主要包括兩個部分,也就是對應的B+樹和鏈形式。在分詞詞典的創建過程中,首先要把詞作為一項數據放到數據庫中,然后再將此數據和數據庫中的參照數進行對比,插入B+樹。在插入數據庫中要把這種數據寫成w(V,F,C)形式。
構建詞典的代碼如下:
DB =chainDB::db_ create ("DB" , chainDB::in_file())
DB:bt_create("Index",Index ,10,1,1)
DB:chain_insertz("WORDS",w(V,F,C) , Ref)
DB:key_insert(Index ,V ,Ref)
DB:beclose(Index)
DB:db_close()
(3)檢索分詞詞典代碼如下:
DB_ Temp=chainDB::db_open("DB",chainDB::in_file())
DB_ Temp:db_copy("hemp",chainDB::in_memory())
DB=chainDB::db_open("hemp" ,chainDB::in_memory())
DB_ Temp:db_close()
DB:bt_open("Index",Index)
DB:key_ search(Index,F,Ref)
DB:ref term(Ref,T)
T=w(V,F,C)
4 結束語
在自動答疑系統的中文自動分詞系統中發揮重要作用的就是中文分詞模塊。本文介紹了自動答疑系統的問句特點,并且給出了相關的基礎算法,并通過Visual-Prolog開發環境介紹了中文自動分詞模塊的實現方式。 在整個系統的設計中雖然我們對整個自動答疑系統的關鍵技術進行了研究和設計,但是對于我國當前的自動答疑系統來講這只是一個開始。日后還要進行大量的研究,可以把復句、問句等等同時寫入數據庫中,這樣就可以不斷的完善自動答疑系統的功能,為建立一個更加智能的自動答疑系統做出更多的貢獻。
參考文獻
[1]張昭楠,馬亞蕾.基于DRIS系統中的中文自動分詞模塊設計與實現[J].電子設計工程,2016,24(14):158-160.
[2]江耿豪.自動答疑系統中文自動分詞模塊設計與實現[J].現代計算機(專業版),2010(02):8-10+14.
[3]孫建國.領域漢語理解中的智能分詞系統的研究與實現及其在產品設計中的應用[D].西安電子科技大學,2009.
[4]張彬.面向中文網絡信息檢索的自動分詞系統設計與算法實現[D].華東師范大學,2007.
[5]陳海波.基于自動分詞的企業文檔搜索引擎設計與實現[D].西北工業大學,2007.
[6]向暉.DRIS系統中的中文自動分詞模塊設計與實現[D].華中科技大學,2007.
作者簡介
闕玲麗(1979-),女,廣西壯族自治區南寧市人。碩士研究生。現為廣西工商職業技術學院講師。主要研究方向為計算機科學與技術領域。
作者單位
廣西工商職業技術學院 廣西壯族自治區南寧市 530008