基于中文分詞的智能答疑系統的設計

2014-07-19 20:20:13付春捷胡萍

科技視界 2014年14期

付春捷　胡萍

【摘要】本文分析了影響智能答疑系統的關鍵因素，對常見的中文分詞技術進行了比較分析。為了提高分詞效率設計了用于分詞的機器詞典，選擇了逆向最大匹配算法進行分詞，并提出了智能答疑系統中文分詞模塊的構建模型。

【關鍵詞】智能答疑；中文分詞；機器詞典；逆向最大匹配

0 引言

隨著網絡技術的發展，基于網絡的教學活動越來越普及。在線答疑作為網絡遠程教育或網絡輔助教育的一項必不可少的環節，其智能性、實時性要求越來越高。

國內現階段使用的答疑系統，一般都是通過電子郵件、留言板、BBS[1]等非實時性手段來回答用戶提出的問題，少量的所謂“智能答疑系統”一般智能性不強、準確性不高，主要體現在不能很好地支持自然語言提問，一般采取通過關鍵詞的邏輯組合在數據庫中進行查詢的方式。

1 智能答疑系統涉及的關鍵技術

1.1 智能答疑系統分析

雖然國內在智能答疑系統領域的研究取得了一定的成果，但相比較國外而言還存在一定差距，根本原因在于中文信息處理技術的研究還沒有趨于成熟。

由于漢語言是一種規則最少、最靈活、最簡潔和含蓄的語言，相比其他語言有更大的隨意性和自由性，中文信息處理的難點就是詞匯的切分以及語義分析。由于在智能答疑系統中用戶所提出問題長度比較短、問題比較專業以及問題中包含固定的疑問短語，所以在設計智能答疑系統時，沒有必要將過多的精力放在語義分析的處理上。中文分詞技術就成為了智能答疑系統中最基礎也是最關鍵的技術，它將直接影響系統的響應速度和效率。

1.2 常用的分詞算法

中文分詞是指將中文文本語句切分成一個一個單獨的詞，是中文自然語言處理中最基本和主要的步驟，分詞的質量直接影響自然語言處理的結果。從目前的研究成果看，中文分詞算法大體可分為兩大類：一是，基于詞典與規則的字符匹配算法；二是，基于統計的無詞典分詞算法。目前來說前者是一種發展比較成熟且應用比較廣泛的算法。[2]

圖1 查詢詞典流程圖

基于詞典與規則的字符匹配算法是以機器詞典作為分詞的基礎，分詞過程中將預處理的自然語言字符串，按照一定的匹配規則和算法與機器詞典的詞條進行匹配。常用的分詞算法有正向最大匹配法（Maximum Matching Method，簡稱MM法），逆向最大匹配法（Reverse Maximum Matching Method，簡稱RMM法）。

2 智能答疑系統的分詞模塊的構建

2.1 詞典的設計

機器詞典是分詞算法實施的基礎。由于基于詞典的分詞算法在分詞過程中需要多次進行詞典的查詢匹配，因此建立優化的詞典結構機制是提高分詞效率的前提。由于智能答疑系統中用戶提交的問句比較專業化，例如“計算機網絡的本質是什么？”、“怎么配置局域網”等等。對于智能答疑系統來說，是否每個詞都被準確的切分出來并不是最重要的，重要的是切分出對檢索結果又意義的相關詞語。

因此，本設計的詞典包括普通分詞詞典和專業分詞詞典兩部分。其查詢過程是首先在專業詞典中查詢是否存在某子串，若存在則確認該子串成詞并切分，若不存在則查詢普通詞典，具體流程如圖1所示。

2.2 分詞算法的選擇

統計結果表明，逆向匹配法比正向匹配法分詞的準確率要高，單純使用MM法的錯誤率為1/129，而單純使用RMM法的錯誤率為1/245。[2]

智能答疑系統是針對某一領域或某一具體課程設計的，所以其詞匯一般是有限的。通過對詞典的分析，確定最大詞長后采用逆向最大匹配算法對問句進行切分，算法思想為：

假設代處理的字串為Str，每次截取詞長最大為Max，結果輸出字符串為Str_res（空串）。

（1）從Str的右端截取Max個字設為s。

（2）在詞典中查找是否成詞，若是則轉向步驟（3），若不成詞則去掉s左端的一個字，重復步驟（2），直到s成詞或s長度為1。

（3）從Str中刪除s子串，s存入Str_res中。若Str為空，分詞結束，否則轉向步驟（1）。

2.3 分詞模塊的構建模型

首先將用戶輸入的問句按標點符號打散成一個一個的字串（分詞預處理），目的是讓處理的字串更短、效率更高。然后對每一個字串逐一進行分詞，提取關鍵字。具體構建模型如圖2所示。

圖2 分詞模塊構建模型

3 結束語

基于自然語言的智能答疑系統是今后網絡答疑的發展趨勢，中文分詞技術在智能答疑系統中的作用非常關鍵。在本文中，我們提出了一種基于中文分詞技術的實施方案，機器詞典的設計以及分詞算法的選擇是保證分詞效果的基礎。而完成一個智能答疑系統是要多種技術相配合的，如句子相似度算法以及領域本體構建等問題也將影響智能答疑系統的智能性、高效性。

【參考文獻】

[1]田偉，等.基于切詞的受限領域智能答疑系統設計與實現[J].武漢理工大學學報，2010，32（16）：148-151.

[2]潮俊華.基于自然語言提問的自動答疑系統設計[J].現代遠程教育研究，2005（1）：48-51.

[3]向志華，梁玉英.自然語言處理技術在網絡答疑系統中的應用[J].牡丹江師范學院學報：自然科學版，2012（2）：7-9.

[4]黎孟雄.模糊貼近度在智能答疑系統中的應用[J].河南科技大學學報：自然科學版，2008（29）：60-62.

[責任編輯：薛俊歌]

【關鍵詞】智能答疑；中文分詞；機器詞典；逆向最大匹配

0 引言

1 智能答疑系統涉及的關鍵技術

1.1 智能答疑系統分析

雖然國內在智能答疑系統領域的研究取得了一定的成果，但相比較國外而言還存在一定差距，根本原因在于中文信息處理技術的研究還沒有趨于成熟。

1.2 常用的分詞算法

圖1 查詢詞典流程圖

2 智能答疑系統的分詞模塊的構建

2.1 詞典的設計

2.2 分詞算法的選擇

統計結果表明，逆向匹配法比正向匹配法分詞的準確率要高，單純使用MM法的錯誤率為1/129，而單純使用RMM法的錯誤率為1/245。[2]

假設代處理的字串為Str，每次截取詞長最大為Max，結果輸出字符串為Str_res（空串）。

（1）從Str的右端截取Max個字設為s。

（2）在詞典中查找是否成詞，若是則轉向步驟（3），若不成詞則去掉s左端的一個字，重復步驟（2），直到s成詞或s長度為1。

（3）從Str中刪除s子串，s存入Str_res中。若Str為空，分詞結束，否則轉向步驟（1）。

2.3 分詞模塊的構建模型

圖2 分詞模塊構建模型

3 結束語

【參考文獻】

[1]田偉，等.基于切詞的受限領域智能答疑系統設計與實現[J].武漢理工大學學報，2010，32（16）：148-151.

[2]潮俊華.基于自然語言提問的自動答疑系統設計[J].現代遠程教育研究，2005（1）：48-51.

[3]向志華，梁玉英.自然語言處理技術在網絡答疑系統中的應用[J].牡丹江師范學院學報：自然科學版，2012（2）：7-9.

[4]黎孟雄.模糊貼近度在智能答疑系統中的應用[J].河南科技大學學報：自然科學版，2008（29）：60-62.

[責任編輯：薛俊歌]

【關鍵詞】智能答疑；中文分詞；機器詞典；逆向最大匹配

0 引言

1 智能答疑系統涉及的關鍵技術

1.1 智能答疑系統分析

雖然國內在智能答疑系統領域的研究取得了一定的成果，但相比較國外而言還存在一定差距，根本原因在于中文信息處理技術的研究還沒有趨于成熟。

1.2 常用的分詞算法

圖1 查詢詞典流程圖

2 智能答疑系統的分詞模塊的構建

2.1 詞典的設計

2.2 分詞算法的選擇

統計結果表明，逆向匹配法比正向匹配法分詞的準確率要高，單純使用MM法的錯誤率為1/129，而單純使用RMM法的錯誤率為1/245。[2]

假設代處理的字串為Str，每次截取詞長最大為Max，結果輸出字符串為Str_res（空串）。

（1）從Str的右端截取Max個字設為s。

（2）在詞典中查找是否成詞，若是則轉向步驟（3），若不成詞則去掉s左端的一個字，重復步驟（2），直到s成詞或s長度為1。

（3）從Str中刪除s子串，s存入Str_res中。若Str為空，分詞結束，否則轉向步驟（1）。

2.3 分詞模塊的構建模型

圖2 分詞模塊構建模型

3 結束語

【參考文獻】

[1]田偉，等.基于切詞的受限領域智能答疑系統設計與實現[J].武漢理工大學學報，2010，32（16）：148-151.

[2]潮俊華.基于自然語言提問的自動答疑系統設計[J].現代遠程教育研究，2005（1）：48-51.

[3]向志華，梁玉英.自然語言處理技術在網絡答疑系統中的應用[J].牡丹江師范學院學報：自然科學版，2012（2）：7-9.

[4]黎孟雄.模糊貼近度在智能答疑系統中的應用[J].河南科技大學學報：自然科學版，2008（29）：60-62.

[責任編輯：薛俊歌]

科技視界2014年14期

科技視界的其它文章: 2004-2011年全國孕產婦死亡趨勢性分析; 福建高速ETC系統選型及車道布設方案分析; ?？哟髽蚝奢d試驗研究與分析; 湟水谷地土地利用/覆蓋變化分析; 基于CAN協議的多電機控制; PDM 中波發射機幾例典型故障