999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文分詞的智能答疑系統的設計

2014-07-19 20:20:13付春捷胡萍
科技視界 2014年14期

付春捷 胡萍

【摘 要】本文分析了影響智能答疑系統的關鍵因素,對常見的中文分詞技術進行了比較分析。為了提高分詞效率設計了用于分詞的機器詞典,選擇了逆向最大匹配算法進行分詞,并提出了智能答疑系統中文分詞模塊的構建模型。

【關鍵詞】智能答疑;中文分詞;機器詞典;逆向最大匹配

0 引言

隨著網絡技術的發展,基于網絡的教學活動越來越普及。在線答疑作為網絡遠程教育或網絡輔助教育的一項必不可少的環節,其智能性、實時性要求越來越高。

國內現階段使用的答疑系統,一般都是通過電子郵件、留言板、BBS[1]等非實時性手段來回答用戶提出的問題,少量的所謂“智能答疑系統”一般智能性不強、準確性不高,主要體現在不能很好地支持自然語言提問,一般采取通過關鍵詞的邏輯組合在數據庫中進行查詢的方式。

1 智能答疑系統涉及的關鍵技術

1.1 智能答疑系統分析

雖然國內在智能答疑系統領域的研究取得了一定的成果,但相比較國外而言還存在一定差距,根本原因在于中文信息處理技術的研究還沒有趨于成熟。

由于漢語言是一種規則最少、最靈活、最簡潔和含蓄的語言,相比其他語言有更大的隨意性和自由性,中文信息處理的難點就是詞匯的切分以及語義分析。由于在智能答疑系統中用戶所提出問題長度比較短、問題比較專業以及問題中包含固定的疑問短語,所以在設計智能答疑系統時,沒有必要將過多的精力放在語義分析的處理上。中文分詞技術就成為了智能答疑系統中最基礎也是最關鍵的技術,它將直接影響系統的響應速度和效率。

1.2 常用的分詞算法

中文分詞是指將中文文本語句切分成一個一個單獨的詞,是中文自然語言處理中最基本和主要的步驟,分詞的質量直接影響自然語言處理的結果。從目前的研究成果看,中文分詞算法大體可分為兩大類:一是,基于詞典與規則的字符匹配算法;二是,基于統計的無詞典分詞算法。目前來說前者是一種發展比較成熟且應用比較廣泛的算法。[2]

圖1 查詢詞典流程圖

基于詞典與規則的字符匹配算法是以機器詞典作為分詞的基礎,分詞過程中將預處理的自然語言字符串,按照一定的匹配規則和算法與機器詞典的詞條進行匹配。常用的分詞算法有正向最大匹配法(Maximum Matching Method,簡稱MM法),逆向最大匹配法(Reverse Maximum Matching Method,簡稱RMM法)。

2 智能答疑系統的分詞模塊的構建

2.1 詞典的設計

機器詞典是分詞算法實施的基礎。由于基于詞典的分詞算法在分詞過程中需要多次進行詞典的查詢匹配,因此建立優化的詞典結構機制是提高分詞效率的前提。由于智能答疑系統中用戶提交的問句比較專業化,例如“計算機網絡的本質是什么?”、“怎么配置局域網”等等。對于智能答疑系統來說,是否每個詞都被準確的切分出來并不是最重要的,重要的是切分出對檢索結果又意義的相關詞語。

因此,本設計的詞典包括普通分詞詞典和專業分詞詞典兩部分。其查詢過程是首先在專業詞典中查詢是否存在某子串,若存在則確認該子串成詞并切分,若不存在則查詢普通詞典,具體流程如圖1所示。

2.2 分詞算法的選擇

統計結果表明,逆向匹配法比正向匹配法分詞的準確率要高,單純使用MM法的錯誤率為1/129,而單純使用RMM法的錯誤率為1/245。[2]

智能答疑系統是針對某一領域或某一具體課程設計的,所以其詞匯一般是有限的。通過對詞典的分析,確定最大詞長后采用逆向最大匹配算法對問句進行切分,算法思想為:

假設代處理的字串為Str,每次截取詞長最大為Max,結果輸出字符串為Str_res(空串)。

(1)從Str的右端截取Max個字設為s。

(2)在詞典中查找是否成詞,若是則轉向步驟(3),若不成詞則去掉s左端的一個字,重復步驟(2),直到s成詞或s長度為1。

(3)從Str中刪除s子串,s存入Str_res中。若Str為空,分詞結束,否則轉向步驟(1)。

2.3 分詞模塊的構建模型

首先將用戶輸入的問句按標點符號打散成一個一個的字串(分詞預處理),目的是讓處理的字串更短、效率更高。然后對每一個字串逐一進行分詞,提取關鍵字。具體構建模型如圖2所示。

圖2 分詞模塊構建模型

3 結束語

基于自然語言的智能答疑系統是今后網絡答疑的發展趨勢,中文分詞技術在智能答疑系統中的作用非常關鍵。在本文中,我們提出了一種基于中文分詞技術的實施方案,機器詞典的設計以及分詞算法的選擇是保證分詞效果的基礎。而完成一個智能答疑系統是要多種技術相配合的,如句子相似度算法以及領域本體構建等問題也將影響智能答疑系統的智能性、高效性。

【參考文獻】

[1]田偉,等.基于切詞的受限領域智能答疑系統設計與實現[J].武漢理工大學學報,2010,32(16):148-151.

[2]潮俊華.基于自然語言提問的自動答疑系統設計[J].現代遠程教育研究,2005(1):48-51.

[3]向志華,梁玉英.自然語言處理技術在網絡答疑系統中的應用[J].牡丹江師范學院學報:自然科學版,2012(2):7-9.

[4]黎孟雄.模糊貼近度在智能答疑系統中的應用[J].河南科技大學學報:自然科學版,2008(29):60-62.

[責任編輯:薛俊歌]

【摘 要】本文分析了影響智能答疑系統的關鍵因素,對常見的中文分詞技術進行了比較分析。為了提高分詞效率設計了用于分詞的機器詞典,選擇了逆向最大匹配算法進行分詞,并提出了智能答疑系統中文分詞模塊的構建模型。

【關鍵詞】智能答疑;中文分詞;機器詞典;逆向最大匹配

0 引言

隨著網絡技術的發展,基于網絡的教學活動越來越普及。在線答疑作為網絡遠程教育或網絡輔助教育的一項必不可少的環節,其智能性、實時性要求越來越高。

國內現階段使用的答疑系統,一般都是通過電子郵件、留言板、BBS[1]等非實時性手段來回答用戶提出的問題,少量的所謂“智能答疑系統”一般智能性不強、準確性不高,主要體現在不能很好地支持自然語言提問,一般采取通過關鍵詞的邏輯組合在數據庫中進行查詢的方式。

1 智能答疑系統涉及的關鍵技術

1.1 智能答疑系統分析

雖然國內在智能答疑系統領域的研究取得了一定的成果,但相比較國外而言還存在一定差距,根本原因在于中文信息處理技術的研究還沒有趨于成熟。

由于漢語言是一種規則最少、最靈活、最簡潔和含蓄的語言,相比其他語言有更大的隨意性和自由性,中文信息處理的難點就是詞匯的切分以及語義分析。由于在智能答疑系統中用戶所提出問題長度比較短、問題比較專業以及問題中包含固定的疑問短語,所以在設計智能答疑系統時,沒有必要將過多的精力放在語義分析的處理上。中文分詞技術就成為了智能答疑系統中最基礎也是最關鍵的技術,它將直接影響系統的響應速度和效率。

1.2 常用的分詞算法

中文分詞是指將中文文本語句切分成一個一個單獨的詞,是中文自然語言處理中最基本和主要的步驟,分詞的質量直接影響自然語言處理的結果。從目前的研究成果看,中文分詞算法大體可分為兩大類:一是,基于詞典與規則的字符匹配算法;二是,基于統計的無詞典分詞算法。目前來說前者是一種發展比較成熟且應用比較廣泛的算法。[2]

圖1 查詢詞典流程圖

基于詞典與規則的字符匹配算法是以機器詞典作為分詞的基礎,分詞過程中將預處理的自然語言字符串,按照一定的匹配規則和算法與機器詞典的詞條進行匹配。常用的分詞算法有正向最大匹配法(Maximum Matching Method,簡稱MM法),逆向最大匹配法(Reverse Maximum Matching Method,簡稱RMM法)。

2 智能答疑系統的分詞模塊的構建

2.1 詞典的設計

機器詞典是分詞算法實施的基礎。由于基于詞典的分詞算法在分詞過程中需要多次進行詞典的查詢匹配,因此建立優化的詞典結構機制是提高分詞效率的前提。由于智能答疑系統中用戶提交的問句比較專業化,例如“計算機網絡的本質是什么?”、“怎么配置局域網”等等。對于智能答疑系統來說,是否每個詞都被準確的切分出來并不是最重要的,重要的是切分出對檢索結果又意義的相關詞語。

因此,本設計的詞典包括普通分詞詞典和專業分詞詞典兩部分。其查詢過程是首先在專業詞典中查詢是否存在某子串,若存在則確認該子串成詞并切分,若不存在則查詢普通詞典,具體流程如圖1所示。

2.2 分詞算法的選擇

統計結果表明,逆向匹配法比正向匹配法分詞的準確率要高,單純使用MM法的錯誤率為1/129,而單純使用RMM法的錯誤率為1/245。[2]

智能答疑系統是針對某一領域或某一具體課程設計的,所以其詞匯一般是有限的。通過對詞典的分析,確定最大詞長后采用逆向最大匹配算法對問句進行切分,算法思想為:

假設代處理的字串為Str,每次截取詞長最大為Max,結果輸出字符串為Str_res(空串)。

(1)從Str的右端截取Max個字設為s。

(2)在詞典中查找是否成詞,若是則轉向步驟(3),若不成詞則去掉s左端的一個字,重復步驟(2),直到s成詞或s長度為1。

(3)從Str中刪除s子串,s存入Str_res中。若Str為空,分詞結束,否則轉向步驟(1)。

2.3 分詞模塊的構建模型

首先將用戶輸入的問句按標點符號打散成一個一個的字串(分詞預處理),目的是讓處理的字串更短、效率更高。然后對每一個字串逐一進行分詞,提取關鍵字。具體構建模型如圖2所示。

圖2 分詞模塊構建模型

3 結束語

基于自然語言的智能答疑系統是今后網絡答疑的發展趨勢,中文分詞技術在智能答疑系統中的作用非常關鍵。在本文中,我們提出了一種基于中文分詞技術的實施方案,機器詞典的設計以及分詞算法的選擇是保證分詞效果的基礎。而完成一個智能答疑系統是要多種技術相配合的,如句子相似度算法以及領域本體構建等問題也將影響智能答疑系統的智能性、高效性。

【參考文獻】

[1]田偉,等.基于切詞的受限領域智能答疑系統設計與實現[J].武漢理工大學學報,2010,32(16):148-151.

[2]潮俊華.基于自然語言提問的自動答疑系統設計[J].現代遠程教育研究,2005(1):48-51.

[3]向志華,梁玉英.自然語言處理技術在網絡答疑系統中的應用[J].牡丹江師范學院學報:自然科學版,2012(2):7-9.

[4]黎孟雄.模糊貼近度在智能答疑系統中的應用[J].河南科技大學學報:自然科學版,2008(29):60-62.

[責任編輯:薛俊歌]

【摘 要】本文分析了影響智能答疑系統的關鍵因素,對常見的中文分詞技術進行了比較分析。為了提高分詞效率設計了用于分詞的機器詞典,選擇了逆向最大匹配算法進行分詞,并提出了智能答疑系統中文分詞模塊的構建模型。

【關鍵詞】智能答疑;中文分詞;機器詞典;逆向最大匹配

0 引言

隨著網絡技術的發展,基于網絡的教學活動越來越普及。在線答疑作為網絡遠程教育或網絡輔助教育的一項必不可少的環節,其智能性、實時性要求越來越高。

國內現階段使用的答疑系統,一般都是通過電子郵件、留言板、BBS[1]等非實時性手段來回答用戶提出的問題,少量的所謂“智能答疑系統”一般智能性不強、準確性不高,主要體現在不能很好地支持自然語言提問,一般采取通過關鍵詞的邏輯組合在數據庫中進行查詢的方式。

1 智能答疑系統涉及的關鍵技術

1.1 智能答疑系統分析

雖然國內在智能答疑系統領域的研究取得了一定的成果,但相比較國外而言還存在一定差距,根本原因在于中文信息處理技術的研究還沒有趨于成熟。

由于漢語言是一種規則最少、最靈活、最簡潔和含蓄的語言,相比其他語言有更大的隨意性和自由性,中文信息處理的難點就是詞匯的切分以及語義分析。由于在智能答疑系統中用戶所提出問題長度比較短、問題比較專業以及問題中包含固定的疑問短語,所以在設計智能答疑系統時,沒有必要將過多的精力放在語義分析的處理上。中文分詞技術就成為了智能答疑系統中最基礎也是最關鍵的技術,它將直接影響系統的響應速度和效率。

1.2 常用的分詞算法

中文分詞是指將中文文本語句切分成一個一個單獨的詞,是中文自然語言處理中最基本和主要的步驟,分詞的質量直接影響自然語言處理的結果。從目前的研究成果看,中文分詞算法大體可分為兩大類:一是,基于詞典與規則的字符匹配算法;二是,基于統計的無詞典分詞算法。目前來說前者是一種發展比較成熟且應用比較廣泛的算法。[2]

圖1 查詢詞典流程圖

基于詞典與規則的字符匹配算法是以機器詞典作為分詞的基礎,分詞過程中將預處理的自然語言字符串,按照一定的匹配規則和算法與機器詞典的詞條進行匹配。常用的分詞算法有正向最大匹配法(Maximum Matching Method,簡稱MM法),逆向最大匹配法(Reverse Maximum Matching Method,簡稱RMM法)。

2 智能答疑系統的分詞模塊的構建

2.1 詞典的設計

機器詞典是分詞算法實施的基礎。由于基于詞典的分詞算法在分詞過程中需要多次進行詞典的查詢匹配,因此建立優化的詞典結構機制是提高分詞效率的前提。由于智能答疑系統中用戶提交的問句比較專業化,例如“計算機網絡的本質是什么?”、“怎么配置局域網”等等。對于智能答疑系統來說,是否每個詞都被準確的切分出來并不是最重要的,重要的是切分出對檢索結果又意義的相關詞語。

因此,本設計的詞典包括普通分詞詞典和專業分詞詞典兩部分。其查詢過程是首先在專業詞典中查詢是否存在某子串,若存在則確認該子串成詞并切分,若不存在則查詢普通詞典,具體流程如圖1所示。

2.2 分詞算法的選擇

統計結果表明,逆向匹配法比正向匹配法分詞的準確率要高,單純使用MM法的錯誤率為1/129,而單純使用RMM法的錯誤率為1/245。[2]

智能答疑系統是針對某一領域或某一具體課程設計的,所以其詞匯一般是有限的。通過對詞典的分析,確定最大詞長后采用逆向最大匹配算法對問句進行切分,算法思想為:

假設代處理的字串為Str,每次截取詞長最大為Max,結果輸出字符串為Str_res(空串)。

(1)從Str的右端截取Max個字設為s。

(2)在詞典中查找是否成詞,若是則轉向步驟(3),若不成詞則去掉s左端的一個字,重復步驟(2),直到s成詞或s長度為1。

(3)從Str中刪除s子串,s存入Str_res中。若Str為空,分詞結束,否則轉向步驟(1)。

2.3 分詞模塊的構建模型

首先將用戶輸入的問句按標點符號打散成一個一個的字串(分詞預處理),目的是讓處理的字串更短、效率更高。然后對每一個字串逐一進行分詞,提取關鍵字。具體構建模型如圖2所示。

圖2 分詞模塊構建模型

3 結束語

基于自然語言的智能答疑系統是今后網絡答疑的發展趨勢,中文分詞技術在智能答疑系統中的作用非常關鍵。在本文中,我們提出了一種基于中文分詞技術的實施方案,機器詞典的設計以及分詞算法的選擇是保證分詞效果的基礎。而完成一個智能答疑系統是要多種技術相配合的,如句子相似度算法以及領域本體構建等問題也將影響智能答疑系統的智能性、高效性。

【參考文獻】

[1]田偉,等.基于切詞的受限領域智能答疑系統設計與實現[J].武漢理工大學學報,2010,32(16):148-151.

[2]潮俊華.基于自然語言提問的自動答疑系統設計[J].現代遠程教育研究,2005(1):48-51.

[3]向志華,梁玉英.自然語言處理技術在網絡答疑系統中的應用[J].牡丹江師范學院學報:自然科學版,2012(2):7-9.

[4]黎孟雄.模糊貼近度在智能答疑系統中的應用[J].河南科技大學學報:自然科學版,2008(29):60-62.

[責任編輯:薛俊歌]

主站蜘蛛池模板: 国产激情无码一区二区免费| 久久国产毛片| 欧美无专区| 五月天丁香婷婷综合久久| 成人福利在线免费观看| 操操操综合网| 夜色爽爽影院18禁妓女影院| 国产在线自揄拍揄视频网站| 九月婷婷亚洲综合在线| 久青草免费在线视频| 中文字幕免费在线视频| 在线毛片网站| 久久99国产乱子伦精品免| 久久久久亚洲精品成人网| 国产精彩视频在线观看| 伊人久久久久久久| 国产欧美亚洲精品第3页在线| 女人av社区男人的天堂| 国产美女主播一级成人毛片| 激情无码字幕综合| 国产第八页| 青青青视频蜜桃一区二区| 国产95在线 | 日本不卡视频在线| 国产毛片不卡| 少妇精品久久久一区二区三区| 国产美女久久久久不卡| 激情综合五月网| 91丨九色丨首页在线播放 | 一区二区偷拍美女撒尿视频| 狠狠色丁香婷婷| 国产欧美一区二区三区视频在线观看| 国产无码制服丝袜| 日本午夜三级| 91日本在线观看亚洲精品| 99精品热视频这里只有精品7| 99这里只有精品免费视频| 久久99热66这里只有精品一| 国模沟沟一区二区三区| 97免费在线观看视频| 精品一区二区三区视频免费观看| jizz亚洲高清在线观看| 国产区精品高清在线观看| 最新无码专区超级碰碰碰| 乱系列中文字幕在线视频 | 午夜免费视频网站| 成年免费在线观看| 色妞www精品视频一级下载| 国产真实乱人视频| 又污又黄又无遮挡网站| 亚洲天堂久久| 欧美自慰一级看片免费| 日韩二区三区| 99热亚洲精品6码| 国产精品福利尤物youwu| 欧美国产在线精品17p| 欧美日韩国产在线人成app| 亚洲天堂2014| 国产剧情无码视频在线观看| 国产小视频a在线观看| 福利视频一区| 曰AV在线无码| 午夜丁香婷婷| 欧美在线三级| 亚洲视频色图| 欧美中文字幕在线视频| 91av国产在线| 91视频精品| 女人18毛片久久| 国产成人精品一区二区秒拍1o| 成人午夜精品一级毛片| 亚洲国产欧美国产综合久久| 色天天综合久久久久综合片| 亚洲欧美精品一中文字幕| 99在线视频精品| 国产亚洲欧美在线视频| 好紧好深好大乳无码中文字幕| 99人体免费视频| 久久精品人人做人人爽电影蜜月| 亚欧乱色视频网站大全| 午夜视频在线观看免费网站| 欧美成人精品在线|