999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語語句相似度算法在問答系統中的應用研究

2013-05-11 08:55:10
黑龍江教育學院學報 2013年4期
關鍵詞:用戶系統

(黔南民族師范學院 計科系,貴州 都勻558000)

一、中文問答系統的理論基礎

1.知網的結構

首先分別介紹一下知網在工作中的兩個概念:其中一個是由詞表示的描述詞匯語義用的“概念”;另外一個則是描述概念需要用到最基本的最小意義單位“義原”。

2.中文問答系統的分類

(1)根據涉及的領域和主題的內容可以將中文問答系統分為面向開放領域的問答系統和專業領域的問答系統,這種分類方式叫領域分類。

(2)用TREC 會議評測的標準作為參考,根據問題的類型將問答系統分為三種:定義性問題問答系統、羅列性問題問答系統、事實性問題問答系統,這是特性分類方式[1]。

3.處理中文信息的特點

中文信息處理具有不同于英文信息處理的特點:

(1)處理中文信息的基礎是對中文詞語的連續書寫和分詞,中文問答系統先將整段句子分成單個詞語,然后再對問句和答案進行分析。

(2)英文有形態的變化而中文沒有。

(3)中文句子具有非常靈活的語法,句子中的各成分有復雜的關系,句子沒有規律可循。

(4)沒有完整的語料庫支持信息處理[2]。

4.問句特征向量的提取

提取問句特征向量是指對句子進行分詞并對分出的詞進行詞性標注后,去掉句子中的虛詞(擬聲詞、介詞、連詞等)和一些對句子意思影響不大的低頻詞和高頻詞,最后得到的詞語序列。

二、中文問答系統的模型

1.中文問答系統的框架

中文問答系統是一種較高級的信息檢索技術。它的目的是讓用戶能夠用日常生活中自然的語言進行提問,然后得到一個自然的回答,模擬出與人交流的情形。簡單地說中文問答系統就是通過分析用自然語言提出的問題并理解問題內容,然后采用固定的策略在數據庫或者網頁中搜索相應的答案,將答案提取回復給用戶。

從上圖可以知道中文問答系統的組成有三部分內容:第一部分是問句預處理,這部分包括的內容有語句分詞、標注詞性、提取和擴展關鍵字以及分析問句類型。第二部分是語句的相似度計算,這部分的內容主要是詞語相似度計算、詞序相似度計算、語句相似度計算、詞形相似度計算、句長相似度計算、語義相似度計算以及結構相似度計算。第三部分是抽取答案進行回答,這部分的內容主要是進行關鍵詞篩選、相似度排序、輸出答案并反饋到用戶結果顯示。

2.問句預處理

處理中文信息的基礎是對語句的分詞,因為中文語句是由分詞連寫的,要理解問句的意思,不僅要對語句進行分詞處理,還要對分詞處理后的關鍵字標注其詞性。

3.關鍵詞抽取

任何句子都是由關鍵成分(主、謂、賓等等)和改造成分(定、狀、補等)構成的。句子的重要組成部分發揮著重要的作用,然而修飾成分在句子中起次要作用。句子相似度計算,需要考慮這句話的重要組成部分。因此,當不能確定句子的內部組件時,句子的相似度計算只考慮這些關鍵字。

4.多特征加權的語句相似度計算

(1)詞語相似度計算是以知網為語義知識庫進行義原相似度計算、詞語相似度計算、實詞概念相似度計算以及虛詞概念相似度計算。

(2)詞形相似度是比較兩個句子中相同詞語形態和數量的相似程度確定的。

(3)對句子A 和B的詞序相似度進行分析。

(4)結構相似度,有兩個方面能夠表現兩個句子在結構上的相似度,這個方法進行標注兩個漢語句子的詞性以及分詞,得到各異的序列,結合不同詞類的權重,自動對詞語的序列進行配對,檢索出最好的結果。

(5)句子在長度上的相似度由句長相似程度表現。

5.FAQ庫的更新

利用上述介紹的方法計算出用戶所輸入的目標問句和候選問題集中每個問句的相似度,如果所有這些計算出來的相似度的最大值大于或等于一定的閾值m(m=0.65),那么就認為最大的相似度所對應的問句和用戶的目標問句問的是同一個問題。可以直接將這個問句對應的答案輸出給用戶。如果最大相似度的值小于閾值m(m=0.65),就可以認為FAQ庫中沒有用戶所問的問題,那么必須利用其他的方法(如信息檢索,答案抽取等)來找出答案。如果能找到答案,就可以將用戶所問的問題和對應的答案加入FAQ庫。

三、中文問答系統的實現

1.設計數據結構

以語句相似度作為中文問答系統運行的基礎,與知識庫的相關信息是不可分割的存在,這么多的數據,建立一個數據庫來儲存管理,使用Access2003 來管理儲存后臺數據,因為這個軟件使用簡便、易于上手。

(1)分析表示問題庫,需要建立以常見問題集為基礎的問答系統,系統的基礎就是一個常見問題庫,并且要想到一個問題有不同的回答的情況[3]。

(2)知網的分析與表示。我們用知識和語言來描述表達知網的構成,用樹狀圖來解釋義原關系。用Java 來構成中文問答系統,當開始運行程序時就將所有的詞典內容保存到內存之中,可以使得系統的運行效率顯著提升。

2.問答系統的實現

在已有的問題數據庫之中找出能夠解答用戶所提的問題的句子的,以常見問題集為基礎的中文問答系統,這個問題的答案都在答案庫之中,找出答案之后再返回給用戶。成立候選問題集、檢測語句的相似程度、更新FAQ庫這三個過程是系統做出解答的步驟。

3.結果及分析實驗

所謂的信息檢索系統,就是假設存在用戶的查詢與一個文檔集有關聯,反而以常見問題集為基礎的中文問答系統,通常假設存在有正確的答案常見問題。

(1)評測標準和測試集。大學校長信箱之中的問題與答案是經過手工整理實用的測試集,由304個句子組成的常見問題庫。為了評測系統的總體性能,于是建立兩組測試集。在第一組,從常見問題庫取出124條問句;而第二組,則直接從FAQ庫中手工選擇60條具代表性的問句。在評測時,方便程序的統計以及核對工作的展開,采用的S@n(Success at n)方法與TREC 十分相似,就是說在答案之前的N個答案中的比例,考慮問句之中的正確答案會被拿來評判正誤,假如系統判斷是正確的,那么認定為發生錯誤;假如系統之中無相應的匹配問句,則不放在考察范圍之內,取值為S@1。

(2)實驗結果和對結果的分析。實驗采用基于語句相似度計算的問句和向量空間模型匹配的方法來測試,下表顯示了評測的結果。

測試結果

仔細分析上表可以得到以下結論:比較兩組數據,第一組數據的S@1值較低,分析之后發現了錯誤的原因,即存在一些相對隨便的問題,沒有多少有用的訊息:以“不公平”問句為例的問句包含比較隨意的訊息;而有一些沒有答案的問題,例如:校長是哪個專業畢業的?”第二組從候選問題庫中選取問句的S@1值相對較好,但是答案的錯誤率還是在30%左右。仔細剖析錯誤的原因,首先是由于無法分辨問句的種類,其次是答案之中存在否定詞語,使得問句無法正確配對。比較兩種相似度的方法,在相似度計算方法方面,兩組測試集的差別很大:從語句表面來分析的VSM方法,由于本文的問句匹配方法以語句相似度為基礎,其中有語義知識庫的參與,對傳統語句進行了深層次剖析,使得句子匹配的精度大大提高,傳統的VSM方法得到了改進與提升[4]。

[1]張仰森,郭江.四種統計詞義消歧模型的分析與比較[J].北京信息科技大學學報:自然科學版,2011,(2).

[2]楊松,樓新遠.基于向量空間模型附加詞義特征的句子相似度研究[J].成都信息工程學院學報,2012,(3).

[3]靳偉,張月清,王芳.基于本體的分類檢索系統的設計與實現[J].河北農業大學學報,2010,(2).

[4]李東園,白宇,蔡東風.面向中文問答的信息檢索系統及評測[J].沈陽航空工業學院學報,2009,(3).

猜你喜歡
用戶系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
主站蜘蛛池模板: 亚洲最大福利网站| 亚洲全网成人资源在线观看| 免费可以看的无遮挡av无码| 91人妻日韩人妻无码专区精品| 免费国产黄线在线观看| 色偷偷一区| 国产精品偷伦在线观看| 国产免费怡红院视频| 国产又大又粗又猛又爽的视频| 国产亚洲欧美在线专区| 国产成人精品优优av| 国产午夜一级毛片| 日本少妇又色又爽又高潮| 超清人妻系列无码专区| 国产流白浆视频| 免费A∨中文乱码专区| 亚洲国产日韩一区| 无码免费视频| 天堂av综合网| 精品无码视频在线观看| 中文字幕资源站| 欧洲亚洲欧美国产日本高清| 国产日本欧美亚洲精品视| 国产9191精品免费观看| 国产精品亚洲αv天堂无码| 久久香蕉欧美精品| 成人在线综合| a欧美在线| 国产色爱av资源综合区| 亚洲精品成人7777在线观看| 青青青视频免费一区二区| 国产免费a级片| 国产成人精品亚洲77美色| 国产小视频免费观看| 99在线免费播放| 久久精品人妻中文系列| 国产欧美性爱网| a亚洲视频| 国产丝袜第一页| 免费一级毛片在线播放傲雪网| 亚洲国产欧美国产综合久久| 无码人中文字幕| 色首页AV在线| 乱人伦99久久| 日韩欧美在线观看| 亚欧乱色视频网站大全| 久久无码高潮喷水| 国产精品浪潮Av| 岛国精品一区免费视频在线观看| 欧美.成人.综合在线| 手机精品视频在线观看免费| 国产成人精品高清在线| 国产精品尤物铁牛tv| 少妇精品在线| 成人中文字幕在线| 在线日韩一区二区| 91丝袜在线观看| 亚洲国产AV无码综合原创| 国产精品爽爽va在线无码观看| 中文字幕中文字字幕码一二区| P尤物久久99国产综合精品| 四虎综合网| 潮喷在线无码白浆| 一本大道香蕉中文日本不卡高清二区| 欧美在线观看不卡| 第九色区aⅴ天堂久久香| 国产幂在线无码精品| 久久国产精品影院| 91娇喘视频| 久草视频中文| 在线国产91| 在线观看亚洲天堂| 亚洲一区二区三区麻豆| 亚洲—日韩aV在线| 亚洲成aⅴ人在线观看| 亚洲综合狠狠| 农村乱人伦一区二区| 亚洲国产精品国自产拍A| 婷婷五月在线| 国产视频你懂得| 三级欧美在线| 国产精品极品美女自在线|