999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一個集裝箱知識自動問答系統的設計

2015-09-18 05:53:56田峰文張琳
現代計算機 2015年13期
關鍵詞:信息模型系統

田峰文,張琳

(上海海事大學信息工程學院,上海201306)

一個集裝箱知識自動問答系統的設計

田峰文,張琳

(上海海事大學信息工程學院,上海201306)

航運領域的發展隨著中國自由貿易區的建立蓬勃發展,但到目前為止還沒有成型的關于航運領域的自動問答系統,這就限制航運領域發展的便利。在問答系統的研究和設計中發現集裝箱知識屬于專業領域范疇,而其他領域的知識庫不能直接被該領域的問答系統所引用,因此專門構建一個關于集裝箱知識的FAQ庫。以FAQ庫為基礎構建一個集裝箱知識的自動問答系統,在句子相似度計算模塊中采用反義詞信息判定的技術。通過實驗對比發現反義詞判定能夠提高系統的準確率。

自動問答系統;關鍵詞得分過濾;FAQ庫;相似度算法

0 引言

大數據的興起,使得各行各業的數據呈現海量、雜亂、冗余式的增長。傳統的搜索引擎根據輸入的關鍵字(或者關鍵字的邏輯組合)來檢索航運領域的知識,這或許就能夠滿足用戶查找信息的需求,但是傳統的搜索引擎輸入的是關鍵字或詞這并不符合人們的語言習慣和邏輯習慣,返回的這些鏈接有的甚至是“死鏈接”,這就需要用戶花費時間和精力在眾多的網頁中再做一個掃描過程,尋找真正需要的信息。盡管這些搜索引擎簡單、易用,但對于老年人或不便打字的場合這些系統的優勢就顯得微不足道;此外關鍵字的漏寫就可能導致檢索千差萬別?;谝陨系脑蛉藗兙托枰粋€這樣的系統——可以接受用戶以自然語言提問,返回的是盡可能簡潔、準確的答案。在該系統中用戶使用更便捷、更快速的自然語言將大大提高查找信息的準確度和效率,從而提高人們信息處理的能力。

1 問答系統的研究現狀

(1)國外研究現狀

國外對問答系統的研究起步比國內起步早,同時,英文自然語言處理相比中文語言處理更加容易。因此到目前,研究者已設計并實現了針對英文的問答系統,例如START、ASKJeeves等。

AskJeeves是一種在線的問答系統,它的提問方式是用戶以自然語言的方式進行提問,它能回答有關地理、歷史、文化、娛樂及科技方面的簡單問題。該系統在回答問題時,首先給出的是在知識庫中存在的答案,然后才是網站鏈接。AskJeeves返回的答案可能是包含網頁的URL,而不是用戶期望的答案本身,另外AskJeeves使用了預先編輯好的主謂關系對,實際上是一個受限領域的問答系統,因此它還不能打破傳統問答系統的劣勢也就不能算是真正意義上的問答系統。另外該系統目前支持十種語言,均為拉丁語系,但中文暫時不在這十種語言的范圍之內。

(2)國內研究現狀

與國外的研究相比,面向中文的問答系統不管是技術研究還是理論研究目前還是落后的。這主要是因為中文語言處理起來比英文困難,所以目前中文問答系統的準確率也不盡人意。也正是如此,中文問答系統的研究往往具有更高的價值。目前在通用問答系統和領域問答系統范疇內均沒有集裝箱領域的知識,集裝箱領域問答系統的構建對于國際貿易的發展是很重要的,它能夠節省貨物的運輸時間和提高運輸效率;它適合于各行各業人員的使用,對于沒有航運背景的人而言使用該系統可以查詢到自己想要了解的內容;它在航運領域的發展和國際交流中發揮著重要作用。

本文通過系統分析的方法,設計了一種關于集裝箱知識的自動問答系統,主要包括“問題-答案”對知識庫的設計、預處理模塊、問句相似度計算。在實現該系統后用戶能夠快速得到問題的答案,這比從網絡中尋找信息節省了時間、提高了工作效率。

2 傳統問答系統模型

傳統問答系統主要包括以下幾個模塊:問句預處理、問句相似度計算和FAQ庫更新[9]。

2.1問句預處理

問句預處理中主要對句子進行斷詞(中文分詞)、根據停用詞列表去停用詞、提取關鍵詞和進行詞性標注。

2.2句子相似度計算

在傳統的問答系統模型中采用的是基于向量空間模型的TF-IDF計算方法,該方法在基于統計的基礎上利用詞語在句子中出現的頻率進行相似度計算。

該方法以關鍵詞的表面特征來衡量兩個句子的相似度,沒有對句子的內容進行深入理解,計算簡單易行,但也存在著缺點:沒有考慮反義詞及否定詞的信息;沒有考慮詞序、詞距等因素對句子的影響。

2.3FAQ更新

為了保證FAQ庫的及時性和有效性,對于在常問問題集庫里沒有的問題和答案,要將用戶的問題和對應的答案加入到FAQ庫中。

但是傳統的模型弱化了反義詞在句子中作用,也沒有深入分析詞形、句子長度、詞序等對句子相似度計算的影響。這就導致系統的準確率達不到人們期望的水平。因此傳統的問答系統模型還有待于改進。

3 改進后的問答系統模型

改進后的問答系統的流程圖如圖2所示。

3.1反義詞信息判定

目前不管是已有的或是已經應用到實際系統當中的相似度算法所考慮的語義信息大部分都是詞語間的同義、近義詞的信息,僅僅考慮這兩者是不夠,因為除了這兩者之外還有反義詞。如果忽略反義詞的作用,那么在計算含有關鍵詞信息基本相同但一個句子含有否定或反義詞的句子時,得到的結果與實際的情況有很大的差別。例如:句子一:我喜歡用這種大型的集裝箱;句子二:我不喜歡用大型的集裝箱。如果使用現有的算法,那么得出的結論是這兩個句子相似度接近0.85,但是實際情況與之相反。因此,根據這一情況本文將句子相似度計算進行改進,以求達到更加精確的結果。

圖1 改進后的問答系統流程圖

圖2 改進后的問答系統流程圖

根據語言學的知識,否定的否定表達的是一種肯定態度,因此我們可以將此方法用到算法中。在計算時首先觀察句子中是否含有否定詞以及反義詞,如果有那么判定否定詞及反義詞是否表達出了反義的信息;然后把去除否定詞及反義詞后剩余的句子按改進后的算法進行計算,求出相似度;最后將反義部分的結果與改進后的句子相似度結果結合得出最終的句子相似度。假設句子S、T,其反義部分的判定結果是:neg(s,t),去除否定詞及反義詞后句子的相似度為S(s,t),那么兩個句子的相似度總結為:

其中neg(s,t)=1,表示句子中含有否定詞并且否定詞表達的是與要否定的句子相反的意思;

neg(s,t)=0,表示兩個句子要表達的是相同的意思。

3.2改進后的句子相似度計算

在傳統的問答系統模型中采用的是基于向量空間模型的算法,該算法只考慮了關鍵詞的詞頻信息,忽略了關鍵詞的數量、問句長度、關鍵詞的順序和關鍵詞的距離對句子相似度的影響。本文綜合以上幾個方面并對距離相似度進行改進:傳統的編輯距離算法對字符進行插入、刪除和替換操作時只是對相鄰位置和計算點之前的字符進行操作,但在漢語句子中對字符操作并不僅僅限于這兩者,此外還包括非相鄰字符的操作和計算點之后的操作。因此傳統的算法容易導致計算結果出現偏差,影響系統的準確率。

圖3 

(1)距離相似度。編輯距離(Levenshtein Distance)由Levenshtein于1966年中提出的,通過編輯距離計算源字符串S與目標字符串T相似度。將字符串S變化到T所需要的最小編輯操作的數量記為ld。Levenshtein所提出的編輯操作是指對字符串的某一個位置的字符進行刪除、插入、替換的操作。改進后的計算方法為:

(1)Dij=Di-k-1,j-k-1+1當Si-k…Si=tj…tj-k

(2)Dij=Di-k-1,j-k-1+1當0≤k≤min(m,n)且Si-k…Si=tj…tj+k

假設Dij=D(s1…si,t1…tj)0≤i≤m,0≤j≤n,m,n分別表示源字符串S和目標字符串T的長度,Dij表示從s1…si到t1…tj的編輯距離。經過對交換操作的拓展得到(m+1)×(n+1)階矩陣Dij的計算公式:

根據上面的方法求出字符串的編輯距離(ld)后,結合最長公共字符串長度Lcs(s,t)記為Lcs,可以得到編輯距離的相似度計算公式:

(2)詞形相似度。詞形相似度是通過計算兩個問句相同詞或者同義詞的個數來計算相似度的。兩個問句的相同詞個數越多,那么相似度越大。

問句S是由若干詞組成的一個序列,S的長度Len(S)即是S中詞的個數,SameW(S,T)是問句S和T中相同詞的個數,若一個詞在句中出現多次只算一次,那么詞形相似度的計算公式為:

(3)問句長度相似度。問句長度相似性在一定程度上反映了問句形態上的相似性。若是兩個句子的長度相差越小,那么兩個句子的相似可能性越大。

對于問句S,T,Len(S),Len(T)分別表示句子的長度,也就是兩個句子中詞的個數。那么問句長度相似度計算公式為:

綜上所述:問句的相似度可有(1)、(2)、(3)式求得:

其中a,b,c,d是各個因素的權重因子,并且滿足a+b+c=1,在系統中各個部分的相似度在句子中所起的作用不同,因此權重的大小也不相同,本文的研究背景是改進自動問答系統算法,側重點是編輯距離和反義詞判定,在本文中令a=b=0.3,c=0.4,此外為了更好地將改進算法融入到實際系統中,本系統可以對不同權重因子進行調節.

0≤Sim(S,T)≤1,0表示不相似,1表示完全相似。由所求的數值與事先設置的閾值比較,大于閾值時就認為這兩個句子相似。Sim(S,T)越大則表明句子的相似性越大。

4 實驗結果

為了驗證改進的問答系統模型比傳統模型更高效和更實用,本文根據設計的基于常問問題集的自動問答系統進行測試。因為在漢語模型的問答系統中相似度領域迄今還沒有統一的、標準的測評語料庫供人們參考和比對。所以本實驗的測試語料是取自中國航運和連云港航運網中用戶的提問和專家的答疑組成“問題-答案”對。測試數據從用戶提問的記錄中選取50個問題。為了更加客觀地衡量改進后的結果,實驗主要采用以下性能指標來評價模型的性能:

圖4 融合多種因素的句子相似度

為了驗證改進后的效果,我們將和葉正、林鴻飛[9]設計的傳統問答系統模型進行比較,實驗結果如下表所示:

表1 改進后的問答系統模型與傳統模型實驗結果比較

下圖是兩種問答系統比較的直觀圖:

圖5 兩種模型的比較圖

5  結語

通過實驗我們可以發現改進后的問答系統模型在上述三種評價指標上都有較好地改善,能夠使集裝箱領域的問答系統提高查詢精度,但該系統也有不足之處:該系統只考慮了詞語間的同義、近義和上下文關系,但是沒發揮關鍵詞信息的作用。這就可能導致計算結果出現大的偏差。因此接下來的工作是將關鍵詞得分過濾作為一個影響句子相似度的因素加入到模型中,這樣能更好的符合漢語習慣,也能提高計算精度。

[1]HALLP A V,DOWLING GR.Approximate String Matching[J].ACM Computer Survey,1980,12(4):381~402

[2]章成志.基于多層特征的字符串相似度計算模型[J].情報學報,2005,24(6):696~701

[3]WAGNER R A,FISCH ER M J.The String-to-String Correction Problem[J].Journal of the ACM,1973,21(1):168~173

[4]趙作鵬,尹志民,王潛平等.一種改進的編輯距離算法及其在數據處理中的應用[J].計算機應用,2009,29(2):424-428

[5]余超,蔡東風,張桂平.詞匯語義相似度計算中相關技術的分析[J].沈陽工業學報

[6]張亮,馮沖.基于語句相似度計算的FAQ自動回復系統設計與實現[M].小型微型計算機系統,2006,27(4)

[7]龐劍鋒,卜東波,白碩.基于向量空間模型的文本自動分類系統的研究與實現[J].計算機應用研究,2001,9(9):23-26

[8]魏韡,向陽,陳千.計算術語間語義相似度的混合方法[J].計算機應用,2010,30(6):1668~1671

[9]葉正,林鴻飛.基于空間向量模型的FAQ庫問答系統的設計[J].計算機系統結構

Automatic Answering System;Antonyms Information Determination;Questions Processing;Similarity Algorithm

Design of Automatic Answering System for a Container Know ledge

TIAN Feng-wen,ZHANG Lin

(College of Information Engineering,ShanghaiMaritime University,Shanghai 201306)

The development of shipping industry with the establishment of the Chinese free trade area development,but so far there is nomolding automatic question answering system in the area of shipping,it limits the development of convenience in the shipping field.In the study and design of the system,finds that container knowledge is professional field.Bulids a FAQ librarywhich is about the knowledge of container.Uses antonyms information determination as a core technique in the question answering system,and construction a container of knowledge question answering system which based on the FAQ library.Through the comparison,the antonyms information can improve the accuracy of the system.

1007-1423(2015)16-0032-05

10.3969/j.issn.1007-1423.2015.16.008

田峰文(1987-),男,山東臨沂人,碩士研究生,研究方向為模式識別與智能處理、智能機器人

張琳(1973-),女,上海人,博士副教授,研究方向為港航信息化技術、智能處理、信息檢索

2015-04-15

2015-06-02

猜你喜歡
信息模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 久久毛片网| 好紧太爽了视频免费无码| 日本a级免费| 超清人妻系列无码专区| 18黑白丝水手服自慰喷水网站| 久久精品免费国产大片| 久久久精品国产SM调教网站| 2022精品国偷自产免费观看| 在线看免费无码av天堂的| 亚洲欧美一区二区三区图片| 99久久99这里只有免费的精品| 97亚洲色综久久精品| 中文字幕无码av专区久久| 国产剧情国内精品原创| 成人午夜视频在线| 亚洲人成在线免费观看| 欧美精品亚洲日韩a| 毛片免费试看| 久久永久视频| 999国产精品| h视频在线播放| 国产人人射| 色综合久久久久8天国| 爱色欧美亚洲综合图区| 久久免费看片| 自慰网址在线观看| 精品伊人久久久久7777人| 伊在人亚洲香蕉精品播放| 国产一级在线观看www色 | 综合社区亚洲熟妇p| 中国精品自拍| 日本尹人综合香蕉在线观看| 国产欧美在线观看一区| v天堂中文在线| 国产白浆在线| 国产精品成人观看视频国产| 国产免费久久精品99re丫丫一 | 国产在线观看第二页| 国产亚洲精品97AA片在线播放| 欧美日韩另类国产| 99re在线免费视频| 婷婷久久综合九色综合88| 国产97视频在线| 伊人大杳蕉中文无码| 精品欧美日韩国产日漫一区不卡| 日韩欧美国产精品| 亚洲国内精品自在自线官| 亚洲AⅤ波多系列中文字幕| 五月激激激综合网色播免费| 国产一级毛片高清完整视频版| 国产精品亚洲专区一区| 91色在线观看| 亚洲成人在线免费| 日韩精品毛片| 欧美日韩中文国产| 国产成熟女人性满足视频| 老司机精品一区在线视频| 中国黄色一级视频| 国产在线一区视频| 国产黑丝视频在线观看| 日韩A级毛片一区二区三区| 午夜精品久久久久久久2023| 亚洲福利一区二区三区| 永久免费无码成人网站| 久久精品这里只有国产中文精品 | 妇女自拍偷自拍亚洲精品| 欧美区一区二区三| 美女无遮挡拍拍拍免费视频| 国产成年无码AⅤ片在线| 一本色道久久88综合日韩精品| 老司机午夜精品视频你懂的| 丝袜无码一区二区三区| 国产成人超碰无码| 欧美特黄一级大黄录像| 国产精品无码AV片在线观看播放| 97se亚洲综合| 亚洲精品亚洲人成在线| 国产精品林美惠子在线观看| 秋霞午夜国产精品成人片| 国产在线高清一级毛片| 一级毛片在线播放免费| 亚洲男人天堂2018|