999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識(shí)庫的問答系統(tǒng)

2019-04-22 12:03:10毛麾
現(xiàn)代計(jì)算機(jī) 2019年8期
關(guān)鍵詞:方法模型系統(tǒng)

毛麾

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

0 引言

隨著互聯(lián)網(wǎng)信息時(shí)代的到來,人們可以通過互聯(lián)網(wǎng)獲取海量的信息和知識(shí),人們獲取信息和知識(shí)的方式也越來越豐富。但是,從互聯(lián)網(wǎng)中海量的數(shù)據(jù)中快速準(zhǔn)確地獲得用戶所需的知識(shí)仍然是一個(gè)困難的問題。在這樣的背景下,基于自然語言的問答系統(tǒng)開始發(fā)展起來。

問答系統(tǒng)(Question Answering System,QA)是信息檢索系統(tǒng)的一種高級(jí)型式,它能用準(zhǔn)確、簡(jiǎn)潔的自然語言回答用戶用自然語言提出的問題。問答系統(tǒng)是目前人工智能和自然語言處理領(lǐng)域中一個(gè)倍受關(guān)注并具有廣泛發(fā)展前景的研究方向。為了解決信息檢索中的各種問題,本文提出了一種基于知識(shí)庫的問答系統(tǒng)的構(gòu)建方法,主要使用了命名實(shí)體識(shí)別、實(shí)體鏈接等技術(shù)來通過知識(shí)庫獲取問題的答案。

1 相關(guān)工作

早期的研究主要基于規(guī)模較小的專用知識(shí)庫進(jìn)行,使用的方法以語義解析為主。但這種方法往往需要大量人工標(biāo)注的數(shù)據(jù)來訓(xùn)練模型,代價(jià)較大。目前主流的研究方法主要分為基于語義分析的方法和基于信息檢索的方法兩大類。語義解析(Semantic Parsing)[1-2]的方法側(cè)重于將自然語言形式的問句轉(zhuǎn)換為邏輯表達(dá)式,如lambda表達(dá)式和依存組合語義樹,然后從知識(shí)庫中尋找答案。信息抽取(Information Extraction)[3-4]的方法主要通過在知識(shí)庫中查詢?cè)搶?shí)體,可以得到以該實(shí)體節(jié)點(diǎn)為中心的知識(shí)庫子圖,子圖中的每一個(gè)節(jié)點(diǎn)或邊都可以作為候選答案,通過觀察問題依據(jù)某些規(guī)則或模板進(jìn)行信息抽取,得到問題特征向量,建立分類器通過輸入問題特征向量對(duì)候選答案進(jìn)行篩選,從而得出最終答案。隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域的發(fā)展,基于分布式詞表示(Distributed Embedding)的方法[5-8]開始成為主流,該方法首先利用命名實(shí)體識(shí)別技術(shù)找出問題中的實(shí)體詞,然后利用實(shí)體鏈接(Entity Linking)技術(shù)找到實(shí)體詞在知識(shí)庫中對(duì)應(yīng)的實(shí)體,通過在知識(shí)庫中檢索實(shí)體的屬性,可以得到問題的候選答案,最后通過計(jì)算問題和答案的相似性來為候選答案排序來得到最符合問題的答案。

從問題本身的語言形式的角度來說,研究界最普遍關(guān)注的依然還是單關(guān)系(Single Relation)的事實(shí)型問題(Factoid Questions)。雖然單關(guān)系的事實(shí)型問題目前被研究的最為廣泛,但由于問答系統(tǒng)本身具有的開放性,使得這仍然是一個(gè)十分具有挑戰(zhàn)性的難題。

命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語言處理的一項(xiàng)基本任務(wù)(Natural Language Process,NLP),主要目的是找出文本中的一些實(shí)體并識(shí)別出它們的類型,例如文本中的人名、地名和機(jī)構(gòu)名。

傳統(tǒng)基于統(tǒng)計(jì)學(xué)習(xí)的NER方法[9]嚴(yán)重依賴特征工程和專家知識(shí),如條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)。基于深度學(xué)習(xí)的NER[10-11]、特征工程和專家知識(shí)不再是必不可少的,NER的識(shí)別率也得到了顯著提高。Cicero Nogueira dos Santos[12]等人提出了利用來CharWNN來進(jìn)一步提高NER的準(zhǔn)確率,該方法在傳統(tǒng)的詞嵌入(Word Embedding)的基礎(chǔ)上利用字嵌入(Character-level Embedding)來增強(qiáng)詞向量的表達(dá)能力。Jason P.C.Chiu和Eric Nichols[13]使用了雙向LSTM(Bidirectional LSTM,BiLSTM),較單向 LSTM 在 NER中取得了更好的效果。Guillaume Lample[14]使用了LSTM-CRF的結(jié)構(gòu),通過利用CRF作為網(wǎng)絡(luò)的最后一層,很好地改善了網(wǎng)絡(luò)輸出的結(jié)果。總的來說,命名實(shí)體識(shí)別現(xiàn)階段的方法還是以在BiLSTM-CRF模型的基礎(chǔ)上改進(jìn)為主。

2 系統(tǒng)架構(gòu)

本節(jié)主要介紹基于知識(shí)庫的問答系統(tǒng)的整體框架和流程。如圖1所示,對(duì)于一個(gè)問題Q(例如:紅樓夢(mèng)作者是誰?),系統(tǒng)首先通過命名實(shí)體識(shí)別技術(shù)可以檢測(cè)出問題中的實(shí)體詞“紅樓夢(mèng)”,然后以“紅樓夢(mèng)”作為關(guān)鍵詞在知識(shí)庫中查找,可以得到“紅樓夢(mèng)”對(duì)應(yīng)的實(shí)體(紅樓夢(mèng)〈書〉、紅樓夢(mèng)〈電視劇〉等)。通過實(shí)體鏈接找到確定問題Q中實(shí)體詞“紅樓夢(mèng)”表示的實(shí)體是“紅樓夢(mèng)〈書〉”。確定問題Q中“紅樓夢(mèng)”對(duì)應(yīng)的實(shí)體之后,利用知識(shí)庫查找出實(shí)體相關(guān)的信息(如圖中作者、主要任務(wù)、別名)生成候選答案。最后通過計(jì)算問題Q與候選答案的語義相似性來對(duì)答案排序,選擇相似度最高的答案作為問題Q的最終答案。

3 關(guān)鍵技術(shù)

(1)實(shí)體識(shí)別

本文實(shí)體識(shí)別主要使用了字特征和詞特征來改進(jìn)BiLSTM-CRF模型,結(jié)構(gòu)如圖2所示,模型輸入的是拼接后的詞向量和字向量,通過雙向LSTM處理過后輸入到CRF層,CRF層計(jì)算最后的標(biāo)注序列。

圖1 問答系統(tǒng)流程圖

(2)實(shí)體鏈接

實(shí)體鏈接的關(guān)鍵是將知識(shí)庫中的實(shí)體表示為一個(gè)可計(jì)算的向量,本文提出了Entity Embedding算法來解決這個(gè)問題。Entity Embedding算法的流程如圖3。

①利用主題模型對(duì)知識(shí)庫中實(shí)體的上下文信息進(jìn)行處理,得到對(duì)應(yīng)的主題詞。

②通過在查找表中進(jìn)行查找,將主題詞替換為對(duì)應(yīng)的嵌入式表達(dá),即詞向量。

③將所有的詞向量線性求和,得到Entity Embedding。

Entity Embedding算法最大的作用就是將知識(shí)庫中的一個(gè)實(shí)體表示為一個(gè)向量,為計(jì)算相似度和其他后續(xù)處理帶來了巨大的便利。在計(jì)算出實(shí)體的Entity Embedding后,可以用文本表示方法將問題也表示為一個(gè)同維度的向量,這樣就可以用計(jì)算相似度的方法來將實(shí)體詞連接到正確的實(shí)體。

圖3 Entity Embedding算法流程圖

4 實(shí)驗(yàn)及結(jié)果分析

為了測(cè)試系統(tǒng)在公開數(shù)據(jù)集的表現(xiàn),本文在NLPCC ICCPOL 2016 KBQA數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。NLPCC數(shù)據(jù)集提供了一個(gè)包含14609個(gè)問題對(duì)的訓(xùn)練集和包含9870個(gè)問題對(duì)的測(cè)試集。為了證明本問答系統(tǒng)的有效性,我們將結(jié)果與文獻(xiàn)[15]進(jìn)行了對(duì)比,具體結(jié)果如表所示。

表1 NLPCC數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

從表1可以看出,基于知識(shí)庫構(gòu)建的問答系統(tǒng)在NLPCC數(shù)據(jù)集上也取得了優(yōu)異的效果,這充分說明了本文所提出的方法的可行性和有效性。

為了驗(yàn)證命名實(shí)體識(shí)別的有效性,我們從人民日?qǐng)?bào)語料中隨機(jī)選擇了80%的數(shù)據(jù)來訓(xùn)練模型,將另外20%的數(shù)據(jù)用來測(cè)試。實(shí)驗(yàn)的評(píng)估指標(biāo)選擇的是準(zhǔn)確率(P)、召回率(R)和 F1值,我們主要對(duì)人名(PER)、地名(GEO)、機(jī)構(gòu)名(ORG)這三類實(shí)體進(jìn)行了評(píng)測(cè),結(jié)果見表2。為了進(jìn)一步說明本文提出的命名實(shí)體識(shí)別模型的有效性,我們用相同的數(shù)據(jù)訓(xùn)練了一個(gè)BiLSTMCRF模型作為對(duì)比,BiLSTM-CRF模型的訓(xùn)練采用了與本文模型完全相同的方法。

表2 命名實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果

從表2數(shù)據(jù)可以看出,本文方法相比于BiLSTMCRF模型在準(zhǔn)確率、召回率和F1值這三個(gè)指標(biāo)上都取得了提升。

5 結(jié)語

本文提出了一種基于知識(shí)庫的問答系統(tǒng)的構(gòu)建方法,并且通過實(shí)驗(yàn)證明了其可行性和有效性。不同于一般的搜索系統(tǒng),問答系統(tǒng)希望從語義層面來分析用戶的需求,為了理解用戶的真實(shí)意圖需要使用自然語言的方法來對(duì)問題進(jìn)行處理。本文主要使用了命名實(shí)體識(shí)別來提取問題中的實(shí)體詞,然后將實(shí)體詞鏈接到知識(shí)庫中的實(shí)體,通過將問題和實(shí)體表示為向量,利用計(jì)算向量的距離表示語義相似度。本文的不足之處在于主要考慮的是單關(guān)系的事實(shí)型問題,沒有考慮更復(fù)雜的問題,在后續(xù)研究當(dāng)中將做進(jìn)一步探索。

猜你喜歡
方法模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲国产系列| 看av免费毛片手机播放| 久久天天躁夜夜躁狠狠| 亚洲视频a| 久久久久亚洲av成人网人人软件| 97影院午夜在线观看视频| 欧美日韩中文字幕在线| 国产成人免费手机在线观看视频| 97视频免费在线观看| 免费观看成人久久网免费观看| 无码内射中文字幕岛国片| 亚洲精品动漫| 91香蕉视频下载网站| 蜜桃臀无码内射一区二区三区| 毛片大全免费观看| 国产视频久久久久| 呦系列视频一区二区三区| 国内精品91| 一级毛片免费观看久| 波多野结衣的av一区二区三区| 亚洲国产精品无码久久一线| 日本伊人色综合网| 久久久成年黄色视频| 国产精品亚洲欧美日韩久久| 永久成人无码激情视频免费| 天堂成人在线| 日韩高清在线观看不卡一区二区| 日韩一级二级三级| 福利姬国产精品一区在线| 人妻丰满熟妇av五码区| 视频二区亚洲精品| 欧美日韩在线亚洲国产人| a级毛片一区二区免费视频| 国产自产视频一区二区三区| 国产精品深爱在线| 激情无码视频在线看| 亚洲午夜福利精品无码| 国产免费羞羞视频| 在线视频一区二区三区不卡| 国产黄在线观看| 亚洲黄色视频在线观看一区| 人禽伦免费交视频网页播放| 97人人做人人爽香蕉精品| 国产91麻豆免费观看| 青青青草国产| 在线亚洲精品福利网址导航| 久久99久久无码毛片一区二区| 中文字幕在线日韩91| 国产成人亚洲精品蜜芽影院| 国产乱子伦手机在线| 欧美三级视频网站| 亚洲最黄视频| 最新痴汉在线无码AV| 精品国产一二三区| 综合久久久久久久综合网| 亚洲天堂日韩在线| 9丨情侣偷在线精品国产| 国产精品污污在线观看网站| 国产精品网址在线观看你懂的| 亚洲国产黄色| 日本一本在线视频| 国产网站免费| 国产毛片久久国产| 成人日韩视频| 国内自拍久第一页| 欧美亚洲一区二区三区导航 | 无码高清专区| 亚洲高清在线天堂精品| 毛片网站在线播放| 亚洲天堂久久久| 亚洲国产清纯| av一区二区人妻无码| 色综合久久综合网| 免费又爽又刺激高潮网址| 99视频国产精品| 国模私拍一区二区三区| 中文纯内无码H| 好久久免费视频高清| 国产欧美日韩免费| a欧美在线| 欧美成人日韩| 久久亚洲天堂|