999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于KV-MemNN的心血管病自動問答系統設計與實現

2020-03-18 01:39:10黃詩怡李繼云
智能計算機與應用 2020年9期
關鍵詞:癥狀模型

黃詩怡, 李繼云

(東華大學 計算機科學與技術學院, 上海 201620)

0 引 言

目前中國心血管病(CVD,cardiovascular disease)病人數量高達2.9億。隨著城市化進程的加速,人口老齡化問題突出,及吸煙、身體活動不足、不合理膳食等不良生活習慣的盛行,心血管病患病率持續居高不下,并呈現出上升趨勢。心血管病死亡率占據首位,2018年心血管病死亡分別占農村、城市居民疾病死因的46.66%、43.80%[1]。心血管病住院總費用快速增長,國家心血管病的負擔逐漸加重,心血管病已經成為重大的公共衛生問題。雖然國內已經展開一系列心血管病社區防治工作并取得一定的成效,心血管病醫療質量也在不斷提高,但是隨著國民心血管病多個危險因素的流行趨勢明顯,防治工作仍然面臨著嚴峻的挑戰[2]。

自動問答系統作為互聯網時代信息獲取的一種有效途徑,為心血管病的防治帶來了新的機遇,成為進一步加強心血管病知識普及的一種手段。自動問答系統與書籍、海報、雜志等傳統的信息獲取方式不同,與傳統的搜索引擎也有所區別,目的在于提高信息獲取的效率,可以根據用戶提出的問句,直接返回精準而簡潔的答案。本文以現有的心血管病知識圖譜為數據支持,構建一個基于KV-MemNN(key-value memory network)模型的心血管病自動問答系統,通過挖掘知識圖譜中有價值的信息,加速心血管病知識的普及。

1 知識圖譜簡介及預處理

本文使用的心血管病知識圖譜共包含1 173個實體,2 381組實體關系和實體屬性。實體包括心血管病、癥狀以及藥物;實體關系包括疾病與癥狀之間的關系、疾病與藥物之間的關系,在此分別定義為相關癥狀、常用藥物關系。一個以心肌梗塞為中心的知識圖譜示例,如圖1所示??芍环N疾病往往對應多個相關癥狀關系、多個常用藥物關系。

為了確保知識圖譜的可用性,對其中的數據進行檢查與修正。

(1)數據存儲于5個.csv文件中,存在個別疾病名稱不一致的情況,需要統一修改為正確的名稱;

(2)個別疾病名稱與數據來源中的名稱不同,需要修正為數據來源中的名稱;

(3)該知識圖譜主要抽取自39健康網的疾病百科,又有部分其他來源的補充信息,存在少量表述方式的不一致,個別疾病與癥狀重名,但數量極少,影響不大,不作處理。此外,疾病的別名內容比較復雜,除了包含傳統意義上的別稱,還可能包含疾病的父類、某種子類、某種特征等等,導致疾病的一些別名可能與其他疾病或癥狀重名,需要對冗余的別名進行清理。為了完全避免部分別名與其他疾病或癥狀的重名問題,將一種疾病的所有別名作為一個整體看待。

處理后的知識圖譜以SPO三元組(subject, predicate, object)的形式統一存儲,并用實體表保存疾病、藥物、癥狀三種實體。

圖1 以心肌梗塞為中心的知識圖譜示例

2 基于KV-MemNN模型的自動問答

本文運用Facebook AI研究院的Miller等人提出的KV-MemNN模型實現基于心血管病知識圖譜的自動問答,這個過程主要分為兩部分:問答數據集構建和自動問答實現。問答數據集構建為自動問答提供了數據支撐,自動問答實現則包含了最為關鍵的數據處理和模型計算過程。

2.1 問答數據集構建

問答數據集依賴于知識圖譜構建。針對知識圖譜中的關系和屬性,設計不同類型的問句模板。已知知識圖譜中包含疾病與藥物之間的常用藥物關系、疾病與癥狀之間相關癥狀關系、疾病的別名屬

性,以此設計根據疾病查詢常用藥物、相關癥狀、別名三種類型的問句模板。為了進一步豐富問句類型,對常用藥物、相關癥狀兩種關系進行逆向拓展,得到藥物與疾病之間的依存關系、癥狀與疾病之間的依存關系,以此設計根據藥物查詢可治療疾病、根據多個癥狀排查疾病兩種類型的問句模板。問句模板通過39健康網、百度知道以及使用搜索引擎檢索到的相關網頁信息搜集整理所得,與知識圖譜中對應的三元組進行整合。

整合過程分為兩種情況:其一是問句模板與單個實體整合,以相關癥狀關系為例,由于一種疾病對應多種癥狀,問句模板與同一種疾病的若干三元組進行整合,得到的問句以多個癥狀為答案;其二是問句模板與多個實體整合,只應用于相關癥狀的逆向關系,找到多個癥狀所對應的共同疾病,將問句模板與這些癥狀進行整合,得到的問句以共同疾病為答案。

問答數據集由五種問答數據整合,最終得到13 062組問答數據,每種問答數據以大約8∶1∶1的比例分別作為訓練集、驗證集、測試集。訓練集中包含所有問答模板。

2.2 自動問答實現

自動問答基于KV-MemNN模型來實現。KV-MemNN模型建立于Weston等人的記憶網絡和Sukhbaatar等人的端對端記憶網絡的基礎之上,其體系結構如圖2所示。模型將數據源中的內容存儲于結構為(鍵,值)的記憶中,從而為知識源的編碼提供了更大的靈活性,使得模型能通過鍵來尋找與問題相關的記憶,并得到這些記憶相對應的值。因此,鍵的設計應該包含與問題匹配的特征,值的設計應該包含與答案匹配的特征。

圖2 模型的體系結構

本文以心血管病知識圖譜作為模型的數據源,自動問答實現的步驟如下:

步驟1對問句進行預處理,包括問句分詞和去停用詞。問句分詞以實體表為輔助,在預先完成實體匹配的基礎上進行。因為疾病、藥物、癥狀3種實體名稱中專有名詞比較多,并且長短不一,直接分詞可能造成混亂,從而導致問句原意完全改變,而這種方法可以避免這些名詞對分詞的干擾,保證準確識別出問句中的所有實體。本文選用哈工大LTP進行分詞,所得結果可以滿足分詞的需求。問句的停用詞包括標點符號、語氣詞、以及“請問”、“目前”等對問答過程不造成影響的短語。

步驟2數據的向量表示。首先,構建一個詞匯表,本文的詞匯表由知識圖譜以及訓練集中的詞匯組成,以詞匯的出現頻數倒序排列,預留空字符處于排列首位;其次,以各個詞匯在詞匯表中的位置作為索引id,將知識圖譜和訓練集、驗證集、測試集中的文本信息轉換為數值形式,使得知識圖譜的三元組、問答數據集的問句與答案,均能夠使用向量形式來表達。知識圖譜中的三元組轉換為鍵-值對形式,即向量(k1,v1),…,(kM,vM),作為模型的記憶。鍵由SPO三元組中的subject和predicate組成,值用object來表示,使得鍵與值分別包含與問句、答案匹配的特征。

步驟3Key hashing,也就是找出所有與問句有關的記憶。首先,借助知識圖譜,構建實體與其相關記憶之間的哈希表;其次,以問句中的實體為媒介,找出與各個實體相關的記憶(kh1,vh1),…,(khN,vhN)。

步驟4訓練部分。首先是Key addressing和Value reading的迭代過程。在尋址階段計算問句與相關記憶中每個鍵的相關性評分,公式(1):

phi=Softmax(A?X(x)·A?K(khi)).

(1)

其中,?.表示D維特征映射,A是一個d×D的特征矩陣。在讀取階段,以相關性評分為權重,對值加權求和,得到一個輸出向量o,公式(2):

o=∑iphiA?V(vhi).

(2)

假定q=A?X(x),使用輸出向量o對其更新,本文采用的是qj+1=Rj(qj+o)+bj,其中R、b分別為d×d、d×1的矩陣,則尋址階段的公式修改為公式(3):

(3)

然后是結果預測。經過H輪迭代后得到的預測結果為式(4):

(4)

其中,yi代表所有候選輸出,本文中B的取值與A保持一致。

模型通過Adam優化算法來最小化交叉熵損失,從而實現模型中矩陣A、B、R1,…,RH以及b1,…,bH的更新。訓練過程使用若干個epoch,每個epoch對訓練集中的問答數據進行一輪訓練,如果一個問答數據中包含多個答案,則問答數據分為多個訓練數據依次進行訓練。驗證集中的問答數據用于評估最佳模型,即準確率最高的模型,準確率的評估標準是所有候選答案中排名首位的預測答案是否正確。

2.3 結果評估

最終模型在d=230,Hops=5時取得,對測試集的評估結果見表1。從評估結果可知,對于大多數問答數據排名首位的預測結果是準確的,并且無論是單個或是多個答案的問答數據,各個答案的相關排名都是比較靠前的。

表1 評估結果

對測試集中的五種問答數據進行分類評估,其結果見表2。已知前四種為多個答案的問答數據,最后一種為單個答案的問答數據,兩種數據都能得到較好的結果。此外,經過對訓練集、驗證集、測試集多次數據分配可知,不同的數據分配會影響五種問答數據各自的結果,但是測試集的整體結果差異不大。

表2 五種問答數據評估結果

3 結束語

本文以面向心血管領域的知識圖譜為基礎,構建了心血管病問答數據集,實現了基于KV-MemNN模型的自動問答系統,使得心血管病知識圖譜能夠以更容易接受的方式服務于非醫學專業人員,對心血管病知識的傳播具有一定的意義。同時也存在一些不足之處需要優化,其一是需要醫學專家的指導對知識圖譜進行更加全面的檢查與錯誤糾正;其二是知識圖譜的內容不夠豐富,有待進一步擴充;其三是問答數據集的模板庫還不夠廣泛,需要進一步搜集;此處可以將預訓練的詞向量應用于模型,進一步提高準確率。

猜你喜歡
癥狀模型
一半模型
Don’t Be Addicted To The Internet
保健醫苑(2022年1期)2022-08-30 08:39:40
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
預防心肌缺血臨床癥狀早知道
可改善咳嗽癥狀的兩款藥膳
3D打印中的模型分割與打包
夏季豬高熱病的癥狀與防治
獸醫導刊(2016年6期)2016-05-17 03:50:35
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 手机成人午夜在线视频| 日本在线欧美在线| 亚洲一区二区在线无码| 欧美一区福利| 久久一级电影| a级毛片免费在线观看| lhav亚洲精品| 中文字幕首页系列人妻| AV无码一区二区三区四区| 凹凸国产分类在线观看| 国内精品视频区在线2021| 亚洲av日韩av制服丝袜| 中文字幕1区2区| 亚洲不卡av中文在线| 免费高清毛片| 欧美日韩午夜视频在线观看| 欧美a在线看| 特级毛片免费视频| 91 九色视频丝袜| 一级做a爰片久久免费| 成人一区专区在线观看| 精品自拍视频在线观看| 国产AV无码专区亚洲A∨毛片| 国内精品久久久久久久久久影视 | 国产精品lululu在线观看| 九九九精品视频| 超碰免费91| 日韩在线播放中文字幕| 亚洲一区二区三区在线视频| 国产成人综合亚洲欧美在| 欧美在线综合视频| 99这里精品| 国产在线观看精品| 一本一道波多野结衣一区二区| 亚洲国产91人成在线| 国产18在线| 成人久久18免费网站| 久久综合AV免费观看| 91成人在线观看视频| 亚洲一级毛片免费观看| 国产成人综合亚洲网址| 99久久国产综合精品2020| 亚洲精品亚洲人成在线| 综合色亚洲| 免费视频在线2021入口| 国产成人喷潮在线观看| 国产福利在线观看精品| 国产高清在线丝袜精品一区| igao国产精品| 天天干天天色综合网| 欧美精品H在线播放| 色天天综合| 久久这里只有精品免费| 亚洲精品国产成人7777| 九色视频线上播放| 亚洲天堂视频在线观看免费 | 成人小视频在线观看免费| 亚洲天堂日韩av电影| 国产毛片不卡| 国产精品一区二区不卡的视频| 国产成人精品午夜视频'| 91香蕉国产亚洲一二三区| 欧美日韩在线国产| 日韩色图在线观看| 亚洲无码精品在线播放| 久久77777| 久草视频一区| 国产综合色在线视频播放线视| 手机永久AV在线播放| 色老头综合网| 99九九成人免费视频精品| 五月天在线网站| 精品国产一二三区| 国产精品无码一区二区桃花视频| 国内自拍久第一页| 91最新精品视频发布页| 亚洲系列中文字幕一区二区| 麻豆国产在线不卡一区二区| 国产福利在线免费观看| 婷婷午夜天| 99视频全部免费| 又爽又大又光又色的午夜视频|