999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識(shí)圖譜的醫(yī)療問(wèn)答系統(tǒng)設(shè)計(jì)及算法并行化

2023-03-15 09:15:20蔡宇翔王佳斌鄭天華
科技與創(chuàng)新 2023年5期

蔡宇翔,王佳斌,鄭天華

(華僑大學(xué)工學(xué)院,福建 泉州 362021)

隨著信息時(shí)代的繁榮發(fā)展,足不出戶的網(wǎng)絡(luò)問(wèn)診已經(jīng)成為了許多人的診療首選。但是,現(xiàn)如今的網(wǎng)絡(luò)問(wèn)診還存在著一些問(wèn)題,如大部分的網(wǎng)絡(luò)診療都是醫(yī)生利用業(yè)余時(shí)間作答,并不能保證回答的實(shí)時(shí)性等。針對(duì)這些問(wèn)題,本文設(shè)計(jì)了一個(gè)基于知識(shí)圖譜的醫(yī)療領(lǐng)域問(wèn)答系統(tǒng),并對(duì)其相關(guān)工作進(jìn)行了研究。

知識(shí)圖譜以<實(shí)體,關(guān)系,實(shí)體>的結(jié)構(gòu)來(lái)進(jìn)行表示,相較于傳統(tǒng)的關(guān)系模型,在知識(shí)表示與檢索方面具有十分明顯的優(yōu)勢(shì)[1]。醫(yī)學(xué)領(lǐng)域是知識(shí)圖譜使用最廣泛、最成功的領(lǐng)域之一,在診斷、預(yù)防等方面都可以發(fā)揮巨大的作用。任燕春等[2]構(gòu)建了一個(gè)新冠肺炎的知識(shí)圖譜,用于進(jìn)行新冠肺炎的智能問(wèn)答。知識(shí)圖譜作為一種新型的知識(shí)表示方式,為問(wèn)答系統(tǒng)提供了有力的數(shù)據(jù)支撐。

1 醫(yī)療知識(shí)圖譜的構(gòu)建

構(gòu)建知識(shí)圖譜方式有2 種,分為自頂向下與自底向上。而構(gòu)建封閉領(lǐng)域的知識(shí)圖譜一般采用自頂向下的方式[3]。主要步驟是知識(shí)的采集度、處理與存儲(chǔ)。

1.1 知識(shí)的采集與處理

醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)要求較高的專業(yè)性,所以經(jīng)過(guò)認(rèn)真的對(duì)比之后,本文使用爬蟲(chóng)技術(shù)對(duì)醫(yī)學(xué)類專業(yè)網(wǎng)站進(jìn)行知識(shí)的采集。這類數(shù)據(jù)屬于未經(jīng)處理過(guò)的非結(jié)構(gòu)化數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行清理。

通過(guò)使用python 中的urlib 模塊進(jìn)行網(wǎng)頁(yè)的爬取,并使用正則表達(dá)式對(duì)網(wǎng)頁(yè)數(shù)據(jù)中的網(wǎng)頁(yè)結(jié)構(gòu)等無(wú)關(guān)數(shù)據(jù)進(jìn)行過(guò)濾,再以<字段名:值>的鍵值對(duì)形式進(jìn)行存儲(chǔ)。其中鍵值對(duì)中的字段名是根據(jù)網(wǎng)頁(yè)數(shù)據(jù)的結(jié)構(gòu)提前設(shè)計(jì)好的關(guān)系類型與屬性類型。采集的每條數(shù)據(jù)以疾病實(shí)體為主體,采集疾病的屬性。共有7 種實(shí)體,分別為疾病、別名、癥狀、發(fā)病部位、科室、并發(fā)癥和藥品。共有6 種實(shí)體關(guān)系,分別為疾病實(shí)體與其他各個(gè)實(shí)體的關(guān)系。疾病實(shí)體共有8 種屬性,分別為發(fā)病人群、是否醫(yī)保、傳染性、檢查項(xiàng)目、治療方法、治療周期、治愈概率以及治療費(fèi)用。

1.2 知識(shí)的存儲(chǔ)

Neo4j 是使用最為廣泛的NoSQL 圖形數(shù)據(jù)庫(kù),Neo4j 的最基本單位是實(shí)體、關(guān)系和屬性,可以直觀地表示知識(shí)圖譜。在數(shù)據(jù)的查詢方面,Neo4j 的Cypher查詢語(yǔ)句簡(jiǎn)單易用、查詢效率高。將之前處理好的數(shù)據(jù)使用python 語(yǔ)言通過(guò)py2neo 接口導(dǎo)入Neo4j 數(shù)據(jù)庫(kù)中,以完成知識(shí)圖譜的存儲(chǔ)。

2 基于Spark 的問(wèn)句解析算法

Spark 是一種分布式計(jì)算框架,相比于基于磁盤(pán)的MapReduce,Spark 基于內(nèi)存,支持將需要重復(fù)使用的數(shù)據(jù)保存在內(nèi)存之中,不需要反復(fù)對(duì)磁盤(pán)進(jìn)行讀取、存儲(chǔ)操作,減少了數(shù)據(jù)加載耗時(shí),可以有效提高迭代計(jì)算的能力,保證了計(jì)算的實(shí)時(shí)性。RDD(Resilient Distributed Dataset,彈性分布式數(shù)據(jù)集)是Spark 的核心概念,是一種分布式的數(shù)據(jù)結(jié)構(gòu),主要使用它來(lái)進(jìn)行數(shù)據(jù)的分布式存儲(chǔ)與計(jì)算。

問(wèn)答系統(tǒng)通常有語(yǔ)義解析和模板匹配2 種方法,語(yǔ)義解析是將輸入的問(wèn)題轉(zhuǎn)換為讓知識(shí)庫(kù)可以讀懂的邏輯形式,再進(jìn)行查詢。模板匹配方法較為常用,通過(guò)實(shí)體抽取等自然語(yǔ)言處理技術(shù)將問(wèn)句轉(zhuǎn)化為三元組,與對(duì)應(yīng)的查詢語(yǔ)句模板進(jìn)行匹配,再使用知識(shí)圖譜進(jìn)行查詢[4]。對(duì)于用戶輸入的問(wèn)句,先進(jìn)行過(guò)濾停用詞等預(yù)處理,通過(guò)相似度計(jì)算來(lái)抽取問(wèn)句中的實(shí)體,再使用文本分類方法來(lái)進(jìn)行問(wèn)句的意圖識(shí)別,最后匹配到預(yù)先設(shè)置好的查詢模板中,在知識(shí)圖譜中搜索并返回答案。

2.1 基于Spark 的實(shí)體抽取算法

為了更好地抽取問(wèn)句中的實(shí)體,本文結(jié)合Spark計(jì)算框架,設(shè)計(jì)了基于相似度的實(shí)體匹配算法。Spark計(jì)算框架是基于內(nèi)存計(jì)算,極大地減小了磁盤(pán)IO 開(kāi)銷,可以大幅度提高處理效率。該算法利用相似度的計(jì)算,將問(wèn)句中的實(shí)體與醫(yī)療實(shí)體庫(kù)中的實(shí)體進(jìn)行匹配。相似度的計(jì)算主要使用最小編輯距離和詞向量的余弦相似度進(jìn)行度量。最小編輯距離是指將字符串A改寫(xiě)為字符串B 時(shí)至少需要多少次的編輯操作。單詞的插入、替換和刪除字符操作即為編輯操作。編輯距離的相似度計(jì)算公式為:

式(1)中:SED為字符串A 轉(zhuǎn)換為字符串B 需要經(jīng)過(guò)的編輯次數(shù);MAX(LA,LB)為字符串A 和B 中較長(zhǎng)的字符串的字符數(shù)。

該方法便于理解,易于實(shí)現(xiàn),同時(shí)也可以很好地在字符層面度量相似度。但是基于編輯距離的相似度計(jì)算方法對(duì)于2 個(gè)同義詞,例如“開(kāi)心”和“快樂(lè)”,并不會(huì)有很好的效果,所以在該方法的使用上結(jié)合Word2Ⅴec 詞向量。Word2Ⅴec 是MIKOLOⅤ提出的一種基于神經(jīng)網(wǎng)絡(luò)的概率模型[5],對(duì)比傳統(tǒng)的高維向量,可以簡(jiǎn)化計(jì)算,且不會(huì)引起維度災(zāi)難。

Word2Ⅴec 分為skip-gram 和CBOW 兩種方式,在本文的詞向量訓(xùn)練中使用的是skip-gram 模型。CBOW模型是通過(guò)前后的n個(gè)詞來(lái)預(yù)測(cè)中心詞出現(xiàn)的概率,而skip-gram 模型則是通過(guò)中心詞來(lái)預(yù)測(cè)前后的n個(gè)詞。詞向量的余弦值可以反映詞語(yǔ)在語(yǔ)義層面的相似度,計(jì)算公式為:

式(2)中:a、b為字符串A、B 的詞向量組;ai與bi為其中的第i個(gè)向量。

將最小編輯距離和詞向量的余弦相似度相加求平均,作為實(shí)體間的相似度。本文使用Spark ML 機(jī)器學(xué)習(xí)算法庫(kù)進(jìn)行Word2Ⅴec 詞向量的訓(xùn)練,并在Spark 上實(shí)現(xiàn)了相似度算法的并行化。

首先分別生成問(wèn)句實(shí)體與醫(yī)療實(shí)體庫(kù)中實(shí)體的Word2Ⅴec 詞向量的RDD,并將其進(jìn)行JOIN 操作,逐一計(jì)算相似度,進(jìn)行排序,最后輸出相似度最高的醫(yī)療實(shí)體。經(jīng)過(guò)測(cè)試,該方法相較于分別使用最小編輯距離與詞向量的余弦相似度,擁有更好的效果。

2.2 基于Spark 的意圖識(shí)別算法

對(duì)于用戶輸入的問(wèn)題,經(jīng)過(guò)實(shí)體抽取模塊后,還需要判斷問(wèn)句的意圖。本文設(shè)計(jì)了7 種問(wèn)句類型,通過(guò)意圖識(shí)別分類器將問(wèn)句匹配到相應(yīng)的問(wèn)句類型中。7種問(wèn)句類型包括查詢疾病、查詢癥狀、查詢治療方法、查詢檢查項(xiàng)目、查詢所屬科室、查詢治愈率以及查詢治愈周期。在分類任務(wù)常用的機(jī)器學(xué)習(xí)算法有支持向量機(jī)、樸素貝葉斯等。其中支持向量機(jī)具有健壯性好、正確率高等優(yōu)點(diǎn),被廣泛運(yùn)用在文本分類、語(yǔ)音識(shí)別等分類任務(wù)中[6]。因此,本文使用Spark ML 機(jī)器學(xué)習(xí)庫(kù)的支持向量機(jī)方法進(jìn)行分類,利用并行化技術(shù)提高計(jì)算效率。在得到問(wèn)句的實(shí)體信息與意圖后,使用提前設(shè)置好的模板,將問(wèn)句轉(zhuǎn)換為查詢語(yǔ)句,在Neo4j數(shù)據(jù)庫(kù)中進(jìn)行查詢,得到答案。

3 問(wèn)答系統(tǒng)測(cè)試

3.1 問(wèn)答系統(tǒng)的測(cè)試與結(jié)果分析

本文使用精確率、召回率和F1 值作為評(píng)價(jià)指標(biāo)。這些也是自然語(yǔ)言處理任務(wù)中被廣泛運(yùn)用的指標(biāo)。

在實(shí)體抽取中,在中文醫(yī)學(xué)問(wèn)答數(shù)據(jù)集cMedQA中任意選擇了300 條問(wèn)句,對(duì)其中的實(shí)體進(jìn)行手工標(biāo)注。分別對(duì)基于編輯距離、基于詞向量和兩者相結(jié)合的方法進(jìn)行對(duì)比測(cè)試,得到的結(jié)果如表1 所示。可以看出,兩種方法結(jié)合可以提高實(shí)體抽取算法的準(zhǔn)確度。

表1 實(shí)體抽取效果對(duì)比(單位:%)

對(duì)于意圖識(shí)別問(wèn)題,本文先使用Spark ML 庫(kù)中的Word2Ⅴec 詞向量工具將問(wèn)句轉(zhuǎn)化為向量形式,再訓(xùn)練分類器對(duì)其進(jìn)行分類。在中文醫(yī)學(xué)問(wèn)答數(shù)據(jù)集cMedQA 選擇了符合本文問(wèn)句類型的1 400 條問(wèn)句,其中每個(gè)類別為200 條,訓(xùn)練集與測(cè)試集比例為4∶1。對(duì)2 種算法分別進(jìn)行測(cè)試,結(jié)果如表2 所示。可以看出,支持向量機(jī)的F1 值要高于樸素貝葉斯,所以在意圖識(shí)別模塊中,本文使用支持向量機(jī)進(jìn)行分類。

表2 分類效果對(duì)比(單位:%)

3.2 問(wèn)答系統(tǒng)評(píng)估

為了驗(yàn)證本系統(tǒng)的效果,需要進(jìn)行問(wèn)答功能的測(cè)試。本文在中文醫(yī)學(xué)意圖數(shù)據(jù)集CMID 中選擇了300條適合該問(wèn)答系統(tǒng)回答范圍的問(wèn)句進(jìn)行測(cè)試。每次從數(shù)據(jù)集中隨機(jī)選擇100 條問(wèn)句進(jìn)行測(cè)試,共進(jìn)行3 組測(cè)試。在測(cè)試結(jié)果中,每組平均返回了83.3 個(gè)回答,其中74 個(gè)回答正確結(jié)果,得到了74%的準(zhǔn)確率與88.8%的精確率,說(shuō)明該系統(tǒng)具有一定的實(shí)用價(jià)值,可以回答一些簡(jiǎn)單的醫(yī)療問(wèn)題。

4 總結(jié)

本文通過(guò)知識(shí)采集、處理、存儲(chǔ)等步驟,構(gòu)建了一個(gè)專業(yè)的醫(yī)學(xué)類知識(shí)圖譜,并使用了結(jié)合編輯距離和詞向量的相似度算法進(jìn)行實(shí)體抽取,同時(shí)使用支持向量機(jī)分類器識(shí)別問(wèn)句的意圖。并結(jié)合Spark 分布式計(jì)算框架,實(shí)現(xiàn)問(wèn)句解析算法的并行化。但是該問(wèn)答系統(tǒng)還存在著一些缺陷,例如無(wú)法進(jìn)行復(fù)雜關(guān)系問(wèn)題的問(wèn)答以及知識(shí)圖譜的規(guī)模需要擴(kuò)大。

主站蜘蛛池模板: 亚洲a免费| 国产精品妖精视频| 国产精品毛片一区| 久久这里只精品国产99热8| 亚洲AV色香蕉一区二区| h网站在线播放| 久久精品无码一区二区日韩免费| 四虎国产永久在线观看| 毛片最新网址| 国产91成人| av天堂最新版在线| 亚洲天堂视频在线播放| 国产h视频在线观看视频| 国产成人a毛片在线| 亚洲 欧美 中文 AⅤ在线视频| 国产高清在线观看91精品| 亚洲中文字幕在线观看| 久久一级电影| 中国黄色一级视频| 日本国产精品一区久久久| 久久婷婷五月综合97色| 免费精品一区二区h| 丰满少妇αⅴ无码区| 午夜激情婷婷| 中文字幕亚洲无线码一区女同| 狠狠操夜夜爽| 免费人成黄页在线观看国产| 亚洲不卡av中文在线| 久久久无码人妻精品无码| 久久午夜夜伦鲁鲁片不卡| 真实国产精品vr专区| 久久国产乱子| 女人毛片a级大学毛片免费| 亚洲色图综合在线| 综合色88| 欧美国产菊爆免费观看| 国产高清毛片| 欧美成一级| 欧美一区国产| 国产成人精品亚洲77美色| 91精品免费高清在线| 色综合久久88| 欧美日韩中文国产| 一级毛片免费不卡在线| 国产69精品久久久久孕妇大杂乱 | 日韩中文字幕免费在线观看| 国产真实乱子伦精品视手机观看| 青青青伊人色综合久久| 久久夜色精品| 免费人成又黄又爽的视频网站| 最新国产精品鲁鲁免费视频| 性喷潮久久久久久久久| 亚洲一区网站| 在线日韩一区二区| 91最新精品视频发布页| 综合天天色| 人人妻人人澡人人爽欧美一区 | 亚洲第一区在线| 亚洲综合精品第一页| 亚洲精品桃花岛av在线| 亚洲美女视频一区| 国产91成人| 四虎永久在线视频| 人妻丰满熟妇啪啪| 国产99在线| 92午夜福利影院一区二区三区| 直接黄91麻豆网站| 亚洲天堂日韩av电影| 免费国产福利| 最新日韩AV网址在线观看| 欧美另类视频一区二区三区| 亚洲综合欧美在线一区在线播放| 亚洲天堂视频网站| 一级毛片中文字幕| 香蕉在线视频网站| 亚洲无线视频| 欧洲精品视频在线观看| 免费无码AV片在线观看中文| 欧美日韩国产精品综合| 久久久久亚洲精品成人网| 亚洲欧美国产视频| 亚洲国产成人麻豆精品|