999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識(shí)圖譜的醫(yī)療問(wèn)答系統(tǒng)設(shè)計(jì)及算法并行化

2023-03-15 09:15:20蔡宇翔王佳斌鄭天華
科技與創(chuàng)新 2023年5期

蔡宇翔,王佳斌,鄭天華

(華僑大學(xué)工學(xué)院,福建 泉州 362021)

隨著信息時(shí)代的繁榮發(fā)展,足不出戶的網(wǎng)絡(luò)問(wèn)診已經(jīng)成為了許多人的診療首選。但是,現(xiàn)如今的網(wǎng)絡(luò)問(wèn)診還存在著一些問(wèn)題,如大部分的網(wǎng)絡(luò)診療都是醫(yī)生利用業(yè)余時(shí)間作答,并不能保證回答的實(shí)時(shí)性等。針對(duì)這些問(wèn)題,本文設(shè)計(jì)了一個(gè)基于知識(shí)圖譜的醫(yī)療領(lǐng)域問(wèn)答系統(tǒng),并對(duì)其相關(guān)工作進(jìn)行了研究。

知識(shí)圖譜以<實(shí)體,關(guān)系,實(shí)體>的結(jié)構(gòu)來(lái)進(jìn)行表示,相較于傳統(tǒng)的關(guān)系模型,在知識(shí)表示與檢索方面具有十分明顯的優(yōu)勢(shì)[1]。醫(yī)學(xué)領(lǐng)域是知識(shí)圖譜使用最廣泛、最成功的領(lǐng)域之一,在診斷、預(yù)防等方面都可以發(fā)揮巨大的作用。任燕春等[2]構(gòu)建了一個(gè)新冠肺炎的知識(shí)圖譜,用于進(jìn)行新冠肺炎的智能問(wèn)答。知識(shí)圖譜作為一種新型的知識(shí)表示方式,為問(wèn)答系統(tǒng)提供了有力的數(shù)據(jù)支撐。

1 醫(yī)療知識(shí)圖譜的構(gòu)建

構(gòu)建知識(shí)圖譜方式有2 種,分為自頂向下與自底向上。而構(gòu)建封閉領(lǐng)域的知識(shí)圖譜一般采用自頂向下的方式[3]。主要步驟是知識(shí)的采集度、處理與存儲(chǔ)。

1.1 知識(shí)的采集與處理

醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)要求較高的專業(yè)性,所以經(jīng)過(guò)認(rèn)真的對(duì)比之后,本文使用爬蟲(chóng)技術(shù)對(duì)醫(yī)學(xué)類專業(yè)網(wǎng)站進(jìn)行知識(shí)的采集。這類數(shù)據(jù)屬于未經(jīng)處理過(guò)的非結(jié)構(gòu)化數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行清理。

通過(guò)使用python 中的urlib 模塊進(jìn)行網(wǎng)頁(yè)的爬取,并使用正則表達(dá)式對(duì)網(wǎng)頁(yè)數(shù)據(jù)中的網(wǎng)頁(yè)結(jié)構(gòu)等無(wú)關(guān)數(shù)據(jù)進(jìn)行過(guò)濾,再以<字段名:值>的鍵值對(duì)形式進(jìn)行存儲(chǔ)。其中鍵值對(duì)中的字段名是根據(jù)網(wǎng)頁(yè)數(shù)據(jù)的結(jié)構(gòu)提前設(shè)計(jì)好的關(guān)系類型與屬性類型。采集的每條數(shù)據(jù)以疾病實(shí)體為主體,采集疾病的屬性。共有7 種實(shí)體,分別為疾病、別名、癥狀、發(fā)病部位、科室、并發(fā)癥和藥品。共有6 種實(shí)體關(guān)系,分別為疾病實(shí)體與其他各個(gè)實(shí)體的關(guān)系。疾病實(shí)體共有8 種屬性,分別為發(fā)病人群、是否醫(yī)保、傳染性、檢查項(xiàng)目、治療方法、治療周期、治愈概率以及治療費(fèi)用。

1.2 知識(shí)的存儲(chǔ)

Neo4j 是使用最為廣泛的NoSQL 圖形數(shù)據(jù)庫(kù),Neo4j 的最基本單位是實(shí)體、關(guān)系和屬性,可以直觀地表示知識(shí)圖譜。在數(shù)據(jù)的查詢方面,Neo4j 的Cypher查詢語(yǔ)句簡(jiǎn)單易用、查詢效率高。將之前處理好的數(shù)據(jù)使用python 語(yǔ)言通過(guò)py2neo 接口導(dǎo)入Neo4j 數(shù)據(jù)庫(kù)中,以完成知識(shí)圖譜的存儲(chǔ)。

2 基于Spark 的問(wèn)句解析算法

Spark 是一種分布式計(jì)算框架,相比于基于磁盤(pán)的MapReduce,Spark 基于內(nèi)存,支持將需要重復(fù)使用的數(shù)據(jù)保存在內(nèi)存之中,不需要反復(fù)對(duì)磁盤(pán)進(jìn)行讀取、存儲(chǔ)操作,減少了數(shù)據(jù)加載耗時(shí),可以有效提高迭代計(jì)算的能力,保證了計(jì)算的實(shí)時(shí)性。RDD(Resilient Distributed Dataset,彈性分布式數(shù)據(jù)集)是Spark 的核心概念,是一種分布式的數(shù)據(jù)結(jié)構(gòu),主要使用它來(lái)進(jìn)行數(shù)據(jù)的分布式存儲(chǔ)與計(jì)算。

問(wèn)答系統(tǒng)通常有語(yǔ)義解析和模板匹配2 種方法,語(yǔ)義解析是將輸入的問(wèn)題轉(zhuǎn)換為讓知識(shí)庫(kù)可以讀懂的邏輯形式,再進(jìn)行查詢。模板匹配方法較為常用,通過(guò)實(shí)體抽取等自然語(yǔ)言處理技術(shù)將問(wèn)句轉(zhuǎn)化為三元組,與對(duì)應(yīng)的查詢語(yǔ)句模板進(jìn)行匹配,再使用知識(shí)圖譜進(jìn)行查詢[4]。對(duì)于用戶輸入的問(wèn)句,先進(jìn)行過(guò)濾停用詞等預(yù)處理,通過(guò)相似度計(jì)算來(lái)抽取問(wèn)句中的實(shí)體,再使用文本分類方法來(lái)進(jìn)行問(wèn)句的意圖識(shí)別,最后匹配到預(yù)先設(shè)置好的查詢模板中,在知識(shí)圖譜中搜索并返回答案。

2.1 基于Spark 的實(shí)體抽取算法

為了更好地抽取問(wèn)句中的實(shí)體,本文結(jié)合Spark計(jì)算框架,設(shè)計(jì)了基于相似度的實(shí)體匹配算法。Spark計(jì)算框架是基于內(nèi)存計(jì)算,極大地減小了磁盤(pán)IO 開(kāi)銷,可以大幅度提高處理效率。該算法利用相似度的計(jì)算,將問(wèn)句中的實(shí)體與醫(yī)療實(shí)體庫(kù)中的實(shí)體進(jìn)行匹配。相似度的計(jì)算主要使用最小編輯距離和詞向量的余弦相似度進(jìn)行度量。最小編輯距離是指將字符串A改寫(xiě)為字符串B 時(shí)至少需要多少次的編輯操作。單詞的插入、替換和刪除字符操作即為編輯操作。編輯距離的相似度計(jì)算公式為:

式(1)中:SED為字符串A 轉(zhuǎn)換為字符串B 需要經(jīng)過(guò)的編輯次數(shù);MAX(LA,LB)為字符串A 和B 中較長(zhǎng)的字符串的字符數(shù)。

該方法便于理解,易于實(shí)現(xiàn),同時(shí)也可以很好地在字符層面度量相似度。但是基于編輯距離的相似度計(jì)算方法對(duì)于2 個(gè)同義詞,例如“開(kāi)心”和“快樂(lè)”,并不會(huì)有很好的效果,所以在該方法的使用上結(jié)合Word2Ⅴec 詞向量。Word2Ⅴec 是MIKOLOⅤ提出的一種基于神經(jīng)網(wǎng)絡(luò)的概率模型[5],對(duì)比傳統(tǒng)的高維向量,可以簡(jiǎn)化計(jì)算,且不會(huì)引起維度災(zāi)難。

Word2Ⅴec 分為skip-gram 和CBOW 兩種方式,在本文的詞向量訓(xùn)練中使用的是skip-gram 模型。CBOW模型是通過(guò)前后的n個(gè)詞來(lái)預(yù)測(cè)中心詞出現(xiàn)的概率,而skip-gram 模型則是通過(guò)中心詞來(lái)預(yù)測(cè)前后的n個(gè)詞。詞向量的余弦值可以反映詞語(yǔ)在語(yǔ)義層面的相似度,計(jì)算公式為:

式(2)中:a、b為字符串A、B 的詞向量組;ai與bi為其中的第i個(gè)向量。

將最小編輯距離和詞向量的余弦相似度相加求平均,作為實(shí)體間的相似度。本文使用Spark ML 機(jī)器學(xué)習(xí)算法庫(kù)進(jìn)行Word2Ⅴec 詞向量的訓(xùn)練,并在Spark 上實(shí)現(xiàn)了相似度算法的并行化。

首先分別生成問(wèn)句實(shí)體與醫(yī)療實(shí)體庫(kù)中實(shí)體的Word2Ⅴec 詞向量的RDD,并將其進(jìn)行JOIN 操作,逐一計(jì)算相似度,進(jìn)行排序,最后輸出相似度最高的醫(yī)療實(shí)體。經(jīng)過(guò)測(cè)試,該方法相較于分別使用最小編輯距離與詞向量的余弦相似度,擁有更好的效果。

2.2 基于Spark 的意圖識(shí)別算法

對(duì)于用戶輸入的問(wèn)題,經(jīng)過(guò)實(shí)體抽取模塊后,還需要判斷問(wèn)句的意圖。本文設(shè)計(jì)了7 種問(wèn)句類型,通過(guò)意圖識(shí)別分類器將問(wèn)句匹配到相應(yīng)的問(wèn)句類型中。7種問(wèn)句類型包括查詢疾病、查詢癥狀、查詢治療方法、查詢檢查項(xiàng)目、查詢所屬科室、查詢治愈率以及查詢治愈周期。在分類任務(wù)常用的機(jī)器學(xué)習(xí)算法有支持向量機(jī)、樸素貝葉斯等。其中支持向量機(jī)具有健壯性好、正確率高等優(yōu)點(diǎn),被廣泛運(yùn)用在文本分類、語(yǔ)音識(shí)別等分類任務(wù)中[6]。因此,本文使用Spark ML 機(jī)器學(xué)習(xí)庫(kù)的支持向量機(jī)方法進(jìn)行分類,利用并行化技術(shù)提高計(jì)算效率。在得到問(wèn)句的實(shí)體信息與意圖后,使用提前設(shè)置好的模板,將問(wèn)句轉(zhuǎn)換為查詢語(yǔ)句,在Neo4j數(shù)據(jù)庫(kù)中進(jìn)行查詢,得到答案。

3 問(wèn)答系統(tǒng)測(cè)試

3.1 問(wèn)答系統(tǒng)的測(cè)試與結(jié)果分析

本文使用精確率、召回率和F1 值作為評(píng)價(jià)指標(biāo)。這些也是自然語(yǔ)言處理任務(wù)中被廣泛運(yùn)用的指標(biāo)。

在實(shí)體抽取中,在中文醫(yī)學(xué)問(wèn)答數(shù)據(jù)集cMedQA中任意選擇了300 條問(wèn)句,對(duì)其中的實(shí)體進(jìn)行手工標(biāo)注。分別對(duì)基于編輯距離、基于詞向量和兩者相結(jié)合的方法進(jìn)行對(duì)比測(cè)試,得到的結(jié)果如表1 所示。可以看出,兩種方法結(jié)合可以提高實(shí)體抽取算法的準(zhǔn)確度。

表1 實(shí)體抽取效果對(duì)比(單位:%)

對(duì)于意圖識(shí)別問(wèn)題,本文先使用Spark ML 庫(kù)中的Word2Ⅴec 詞向量工具將問(wèn)句轉(zhuǎn)化為向量形式,再訓(xùn)練分類器對(duì)其進(jìn)行分類。在中文醫(yī)學(xué)問(wèn)答數(shù)據(jù)集cMedQA 選擇了符合本文問(wèn)句類型的1 400 條問(wèn)句,其中每個(gè)類別為200 條,訓(xùn)練集與測(cè)試集比例為4∶1。對(duì)2 種算法分別進(jìn)行測(cè)試,結(jié)果如表2 所示。可以看出,支持向量機(jī)的F1 值要高于樸素貝葉斯,所以在意圖識(shí)別模塊中,本文使用支持向量機(jī)進(jìn)行分類。

表2 分類效果對(duì)比(單位:%)

3.2 問(wèn)答系統(tǒng)評(píng)估

為了驗(yàn)證本系統(tǒng)的效果,需要進(jìn)行問(wèn)答功能的測(cè)試。本文在中文醫(yī)學(xué)意圖數(shù)據(jù)集CMID 中選擇了300條適合該問(wèn)答系統(tǒng)回答范圍的問(wèn)句進(jìn)行測(cè)試。每次從數(shù)據(jù)集中隨機(jī)選擇100 條問(wèn)句進(jìn)行測(cè)試,共進(jìn)行3 組測(cè)試。在測(cè)試結(jié)果中,每組平均返回了83.3 個(gè)回答,其中74 個(gè)回答正確結(jié)果,得到了74%的準(zhǔn)確率與88.8%的精確率,說(shuō)明該系統(tǒng)具有一定的實(shí)用價(jià)值,可以回答一些簡(jiǎn)單的醫(yī)療問(wèn)題。

4 總結(jié)

本文通過(guò)知識(shí)采集、處理、存儲(chǔ)等步驟,構(gòu)建了一個(gè)專業(yè)的醫(yī)學(xué)類知識(shí)圖譜,并使用了結(jié)合編輯距離和詞向量的相似度算法進(jìn)行實(shí)體抽取,同時(shí)使用支持向量機(jī)分類器識(shí)別問(wèn)句的意圖。并結(jié)合Spark 分布式計(jì)算框架,實(shí)現(xiàn)問(wèn)句解析算法的并行化。但是該問(wèn)答系統(tǒng)還存在著一些缺陷,例如無(wú)法進(jìn)行復(fù)雜關(guān)系問(wèn)題的問(wèn)答以及知識(shí)圖譜的規(guī)模需要擴(kuò)大。

主站蜘蛛池模板: 国内自拍久第一页| 久久99国产视频| 久久久久亚洲AV成人网站软件| 国产一级视频在线观看网站| 国语少妇高潮| 91po国产在线精品免费观看| 91麻豆精品国产高清在线| 国产白浆一区二区三区视频在线| 国产爽爽视频| 午夜日韩久久影院| 毛片久久网站小视频| 国产91麻豆视频| 日本高清视频在线www色| 四虎精品国产AV二区| 五月婷婷激情四射| 萌白酱国产一区二区| 国产黄色视频综合| 99这里只有精品免费视频| 久热中文字幕在线观看| 亚洲人成色77777在线观看| 日本一本正道综合久久dvd | 亚洲欧美在线看片AI| 欧美中文字幕一区| 国产乱人免费视频| 国产精品吹潮在线观看中文| 欧美成人亚洲综合精品欧美激情| 国产成人精品18| 亚洲国产精品久久久久秋霞影院| 日本亚洲欧美在线| 综合色婷婷| 麻豆国产原创视频在线播放| 无码中文字幕乱码免费2| 国产 日韩 欧美 第二页| 欧美一级一级做性视频| 伊人久久精品无码麻豆精品| 精品久久国产综合精麻豆| 日韩黄色精品| 天堂网国产| 日本午夜影院| 欧美日韩在线第一页| 日本午夜影院| 丰满人妻一区二区三区视频| 色有码无码视频| 日韩毛片免费视频| 伊人久久福利中文字幕| 精品第一国产综合精品Aⅴ| 亚洲狼网站狼狼鲁亚洲下载| 国产精品黄色片| 久久婷婷六月| 国产91全国探花系列在线播放| 精品久久综合1区2区3区激情| 国产极品美女在线| 丁香婷婷激情网| 国产人碰人摸人爱免费视频| 国产福利影院在线观看| 欧美成一级| www.亚洲天堂| 日韩欧美网址| 亚洲午夜福利精品无码| 色综合久久88| 日韩av电影一区二区三区四区 | 亚洲精品男人天堂| 九色视频一区| 这里只有精品在线| 国产精品成人免费视频99| 波多野结衣中文字幕一区二区| 国产精品久久久久久影院| 国产va在线观看| 国产精品自拍合集| 狠狠色丁婷婷综合久久| 国产主播在线一区| av无码久久精品| 国产成人三级| 国产毛片久久国产| 亚洲第一页在线观看| 欧美精品v| 波多野结衣的av一区二区三区| 国产大片喷水在线在线视频| 国产精品人成在线播放| 动漫精品啪啪一区二区三区| 欧美日韩亚洲国产主播第一区| 尤物特级无码毛片免费|