基于知識(shí)圖譜的醫(yī)療問(wèn)答系統(tǒng)設(shè)計(jì)及算法并行化

2023-03-15 09:15:20蔡宇翔王佳斌鄭天華

科技與創(chuàng)新 2023年5期

蔡宇翔，王佳斌，鄭天華

（華僑大學(xué)工學(xué)院，福建泉州 362021）

隨著信息時(shí)代的繁榮發(fā)展，足不出戶的網(wǎng)絡(luò)問(wèn)診已經(jīng)成為了許多人的診療首選。但是，現(xiàn)如今的網(wǎng)絡(luò)問(wèn)診還存在著一些問(wèn)題，如大部分的網(wǎng)絡(luò)診療都是醫(yī)生利用業(yè)余時(shí)間作答，并不能保證回答的實(shí)時(shí)性等。針對(duì)這些問(wèn)題，本文設(shè)計(jì)了一個(gè)基于知識(shí)圖譜的醫(yī)療領(lǐng)域問(wèn)答系統(tǒng)，并對(duì)其相關(guān)工作進(jìn)行了研究。

知識(shí)圖譜以<實(shí)體，關(guān)系，實(shí)體>的結(jié)構(gòu)來(lái)進(jìn)行表示，相較于傳統(tǒng)的關(guān)系模型，在知識(shí)表示與檢索方面具有十分明顯的優(yōu)勢(shì)[1]。醫(yī)學(xué)領(lǐng)域是知識(shí)圖譜使用最廣泛、最成功的領(lǐng)域之一，在診斷、預(yù)防等方面都可以發(fā)揮巨大的作用。任燕春等[2]構(gòu)建了一個(gè)新冠肺炎的知識(shí)圖譜，用于進(jìn)行新冠肺炎的智能問(wèn)答。知識(shí)圖譜作為一種新型的知識(shí)表示方式，為問(wèn)答系統(tǒng)提供了有力的數(shù)據(jù)支撐。

1 醫(yī)療知識(shí)圖譜的構(gòu)建

構(gòu)建知識(shí)圖譜方式有2 種，分為自頂向下與自底向上。而構(gòu)建封閉領(lǐng)域的知識(shí)圖譜一般采用自頂向下的方式[3]。主要步驟是知識(shí)的采集度、處理與存儲(chǔ)。

1.1 知識(shí)的采集與處理

醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)要求較高的專業(yè)性，所以經(jīng)過(guò)認(rèn)真的對(duì)比之后，本文使用爬蟲(chóng)技術(shù)對(duì)醫(yī)學(xué)類專業(yè)網(wǎng)站進(jìn)行知識(shí)的采集。這類數(shù)據(jù)屬于未經(jīng)處理過(guò)的非結(jié)構(gòu)化數(shù)據(jù)，需要對(duì)數(shù)據(jù)進(jìn)行清理。

通過(guò)使用python 中的urlib 模塊進(jìn)行網(wǎng)頁(yè)的爬取，并使用正則表達(dá)式對(duì)網(wǎng)頁(yè)數(shù)據(jù)中的網(wǎng)頁(yè)結(jié)構(gòu)等無(wú)關(guān)數(shù)據(jù)進(jìn)行過(guò)濾，再以<字段名：值>的鍵值對(duì)形式進(jìn)行存儲(chǔ)。其中鍵值對(duì)中的字段名是根據(jù)網(wǎng)頁(yè)數(shù)據(jù)的結(jié)構(gòu)提前設(shè)計(jì)好的關(guān)系類型與屬性類型。采集的每條數(shù)據(jù)以疾病實(shí)體為主體，采集疾病的屬性。共有7 種實(shí)體，分別為疾病、別名、癥狀、發(fā)病部位、科室、并發(fā)癥和藥品。共有6 種實(shí)體關(guān)系，分別為疾病實(shí)體與其他各個(gè)實(shí)體的關(guān)系。疾病實(shí)體共有8 種屬性，分別為發(fā)病人群、是否醫(yī)保、傳染性、檢查項(xiàng)目、治療方法、治療周期、治愈概率以及治療費(fèi)用。

1.2 知識(shí)的存儲(chǔ)

Neo4j 是使用最為廣泛的NoSQL 圖形數(shù)據(jù)庫(kù)，Neo4j 的最基本單位是實(shí)體、關(guān)系和屬性，可以直觀地表示知識(shí)圖譜。在數(shù)據(jù)的查詢方面，Neo4j 的Cypher查詢語(yǔ)句簡(jiǎn)單易用、查詢效率高。將之前處理好的數(shù)據(jù)使用python 語(yǔ)言通過(guò)py2neo 接口導(dǎo)入Neo4j 數(shù)據(jù)庫(kù)中，以完成知識(shí)圖譜的存儲(chǔ)。

2 基于Spark 的問(wèn)句解析算法

Spark 是一種分布式計(jì)算框架，相比于基于磁盤(pán)的MapReduce，Spark 基于內(nèi)存，支持將需要重復(fù)使用的數(shù)據(jù)保存在內(nèi)存之中，不需要反復(fù)對(duì)磁盤(pán)進(jìn)行讀取、存儲(chǔ)操作，減少了數(shù)據(jù)加載耗時(shí)，可以有效提高迭代計(jì)算的能力，保證了計(jì)算的實(shí)時(shí)性。RDD（Resilient Distributed Dataset，彈性分布式數(shù)據(jù)集）是Spark 的核心概念，是一種分布式的數(shù)據(jù)結(jié)構(gòu)，主要使用它來(lái)進(jìn)行數(shù)據(jù)的分布式存儲(chǔ)與計(jì)算。

問(wèn)答系統(tǒng)通常有語(yǔ)義解析和模板匹配2 種方法，語(yǔ)義解析是將輸入的問(wèn)題轉(zhuǎn)換為讓知識(shí)庫(kù)可以讀懂的邏輯形式，再進(jìn)行查詢。模板匹配方法較為常用，通過(guò)實(shí)體抽取等自然語(yǔ)言處理技術(shù)將問(wèn)句轉(zhuǎn)化為三元組，與對(duì)應(yīng)的查詢語(yǔ)句模板進(jìn)行匹配，再使用知識(shí)圖譜進(jìn)行查詢[4]。對(duì)于用戶輸入的問(wèn)句，先進(jìn)行過(guò)濾停用詞等預(yù)處理，通過(guò)相似度計(jì)算來(lái)抽取問(wèn)句中的實(shí)體，再使用文本分類方法來(lái)進(jìn)行問(wèn)句的意圖識(shí)別，最后匹配到預(yù)先設(shè)置好的查詢模板中，在知識(shí)圖譜中搜索并返回答案。

2.1 基于Spark 的實(shí)體抽取算法

為了更好地抽取問(wèn)句中的實(shí)體，本文結(jié)合Spark計(jì)算框架，設(shè)計(jì)了基于相似度的實(shí)體匹配算法。Spark計(jì)算框架是基于內(nèi)存計(jì)算，極大地減小了磁盤(pán)IO 開(kāi)銷，可以大幅度提高處理效率。該算法利用相似度的計(jì)算，將問(wèn)句中的實(shí)體與醫(yī)療實(shí)體庫(kù)中的實(shí)體進(jìn)行匹配。相似度的計(jì)算主要使用最小編輯距離和詞向量的余弦相似度進(jìn)行度量。最小編輯距離是指將字符串A改寫(xiě)為字符串B 時(shí)至少需要多少次的編輯操作。單詞的插入、替換和刪除字符操作即為編輯操作。編輯距離的相似度計(jì)算公式為：

式（1）中：SED為字符串A 轉(zhuǎn)換為字符串B 需要經(jīng)過(guò)的編輯次數(shù)；MAX（LA，LB）為字符串A 和B 中較長(zhǎng)的字符串的字符數(shù)。

該方法便于理解，易于實(shí)現(xiàn)，同時(shí)也可以很好地在字符層面度量相似度。但是基于編輯距離的相似度計(jì)算方法對(duì)于2 個(gè)同義詞，例如“開(kāi)心”和“快樂(lè)”，并不會(huì)有很好的效果，所以在該方法的使用上結(jié)合Word2Ⅴec 詞向量。Word2Ⅴec 是MIKOLOⅤ提出的一種基于神經(jīng)網(wǎng)絡(luò)的概率模型[5]，對(duì)比傳統(tǒng)的高維向量，可以簡(jiǎn)化計(jì)算，且不會(huì)引起維度災(zāi)難。

Word2Ⅴec 分為skip-gram 和CBOW 兩種方式，在本文的詞向量訓(xùn)練中使用的是skip-gram 模型。CBOW模型是通過(guò)前后的n個(gè)詞來(lái)預(yù)測(cè)中心詞出現(xiàn)的概率，而skip-gram 模型則是通過(guò)中心詞來(lái)預(yù)測(cè)前后的n個(gè)詞。詞向量的余弦值可以反映詞語(yǔ)在語(yǔ)義層面的相似度，計(jì)算公式為：

式（2）中：a、b為字符串A、B 的詞向量組；ai與bi為其中的第i個(gè)向量。

將最小編輯距離和詞向量的余弦相似度相加求平均，作為實(shí)體間的相似度。本文使用Spark ML 機(jī)器學(xué)習(xí)算法庫(kù)進(jìn)行Word2Ⅴec 詞向量的訓(xùn)練，并在Spark 上實(shí)現(xiàn)了相似度算法的并行化。

首先分別生成問(wèn)句實(shí)體與醫(yī)療實(shí)體庫(kù)中實(shí)體的Word2Ⅴec 詞向量的RDD，并將其進(jìn)行JOIN 操作，逐一計(jì)算相似度，進(jìn)行排序，最后輸出相似度最高的醫(yī)療實(shí)體。經(jīng)過(guò)測(cè)試，該方法相較于分別使用最小編輯距離與詞向量的余弦相似度，擁有更好的效果。

2.2 基于Spark 的意圖識(shí)別算法

對(duì)于用戶輸入的問(wèn)題，經(jīng)過(guò)實(shí)體抽取模塊后，還需要判斷問(wèn)句的意圖。本文設(shè)計(jì)了7 種問(wèn)句類型，通過(guò)意圖識(shí)別分類器將問(wèn)句匹配到相應(yīng)的問(wèn)句類型中。7種問(wèn)句類型包括查詢疾病、查詢癥狀、查詢治療方法、查詢檢查項(xiàng)目、查詢所屬科室、查詢治愈率以及查詢治愈周期。在分類任務(wù)常用的機(jī)器學(xué)習(xí)算法有支持向量機(jī)、樸素貝葉斯等。其中支持向量機(jī)具有健壯性好、正確率高等優(yōu)點(diǎn)，被廣泛運(yùn)用在文本分類、語(yǔ)音識(shí)別等分類任務(wù)中[6]。因此，本文使用Spark ML 機(jī)器學(xué)習(xí)庫(kù)的支持向量機(jī)方法進(jìn)行分類，利用并行化技術(shù)提高計(jì)算效率。在得到問(wèn)句的實(shí)體信息與意圖后，使用提前設(shè)置好的模板，將問(wèn)句轉(zhuǎn)換為查詢語(yǔ)句，在Neo4j數(shù)據(jù)庫(kù)中進(jìn)行查詢，得到答案。

3 問(wèn)答系統(tǒng)測(cè)試

3.1 問(wèn)答系統(tǒng)的測(cè)試與結(jié)果分析

本文使用精確率、召回率和F1 值作為評(píng)價(jià)指標(biāo)。這些也是自然語(yǔ)言處理任務(wù)中被廣泛運(yùn)用的指標(biāo)。

在實(shí)體抽取中，在中文醫(yī)學(xué)問(wèn)答數(shù)據(jù)集cMedQA中任意選擇了300 條問(wèn)句，對(duì)其中的實(shí)體進(jìn)行手工標(biāo)注。分別對(duì)基于編輯距離、基于詞向量和兩者相結(jié)合的方法進(jìn)行對(duì)比測(cè)試，得到的結(jié)果如表1 所示。可以看出，兩種方法結(jié)合可以提高實(shí)體抽取算法的準(zhǔn)確度。

表1 實(shí)體抽取效果對(duì)比（單位：%）

對(duì)于意圖識(shí)別問(wèn)題，本文先使用Spark ML 庫(kù)中的Word2Ⅴec 詞向量工具將問(wèn)句轉(zhuǎn)化為向量形式，再訓(xùn)練分類器對(duì)其進(jìn)行分類。在中文醫(yī)學(xué)問(wèn)答數(shù)據(jù)集cMedQA 選擇了符合本文問(wèn)句類型的1 400 條問(wèn)句，其中每個(gè)類別為200 條，訓(xùn)練集與測(cè)試集比例為4∶1。對(duì)2 種算法分別進(jìn)行測(cè)試，結(jié)果如表2 所示。可以看出，支持向量機(jī)的F1 值要高于樸素貝葉斯，所以在意圖識(shí)別模塊中，本文使用支持向量機(jī)進(jìn)行分類。

表2 分類效果對(duì)比（單位：%）

3.2 問(wèn)答系統(tǒng)評(píng)估

為了驗(yàn)證本系統(tǒng)的效果，需要進(jìn)行問(wèn)答功能的測(cè)試。本文在中文醫(yī)學(xué)意圖數(shù)據(jù)集CMID 中選擇了300條適合該問(wèn)答系統(tǒng)回答范圍的問(wèn)句進(jìn)行測(cè)試。每次從數(shù)據(jù)集中隨機(jī)選擇100 條問(wèn)句進(jìn)行測(cè)試，共進(jìn)行3 組測(cè)試。在測(cè)試結(jié)果中，每組平均返回了83.3 個(gè)回答，其中74 個(gè)回答正確結(jié)果，得到了74%的準(zhǔn)確率與88.8%的精確率，說(shuō)明該系統(tǒng)具有一定的實(shí)用價(jià)值，可以回答一些簡(jiǎn)單的醫(yī)療問(wèn)題。

4 總結(jié)

本文通過(guò)知識(shí)采集、處理、存儲(chǔ)等步驟，構(gòu)建了一個(gè)專業(yè)的醫(yī)學(xué)類知識(shí)圖譜，并使用了結(jié)合編輯距離和詞向量的相似度算法進(jìn)行實(shí)體抽取，同時(shí)使用支持向量機(jī)分類器識(shí)別問(wèn)句的意圖。并結(jié)合Spark 分布式計(jì)算框架，實(shí)現(xiàn)問(wèn)句解析算法的并行化。但是該問(wèn)答系統(tǒng)還存在著一些缺陷，例如無(wú)法進(jìn)行復(fù)雜關(guān)系問(wèn)題的問(wèn)答以及知識(shí)圖譜的規(guī)模需要擴(kuò)大。

科技與創(chuàng)新2023年5期

科技與創(chuàng)新的其它文章: 中國(guó)新能源汽車產(chǎn)業(yè)發(fā)展問(wèn)題研究; PLC 在泵站自動(dòng)控制系統(tǒng)中的運(yùn)用; BIM 技術(shù)在建筑工程項(xiàng)目中的應(yīng)用研究; 新工科背景下電路類課程模塊化線上線下教學(xué)改革探究＊; 淺談區(qū)域自動(dòng)氣象站現(xiàn)場(chǎng)核查; 高揚(yáng)程電力提灌工程機(jī)電設(shè)備管理探析