嵌入知識語義的醫(yī)療領域?qū)υ捪到y(tǒng)

2023-12-20 02:27:18呂學強穆天楊李寶安游新冬

計算機工程與設計 2023年12期

呂學強，張劍，穆天楊，李寶安，游新冬

(北京信息科技大學網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室，北京 100101)

0 引言

智能人機交互系統(tǒng)可以對話系統(tǒng)的方式實現(xiàn)[1]。對話系統(tǒng)的類別按照輸入數(shù)據(jù)可分為基于機器視覺的對話、基于知識圖譜的對話和推理型對話等不同類型的對話系統(tǒng)[2]。

按照對話系統(tǒng)的功能類型，目前的對話系統(tǒng)可以分成兩類。第一類是面向任務的對話系統(tǒng)[3]，第二類是非面向任務的對話系統(tǒng)。面向任務的對話系統(tǒng)旨在幫助用戶完成某些特定場景下的對話任務，如京東的售前售后咨詢等[4]。非面向任務的對話系統(tǒng)大部分都是給用戶提供閑聊服務，如微軟中國團隊推出的娛樂聊天機器人小冰[5]。小冰是一個基于搜索的回復檢索系統(tǒng)，她通過融合各種基于深度學習的語義匹配算法，從海量語料中返回最佳回復。

知識圖譜是一種新型的知識語義存儲方式，將帶有聯(lián)系的信息使用三元組(實體，關系，實體)的方式進行存儲。作為一個常識庫，知識圖譜對對話系統(tǒng)有著很好的指導作用。為將知識語義的圖譜信息融入對話系統(tǒng)，本文使用TransE方法將圖譜信息進行編碼，使用深度學習模型分析多輪對話中的信息，并在編碼好的知識圖譜中進行搜索。

1 相關工作

近幾年對話系統(tǒng)發(fā)展迅速，眾多學者提出提高對話系統(tǒng)效果的模型方法。早期的知識庫對話系統(tǒng)是基于檢索與匹配的，Junyu Lu等[6]通過加入時序和空間上的特征，解決對話系統(tǒng)中回復句子的選擇問題。方法分兩步，第一步是通過軟對齊獲取上下文和回復之間的關聯(lián)信息；第二步是在時間維度聚合注意力的映像，并用3D卷積和池化來抽取匹配信息。也有部分學者將文檔信息應用到多輪對話。Zekang Li等[7]提出在有文檔背景信息的多輪對話中基于Transformer的對話生成模型。該任務需要解決的問題有兩個：一是需要挖掘文檔中和對話相關的部分；二是將多輪對話的語句和文檔缺點及在中文語料下的表現(xiàn)進行改進，提出基于注意力和跨步融合機制與HRED模型結合的方案。王孟宇等[8]對HRED模型的實驗結果表明，該方案取得了較大的性能提升。隨著知識圖譜技術的快速發(fā)展與預訓練模型的廣泛應用，張家培等[9]提出一種基于BERT的對話狀態(tài)跟蹤算法Q2SM(query to state model)。該模型的上游使用基于BERT的句子表征與相似度交互的槽判定模塊，下游使用一種面向?qū)υ挔顟B(tài)跟蹤任務的自定義RNN：DST-RNN。

進入大數(shù)據(jù)時代之后，基于知識圖譜的問答系統(tǒng)[10]已經(jīng)成為一種訪問大型知識圖譜的流行方式。如何根據(jù)知識圖譜在領域不可知的前提下保證對話系統(tǒng)的參與性和有效性是一個很重要的問題。基于此，Moon S等[11]將一段對話模擬為知識圖譜上的路徑(可能是多條)，以此使得對話系統(tǒng)具有可解釋性。該模型是根據(jù)當前對話、以前的所有對話和當前對話中的實體預測回答語句的實體，然后開放式對話系統(tǒng)便可以以該實體為核心組織對應的回復。Luyang Huang等[12]提出一種知識圖譜增強摘要生成框架和用于強化學習的多項選擇完形填空獎勵。該模型能夠從輸入文本中捕捉實體的局部特征和全局交互信息，從而生成高質(zhì)量的回復信息。在專業(yè)領域的對話系統(tǒng)研究方面，代文韜等[13]利用知識圖譜的信息，在保險領域上構建了專業(yè)的數(shù)據(jù)集，按照預處理、匹配、檢索、后處理、對話管理的順序進行保險領域?qū)I(yè)型對話系統(tǒng)的構建，且具有一定的推廣性和擴展性。

通過國內(nèi)外的相關工作進行分析可以發(fā)現(xiàn)，對于如何將知識圖譜信息應用到對話系統(tǒng)中依舊處于起步階段。各種添加圖譜信息的方法還不夠成熟，仍有著較大的發(fā)展空間。

2 模型與方法

本文整體的模型架構如圖1所示，整個模型分為5個部分，分別是圖嵌入、預訓練、BERT(Bidirectional Encoder Representations for Transformers)&GPT2(Gene-rative Pre-Training2)、BiLSTM(Bi-directional Long-short Memory neural network)+Attention、OutPut。其中圖嵌入是將知識圖譜進行向量化的表示，然后使用BERT[14]或者GPT2[15]加上BiLSTM[16]以及Attention[17]進行關鍵信息的提取生成，最后由OutPut模塊聯(lián)合。

圖1 模型結構

先前建立好的圖嵌入模型進行對話的答案生成。為了對比BERT模型和GPT2模型在我們的模塊流程中的效果，分別使用這兩個預訓練模型進行了訓練。

2.1 圖嵌入知識表示模型

圖嵌入是表示學習的一種，模型的基本想法是想要使得頭實體向量表示h與關系的向量表示r之和與尾實體的向量表示t盡量接近，即h+r≈t。本方法中選用TransE模型是因為此圖譜編碼方法實現(xiàn)簡單且大部分的圖嵌入方法都是基于此思想演變而來，而且經(jīng)過測試TransE模型足夠解決本文問題。訓練過程為首先確定訓練集、超參數(shù)、學習率，歸一化所有的初始化向量，在進入循環(huán)時采用minibatch加快訓練速度，并對每批進行負采樣，同時初始化T_batch為一個空列表，然后向T_batch中添加由元組對組成層的列表T_batch=[([h，r，t]，[h，r，t])，([])，…]。拿到T_batch后進行訓練，采用梯度下降進行調(diào)參。其中在初始化向量的時候我們選擇了BERT模型，用BERT-base-chinese進行向量初始化。

2.2 BERT模型輸入模塊

在BERT中，模型使用Transformer[18]模型來實現(xiàn)上下文全向預測。本文提出的方法將對話的話輪信息以及當前對話信息拼接后輸入到BERT模型中去，經(jīng)由BERT模型的輸出提取出關鍵信息并傳遞到雙向LSTM模型中。處理對話信息的輸入時，我們首先將之前的話輪信息以及當前的對話拼接后輸入到BERT模型中去。對于過長的對話信息，將之前的對話歷史進行截取，保證不會超過BERT模型對于輸入長度的要求。整個模型的輸入是字符集的。

對于一個輸入序列X=(x1，x2，x3，…，xn) 來說，在對話信息的開始部分添加[CLS]標記，在每一輪對話的結尾處添加[SEP]標記。對于超過BERT輸入要求的對話信息，我們從后到前截取了不超過512的最長話輪。對過短的數(shù)據(jù)進行補0操作，從而保證輸入數(shù)據(jù)長度一致。BERT模型如圖2所示。

圖2 BERT模型

2.3 GPT2模型輸入模塊

GPT是“Generative Pre-Training”的簡稱，第一個階段是利用語言模型進行預訓練，第二階段通過Fine-tuning的模式解決下游任務。這樣的模型結構相較于BERT在生成形式的任務上有著更好的表現(xiàn)效果。GPT2模型是GPT的改進版，訓練過程中使用了更多的訓練數(shù)據(jù)并且有了更多的模型參數(shù)，所以我們在預訓練模型上選擇GPT2模型。本文提出的方法將對話的話輪信息以及當前對話信息拼接后輸入到GPT2模型中去，經(jīng)由GPT2模型的輸出提取出關鍵信息并傳遞到雙向LSTM模型中。在輸入方面依舊是字符集的數(shù)據(jù)，我們對數(shù)據(jù)的處理與BERT的輸入相同，同樣是一個輸入序列X=(x1，x2，x3，…，xn)。并對過長的輸入數(shù)據(jù)進行截取操作，對過短的數(shù)據(jù)進行補0操作，從而保證輸入數(shù)據(jù)長度一致。

2.4 BiLSTM轉(zhuǎn)換模塊

雙向長短記憶神經(jīng)網(wǎng)絡——通常稱作BiLSTM，是一種特殊的RNN，能夠?qū)W習長的依賴關系。他們由Hochreiter&Schmidhuber提出，并被許多人進行了改進和普及。在本文提出的模型結構中，將BERT或者GPT2的輸出傳遞給BiLSTM模塊，在BiLSTM模型結構中捕捉話輪的重要信息，然后傳遞給Attention結構進行最后的向量轉(zhuǎn)換。BiLSTM模型結構如圖3所示。

圖3 BiLSTM模型結構

2.5 Attention轉(zhuǎn)換模塊

我們在模型中應用Attention結構能夠更好捕捉問題和話論中的關鍵信息，能夠較為準確的在預先訓練好的TransE模型中搜索到回復信息。Attention結構的輸出是兩個向量，這兩個向量就對應了知識嵌入中一個實體和一個關系。Attention結構如圖4所示。

圖4 Attention結構

2.6 Output模塊

對于整個模型的輸出，我們的模型從知識嵌入中去搜索答案，因為經(jīng)過了Attention結構的轉(zhuǎn)換，用兩個輸出向量相加的結果去知識嵌入中搜索答案。在這一部分中，我們使用曼哈頓空間距離算法作為度量標準。最接近的空間距離是預測實體。曼哈頓空間距離的計算公式如下

(1)

式中：x和y是兩個實體向量，xi和yi是向量中的值，c是兩個向量的曼哈頓空間距離。該公式預測的實體是對話模型的最終輸出。

3 實驗

3.1 實驗數(shù)據(jù)以及測評指標

本文的實驗數(shù)據(jù)選用公開的MIE[18]醫(yī)療對話數(shù)據(jù)集，我們添加了自己的醫(yī)療圖譜數(shù)據(jù)，豐富其數(shù)據(jù)內(nèi)容。在表1中列出了幾個簡單的對話數(shù)據(jù)樣例。話輪信息為當前的對話信息，標簽中的內(nèi)容為對話信息中提到的相關實體關系等。醫(yī)療圖譜信息來源于之前的項目，我們從39健康網(wǎng)，快速問醫(yī)生等醫(yī)療網(wǎng)站上爬取了結構化數(shù)據(jù)，并通過人工校驗的方式對其中不同命名方式的相同實體進行合并。在表2中列出了添加的圖譜中檢驗指標、疾病和癥狀3類實體的具體數(shù)目。為了驗證訓練之后TransE模型的搜索效果，本文中使用Mean rank和Hit@10兩個評價指標。

Mean rank：首先對于每個測試三元組，以預測尾實體為例，將 (h，r，t) 實體-關系-實體三元組中的t用知識圖譜中的每個實體來代替，然后通過f(h，t) 函數(shù)來計算分數(shù)，這樣我們可以得到一系列的分數(shù)，之后按照升序?qū)⑦@些分數(shù)排列。從而得到一個正確實體的排列得分，最終的Mean rank越小則證明TransE模型的效果越好。

Hit@10：對應于上面的方法，對于每一組測試數(shù)據(jù)中的 (h，r，t) 關系三元組，查看正確的結果是否在搜索到結果的前十中，如果在，則計數(shù)加一，排在前十的個數(shù)/總個數(shù)就是Hit@10，如式(2)所示

表1 對話數(shù)據(jù)樣例

表2 圖譜信息統(tǒng)計

(2)

為了驗證本文提出的對話方法的有效性將F1值、準確率(P)和召回率(R)作為驗證的評價標準。如式(3)～式(5)所示

(3)

(4)

(5)

3.2 實驗環(huán)境

通過實驗可以發(fā)現(xiàn)，實驗環(huán)境及模型參數(shù)會對實驗結果造成影響，因此分別列舉出實驗環(huán)境和部分模型參數(shù)。本實驗采用的是深度學習中的tensorflow框架，以及pytorch框架。具體實驗環(huán)境見表3。

表3 訓練環(huán)境參數(shù)

在訓練模型的過程中通過調(diào)整預訓練模型的參數(shù)對整體的模型進行微調(diào)，最終效果最好的模型參數(shù)見表4。

表4 模型參數(shù)

3.3 實驗結果

3.3.1 TransE實驗結果

本文使用TransE模型對知識圖譜的數(shù)據(jù)進行訓練后得到了新的向量，每個向量代表一個實體或者是一個關系。為了驗證TransE的訓練效果，本文中對其進行了測試，使用了Mean rank和Hit@10兩個評價指標，具體的實驗結果見表5。

表5 TransE實驗結果

3.3.2 模型及對比實驗結果

本文在MIE醫(yī)療對話數(shù)據(jù)集上進行實驗，共進行了5組對比實驗：

實驗1：BiLSTM：使用BiLSTM進行意圖識別提取出問句中的實體和關系，然后在圖譜中進行檢索，這種是最簡單的對話模型。

實驗2：BiLSTM+Attention：使用BiLSTM+Attention進行意圖識別提取出問句中的實體和關系，然后在圖譜中進行檢索。在BiLSTM的基礎上添加了Attention操作，提高了回復的準確率。

實驗3：MIE：一個面向醫(yī)學對話的醫(yī)學信息抽取器，可以抽取出對話信息中的實體和關系再進行查詢。

實驗4：BERT+BiLSTM+Attention：使用BERT+BiLSTM+Attention進行意圖識別提取出多輪對話中的信息，然后在圖譜中進行檢索生成。

實驗5：GPT2+BiLSTM+Attention：使用GPT2+BiLSTM+Attention進行意圖識別提取出多輪對話中的信息，然后在圖譜中進行檢索生成。

具體的實驗結果見表6。

表6 對話模型實驗結果

3.4 結果分析

從表5可以看出，本文中使用的TransE模型的擁有較好的查詢效果。所有的數(shù)據(jù)信息都在前10條輸出結果中，即Hit@10的統(tǒng)計結果為1。這說明了訓練好的TransE模型能夠根據(jù)輸入的信息較為準確查詢到正確的目標實體。Mean rank評價指標的結果為2.227，這也說明了正確的目標實體在使用此模型的輸出中有著較高的優(yōu)先級，即正確目標實體的rank排序等級很高。使用TransE模型訓練得到的信息能夠滿足本文中模型的準確性要求。

對話模型的實驗結果見表6，首先對比實驗1和實驗2，實驗2在BiLSTM的基礎上加入了Attention的結構反而會使得模型的效果變差，Attention機制在BILSTM的輸出上給出了錯誤的信息。對比實驗1和實驗3，MIE模型能夠很較為準確的識別出對話中的話輪信息，然后在知識庫中進行查詢。在準確率、召回率以及F1值上面有顯著的提升，分別提高了28.75%、25.82%、25.59%。這說明簡單的模型結構不足以很好的支撐完整對話系統(tǒng)的實現(xiàn)任務。對比實驗3，實驗4和實驗5雖然在準確率上面有所下降但是在R和F1上面有了明顯的提高，分別提高了5.66%和1.92%。本文中的方法學習到了醫(yī)療領域?qū)υ捳Z義中的信息，因為答案的搜索對應于知識圖譜，所以擴大知識圖譜的規(guī)模就能提高回復信息的適用范圍。對比于實驗4和實驗5，兩個模型結構差異只是預訓練模型不同，BERT相對于GPT2分別有2.87%、2.3%和3.84%的提高，這表明了BERT模型在此任務中擁有更好的效果。

在圖5所示的實驗結果直方圖中，可以明顯的觀察到，模型3、模型4、模型5的效果相對于模型1、模型2的效果有著明顯的提高，傳統(tǒng)的序列生成模型不足以滿足對話系統(tǒng)的要求。從直方圖中觀察，模型3、模型4、模型5在整體效果上差異不大，以F1值為評價指標時，模型4的效果最好。

圖5 實驗結果直方圖

經(jīng)過上面的分析可得出結論，本文提出的模型方法相對于經(jīng)典的方法，有著更強的對話回復能力。在本文提出的模型中，BERT預訓練模型相比于GPT2有著更好的作用，能夠提高對話系統(tǒng)匹配到的搜索結果的F1值。

為了展示對話系統(tǒng)的效果，表7列舉了部分實驗樣例。從結果中可以看出實驗1在第一輪對話就出錯。而實驗2在第二輪出現(xiàn)錯誤。綜合幾個實驗結果可以看出實驗3、實驗4、實驗5的模型具有較好的效果。綜合之前的實驗結果可以得出實驗4和實驗5的方法能夠較為準確的在已有圖譜中搜索到相應的實體或者屬性。

4 結束語

本文提出的方法旨在提高多輪對話的表現(xiàn)效果，能夠應用知識圖譜的相關信息進行多輪對話。首先在MIE數(shù)據(jù)集上添加自己構建的知識圖譜信息，然后對比使用BERT和GPT2預訓練模型，模型的下層結構為BiLSTM和Attention，經(jīng)實驗驗證，我們提出的方法具有較好的效果，基本能夠滿足醫(yī)療領域?qū)υ捪到y(tǒng)的需求。在未來的研究中，會將知識圖譜的信息融入到模型的Embedding過程中，而不僅僅是使用在模型的回復搜索部分，此外預訓練模型的使用也可以在一定程上增強對話系統(tǒng)的效果。