999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合知識圖譜和語義匹配的醫療問答系統

2024-09-20 00:00:00徐若卿
現代電子技術 2024年8期
關鍵詞:語義模型系統

摘" 要: 問答系統是自然語言處理領域中的一項重要任務,常應用于醫療服務。傳統的問答系統通過知識圖譜的實體關系匹配返回相應的尾實體作為答案,然而,倘若實體或關系無法識別,又或者在知識圖譜中并不存在相應的實體關系,問答將無法繼續進行。為了解決這一問題,建立一種融合知識圖譜和語義匹配模型的中文醫療問答混合系統。當所提問題無法在知識圖譜中進行實體關系匹配時,該模型能繼續從問答對數據集中找到最相似的問題,并返回相應結果作為答案。在語義匹配模型方面,結合中文醫療相似問題對,在Sentence?BERT模型上進行微調訓練,并引入雙曲空間中的距離度量函數對句子對進行相似度度量。結果表明:在整體性能方面,所提模型相較于BERT這類大語言模型精度能提升7.16%;在度量能力方面,雙曲度量相較于通用歐氏空間度量,如余弦度量,最高能有2.28%的精度提升和1.58%的F1值提升。

關鍵詞: 醫療問答系統; 知識圖譜; 語義匹配; 問答對數據集; 相似問題對; 雙曲距離度量

中圖分類號: TN919.5?34" " " " " " " " " " " " " 文獻標識碼: A" " " " " " " " " " " "文章編號: 1004?373X(2024)08?0049?06

Medical question answering system integrating knowledge graph and semantic matching

XU Ruoqing

(College of Computer and Information, China Three Gorges University, Yichang 443000, China)

Abstract: Question answering system is an important task in the field of natural language processing, which is often used in medical service. The traditional question answering system can return the corresponding tail entity as the answer by means of the entity and relationship matching of the knowledge graph. However, if the entity or relationship is not recognized or there is no corresponding entity relationship in the knowledge graph, the question answering can not be continued. In order to solve this problem, a hybrid framework of Chinese medical question answering is proposed, which combines knowledge graph and semantic matching model. When the questions raised cannot be matched by the entity relationship in knowledge graph, the model can continue to find the most similar questions from the question answering on datasets and return corresponding results as answers. In terms of semantic matching models, combining Chinese medical similarity problems, fine?tuning training is conducted on the Sentence BERT model, and distance measurement functions in hyperbolic space are introduced to measure the sentence similarity. The results show that in terms of overall performance, the proposed model can improve accuracy by 7.16% compared to large language models like BERT. In terms of measurement ability, in combintion with the general Euclidean space metrics such as cosine metrics, hyperbolic metrics can achieve a maximum accuracy improvement of 2.28% and an F1 value improvement of 1.58%.

Keywords: question answering system; knowledge graph; semantic matching; question answering on dataset; similar problem pairs; hyperbolic distance metric

0" 引" 言

人工智能在提升醫療服務質量方面起著至關重要的作用,問答系統是其中較受歡迎的技術之一,它能夠幫助用戶實時獲取問題的解答[1]。問答系統由一個與患者和醫療從業者交互的界面組成,其能將問題進行語義化分類,從而準確直觀地提供一系列實時的問答反饋[2]。近年來,問答系統技術發展迅速,尤其是在醫療領域,各類問答系統方案被提出,典型應用包括幫助患者回答問題的醫療助理、引導患者前往合適服務部門的醫療服務前臺等。

基于傳統知識圖譜問答的主要方式是先對問題進行實體關系抽取,再從知識圖數據庫中進行對應尾部實體的檢索,以此返回相應答案。然而,該方式在實際的應用中依舊存在著一定局限,倘若實體關系未被成功抽取,或實體關系不在相應的圖數據庫中,那么系統將無法回答用戶所提問題。

為了解決上述問題,本文對新的問答系統框架進行了探索,當接收到用戶的問題,該模型會首先對問題進行實體關系抽取,在圖數據庫中進行尾實體檢索以獲取答案。如果無法識別出相應實體和關系,系統會繼續嘗試第二條路徑,其方式是通過一個已訓練好的語義相似度匹配模型,將用戶所提問題與大型問答對中的問題進行相似度匹配,從而將與用戶問題相關的回復返回給用戶[3]。傳統的語義匹配模塊使用結構相對簡易的記憶網絡模型,諸如MaLSTM[4],但其在中文數據集上訓練的效果較差;而傳統的BERT模型[5]雖然能顯著提高訓練效果,但準確率依舊不理想。本文針對具體任務,在Sentence?BERT模型[6]進行微調訓練,并采用新的雙曲度量[7]方式,使該任務性能得到優化,從而優化整個問答系統。

1" 相關工作

1.1" 問答系統

Cui等人設計了一套基于知識庫的問答系統[8],他提出自然語言問題可以被理解,并設計了一種新的問句表示方法,能使問題精確地映射到基于知識庫的結構化查詢中,然而該系統性能往往取決于模板的好壞。Huang等人提出了基于知識圖嵌入的問答系統[9],核心思想是:將每個謂詞、實體表示為一個低維向量,在KG嵌入空間中聯合恢復問題的核心實體、謂詞嵌入表示,通過聯合距離度量,計算所得向量在KG中最接近的事實并將其作為答案返回。然而該方法計算量較為龐大,準確性也較低。

1.2" 語義相似度判別模型

文獻[3]提出了一種基于ConvNet的卷積網絡變體,通過整合不同尺度下多個卷積之間的差異來推斷句子相似度,然而標記數據存在局限,限制了模型的性能。

Kiros等人通過在初始語料上訓練一個RNN編碼器來獲得句子向量,對于每個訓練樣本中出現的句子對,使用skip向量之間的差異和乘積的特征在數據集上訓練一個單獨的分類器進行語義判別,但是其中的語義屬性表現為間接表征,而非直接表征。

J. Mueller等人利用長短期記憶(Long Short?Term Memory, LSTM)網絡來計算兩個句子間的語義相似度[10],但LSTM無法從句中檢測出關鍵詞。

Bao等人提出分層BiLSTM?Attention模型來計算句子中的單詞權重,并將詞向量權重和作為句子表征,從而計算句子語義間的相似度,然而其難以捕獲細粒度特征[3]。

文獻[5]中提出了革命性語言模型BERT,其采用Transformer的雙向編碼器表示,通過對所有層的左右、上下文進行聯合條件化預訓練深度雙向表征,在文本處理任務中表現優異。但由于其網絡的復雜性,在受到誤差干擾時性能容易下降。

2" 系統架構

傳統的知識圖譜問答系統存在實體關系無法正確抽取或實體關系在知識圖譜中無法匹配這兩類問題,因而無法有效反饋問題答案。鑒于此,本文構建了一種基于混合策略方式實現的醫療問答系統,如圖1所示。

本文問答系統主要通過兩個路徑來解決用戶提問的反饋。首先,在第一條路徑對用戶所提問題進行自然語言理解,利用一個醫療領域的知識庫快速檢索查詢相關醫療問題并返回答案;其次,在知識庫無法查詢答案時系統會轉入第二條路徑,即通過語義匹配的方式,在一個醫療領域問答對數據庫中尋找最相似問題,并返回其對應答案。

2.1" 知識圖譜模塊

知識圖譜能應對海量的數據變化,以滿足和完成專業性比較強的領域的人工智能問答。本文使用的醫療知識圖譜用Neo4j進行存儲,其將結構化數據存儲在網絡空間中,能以更自然的連接狀態存儲和管理相應數據,且能提供高效的數據查詢與修改。

本文參考了liuhuanyong的開源中文醫療知識圖譜,其包含7類實體、10類關系和8類屬性,一共有約4.4萬量級的實體和30萬量級的關系。

系統的知識圖匹配可以分為4個步驟:

1) 用戶輸入問題;

2) 對問題進行意圖識別,意圖識別模塊使用Aho?Corasick算法提取疾病關鍵詞;

3) 在知識圖數據庫匹配答案;

4) 按照模板返回答案。

2.2" SBERT微調模型

本文使用中文醫療問答重復句子對作為原始數據來訓練語義匹配模型,訓練好的模型具備良好的中文醫療相關語句的向量化表示能力,當知識圖譜模塊無法識別出問題中的實體與關系時,問答系統將切換路徑,通過訓練好的語義相似度判斷模型匹配所提問題與大規模問答對問題中最相似的目標,返回其對應的答案。該方式必然會返回一個答案,即便答案可能與問題無關,因此還需要設定一個閾值,當計算的語義相似度值超過該閾值時才返回答案,若無法超過閾值,系統返回諸如“無法理解”等模板來促使用戶重復提問。

本文采用基于SBERT微調的方式進行訓練。SBERT由Nils等人提出,是基于原始預訓練BERT網絡的變體。由于BERT網絡結構沒有計算獨立的句子嵌入,使得利用BERT獲取句子嵌入十分困難。而為了突破這一限制,SBERT使用連體網絡架構[6]來獲得有意義的句子嵌入,使用如余弦距離、曼哈頓距離等距離度量方式學習模型參數,這些距離度量可以在現代化硬件上高效地執行,使得SBERT既可用于句子的語義相似性判別,也可用于相似句搜索,能夠較好地適應于與句子相關的特定任務。

SBERT使用預訓練的BERT網絡,通過微調產生有效的句子嵌入,從而大大減少訓練時間。SBERT對BERT的輸出進行池化操作,以此獲取固定維度的句子嵌入,模型默認采用均值池化。為了在BERT上進行微調,模型使用連體網絡更新權重,使得生成的句子嵌入在語義上有意義,并且可以用余弦相似度等度量函數進行比較。

對于計算過程,SBERT計算兩個句子[u]和[v]之間的距離度量損失來優化目標函數。本文的距離度量采用基于雙曲空間的雙曲距離度量而非傳統基于歐氏空間的歐氏距離度量,損失計算使用均方誤差,本文的相似度判別任務也使用了該體系結構,其計算流程[6]如圖2所示。

2.3" 雙曲距離度量

度量學習旨在學習一個高度判別的模型,該模型鼓勵相似的嵌入在向量空間中更接近,而差異越大的嵌入在向量空間中的距離將被拉得越遠[7]。常見的方法是使用編碼器來提取嵌入,并使用基于距離的損失函數進行嵌入學習。傳統的度量學習通常在歐氏空間中度量向量間的距離,而本文使用雙曲距離函數[7]進行度量學習,該距離函數能夠將文本嵌入映射至雙曲空間這類非歐氏空間,從而優化對應的嵌入。

本文選擇雙曲空間中的龐家萊球模型,其流形[Dn={x∈Rn:cxlt;1,cgt;0}],使用黎曼度量,[gE]為歐氏張量,公式[7]如下:

[gD=λ2cgE" λc=21-cx2]" "(1)

在雙曲空間中,已知兩點[x,y∈Dn],兩點間距離計算公式[7]為:

[dD(x,y)=arccosh1+2x-y2(1-x2)(1-y2)] (2)

雙曲空間并非歐氏空間,為了執行加法操作需引入新的計算形式。對于[x,y∈Dnc],它們在雙曲空間中的加法計算公式[7]為:

[x⊕y=1+2cx,y+cy2x+1-cx2y1+2cx,y+c2x2y2]" " " " " " " " " " (3)

對于[x,y∈Dnc],兩點間距離公式[7]為:

[dc(x,y)=2carctanhc-x⊕y] (4)

為訓練模型,句子轉化為向量后還會需將其投影至雙曲空間,以實現雙曲度量。

3" 實驗與分析

3.1" 實驗數據

在知識圖譜方面,本文在liuhuanyong的開源醫療知識圖譜上進行優化,其底層已提供了一套基礎問答模型。本文設計的重點在于語義匹配模塊,采用基于雙曲度量的SBERT微調模型進行相應任務訓練。數據集方面,本文使用了中文醫療相似問題對CMedQA[11]作為訓練的原始數據,這些相似問題對均與醫療相關,在該數據集上訓練能使模型更準確地進行醫療語義判別。CMedQA訓練集約有20 000條數據,正負樣本比例約為1∶1。此外,本文對該數據集做了一定腳本處理,數據集部分示例如表1所示。

為了驗證模型性能,本文還在Quaro英文重復句子對數據集上繼續進行實驗,其格式與中文數據集一致,共有10 000條數據,其余設定均與中文數據集相同。對于問答對數據,本文截取了CMedQA數據集[12]部分數據。

3.2" 實驗設置與評估方式

為了保證實驗的公平性,除了一些特別的設置,各模型都選取相同的參數值,數據集按照8∶1∶1的比例劃分為訓練集、驗證集、測試集。其余參數如向量維度為768,批處理大小為64,訓練輪數為10,本實驗使用準確率和F1值來評價模型的性能。

3.3" 實驗分析

3.3.1" 語義相似度模型評估

為了評估SBERT微調模型的性能,將其與幾種處理相似度任務的模型進行對比驗證,這些模型包括MaLSTM[4]、HBAM[3]和BERT[5],這幾類模型都在句子相似度任務上取得過良好性能,特別是BERT。表2為模型對比實驗結果,本文所使用的微調SBERT模型性能均優于上述模型。

3.3.2" 不同相似度距離度量評估

為了驗證雙曲距離度量的效果,本文還結合5種不同的預訓練模型進行了進一步對比實驗,其中包括Mac?BERT[13]、Chinese?BERT?wwm?ext[14]、Chinese?RoBERTa?wwm?ext[15]、BERT?Base[5]、ALBERT[16],距離度量函數包括點積(dot)、歐氏距離(euclidean)、曼哈頓距離(manhattan)、余弦距離(cos)以及本文模型使用的雙曲距離(hyperbolic)。其中雙曲距離度量在各類模型上都具有更優的效果,如表3所示。

3.3.3" 實驗結果分析

通過一系列實驗,可以得出基于雙曲度量的SBERT微調模型在處理本次中文醫療相似問題對任務上相較于其他與該任務相關的模型具有更強的性能,相比于性能優越的BERT微調模型,其在準確率上提升了7.16%。證明本文模型通過對句子特定的池化和雙曲距離度量損失計算,能有效地將語義相似的句子嵌入在特征空間中拉近,將語義差別較大的句子嵌入在特征空間中拉遠,從而較好地提取句義特征。MaLSTM和HBAM在中文數據集上的效果明顯較差,原因是這類模型主要用于處理如英文這類固定分隔模式的句子,對中文句子所能捕獲到的信息有限。BERT能夠較好地捕獲語句中醫療相關詞匯的語義特征,但在該任務上容易過擬合,導致性能略受影響。

由表3可知,使用雙曲距離度量的SBERT性能均優于其他不同的預訓練模型,這表明雙曲距離度量在語義判別任務上具備一定有效性,可將該度量進一步擴展至其他嵌入方面的應用。在ALBERT這類輕量級模型上,使用雙曲距離度量后性能提升較大,對比余弦距離度量在準確率上有2.28%的提升,F1值有1.58%的提升,這也表明雙曲距離度量對于一些輕量級模型性能有較大的提升。

3.4" 效果展示

本文構建了一個GUI界面并手動提出了幾個醫學相關問題,界面展示如圖3所示。

圖3a)為原始的知識圖譜問答系統,用戶在提出問題后,由于系統無法識別實體關系或實體關系在知識圖譜中不存在,無法作答;而圖3b)顯示在系統中加入本文所提的語義匹配模塊后,能在問答對數據集中匹配到相似問題,并返回此問題對應的答案,回答了圖3a)中未能回答的問題。

本文將語義判斷閾值設為0.5,即提出的問題與問答對中最相似問題的相似度高于0.5時系統才返回答案,圖3b)第三輪問答展示了該情況。

4" 結" 論

本文提出一種基于知識圖譜和語義相似度匹配的問答系統,其充分利用了知識圖譜和語義匹配各自的優勢,其中,知識圖譜能夠存儲結構化數據,并且能較好地維護和檢索特定領域的知識;語義匹配模塊是該系統的重點優化模塊,通過在SBERT模型上微調訓練,并且結合一種新的雙曲距離度量,得到了一個能更好地理解自然語言問題的模型,通過該模型,系統能夠利用自然語言處理這類深度學習技術來進一步回答知識圖譜無法回答的問題。

然而,該系統也存在一定局限,即用戶在問題表達過程中可能會使用一些知識庫中醫學實體和關系的同義替換詞[9],這種情況下系統應能夠通過模糊匹配識別出相應的實體和關系,進而繼續在知識圖數據庫中進行查詢而非轉入第二條路徑,這一點有待于從圖嵌入技術方面進行探索。

注:本文通訊作者為徐若卿。

參考文獻

[1] 郝慧斌.基于SimCSE的疾病知識圖譜問答系統[J].電腦與信息技術,2023,31(2):97?100.

[2] 李飛.基于知識圖譜的問答系統研究與實現[D].南京:南京郵電大學,2022.

[3] BAO Q, NI L, LIU J. HHH: an online medical chatbot system based on knowledge graph and hierarchical bi?directional attention [C]// Proceedings of the Australasian Computer Science Week Multiconference. Melbourne: ACM, 2020: 1?10.

[4] IMTIAZ Z, UMER M, AHMAD M, et al. Duplicate questions pair detection using siamese MaLSTM [J]. IEEE access, 2020(99): 21932?21942.

[5] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre?training of deep bidirectional transformers for language understanding [EB/OL]. [2023?11?04]. https://www.xueshufan.com/publication/2896457183.

[6] REIMERS N, GUREVYCH I. Sentence?BERT: sentence embeddings using siamese BERT?Networks [EB/OL]. [2023?01?07]. https://www.xueshufan.com/publication/2971193649.

[7] GANEA O E, BéCIGNEUL G, HOFMANN T. Hyperbolic neural networks [C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. New York: ACM, 2018: 5350?5360.

[8] CUI W, XIAO Y, WANG H, et al. KBQA: learning question answering over QA corpora and knowledge bases [EB/OL]. [2023?07?11]. https://www.xueshufan.com/publication/2584356431.

[9] HUANG X, ZHANG J, LI D, et al. Knowledge graph embedding based question answering [C]// Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. [S.l.]: ACM, 2019: 105?113.

[10] MUELLER J, THYAGARAJAN A. Siamese recurrent architectures for learning sentence similarity [EB/OL]. [2023?07?21]. https://www.xueshufan.com/publication/2508865106.

[11] ZHANG N, JIA Q, YIN K, et al. Conceptualized representation learning for chinese biomedical text mining [EB/OL]. [2023?05?11]. https://www.xueshufan.com/publication/3081505754.

[12] ZHANG S, ZHANG X, WANG H, et al. Multi?scale attentive interaction networks for chinese medical question answer selection [J]. IEEE, 2018(6): 74061?74071.

[13] CUI Y, CHE W, LIU T, et al. Pre?training with whole word masking for Chinese BERT [J]. IEEE/ACM transactions on audio, speech, and language processing, 2021(2): 3504?3514.

[14] CUI Y, CHE W, LIU T, et al. Revisiting pre?trained models for Chinese natural language processing [EB/OL]. [2023?05?16]. https://www.xueshufan.com/publication/3102725307.

[15] LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach [EB/OL]. [2023?09?07]. https://www.xueshufan.com/publication/2965373594.

[16] LAN Z, CHEN M, GOODMAN S, et al. ALBERT: a lite BERT for self?supervised learning of language representations [EB/OL]. [2023?06?07]. https://www.xueshufan.com/publication/ 2975059944.

[17] 葉曉鵬.基于醫療知識圖譜自動問答系統的構建研究[J].電腦知識與技術,2023,19(9):22?24.

[18] 李賀,劉嘉宇,李世鈺,等.基于疾病知識圖譜的自動問答系統優化研究[J].數據分析與知識發現,2021,5(5):115?126.

[19] 周俊杰,田紫薇,周詩雨.基于知識圖譜的醫療智能對話機器人[J].信息技術,2022,46(12):62?68.

[20] 李瑞東.基于知識圖譜的問答系統的研究與醫學場景應用[D].北京:北京郵電大學,2022.

作者簡介:徐若卿,男,湖北十堰人,碩士研究生,主要從事自然語言處理研究。

猜你喜歡
語義模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 天堂在线视频精品| 午夜啪啪福利| 日韩A级毛片一区二区三区| 欧美精品在线观看视频| 国产农村1级毛片| 熟妇无码人妻| a天堂视频| 午夜视频日本| 成人国产精品一级毛片天堂 | 免费国产黄线在线观看| 91色国产在线| 午夜电影在线观看国产1区| 91网在线| www.狠狠| 日本午夜影院| 欧美色亚洲| 亚洲欧美国产视频| 内射人妻无套中出无码| 亚洲欧美激情小说另类| 特黄日韩免费一区二区三区| 久久黄色影院| 9999在线视频| 国产精品尤物铁牛tv| 免费国产不卡午夜福在线观看| 成人亚洲天堂| 综合五月天网| 国产原创第一页在线观看| 四虎国产永久在线观看| 国产成人一区免费观看 | 日韩av资源在线| 一本综合久久| 亚洲精品自拍区在线观看| 久操中文在线| 在线看国产精品| 91精品视频网站| 国产一级毛片高清完整视频版| 国产精品一区在线麻豆| 无码综合天天久久综合网| 国产乱子伦一区二区=| 99人妻碰碰碰久久久久禁片| 亚洲视频影院| 啪啪啪亚洲无码| 国产黄色片在线看| 亚洲精品中文字幕午夜| 色婷婷啪啪| 亚洲日本韩在线观看| 欧美激情综合一区二区| 色成人亚洲| 茄子视频毛片免费观看| 亚洲天堂免费在线视频| 久久综合伊人 六十路| 91蝌蚪视频在线观看| 亚洲欧美日韩精品专区| 久久综合色播五月男人的天堂| 2021亚洲精品不卡a| 2022国产无码在线| 亚洲成人高清在线观看| 色国产视频| 色综合五月| 精品少妇人妻无码久久| 国产成人精品男人的天堂下载 | 农村乱人伦一区二区| 亚洲天堂福利视频| 国产剧情无码视频在线观看| 日韩二区三区无| 亚洲AV无码不卡无码 | 国产精品内射视频| 国产喷水视频| 亚洲成a∧人片在线观看无码| 99在线视频网站| 亚洲人成网7777777国产| 国产欧美视频综合二区| 欧美亚洲香蕉| 久久综合五月婷婷| 国产又大又粗又猛又爽的视频| 看你懂的巨臀中文字幕一区二区 | 伊人久久久久久久| 黄色网在线| 亚洲色无码专线精品观看| 亚洲一区二区约美女探花| 国产在线小视频| 精品久久777|