999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向中文電子病歷的醫療問答系統的研究與設計

2025-03-02 00:00:00盛靜雯史東輝
電腦知識與技術 2025年1期

摘要:隨著人們對醫療服務需求的日益增長,醫療行業正面臨人力資源短缺和資源分布不均的雙重挑戰。為應對此挑戰,該研究設計了一種面向中文電子病歷的醫療問答系統。研究利用自然語言處理(NLP) 技術構建中文電子病歷知識圖譜,并結合大語言模型整合醫學知識,以支持疾病推理和醫療決策。系統通過深度學習解析用戶問題的語義,從知識圖譜中檢索信息,并結合經過前綴微調和高級檢索增強生成技術(Advanced RAG) 優化的大模型輔助生成答復,從而實現更精準、高效的醫療輔助服務。

關鍵詞: 醫療問答;醫療知識圖譜;大語言模型;前綴微調;Advanced RAG

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2025)01-0012-04 開放科學(資源服務) 標識碼(OSID) :

0 引言

當前,AI 技術迅猛發展,醫療行業也逐步邁向信息化。面對服務需求增長以及人力不足、資源分布不均的挑戰,迫切需要開發智能醫療問答系統。醫療智能問答系統不僅能夠減輕醫護人員的工作壓力,提高醫療服務的效率和質量,還能跨越地理限制,為不同地區的用戶提供即時的醫療咨詢服務。通過智能化手段,該系統優化了醫療資源配置,推動了醫療信息化和人工智能技術的發展,從而實現醫療服務的均衡發展和全民健康覆蓋。

本設計旨在通過自然語言處理技術構建中文電子病歷知識圖譜,并結合大語言模型整合醫學知識,以支持疾病推理和醫療決策,為醫生提供直觀的醫療決策支持。系統能夠根據患者的癥狀信息,自動推薦可能的疾病診斷結果和相應的檢查項目,從而提高診斷的準確性和效率。患者和醫生可以通過系統進行交互,詢問關于疾病的癥狀、治療方法、藥物用法用量等問題,系統能夠迅速給出準確的答案,提供便捷、高效的醫療咨詢服務。

1 相關工作

電子病歷系統是現代醫療信息化的基石,通過加速服務流程、輔助決策、支持研究與教育、保障患者安全以及優化資源分配等方面,顯著提升了醫療服務的效率和質量。起源于美國的電子病歷系統[1],現已在全球范圍內推廣應用。中國的電子病歷系統[2]自2010 年起在政策推動下取得了顯著進展。這些系統的發展為智能問答系統提供了豐富的數據基礎,使得依托自然語言處理和深度學習技術分析醫療文本并提供高效信息服務成為可能。

問答系統作為人工智能領域的關鍵組成部分,其主要任務是準確解析、處理并回應用戶以自然語言提出的問題。谷歌公司提出的基于知識圖譜的問答系統[3],利用知識圖譜的強大能力,為問答系統的研究與應用開辟了新的方向。此外,洪海藍等[4]開發了基于多模態知識圖譜的中藥智能問答系統,拓展了問答系統的應用,并為知識服務工具提供了新的范例。

知識圖譜由谷歌公司于 2012 年提出,其理論基礎根植于數學圖論,旨在通過圖形結構表示知識并描繪實體間的相互關系。張吉祥等人[5]研究了知識圖譜構建的關鍵技術,包括抽取、融合和推理,并分析了深度學習在該領域的應用挑戰。Lin 等[6]使用知識圖譜和圖演化元學習框架快速推理新疾病癥狀,實現了通過少量對話進行疾病診斷的目標。

近年來,大型語言模型(LLMs) 的研究與開發已成為自然語言處理領域的顯著趨勢。OpenAI 的 GPT 系列[7]、Google 的 BERT[8]和 T5 等模型不斷刷新自然語言處理任務的性能記錄[9]。然而,盡管醫學領域對知識問答系統的需求日益增長,目前尚未出現專門針對該領域的大型語言模型。

2 理論基礎及相關技術

2.1 自然語言處理

自然語言處理(NLP) 是一門促進人機通過自然語言進行有效交流的交叉學科,目前在人工智能醫學領域備受關注。NLP 主要包括自然語言理解和自然語言生成兩部分,前者使計算機能夠理解文本的含義,后者則允許計算機用自然語言表達特定意圖。其基本原理涉及語言學、計算機科學和統計學,在具體實現過程中需要進行多層次處理,包括語言模型的構建、詞向量表示、語義分析以及深度學習技術的應用。

NLP 在智能醫療問答系統中發揮著核心作用。在本研究中,NLP 通過信息抽取、命名實體識別、問答系統開發、文本理解、語義搜索、診斷輔助和實體對齊等關鍵功能,使系統能夠理解和處理復雜的醫療文本,提供準確的醫療咨詢和決策支持,從而提高醫療服務的效率和質量,推動醫療信息化的發展。

2.2 ChatGLM3-6B

ChatGLM3 由智譜 AI 與清華大學 KEG 實驗室聯合開發,標志著第三代對話預訓練模型的重大進步。該系列中的 ChatGLM3-6B 模型不僅繼承了前代產品的高效對話能力和低部署難度,還引入了顯著的技術革新。

ChatGLM3-6B 的特點包括:大規模預訓練賦予其廣博的知識和深刻的語言理解能力;上下文感知能力使其能夠根據對話歷史提供更精準的回答;多領域知識覆蓋,使其能夠解答涉及編程、科技、文化、歷史等問題;以及支持交互式對話,能夠與用戶進行深入的交流和探討。這些特性共同提升了 ChatGLM3-6B 在自然語言處理領域的應用潛力。

ChatGLM3-6B 采用了全新設計的 Prompt 格式,除了支持正常的多輪對話外,還原生支持工具調用(Function Call) 、代碼執行(Code Interpreter) 和 Agent 任務等復雜場景。這些功能對于構建一個能夠執行多任務的智能醫療問答系統至關重要。

當前,眾多杰出的預訓練大型語言模型已經問世,如 ChatGPT-3.5、LLaMA 2、T5 和 ChatGLM 等,具體如表 1 所示。

表 1中的參數量,即模型中可訓練參數的總數,涵蓋了神經網絡中的權重與偏置,是衡量模型規模和復雜性的關鍵指標。它不僅反映了模型的大小,也是評估其容量和性能的重要依據。一般來說,參數量越大的模型,其表示能力越強,能夠更精確地捕捉輸入數據的復雜特征和結構。然而,這也意味著模型需要更多的計算資源和存儲空間,因此在模型性能與資源效率之間需要做出權衡。

最大支持 token 數指的是大型語言模型能夠處理的 token 上限。如果輸入文本超出這一限制,可能會導致上下文信息的丟失,從而影響模型回答的相關性和準確性。因此,了解和控制模型的最大 token 數對于確保模型輸出質量至關重要。

綜合考慮 SuperCLUE 針對中文通用大模型在知識百科、上下文對話等多種能力上的排名,是否開源可商用,模型訓練與部署所需的人力和時間成本,以及確保模型的使用符合相關法規和政策要求等因素,最終選擇 ChatGLM3-6B 作為基座預訓練模型。

2.3 微調技術

大模型微調技術是一種機器學習方法,通過在特定領域的數據集上進一步訓練已預訓練的大型模型,以優化其在特定任務上的性能。這種方法利用預訓練模型的泛化能力,增強其對特定任務的適應性,使其更符合醫學領域的需求。

本研究采用前綴微調方法[10],這是一種軟提示技術,與提示詞微調類似,通過在模型輸入的嵌入向量前添加可學習的前綴序列來適應任務。前綴微調進一步將這些可學習序列擴展到所有隱藏層狀態的前端(如圖 1 所示) ,從而優化模型性能。

然而,直接優化這些前綴序列可能會引起模型訓練的不穩定。為了解決這一問題,前綴微調采用了一種方法:通過一個前饋神經網絡(FFN) 轉換這些前綴序列,然后將轉換后的結果附加到嵌入向量或隱藏狀態的前端。在模型訓練期間,利用梯度下降法在下游任務的數據集上對前綴序列和 FFN 中的參數進行優化。在模型推理階段,FFN 部分將被移除。

2.4 檢索增強生成技術

在檢索增強生成(RAG) 框架中,核心流程分為檢索和生成兩個階段。檢索階段從外部信息源提取相關信息,生成階段則利用這些信息生成精準回答。Advanced RAG 在此基礎上增加了新模塊和范式,集成了重新排序、自動合并和高級過濾等算法,以優化檢索和生成流程,提高信息檢索效率。

Advanced RAG 通過以下方式提升性能:1) 重新排序算法:優先展示最相關信息; 2) 自動合并功能:整合多數據源信息,提供全面視角;3) 高級過濾技術:排除無關數據,增強結果相關性。

Advanced RAG 能有效處理復雜查詢,整合多樣化數據資源,構建高度情境感知的 AI 系統,提供快速準確的信息檢索服務,并在內容生成中實現高效率和相關性,滿足信息質量和響應速度的需求。其運作流程詳見圖 2。

圖2展示了Advanced RAG的信息檢索增強和生成過程。用戶首先輸入查詢文本,系統通過預檢索階段對查詢進行路由、重寫和擴展,隨后執行檢索操作。檢索完成后,系統會對結果進行重排序、總結和融合,以優化輸出。在此過程中,系統還會提示凍結大型語言模型,以確保輸出的穩定性和一致性。最終,系統生成并輸出處理后的結果。該過程旨在提供更準確、全面和個性化的信息檢索服務。

3 問答系統架構設計

本設計專注于中文電子病歷這一特定領域,將其作為深入研究的對象。研究的核心目標是創新性地結合先進的大語言模型和精準的知識圖譜技術,以構建一個高效能的智能醫療問答系統。該系統旨在通過智能化手段提升醫療服務質量,不僅能夠為醫生和醫療工作者在臨床診療過程中提供科學的理論支持,還能為患者提供更加人性化的服務。通過該系統,可以確保醫療決策更加準確,患者咨詢更加高效,從而在實際醫療服務中發揮關鍵的技術保障作用,推動醫療服務向智能化、精準化發展。

研究設計的智能問答系統整體架構如圖 3 所示:

1) 數據采集與預處理:系統首先進行數據采集,包括電子病歷等醫療相關數據。隨后,通過數據預處理模塊,對原始數據進行清洗、標準化和格式化,以便于后續的分析和處理。

2) 知識獲取與構建:系統構建了一個醫學知識體系,該體系能夠對醫療領域的數據模式進行定義和理解。這一步驟涉及基于深度學習的語義解析和命名實體識別,以確保系統能夠準確識別和理解醫療文本中的關鍵信息。

3) 知識存儲:系統使用 Neo4j 圖數據庫來存儲和管理醫療知識圖譜,其中節點代表醫療概念,節點之間的關系通過圖數據庫的邊來表示。這種結構化的知識存儲方式有助于系統進行高效的信息檢索和知識推理。

4) 意圖識別與查詢語句轉換:系統通過意圖識別模塊理解用戶的查詢意圖,并將其轉換為查詢語句。

這一過程涉及自然語言處理技術,使系統能夠將用戶的自然語言輸入轉換為結構化查詢。

5) 自動問答與多輪對話:系統利用大模型和知識圖譜實現自動問答功能。它能夠與用戶進行多輪對話,并通過檢索增強技術提供更加精準和個性化的醫療建議。

6) 前端頁面展示:最終,系統通過前端頁面展示模塊,將處理后的信息以用戶友好的方式呈現給用戶,使用戶能夠輕松訪問和理解醫療問答系統提供的內容。

3.1 醫療知識圖譜構建

在醫學領域,數據的精確性與可靠性對于維護人類健康和保障生命安全具有至關重要的意義。因此,在醫學數據的收集、記錄和處理過程中,必須確保數據的準確性、完整性和可靠性,以防止因數據錯誤導致錯誤的診斷、治療或研究結論。

在數據采集階段,首先對醫學問題進行分類,并明確疾病的名稱、癥狀、預防措施、病因以及相應的掛號科室等關鍵屬性。這些屬性各自對應特定的關鍵詞,通過這些關鍵詞進行檢索,可以有效地收集和豐富數據集的內容。通過這種方法,確保數據采集的針對性和系統性,從而提高醫學數據的整體質量和實用性。在數據清洗方面,采用了基于規則的方法來識別和糾正數據中的不一致性和錯誤。

由圖 3 可見,在構建醫療知識圖譜的過程中,本研究使用“尋醫問藥”網站和電子病歷等來源的醫療數據作為數據源,以構建提供檢索支持的醫療知識圖譜。利用網絡爬蟲技術抓取所需內容,通過人為設定相關規則與網頁內容匹配,從而獲取所需數據,并存儲于本地。

從這些數據源中提取數據后,對其進行數據清洗,以剔除無關和缺失數據。按照知識圖譜中數據模式的定義形式組織并構建重要的醫療知識體系,并將其存儲在 Neo4j 圖數據庫中,便于后續利用圖譜中的知識參與用戶問題解析,以構建 Cypher 語句并檢索相關知識。

基于深度學習的語義解析層用于解析用戶問題,其功能是分析用戶輸入的問題,并從中提取出用于指導知識檢索過程的關鍵動作指令與語義信息。在問題解析階段,首先采用實體提取與意圖分類模型,以識別序列和句子級別的特征,進而執行實體識別和意圖分類任務。隨后,對話管理引擎應用其內部策略和可用信息,對未來的交互動作進行預測,并將預測結果(即動作指令和語義信息) 傳遞至問答系統層,以便生成響應并檢索相關知識。這一流程確保了系統能夠準確捕捉用戶查詢的意圖,并以結構化的方式響應用戶的信息需求。

3.2 醫療問答系統實現

問答系統層承擔著執行既定動作的職責,其核心功能在于從圖數據庫中檢索必要的知識,以便對用戶提出的問題做出響應。在此層級的操作中,問答系統依據對話管理引擎所預測的動作指令,啟動知識檢索過程。對于常規性質的查詢,問答系統傾向于采用預定義的模板來快速生成查詢語句。這些模板是根據以往類似問題的回答模式精心設計的,以確保回答的一致性和準確性。對于更為復雜或開放性的問題,問答系統則依賴于大型語言模型的生成能力,利用其涌現特性來構建查詢語句,從而應對更為廣泛的查詢類型。一旦生成了適當的查詢語句,問答系統便將其應用于圖數據庫,執行精確的知識檢索,以收集回答用戶問題所需的信息。

在獲取到相關的結構化信息后,問答系統將采取兩種策略之一來組織和呈現這些信息:一是使用回復填充模板,將檢索到的信息以預定義的格式組織起來,以確保回復的清晰和條理;二是使用優化后的大型語言模型,通過模型的高級文本生成能力,將知識組織成自然語言形式的回復。

基于模板的答案生成策略依賴于預定義的模板來快速生成回答。模板實例化是將自然語言問句與知識圖譜中的本體概念進行映射的過程,確保模板中的實體、類型和謂詞能夠準確對齊到知識圖譜中相應的結構。例如,“{疾病}的癥狀包括{癥狀列表}。”當用戶詢問特定疾病的癥狀時,系統只須將疾病名稱和相關癥狀填入模板即可生成答案。

基于大型語言模型的答案生成策略則利用其涌現特性來構建查詢語句。大型語言模型(ChatGLM3-6B) 能夠理解用戶的查詢意圖,并生成相應的查詢語句。Advanced RAG 結合了檢索和生成兩個階段,以生成更準確和信息豐富的答案。在檢索階段,模型利用檢索系統找到與問題最相關的信息片段。在生成階段,將檢索到的信息片段用作生成答案的上下文。

3.3 大語言模型優化

優化大模型階段整合了大模型微調技術和檢索增強技術,以增強問答系統的理解和生成能力。本文設計使用的大模型為 ChatGLM3-6B。這是一個強大的模型,能夠處理復雜的語言任務。為了進一步優化該模型,采用了前綴微調(Prefix-Tuning) 方法。該方法通過在模型的輸入嵌入向量前添加可學習的前綴序列,并將其擴展到所有隱藏層狀態,從而使模型能夠更好地適應特定的下游任務。此外,還引入了 Ad?vanced RAG 技術。該技術通過檢索相關信息并將其融入生成過程中,進一步增強了模型的生成能力,使其能夠提供更加豐富和準確的回答。

通過這些技術的集成,系統能夠在前端頁面直觀地展示自動問答和多輪對話的結果,為用戶提供一個易于交互的平臺。整個系統的設計旨在通過高度集成的技術棧,提供一個高效、準確的醫療信息咨詢服務,以輔助臨床診療并改善患者服務。

4 結論與展望

本研究設計了一個旨在提高醫療服務效率和質量的醫療智能問答系統。該系統通過結合自然語言處理技術和大語言模型,生成中文電子病歷知識圖譜,構建醫療智能問答系統,以支持疾病推理和醫療決策。文章闡述了系統的架構設計,包括醫療知識圖譜的構建、醫療問答系統的實現以及大語言模型的優化。系統利用深度學習技術和語義解析來理解用戶問題,并從知識圖譜中檢索相關知識,結合大模型技術生成準確且豐富的回答。此外,系統還采用了前綴微調和 Advanced RAG 技術,以提升大語言模型對特定任務的適應性和生成能力。

隨著人工智能技術的不斷進步,未來的醫療智能問答系統將更加精準和高效。未來可以持續擴大和更新知識圖譜的規模及覆蓋范圍,增強模型對復雜問題的理解和推理能力,進而減少對大型語言模型的依賴。同時,隨著人工智能技術在醫療領域的深入應用,必須從人本性、主體性和公眾性等方面強化正向倫理規約,以保護患者隱私并克服道德主體困惑。這要求在設計和部署醫療人工智能系統時,將倫理原則納入考量,并確保技術的發展與人類價值觀和社會目標相一致。

參考文獻:

[1] 蔣家偉.基于深度學習模型預測ICU患者死亡率的可解釋性研究[D].成都:電子科技大學,2020.

[2] 李瑞瑤,鮑瀛.基于電子病歷系統應用水平分級評價的醫療數據質量管理實踐探討[J].中國數字醫學,2022,17(11):17-22.

[3] 袁博,施運梅,張樂.基于知識圖譜的問答系統研究與應用[J]. 計算機技術與發展,2021,31(10):134-140.

[4] 洪海藍,李文林,楊濤,等.基于知識圖譜的海洋中藥智能問答系統的設計與實現[J]. 世界科學技術-中醫藥現代化,2023,25(6):1935-1941.

[5] 張吉祥,張祥森,武長旭,等.知識圖譜構建技術綜述[J].計算機工程,2022,48(3):23-37.

[6] LIN S, ZHOU P, LIANG X D, et al. Graph-evolving metalearningfor low-resource medical dialogue generation[J].Pro?ceedings of the AAAI Conference on Artificial Intelligence,2021,35(15):13362-13370.

[7] LEIPPOLD M. Thus spoke GPT-3: interviewing a largelanguagemodel on climate finance[J].Finance Research Letters,2023,53:103617.

[8] DEVLIN J,CHANG M W,LEE K,et al.BERT:pre-training ofdeep bidirectional transformers for language understanding[EB/OL].2018:1810.04805.https://arxiv.org/abs/1810.04805v2.

[9] ZHOU C, LI Q, LI C, et al. A comprehensive survey on pre?trained foundation models: A history from BERT to ChatGPT[EB/OL]. (2023-02-25) [2024-05-21]. https://arxiv. org/abs/2302.09419. DOI:10.48550/arXiv.2302.09419.

[10] 丁鑫,鄒榮金,潘志庚.基于高效參數微調的生成式大模型領域適配技術[J].人工智能,2023,10(4):1-9.

【通聯編輯:唐一東】

基金項目:安徽省科研編制計劃項目重點項目(2022AH050224) ;質譜關鍵技術研發與臨床應用安徽省聯合共建學科重點實驗室開放課題(2023ZPLH07)

主站蜘蛛池模板: 国产成人综合亚洲欧洲色就色| 亚洲综合九九| 毛片久久久| 日韩精品欧美国产在线| 91色在线视频| 日韩经典精品无码一区二区| 国产成人久久综合777777麻豆| 在线国产91| 日韩大片免费观看视频播放| 九九免费观看全部免费视频| 多人乱p欧美在线观看| 中国国产高清免费AV片| 国产乱子伦一区二区=| 国产在线91在线电影| 欧美日韩在线成人| 精品国产成人a在线观看| 亚洲欧美精品一中文字幕| 国产成人超碰无码| 免费人成网站在线观看欧美| 美女无遮挡被啪啪到高潮免费| 亚瑟天堂久久一区二区影院| 91亚洲免费| 国产精品专区第一页在线观看| 久久免费成人| 手机在线国产精品| 中文字幕无码制服中字| 国产va视频| 无码福利日韩神码福利片| 毛片视频网址| 日本黄色不卡视频| 丰满人妻被猛烈进入无码| 日本www色视频| 欧美精品亚洲精品日韩专区va| 国产情侣一区二区三区| 日韩 欧美 国产 精品 综合| 欧美日韩v| 成人小视频在线观看免费| 欧美色综合网站| 幺女国产一级毛片| 免费一级毛片完整版在线看| 免费观看亚洲人成网站| 亚洲欧美成aⅴ人在线观看| 毛片免费试看| 亚洲日韩AV无码一区二区三区人| 香蕉99国内自产自拍视频| 亚洲精品免费网站| 亚洲第一区欧美国产综合| 亚洲二区视频| 欧美日韩一区二区三区在线视频| 制服丝袜国产精品| 全部免费特黄特色大片视频| 2021最新国产精品网站| 成人久久18免费网站| 中文字幕伦视频| 欧美三级视频网站| 久热99这里只有精品视频6| 久久窝窝国产精品午夜看片| 国产激情无码一区二区三区免费| 91久久精品国产| 久久精品人人做人人爽电影蜜月| 亚洲天天更新| 免费看av在线网站网址| 97精品国产高清久久久久蜜芽| 国产精品丝袜视频| 日韩亚洲高清一区二区| 最新无码专区超级碰碰碰| 中文字幕一区二区人妻电影| 2020国产免费久久精品99| 国内精品久久久久久久久久影视| 国内丰满少妇猛烈精品播| 青青草91视频| h网址在线观看| 日韩av无码精品专区| 91啪在线| 精品成人一区二区| 超碰91免费人妻| 色婷婷电影网| 亚洲一区免费看| 亚洲中文字幕无码mv| 99视频全部免费| 欧美在线视频不卡第一页| 国产91精品调教在线播放|