999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大語言模型的中醫醫案命名實體抽取研究

2024-03-08 01:33:50李盼飛楊小康白逸晨李海燕
中國中醫藥圖書情報雜志 2024年2期
關鍵詞:文本語言模型

李盼飛 ,楊小康 ,白逸晨 ,李海燕

1.中國中醫科學院中醫藥信息研究所,北京 100700;2.北京中醫藥大學中藥學院,北京 100029

醫案是中醫記錄和解析診療過程形成的臨證文本,是中醫著作的一種類型。醫案是醫家診療過程的真實記錄,蘊含醫家的思維過程及診療經驗,是中醫學術傳承的重要載體之一。中醫在幾千年傳承中積累的海量醫案在當代中醫學術傳承創新中具有獨特地位,是挖掘、總結中醫診療思想與實踐經驗的重要知識來源,特別是人工智能、大數據技術更賦予了大規模、群體性醫案更高的研究價值。大語言模型是一種由包含數百億及以上參數的深度神經網絡構建的語言模型[1],其展現出強大的對世界知識的掌握和對語言的理解能力,在自然語言處理任務中表現出色,可用來進行命名實體識別與抽取、問答、文本分類等任務。

本文通過中醫醫案與信息學的交叉研究,深入分析醫案結構要素,構建醫案信息模型,嘗試通過大語言模型進行醫案實體的自動化抽取,為醫案結構化研究及大規模醫案科學數據的抽取作出重要探索。

1 中醫醫案在人工智能時代的巨大價值

中醫醫案具有大數據屬性,結合當前的人工智能、大數據技術,將突破傳統的醫案研究方法,開辟新的研究范式,從大規模醫案中進行數據挖掘、知識挖掘、智能化賦能等研究,將進一步挖掘醫案中的科學價值。借助當前計算機技術可以上升到歷時性、群體性醫案的研究,以某一病種、某一流派、某一理論、某一方藥等為視角,從大量醫案中獲取有助于中醫研究的成果[2-5]。中醫醫案包含了大量理法方藥的綜合信息,是一個蘊含龐雜信息、尚未完全開發的“大數據倉庫”,運用數據挖掘技術與醫案結合,可以進行用藥規律、方證規律、證候相關性、證型分析、治則治法分析、證型預測等研究。運用知識挖掘方法與技術,可以從醫案中構建豐富的語料庫、知識庫[6],服務于中醫智能化發展。除顯性知識外,醫案中還蘊藏了大量隱性知識,這是中醫傳承中的關鍵信息,如潛藏于醫案中的學術思想、診斷技巧、用藥偏好,甚至是醫德醫風和治學作風等,借助人工智能技術將隱性知識顯性化,這是基于醫案的“道”“術”活態傳承的核心內容[7],也是今后的研究熱點。

此外,中醫醫案在當前人工智能時代的最大價值乃基于人工智能的臨床輔助決策研究提供重要數據來源。醫案中蘊含豐富的診療思維、診斷方法、診療過程、方證規律、方藥數據等為輔助決策的建模提供了可靠的理論框架與數據支撐。如基于醫案進行案例推理的輔助決策研究[8],基于醫案構建知識圖譜形成以知識驅動的輔助決策研究[9-10],基于醫案結合大語言模型形成以數據驅動的輔助決策等。中醫臨床輔助決策是中醫人工智能研究的核心任務之一,隨著人工智能技術的飛速發展,基于海量醫案的智能化研究必將中醫醫案研究推向新的高度。

中醫醫案研究也存在很多困境,醫案是大量非結構文本,文本結構不規范,命名實體種類繁多,術語靈活多變,為抽取醫案科學數據造成很大障礙。當前興起的大語言模型在自然語言處理中表現優秀,為中醫醫案的命名實體抽取帶來了極大便利,也為中醫醫案結構化研究帶來可能。

2 中醫醫案格式演變及結構要素分析

2.1 中醫醫案格式演變概述

醫案格式是指醫案的書寫形式,主要包括醫案結構和醫案要素[11]。醫案結構是醫案的組織形式,醫案要素通過一定的組織形式聯結形成醫案。醫案要素是指構成醫案存在的基本單元,功能屬性相近的要素組合成一個結構,眾多結構聯結形成醫案。溯源醫案的格式演變,可以更好地分析出醫案的結構與要素。

《史記·扁鵲倉公列傳》記載了西漢名醫淳于意的25則“診籍”,這是現存最早而且較為完整的醫案[12]。診籍中包括了患者姓名、身份、病史、癥狀、脈象、發病經過、診斷、病機分析、治療、療效和預后等內容,其中2則還有復診記載[13-14],這些是最初的醫案結構與要素。

北宋錢乙的《小兒藥證直訣》載醫案23則,基本遵循了一定的書寫體例,反映了當時醫案書寫具有相對固定和較為完整的格式。北宋許叔微《傷寒九十論》是我國第一部醫案專著,該書每個醫案之后附有按語,這是醫案結構發展的一大創新。

明代韓懋在其《韓氏醫通·六法兼施章》中提出,醫案書寫應“六法兼施”,后來吳崑在《脈語·脈案格式》中提出“七書一引”格式,明末清初喻昌《寓意草》一書專門列出《與門人定議病式》一節,也提出了較為規范的醫案格式。可見韓懋、吳崑、喻昌等試圖提出醫案的規范格式,基本囊括了古代醫案所具備的結構與要素。3位醫家對格式細目的劃分已經體現出現今醫案研究中知識元的形式,這在醫案理論研究中具有重要意義。

晚清民國以來,西醫傳入,一些開明的醫家主動接受西醫,并將西醫病名、西醫診斷等內容納入到醫案中。1927年何廉臣為編纂《全國名醫驗案類編》,化繁為簡,提出“新定醫案程式”:一病者,二病名,三原因,四證候,五診斷,六療法,七處方,八效果[15],其中已經收錄了西醫病名。張錫純《醫學衷中參西錄》中的醫案中已經記錄了西醫診斷。

建國后,以醫院為核心的診療模式促進了傳統醫案的功能逐漸轉變為醫案和病歷(或病案)2種形式并行,二者在形式上相似,但又有區別。病歷常具有法律效力,醫案側重呈現辨證思路,常有按語點評,具有重要學術價值。從信息學角度來看,病歷是臨床記錄的資料,屬于數據范疇,而醫案是診療記錄的升華,具有知識的特點[16]。

2.2 中醫醫案結構要素分析

從醫案的格式源流來看,醫案的結構與要素是在發展的長河中逐步豐富與完善起來。歷代醫家也試圖為醫案統一格式做出努力,但由于醫家所處時代環境、學識修養、個人偏好、書寫用途等各異,迄今為止,醫案的格式、內容、體裁、風格等仍有較大差異。這在客觀上造成了醫案文本的不規范與不標準,這也是醫案現代化研究的最大障礙。盡管如此,在靈活多變的格式和內容中,醫案仍具有相對穩定的結構與要素,這由醫案本身的功能屬性所決定。

醫案的主要功能是記錄臨床診療思維過程,總結分析得失,因此,醫案的基本結構與要素應包括患者情況、疾病情況、治療情況、診次、療效等內容。經過深入分析古今醫案的格式演變,并結合當前大量主流醫案的結構,本研究認為標準、完整的醫案應該具備8個結構:患者基本信息、病史、診次、疾病表現、診斷分析、治療方案、結局轉歸、按語點評。各個結構部分是由功能屬性相近的要素組成,如疾病表現應包括:癥狀體征、舌象、脈象、理化檢查等要素。見表1。

表1 中醫醫案結構與要素

3 基于大語言模型的中醫醫案命名實體抽取

3.1 中醫醫案信息模型構建

下游任務主要通過提示詞與大語言模型對話進行醫案實體抽取,需要在醫案結構與要素分析的基礎上構建醫案的信息模型,進而研制出符合大語言模型對話邏輯的提示詞。根據醫案中的診次信息,可將醫案分為單診次醫案和多診次醫案。單診次醫案只記錄1個診次信息,信息模型相對簡單;多診次醫案至少包含2個診次,隨著診次的增多醫案結構復雜程度也相應增加,信息模型也變得復雜,多診次信息模型是在單診次基礎上重點體現出多診次的結構特點。中醫醫案單診次、多診次信息模型見圖1、圖2。

圖1 中醫醫案單診次信息模型

圖2 中醫醫案多診次信息模型

3.2 醫案實體抽取提示詞設計

根據上文構建的醫案信息模型,分別設計單診次、多診次2套對話提示詞,經過多個大語言模型和反復對話測試,最終確定了適合各自任務的提示詞。提示詞主要包括執行任務說明、任務輸出格式舉例,用括號對提示詞進行補充等。單診次、多診次實體抽取提示詞見圖3、圖4。

圖3 中醫醫案命名單診次實體抽取提示詞

圖4 中醫醫案命名多診次實體抽取提示詞

3.3 調用大語言模型API進行醫案實體抽取

醫案實體抽取前,分別測試了當前幾款主流大語言模型,如ChatGPT3.5、ERNIE-Bot 4.0(文心一言4.0)、ChatGLM2-6B(智譜清言)、Spark Desk(訊飛星火)、Baichuan2-13B(百川大模型)、Llama2-70B,結果顯示:Llama2-70B無法很好理解提示詞,最終影響結果輸出;訊飛星火處理單診次表現良好,但無法很好執行多診次抽取任務;智譜清言和百川大模型處理單診次表現良好,對于多診次任務處理很不穩定,有些多診次抽取良好,有些無法處理;文心一言4.0和ChatGPT3.5在分別在單診次、多診次醫案實體抽取中表現優秀(以上測試結果截至2023年12月31日)。考慮到醫療數據安全等因素,最終選擇調用文心一言API進行醫案批量化實體抽取。

抽取前,首先對所收集的醫案PDF文件進行OCR處理,對于OCR出現的文字錯誤進行改正,對于排版錯亂、書口(或天頭、地腳)與正文無關文字的竄入進行排版和刪除,校對無誤后存為Word文檔;其次,根據醫案中出現的復診、二診、第二診、再診等能體現出多診次信息將醫案分別區分為單診次、多診次醫案;最后為了批量化處理中機器能夠識別出每份醫案的界限,將每份醫案之間使用隔離符分隔。

抽取時將提示詞編入代碼,調用文心一言API進行自動、批量化抽取。抽取后的醫案實體輸出為TXT文件,為保證抽取質量,將抽取結果與原文進行人工校對,抽取遺漏的內容則補充,過度抽取則刪除,大語言模型自行補充的內容也刪除,確認無誤后保存。

大語言模型抽取單診次醫案實體結果示例如下:

姓名:項某某

性別:女

年齡:47歲

職業:未提及

住址:未提及

癥狀體征:胃脘疼痛,每遇寒或飲冷而發,發則疼痛牽及背部,綿綿不已,甚或吐酸泛漾,大便溏泄

舌象:苔白

脈象:脈遲

理化檢查:未提及

中醫病名:胃脘痛

西醫病名:未提及

病機:寒邪內侵,胃陽不足

證型:脾胃虛寒證

治則治法:溫中散寒,止痛和胃,扶脾止泄

方劑名稱:烏頭赤石脂丸

加味藥物(含劑量):制川烏9 g,炒白術15 g,川椒9 g,高良姜9 g,干姜12 g,制附子9 g,炙甘草9 g,黨參15 g,煅瓦楞子30 g,赤石脂30 g

煎服方法:上藥各研細末,和勻再研極細。每日服2次,每次1.5 g開水吞服

其他治法:曾溫灸中脘而得緩解

禁忌:未提及

結局轉歸:服藥后胃痛明顯減輕,少發,大便亦成形,后再續服1料而痊愈

既往史:未提及

現病史:胃脘疼痛,每遇寒或飲冷而發,發則疼痛牽及背部,綿綿不已,甚或吐酸泛漾,大便溏泄。曾溫灸中脘而得緩解

按語點評(醫案中的原文):《金匱要略》謂:“心痛徹背,背痛徹心,烏頭赤石脂丸主之。”本方以該丸加參、術、甘草、瓦楞子以溫中、散寒、止痛、和胃、扶脾、止泄。煅瓦楞子治脘痛泛酸頗有功效。本例丸方,經隨訪,服藥后胃痛明顯減輕,少發,大便亦成形,后再續服1料而痊愈

大語言模型抽取多診次醫案實體結果示例如下:

姓名:康某

性別:男

年齡:65歲

職業:未提及

住址:未提及

診次:初診

癥狀體征:胃脘痛,每于夜間饑餓時痛劇,不能入睡,吞酸灼熱,手足心熱,便秘

舌象:舌尖赤苔白少津

脈象:脈滑

理化檢查:經某醫院X線透視及內鏡檢查診斷為十二指腸球部潰瘍

中醫病名:胃痛

西醫病名:十二指腸潰瘍

病機:胃腑實熱

證型:未提及

治則治法:通腑泄熱

方劑名稱:小承氣湯

藥物(含劑量):大黃15 g,厚樸15 g,枳實15 g,黃芩15 g,黃連10 g,吳茱萸5 g

煎服方法:水煎,日1劑,分2次服

其他治法:未提及

禁忌:未提及

診次:二診

癥狀體征:大便通、日行1次、稍稀,胃脘未痛,吞酸灼熱大減

舌象:未提及

脈象:未提及

理化檢查:未提及

中醫病名:胃痛

西醫病名:十二指腸潰瘍

病機:胃腑實熱(同初診)

證型:未提及

治則治法:繼續通腑泄熱

方劑名稱:小承氣湯(同初診)

藥物(含劑量):大黃7.5 g,厚樸15 g,枳實15 g,黃芩15 g,黃連10 g,吳茱萸5g

煎服方法:水煎,日1劑,分2次服(同初診)

其他治法:未提及

禁忌:未提及

診次:三診

癥狀體征:大便暢通、日行1次,諸癥消失

舌象:未提及

脈象:未提及

理化檢查:X線復查潰瘍消失大半

中醫病名:胃痛

西醫病名:十二指腸潰瘍

病機:胃腑實熱(同初診)

證型:未提及

治則治法:未提及

方劑名稱:未提及

藥物(含劑量):未提及

煎服方法:未提及

其他治法:未提及

禁忌:未提及

結局轉歸:后經X線復查潰瘍消失大半,半年后復檢已全部消除而愈

既往史:未提及

現病史:未提及

按語點評(醫案中的原文):本案辨證當屬中醫“胃痛”一證。患者表現為吞酸灼熱、手足心熱便秘、脈滑、舌尖赤苔白少津等一派熱象,可知屬胃腑實熱,一般喜用制酸之劑乃治標之方,非治本之圖也。必須用大黃以瀉熱,方用小承氣湯瀉熱通便,為有的放矢之舉,故奏效甚速。治療此類疾病張琪教授常用小承氣湯,或半夏瀉心湯加大黃下奪其熱,熱除則痛止

本研究最終以Excel2021文件作為醫案實體數據集的儲存形式。數據集構建時,將TXT文件中的半結構化的實體信息通過代碼自動化轉換為Excel文件,主要檢查是否存在串行或遺漏,審核無誤后保存,以供后續深入研究。

4 基于大語言模型的中醫醫案文本結構化工具開發與應用

以上實體抽取過程涉及大量編程工作,為便于醫學相關研究人員掌握大語言模型對醫案的實體抽取,本研究基于以上操作流程,設計和開發了基于大語言模型的中醫醫案文本結構化工具,見圖5。

圖5 基于大語言模型的中醫醫案文本結構化工具

目前該工具1.0版本分為登錄及用戶管理模塊、大語言模型常用配置模塊、任務管理模塊和項目管理模塊。登錄及用戶管理模塊主要用于用戶的系統登錄、用戶管理、密碼修改、安全配置、退出登錄等功能;大語言模型常用配置模塊主要實現根據抽取任務的不同配置不同的提示詞,擇優調用大語言模型API,及API的分配與管理;任務管理模塊用于醫案實體抽取過程的執行與管理,主要實現抽取任務的新建、待結構化文本的上傳、抽取任務的執行、抽取結果的校正、結構化文本的輸出(TXT文本和Excel文件可供選擇)等功能;項目管理模塊主要實現對多人參與的結構化文本任務進行管理,由負責人建立項目,分配給子管理人員進行各自任務管理與處理,子管理人員還可再分配給下級人員進行任務處理。

該工具為中醫醫案相關研究人員實現了基于大語言模型中醫醫案命名實體的自動化抽取,降低了非計算機人員調用大語言模型接口的門檻,加快了醫案結構化處理的過程。該工具還可根據醫案文本特點、提取實體的種類與特點,選擇適用的大語言模型和提示詞,靈活服務于醫案結構化處理。

5 結語

本研究在回顧中醫醫案格式演變過程、分析醫案結構要素、構建醫案信息模型的基礎上,設計了基于大語言模型醫案實體抽取的提示詞,成功探索出基于大語言模型的醫案命名實體的自動化抽取過程,最終開發出醫案文本的結構化工具,為中醫醫案結構化研究、大規模中醫醫案科學數據的抽取探索了可行路徑,為基于中醫醫案的人工智能研究奠定數據基礎。

猜你喜歡
文本語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产黑丝视频在线观看| 99精品免费欧美成人小视频| 亚洲无码视频一区二区三区| 五月婷婷欧美| yjizz国产在线视频网| 亚洲婷婷在线视频| 欧美区一区| 午夜视频日本| 免费国产黄线在线观看| 亚洲欧洲自拍拍偷午夜色| 四虎永久在线| 中文字幕 91| 免费av一区二区三区在线| 欧美伊人色综合久久天天| 午夜成人在线视频| 久久久久久高潮白浆| av在线5g无码天天| 日本高清免费不卡视频| 美女被躁出白浆视频播放| 99视频精品全国免费品| 欧美成人午夜视频免看| 国产成人亚洲日韩欧美电影| 国产精品极品美女自在线网站| 亚洲视频欧美不卡| 国产96在线 | 国产屁屁影院| 欧美笫一页| 99re热精品视频国产免费| 又猛又黄又爽无遮挡的视频网站| 欧美日韩午夜| 亚洲视频免费播放| 亚洲欧美在线综合图区| 女人天堂av免费| 九色91在线视频| 欧美成人一区午夜福利在线| 五月婷婷综合网| 婷婷色狠狠干| 亚洲成人动漫在线观看| 久久精品人人做人人综合试看| 国产一区二区丝袜高跟鞋| Aⅴ无码专区在线观看| 国产一级毛片yw| 亚洲国产日韩在线观看| 99er这里只有精品| 日韩最新中文字幕| 欧美成人二区| 国产高清国内精品福利| 国产精品成人久久| 久久9966精品国产免费| 久久久久久久久亚洲精品| 久热99这里只有精品视频6| 国产网站黄| 青青网在线国产| 四虎永久免费在线| 青青热久免费精品视频6| 免费一级毛片| 日韩亚洲高清一区二区| 影音先锋丝袜制服| 九九热免费在线视频| 欧美国产在线一区| 日韩欧美一区在线观看| 国产视频一区二区在线观看| 免费无码在线观看| 国产亚洲高清在线精品99| 狠狠色狠狠综合久久| 欧美va亚洲va香蕉在线| 亚洲天堂久久| 91在线一9|永久视频在线| 白浆视频在线观看| 国产亚洲精品资源在线26u| 国产成人综合在线视频| 最新日本中文字幕| 亚洲国产日韩在线成人蜜芽| 99久久国产综合精品2023| 亚洲精品成人片在线观看 | 日本精品视频| 亚洲黄网在线| 狠狠色丁香婷婷| 成人91在线| 伊人查蕉在线观看国产精品| 国产福利一区二区在线观看| 日a本亚洲中文在线观看|