劉偉偉 王立軍 龐 娟 王 丹 衡反修
(北京大學(xué)腫瘤醫(yī)院暨北京市腫瘤防治研究所信息技術(shù)服務(wù)部/惡性腫瘤發(fā)病機(jī)制及轉(zhuǎn)化研究教育部重點(diǎn)實(shí)驗(yàn)室 北京 100142)
電子病歷系統(tǒng)是醫(yī)療系統(tǒng)與臨床業(yè)務(wù)結(jié)合最緊密、臨床使用最多的醫(yī)療系統(tǒng)之一。為提高電子病歷書寫質(zhì)量,國家衛(wèi)生監(jiān)管部門相繼出臺(tái)《病歷書寫基本規(guī)范(試行)》[1]和《醫(yī)療機(jī)構(gòu)病歷管理規(guī)定(2013年版》等文件,2018年12月出臺(tái)的《電子病歷系統(tǒng)應(yīng)用水平分級評價(jià)管理辦法(試行)》和《全國醫(yī)院信息化建設(shè)標(biāo)準(zhǔn)與規(guī)范(試行)》[2]要求各地醫(yī)院進(jìn)一步推進(jìn)病歷信息化進(jìn)程,提高醫(yī)院醫(yī)療服務(wù)質(zhì)量,對電子病歷數(shù)據(jù)質(zhì)量提出了更嚴(yán)格、具體的要求。
張坤麗等[3]應(yīng)用基于規(guī)則的方法對電子病歷數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,采用最大熵模型對電子病歷進(jìn)行分類,以提高病歷結(jié)構(gòu)化的準(zhǔn)確性,但該模型僅對首次病程記錄進(jìn)行去重處理及自動(dòng)差異化分析,涉及病案種類較少,難以實(shí)現(xiàn)全覆蓋。宋源等[4]基于模式層與后臺(tái)數(shù)據(jù)層構(gòu)建功能性胃腸病中醫(yī)藥知識(shí)圖譜,建立較完整的胃腸病知識(shí)庫,但是病歷內(nèi)容分詞較少、知識(shí)庫不夠全面。馬啟賢[5]提出一套中文電子病歷標(biāo)注規(guī)則以及兩種實(shí)體識(shí)別方法,提高識(shí)別與分詞準(zhǔn)確性,但是模型驗(yàn)證數(shù)據(jù)量有限,魯棒性較差。
針對醫(yī)院病歷質(zhì)量管理延遲、質(zhì)控流程覆蓋面窄、專科醫(yī)院質(zhì)控規(guī)則缺乏等問題,北京大學(xué)腫瘤醫(yī)院搭建基于自然語言處理(natural language processing,NLP)技術(shù)的腫瘤專科病歷質(zhì)控系統(tǒng),實(shí)現(xiàn)全院患者病歷質(zhì)量全流程閉環(huán)管理。該系統(tǒng)通過自然語言處理完成分詞及語義分析,實(shí)現(xiàn)電子病歷文書后結(jié)構(gòu)化,并借助知識(shí)圖譜搭建適合該院的專科類知識(shí)庫、質(zhì)控規(guī)則引擎庫[6],建立高效且實(shí)用的專科電子病歷質(zhì)控系統(tǒng)。
北京大學(xué)腫瘤醫(yī)院電子病歷系統(tǒng)于2014年上線。隨后針對住院患者增補(bǔ)上線時(shí)限類質(zhì)控功能,主要包括住院患者入院記錄、日常病程時(shí)間提醒與質(zhì)控,減少超時(shí)病歷。終末病歷依舊延用傳統(tǒng)質(zhì)控模式,見圖1。由醫(yī)務(wù)部門專人抽查質(zhì)控,耗時(shí)耗力;隨機(jī)抽查質(zhì)控容易遺漏,質(zhì)控問題不全面;容易出現(xiàn)主觀判斷失誤等問題。

圖1 傳統(tǒng)電子病歷質(zhì)控流程

圖2 人工智能電子病歷質(zhì)控流程
為進(jìn)一步加強(qiáng)醫(yī)療機(jī)構(gòu)病歷管理,提高病歷內(nèi)涵質(zhì)量,助力醫(yī)院高質(zhì)量發(fā)展,構(gòu)建以機(jī)器學(xué)習(xí)、人工智能(artificial intelligence,AI)為核心的電子病歷內(nèi)涵質(zhì)控體系。利用自然語言處理技術(shù),以知識(shí)庫和規(guī)則庫為引擎,研發(fā)“住院病歷質(zhì)控、門診病歷質(zhì)控、病案首頁質(zhì)控、病案質(zhì)量與核心制度監(jiān)管、腫瘤專科質(zhì)控”電子病歷內(nèi)涵質(zhì)控系統(tǒng),形成電子病歷“前置審核、全面覆蓋、過程監(jiān)管、閉環(huán)管理”的全新質(zhì)控模式。實(shí)現(xiàn)患者病歷文書全覆蓋質(zhì)控,實(shí)時(shí)檢出病歷問題并及時(shí)提醒醫(yī)生修改,完成病歷的前置審核與監(jiān)管。患者出院且病案室簽收病歷后,本科室質(zhì)控員與醫(yī)務(wù)處質(zhì)控管理員可登錄質(zhì)控系統(tǒng)針對有問題病歷文書發(fā)送整改通知,醫(yī)生修改后及時(shí)反饋,實(shí)現(xiàn)問題閉環(huán)管理可追溯。該系統(tǒng)可有效提高臨床科室和管理部門的工作效率。
電子病歷內(nèi)涵質(zhì)控系統(tǒng)主要通過集成平臺(tái)進(jìn)行實(shí)時(shí)數(shù)據(jù)同步,輔助以抽取、轉(zhuǎn)換和加載(extract-transform-load,ETL)技術(shù)抽取歷史數(shù)據(jù)。數(shù)據(jù)同步后利用自然語言處理、機(jī)器學(xué)習(xí)等人工智能技術(shù),進(jìn)行分詞、整合、歸一等操作處理,形成大數(shù)據(jù)醫(yī)院管理平臺(tái)等數(shù)據(jù)應(yīng)用。數(shù)據(jù)集成流程,見圖3。
數(shù)據(jù)來源是數(shù)據(jù)集成流程中的基礎(chǔ),除HIS、檢驗(yàn)檢查等常規(guī)數(shù)據(jù)來源外,還有電子病歷的異構(gòu)文本數(shù)據(jù),因此將病歷文書內(nèi)容后結(jié)構(gòu)化處理,進(jìn)行數(shù)據(jù)整合,從而形成智能醫(yī)學(xué)數(shù)據(jù)中臺(tái)[7],實(shí)現(xiàn)各系統(tǒng)數(shù)據(jù)共享。每日利用數(shù)據(jù)中臺(tái)同步終末病歷患者的基礎(chǔ)數(shù)據(jù),完成質(zhì)控。結(jié)合電子病歷系統(tǒng)間實(shí)時(shí)數(shù)據(jù)交互接口進(jìn)行環(huán)節(jié)病歷患者數(shù)據(jù)同步,有問題及時(shí)提醒,文書每次保存后毫秒內(nèi)即可完成反饋,縮短醫(yī)生等候時(shí)間。
面對海量的患者數(shù)據(jù),集成流程中數(shù)據(jù)處理環(huán)節(jié)是最復(fù)雜也是最為重要的一步,運(yùn)用自然語言處理技術(shù),處理多源異構(gòu)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的融合與匯集。結(jié)合命名實(shí)體識(shí)別與信息提取技術(shù),識(shí)別疾病、藥物等文本實(shí)體,并從中提取關(guān)鍵信息,如入院記錄中的過敏原、腫瘤分期等。對所提取數(shù)據(jù)進(jìn)行集成、清洗、分類、情感分析、規(guī)范、質(zhì)量控制,從而轉(zhuǎn)換成結(jié)構(gòu)化可利用數(shù)據(jù)。系統(tǒng)歸并清洗了全院近1年超過十萬份的病歷數(shù)據(jù)以及超過百萬條的檢驗(yàn)檢查醫(yī)囑結(jié)構(gòu)化數(shù)據(jù)。
由于醫(yī)學(xué)術(shù)語主觀性表達(dá)較強(qiáng),同一名詞在實(shí)際數(shù)據(jù)中存在不同醫(yī)生采用不同書寫方式的現(xiàn)象。利用醫(yī)學(xué)知識(shí)庫的數(shù)據(jù)字典將院內(nèi)使用的不同書寫方式進(jìn)行標(biāo)準(zhǔn)化處理并保存在知識(shí)庫中,在實(shí)際質(zhì)控時(shí)將其映射至統(tǒng)一實(shí)體名稱,消除書寫方式不同導(dǎo)致的語義差異。構(gòu)建符合腫瘤醫(yī)院需求的腫瘤專科知識(shí)圖譜,包括醫(yī)療實(shí)體、關(guān)系、屬性,如疾病與癥狀,癌癥癥狀包括脫發(fā)、疼痛等;藥物與藥品,抗腫瘤藥物包括放療藥、化療藥等;疾病治療和診斷方法,化療、放療以及檢驗(yàn)、穿刺病理等。系統(tǒng)立足醫(yī)院醫(yī)療數(shù)據(jù),以腫瘤為核心,構(gòu)建包含抗腫瘤藥品、檢驗(yàn)、放化療等8類十萬條規(guī)模的知識(shí)實(shí)體,11類近百萬條實(shí)體關(guān)系的知識(shí)圖譜。
系統(tǒng)在應(yīng)用自然語言技術(shù)的同時(shí)融合醫(yī)院腫瘤專科特色,對部分分詞切詞進(jìn)行醫(yī)學(xué)標(biāo)注,進(jìn)一步加強(qiáng)對腫瘤相關(guān)病歷文書的分解與保存,提高準(zhǔn)確率。以入院記錄的初步診斷TNM分期規(guī)則分詞為例,入院記錄中診斷“1.外陰皮膚惡性黑色素瘤術(shù)后T2bN2aM1aIV期,1.1.左腹股溝淋巴結(jié)清掃術(shù)后(3/9),1.2.雙肺多發(fā)轉(zhuǎn)移;2.周圍神經(jīng)病”。首先,找到診斷數(shù)據(jù)中實(shí)體并對相應(yīng)實(shí)體進(jìn)行標(biāo)注,包括部位、程度、腫瘤、階段、TNM分期、臨床分期;其次,根據(jù)主次診斷、腫瘤診斷分期、不同實(shí)體間的邏輯關(guān)系,進(jìn)行對應(yīng)語義標(biāo)注與關(guān)系串聯(lián),見圖4。

圖4 入院診斷語義分詞分析
針對腫瘤專科醫(yī)院特色,對入院記錄、出院記錄、抗腫瘤日常病程等文書,共計(jì)近千份文本數(shù)據(jù)的醫(yī)學(xué)標(biāo)注,制定了14條腫瘤專科特色質(zhì)控規(guī)則,質(zhì)控涉及入院記錄、出院記錄、日常病程、手術(shù)記錄、知情同意書等各類文書。
知識(shí)庫建立過程中,基于國際疾病分類(international classification of diseases,ICD)、醫(yī)學(xué)系統(tǒng)命名法(systematized nomenclature of medicine,SNOMED)等疾病術(shù)語標(biāo)準(zhǔn),權(quán)威指南以及醫(yī)學(xué)質(zhì)量管理體系、衛(wèi)生信息交換標(biāo)準(zhǔn)(health level 7,HL7)等,借助臨床醫(yī)生幫助,建立醫(yī)學(xué)專業(yè)術(shù)語與臨床日常書寫習(xí)慣的對應(yīng)關(guān)系[8]。利用半監(jiān)督機(jī)器學(xué)習(xí)方法獲取初始醫(yī)學(xué)數(shù)據(jù)建立本體庫,借助語義之間的關(guān)聯(lián),利用機(jī)器推理和人工糾偏,參考醫(yī)學(xué)相關(guān)概念和聯(lián)系,形成較完整的數(shù)據(jù)層次結(jié)構(gòu),建立同一疾病間的上下層級關(guān)系表和上下語義之間的關(guān)聯(lián),其中包含概念、屬性、關(guān)系和實(shí)例,以結(jié)構(gòu)化形式表現(xiàn)。處理全院患者本體數(shù)據(jù),形成疾病知識(shí)庫、藥學(xué)知識(shí)庫、術(shù)語癥狀庫、輔助檢查知識(shí)庫、治療操作庫、文獻(xiàn)指南庫等。全量本體數(shù)據(jù)達(dá)到800萬條,其中院內(nèi)知識(shí)庫內(nèi)容均達(dá)到萬條級別:術(shù)語癥狀庫超過9萬條,疾病知識(shí)庫超過7萬條,治療操作庫超過5萬條。
為進(jìn)一步加快數(shù)據(jù)處理速度,提高質(zhì)控效率,進(jìn)行如下優(yōu)化。一是優(yōu)化操作頁面,對于響應(yīng)時(shí)間要求高的操作頁面,如電子病歷點(diǎn)擊保存最新數(shù)據(jù)時(shí),均嚴(yán)格遵守高性能操作頁面設(shè)計(jì)原則,保證使用效率。二是調(diào)整數(shù)據(jù)庫,利用分布式文件存儲(chǔ)數(shù)據(jù)庫MongoDB的非關(guān)系型數(shù)據(jù)庫,將不同類型的表存儲(chǔ)于不同的表空間,做好不同來源數(shù)據(jù)的分類。結(jié)合用戶建議和使用頻率,定時(shí)將部分歷史數(shù)據(jù)遷移至備份庫,使每次質(zhì)控的數(shù)據(jù)保持在較小數(shù)量級內(nèi)。三是利用數(shù)據(jù)庫連接池,作為質(zhì)控系統(tǒng)的核心,數(shù)據(jù)庫高頻次打開和關(guān)閉會(huì)占用大量系統(tǒng)資源。利用服務(wù)器提供的數(shù)據(jù)庫連接池高級特性,在系統(tǒng)建立之初創(chuàng)建若干數(shù)據(jù)庫連接,使用系統(tǒng)時(shí),只需快速地從連接池中得到一個(gè)已經(jīng)建立好的連接即可,大大提高數(shù)據(jù)庫訪問速度,縮短用戶等待時(shí)間。
AI質(zhì)控系統(tǒng)在全院運(yùn)行半年以上,相較于傳統(tǒng)質(zhì)控流程,具有以下優(yōu)勢。一是通過優(yōu)化電子病歷模板減少了書寫失誤。針對文書必填項(xiàng)等要求,在制作模板時(shí)利用電子病歷內(nèi)嵌功能設(shè)置必選屬性,“前置質(zhì)控、源頭治理”。重要病歷模板采用結(jié)構(gòu)化模式統(tǒng)一代碼,以結(jié)構(gòu)化數(shù)據(jù)集存儲(chǔ),提高數(shù)據(jù)質(zhì)量。二是實(shí)時(shí)提醒并及時(shí)整改。在院患者采用環(huán)節(jié)質(zhì)控,醫(yī)生在書寫保存病歷時(shí)實(shí)時(shí)傳輸數(shù)據(jù),可接收小程序彈窗實(shí)時(shí)提醒,并根據(jù)提醒內(nèi)容修改問題文書。科室質(zhì)控員可通過質(zhì)控程序查看本科室在院患者文書書寫質(zhì)量情況,根據(jù)問題發(fā)送整改通知,進(jìn)一步提高病歷質(zhì)量。三是智能手段與人工結(jié)合逐步提升質(zhì)控準(zhǔn)確率。出院歸檔患者采用終末質(zhì)控,醫(yī)務(wù)處對內(nèi)涵質(zhì)控系統(tǒng)檢出的乙級、丙級病歷進(jìn)行人工核查,減少機(jī)器誤判及醫(yī)療特殊情況扣分情況,并對誤判內(nèi)容人工標(biāo)注后再次分詞處理,豐富知識(shí)庫,減少誤判。
系統(tǒng)自上線以來,在全院各科室使用,覆蓋率達(dá)100%,遠(yuǎn)超人工質(zhì)控效率,見表1。隨著質(zhì)控工作的進(jìn)一步深入,醫(yī)務(wù)處及時(shí)收集臨床使用中有關(guān)系統(tǒng)、質(zhì)控規(guī)則、使用范圍的問題,反饋并調(diào)整系統(tǒng),更新機(jī)器學(xué)習(xí)模型及分詞規(guī)則,不斷擴(kuò)大知識(shí)庫,更好地適應(yīng)腫瘤專科文書的質(zhì)控需求。

表1 住院病歷不同質(zhì)控方式比較
通過環(huán)節(jié)質(zhì)控實(shí)時(shí)彈窗提醒,當(dāng)?shù)梅值陀诩准壊v時(shí),病歷扣分細(xì)節(jié)自動(dòng)彈出提醒醫(yī)生及時(shí)修改。2022年10月彈窗功能上線以來,每份病歷的點(diǎn)擊量明顯上升,見圖5,反映醫(yī)生對于每份缺陷病歷均能及時(shí)點(diǎn)擊修改。由此甲級病案率由2022年7月的88%增長至2022年12月的96%,見圖6,從源頭解決了文書缺陷問題,大大提升了病案質(zhì)量水平,減少了病案糾紛。

圖5 質(zhì)控系統(tǒng)上線后每份病歷點(diǎn)擊量

圖6 質(zhì)控系統(tǒng)上線后甲級病案率
系統(tǒng)在原有規(guī)則的基礎(chǔ)上,針對醫(yī)院特色開發(fā)腫瘤專科規(guī)則,進(jìn)一步滿足《病案管理質(zhì)量控制指標(biāo)》(2021年版)[9]的要求,提高了醫(yī)院管理效率及質(zhì)量,見表2。

表2 腫瘤專科規(guī)則上線效果
病歷質(zhì)控系統(tǒng)集成醫(yī)院各業(yè)務(wù)系統(tǒng)醫(yī)療數(shù)據(jù),進(jìn)行數(shù)據(jù)后結(jié)構(gòu)化處理,搭建醫(yī)院智能數(shù)據(jù)中臺(tái),建立腫瘤專科知識(shí)庫及質(zhì)控規(guī)則庫。搭建并推廣了電子病歷“前置審核、全面覆蓋、過程監(jiān)管、閉環(huán)管理”的質(zhì)控模式,最終實(shí)現(xiàn)院內(nèi)質(zhì)控100%覆蓋,全院甲級病案率提升至96%,提升了全院的病案質(zhì)量。
但是實(shí)際運(yùn)行中尚存在病歷模板結(jié)構(gòu)化程度低、文書內(nèi)容主觀表達(dá)強(qiáng)、后結(jié)構(gòu)化分詞不準(zhǔn)確等問題。未來將進(jìn)一步提高文書模板結(jié)構(gòu)化覆蓋率及原始數(shù)據(jù)質(zhì)量,充分利用自然語言處理技術(shù)進(jìn)一步加大醫(yī)學(xué)數(shù)據(jù)標(biāo)注量級,結(jié)合醫(yī)生書寫習(xí)慣及時(shí)更新知識(shí)庫,從而提高分詞準(zhǔn)確率,推動(dòng)醫(yī)療質(zhì)量提升。
利益聲明:所有作者均聲明不存在利益沖突。