基于BiLSTM-CRF模型的醫學影像檢查報告信息實體識別

2023-11-09 10:37:32尤麗玨尹遠芳

微型電腦應用 2023年10期

關鍵詞：模型

尤麗玨, 尹遠芳

(華東醫院,上海 200040)

0 引言

臨床醫學檢查是醫生確定患者病因的重要手段,為疾病對癥治療提供客觀性證據。醫學影像檢查報告是影像科通過攝片的診斷記錄,詳細描述病灶位置、大小、形態等信息,幫助醫生快速確定診療方案[1]。隨著醫療大數據、人工智能的發展,醫學影像檢查報告的科研價值日益受到重視,成為疾病風險預測和臨床決策支持的重要依據[2]。然而,醫學影像檢查報告通常以非結構化的自然語言方式書寫,面臨著術語不規范、語義不一致等問題,關鍵信息的匯總分析較困難[3]。因此,如何高效準確抽取出結構化、可統計的特征數據成為醫療機構關注的重點。

命名實體識別(NER)是自然語言處理(NLP)的核心技術,通過自主學習識別醫學文本的疾病、癥狀等特定實體,替代人工標注[4]。BiLSTM-CRF屬于命名實體識別的經典序列標注模型,雙向長短期記憶神經網絡(BiLSTM)利用輸入序列的上下文信息加強識別度,條件隨機場(CRF)負責分離輸出層的關聯性,預測標簽考慮上下文關聯,準確判斷命名實體[5]。本文旨在基于BiLSTM-CRF模型構建一種適用于醫學影像檢查報告的NER方法,對報告文本內容進行實體識別,構建專項術語知識庫,實現特征數據的智能匹配和提示功能,為其他醫療機構應用醫療大數據工作提供借鑒。

多數酒店知識型員工的薪資水平不高，而且相互之間差距不大。酒店的高層管理人員沒有體會到知識型員工的重要性和能夠為酒店所帶來的附加值，或者對于其認識不夠。將知識型員工的收入水平與一般員工的收入水平等同起來。這樣的后果就是使得知識型員工產生消極感和對自我價值的過低評估，覺得自己的努力沒有獲得應該的回報，自身的價值在工作中得不到認可與體現。有些酒店甚至沒有為知識型員工辦理相對應的社會保障例如：社會養老保險、失業保險和社會醫療保險，偏偏知識型員工的學習能力信息接收能力強，對自身的風險規避意識較高，酒店這種對知識型員工安全心理的不作為會導致知識型員工對企業的信任感較低。

1 相關工作

醫療命名實體識別技術分為基于規則、機器學習和深度學習3類。基于規則方法依賴預先設定的規則,KOCAMAN等[6]通過分析臨床報告的語義和句法結構,結合醫學詞典和專家規則構建處理模型;機器學習方法通常將實體識別任務轉化為標簽分類任務,包括隱馬爾科夫(HMM)、決策樹 (Decision Tree)和CRF等[7],葉楓等[8]使用CRF方法識別電子病歷的實體,特征模板用小規模的語料庫訓練,取得較理想的F1值;深度學習方法能夠自動學習語義級別的特征,屬于目前主流的研究領域,GLIGIC等[9]使用醫學語料庫訓練Word2Vec詞嵌入算法,將嵌入矩陣和詞匯表用于電子病歷的結構化轉換,提升識別效果。

醫學影像檢查報告包含大量的專有長組合詞,處理常規醫療文本的NER方法在區分征象邊界的正確率不高,容易產生結構化信息的丟失[10]。醫學影像檢查報告應用于很多醫療管理和質控場景,加強其關鍵特征數據的識別有著重要意義[11]。

2 智能實體識別

2.1 總體框架

本文圍繞BiLSTM-CRF模型建立醫學影像檢查報告特定語料環境的智能識別系統,識別并提取關鍵的特征數據,以結構化的數據形式存儲,實現書寫時的智能邏輯提示。首先,基于影像報告軟件(RIS)產生的報告文本進行BiLSTM-CRF模型訓練,提取部位、癥狀、陽性標志等結構化內容,與人工標注匹配;其次,加入補償驗證環節,抽取病理信息系統(PIS)里患者一定周期內的病理結果,按部位、陽性標志等與識別結果進行Word2Vec算法的相似度計算,若兩者結論不一致,及時推送消息提醒醫生,糾正可能存在的遺漏;最后,系統后臺將醫生正確反饋的結構化數據入庫,將更正的識別信息注入模型,自學習結果納入專項術語詞庫,形成一套閉環完整的實體識別體系框架。總體流程如圖1所示。

實驗硬件平臺為Intel Core i7-8700 3.2 GHz CPU,NVIDIA RTX 3080 GPU,軟件環境為深度學習框架Python 3.7。參數設置方面,批處理大小=16,字向量維度=300,學習率=0.001,丟失率=0.5,LSTM長度=128,BiLSTM網絡層數=2。

圖1 醫學影像檢查報告智能識別流程

2.2 實體識別算法原理

輸入層對原始非結構化的醫學影像檢查報告文本進行預處理及中文分詞。預處理去除標點符號、特殊符號、空格等無關信息,強調特定詞語和詞語組合,避免關鍵信息的歧義。中文分詞使用4標簽(single:單字;begin:多字詞首字;middle:多字詞中間字;end:多字詞尾字),標注句中每個字的標簽,例如:句子“左肺下葉肺隔離癥伴粘液栓形成”,標注為“左/b 肺/m 下/m 葉/e 肺/b 隔/m 離/m 癥/e 伴/s 粘/b液/e 栓/s 形/b 成/e”,即“bmmebmmesbesbe”作為輸入。

圖2 BiLSTM-CRF實體識別模型

本文的BiLSTM-CRF模型分為5層,包括輸入層、Embedding層、BiLSTM層、CRF層和輸出層,模型結構如圖2所示。

陳至立在致辭中指出，《辭海》要緊跟數字網絡技術迅猛發展的步伐，推出豐富多樣的知識產品，提供個性化、公益性的知識服務，到2019年第七版面世時，同步推出紙質版、網絡版，并努力建成“面向知識服務的《辭海》數字出版云平臺”，完成從編纂、管理到發布、運營全流程的網絡化和數字化，以更好地滿足廣大讀者和用戶需求，為中國特色社會主義文化大發展、大繁榮作出新貢獻。

總之，在數學課堂教學中，要提高學生在40分鐘內的學習效率，提高自身的教學質量，我們就應該充分做到備教材、備教法，提高自身的教學能力，發揮自身的主導。

結合中文醫學檢查結論的特點及臨床實際應用,設定為部位(B)、癥狀(S)、程度(D)、判斷(J)和陽性(Y)等5大實體類型,對訓練數據集進行手動標注,最終標注38 839個實體,如表2所示。

CRF 層從訓練集獲取約束性規則以保證預測標簽的合理性,降低非法序列出現的概率[13]。每個句子預測值即為一個標注序列,轉換為CRF的一個特征函數。若特征函數的輸出值為1時,表示此標注序列符合特征;若輸出值為0,表示不符合。每個特征函數均賦有權重,實現對標注序列的分值評判。對分值指數化和標準化,得到標注序列的概率,選擇最優概率作為結果傳遞輸出層,實現醫學影像檢查報告文本的實體識別。

3 數據選取和模型訓練

3.1 數據選取

采用命名實體識別常用的3個定量評價指標,即準確率(Precision-P)、召回率(Recall-R)和F值[15],對識別性能進行衡量,計算公式為

表1 醫學影像檢查報告的段落示例

BiLSTM層由擁有捕獲更長距離信息的前向和后向LSTM組成,前者用于學習醫學影像檢查報告的前向序列信息,后者用于學習后向的序列信息,例如:“左肺下葉”和“葉下肺左”的序列信息提取,雙向的LSTM結構考慮了句子前后的信息,充分結合上下文的特征,經標注的單個字“左”、“肺”具有同等權值。BiLSTM層實現上下文信息的有效提取與整合,保證部位等實體預測結果的準確性。

表2 實體類型標注情況

3.2 模型訓練

合理分組是實施合作學習的前提，也是營造良好合作學習氛圍的重要舉措。分組過程中，教師要尊重學情，充分考慮學生之間存在的差異，包括學習能力存在的差異，使不同學習能力的學生得到合理搭配；要考慮學生之間的性格不同，使不同性格的學生進行合理配合，達到取長補短的作用。

Embedding層采用Word2Vec算法的詞嵌入。Word2-Vec主要分為2類,連續詞袋(CBOW)和連續跳躍元語法(Skip-gram)。CBOW通過詞的上下文對當前詞預測學習詞向量,Skip-gram根據當前詞對上下文預測實現學習過程[12]。本文采用CBOW算法,可視作一種映射關系,其輸入為單個詞匯構成的詞表,伴隨降維過程輸出每個詞的向量表示,如圖3所示。

考慮數據完整性等因素,模型前期訓練基于既往的醫學影像檢查報告進行。隨機篩選2021年度RIS的1000份CT報告作為訓練樣本,以8∶1∶1的比例劃分訓練數據集、測試數據集和驗證集[14]。其中,每份報告均包含檢查部位和名稱、檢查方法等段落,如表1所示。

(1)

(2)

(3)

3.3 實驗結果

實驗結果顯示,模型整體的P達到89.98%,R和F值為83.95%和86.85%。進一步按類型分析,可以看出識別準確率均在80%以上,如圖4所示。其中,陽性(Y)的識別精度最高,癥狀(S)相對較低。由于醫生對同一癥狀的表述差異,例如“見索條影”,可能有些醫生描述為“陰影呈索條狀”,因此,模型依賴更多的自學習,提升對表達方式多變的文本識別效果。

圖4 按類型識別效果的評價(%)

4 應用效果

在前期工作基礎上,醫學影像檢查報告智能識別系統投入試運行,覆蓋范圍限于胸部相關的CT報告,1個月內共納入3446份報告。如圖5所示,系統對檢查報告預處理,過濾特殊符號、分詞等;處理后文本傳入BiLSTM-CRF模型實體識別,若置信度高于閾值,將實體詞條與專項術語庫預設對應,拆分成部位、癥狀等小項;提取的特征數據在RIS報告右端顯示,醫生查看校對確認后,以結構化數據形式入庫,以便科研統計使用。

由表3可知，不同配方速溶油茶得率不同，配方1～7的茶葉均為春綠茶，得率在17.64%～19.62%；配方9為冰鮮烏龍茶（成熟葉片），CK為市場上油茶企業常用的原料（粗老茶），得率分別為8.13%和10.77%。因此，速溶油茶得率與原料嫩度呈正相關，原料越老，內含物越少，得率越低。另外，此次試驗只浸提1次，下一步會增加浸提試驗次數，研究最佳浸提次數，提高得率。

后臺管理模塊對實際運行的識別效果進行了統計,如表4所示。由表4可以看出,第一周的識別效果并不理想,原因是訓練集未能完全覆蓋特征數據的多元化。經過磨合,第四周準確率已經達到92.64%,基本滿足業務預期。識別結果存在錯誤時,醫生根據實際情況人工校正,系統對糾正結果進行自學習,將選擇的小項映射到正確的實體類別,模型推導正確結果的邏輯得以優化。同時,本次檢查報告與近期病理結果的陽性若有差異,系統以閃爍的紅色字體反饋,先后共推送4次提醒,保障了檢查報告書寫的質量。

表4 按周評價醫學影像檢查報告識別效果單位:%

5 總結

本文將命名實體識別技術運用于醫療業務軟件,利用BiLSTM-CRF模型進行醫學影像檢查報告的實體識別,有效地提取了關鍵特征數據。采用準確率、召回率和F值對識別效果進行評價,證明了方法的可行性和可靠性。智能識別系統應用后,結構化特征數據的自動提取精度達到了較高水平,提高了醫學影像檢查報告的數據使用價值。調查顯示,系統提供的智能提示功能,醫生在使用滿意度方面有著5.3%的提升。當然,實際使用過程中仍存在著待改進的內容,如專業詞匯庫不夠豐富,邏輯規則的匹配錯誤率有待降低。后續,醫院將進一步納入其他疾病的檢查報告,提高模型訓練的自學習能力,以期達到更好的應用效果。隨著醫學檢查專業詞匯和后結構化數據的不斷累積,將為科研領域的知識挖掘奠定堅實基礎。