999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子病歷的命名實體識別方法綜述

2022-02-14 20:02:06陳翯常霞趙東宸
科技創新導報 2022年20期
關鍵詞:文本方法模型

陳翯 常霞* 趙東宸

(1.北方民族大學數學與信息科學學院 寧夏銀川 750021;2.寧夏智能信息與大數據處理重點實驗室寧夏銀川 750021)

近年來,人工智能、大數據分析等新科學技術的發展不斷賦能醫藥衛生產業。盡管中國智能醫院建設與發展總體呈現出穩定增長的態勢,但醫療行業的信息化和智能化水平依然不夠高。醫院數據的來源、分析、獲取等方面存在較大的不足。但是智能健康發展遠景寬廣,許多大型公司融合醫院數據、硬件資源,構造智能健康產業鏈,如醫學影像分析、遠程探診會診、智慧醫院系統等,而智慧醫院系統的建立需要以數字化的電子病歷數據庫作為支撐。這一過程包括采用自然語言處理方法將電子病歷文本結構化。自然語言處理(Natural Language Processing,NLP)構建了人與計算機通過自然語言開展有效溝通的理論和方法,其任務過程可以概括為詞性標注、命名實體識別(Named Entity Recognition,NER)、實體關系抽取、數據訓練等主要方面,其中命名實體識別是信息提取、問答系統、句法分析、機器翻譯,面向Semantic Web的元數據標注等應用領域的重要基礎,在自然語言處理技術實用化過程中占據關鍵地位。電子病歷的命名實體識別以現有的病例數據庫作為支撐,但是由于醫生們的記錄習慣不同及中文表達的多樣性,導致目前電子病歷仍然以非結構化文本為主。因此,將非結構化電子病歷轉換為結構化電子病歷成為了人們研究的一個重要方向。中文表達方式的多樣性,相較于其他語種的自然語言處理,中文電子病歷結構化所面臨的研究工作仍具挑戰。

早先的命名實體識別分析方法著重于詞典和規則[1]的設計。后因為機器學習的蓬勃發展和計算能力的不斷增強,各種基于統計機器學習[2-4]的命名實體識別方法問世。自本世紀初Yoshua Bengio 提出了舉世矚目的神經網絡模型后,深度學習方法在各個領域大放異彩,也成為了現今命名實體識別應用最廣泛的方法。

2017年起,全國知識圖譜與語義計算大會(CCKS)啟動特別針對中文電子病案的MNER 測評技術難題,至今已連續舉辦五屆,推動了中文電子病歷NER研究的發展。雖然近年來,我國NER發展整體呈現上升趨勢,但由于中文表達的復雜性,歧義性以及其他的情況,中文命名實體識別仍然有較大的發展空間,而電子病歷因為其文本領域的特殊性,發展相較于其他類別的中文命名實體識別更稍顯落后。本文在已有的研究成果基礎上,總結了現有命名實體識別方法,分析討論了現有方法的優勢及其局限性,綜述其研究進展,并對在醫療系統中的應用發展前景進行了展望。

1 基于規則和詞典的命名實體方法

與通用領域的命名實體不同,電子病歷的命名實體識別任務因為其文本包含大量的專業術語,文本數據標注呈現出更大的困難。早期的電子病歷命名實體識別面向生物醫學領域文本,與生物、化學等領域結合研究。最早期基于規則和詞典的NER方法,其文本針對性太強,并且消耗大量的人力資源進行數據標注及規則的制定,已漸漸被淘汰。此方法對于現在每天海量更新的數據并不適應,但是對于簡單的序列標注問題,其省時且簡單的方法更能提高效率。簡單來說基于規則方式的步驟可以概括為三步:(1)通過分詞獲得特征詞;(2)對特征詞進行序列標注;(3)對標注后的序列進行正則性匹配。基于規則的NER 優點在于其規則可以人為設置,對于簡單的實體識別任務來說十分高效。但是因為其對于語言文本風格的依賴性較強,針對性太強,適應性太弱,系統轉接性差,對于不同使用環境需重新進行系統構建,因此已經漸漸被其他方式取代。

2 基于機器學習的命名實體方法

隨著機器學習的出現,大量基于統計機器學習的NER 方法出現,如隱馬爾可夫模型、最大熵模型、支持向量機、條件隨機場、決策樹等比較出色的方法。其中,條件隨機場方法到現在也仍然被許多研究人員用來與深度學習方法相結合提升NER 效果,此方法將NER 過程看作一個序列標注問題,解決了高維度向量中存在的數據稀疏問題。

基于統計學習的方法中最具代表性的4種算法分別為隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Models,MEM)、支持向量機(Support Vector Machine,SVM)及條件隨機場(Conditional Random Field,CRF)方法。HMM 是雙重隨機過程,即模型的變換過程隱秘,可檢視的隨機過程是隱秘的狀態切換過程的隨機函數[5]。對于NLP 來說,其文本序列具有遞歸性,當序列長度較大時,HMM的復雜程度會大幅度增加,因此,HMM-NER更適用于短文本的任務,當面對長文本時,其效果有時并沒有MEM 及SVM 好。MEM 指在獲取部分數據后,基于可知信息最大隨機的推想下判別最適當的未明分布;一般來說正確率高于HMM,但是其模型關聯性高,雖然通用性高,但是訓練較為復雜。SVM 是一種二分類模型,通過構造超平面將數據一分為二,在解決小樣本或高位模式識別中優勢十分突出,在NER任務中準確性高于HMM模型。CRF是一種全局最優的標注框架,也是現在NLP 任務中更為受到青睞的一種方法,但是缺點為收斂速度較慢,訓練時間長,所以一般將CRF與其他算法相結合,以達到更好的效果。基于統計學習方法的NER 對于語料庫的依賴性較強,而電子文本的NLP 任務的重難點就在于其數據難得,因此并不推薦這種方法處理中的電子病歷。

3 基于深度學習的命名實體識別方法

鑒于深度學習技術的逐步推進和計算機算力的不斷提高,基于深度學習的NER方法也已轉變成主流方法,Lample[6]等人提出的BiLSTM-CRF 模型變成NER的主流模型,Ma[7]等人將卷積神經網絡加入BiLSTMCRF 中,提取了字符級特征。Rei[8]等人利用BiLSTMCRF 模型中的注意力機制,將原生的子向量和詞向量結合進一步改進成取用兩層傳統神經網絡隱含層學習注意力機制的權值。

如圖1所示,BiLSTM是雙向LSTM網絡,由于單向LSTM網絡只包含一層前向隱藏層,只能通過輸入字符串的單項信息,但在雙向LSTM網絡中,則是從正反兩個路徑獲取編碼序列,學習雙向信息,避免了梯度消失的問題。此外,CRF 層通過BiLSTM 層的輸出,給出每個單詞的每個標簽的得分,并用原始CRF 模型的參數得到最終標簽序列的概率。BiLSTM-CRF 作為當前深度學習中NER任務的最主流的模型,既保留了深度學習提取特征的優勢,又不需要特征工程,便可提升詞典特征的效率,結果的質量就會相應提高。

圖1 BiLSTM

2018 年,Google 公司提出BERT 預訓練語言模型,其概念簡單,但實驗效果極其出色,一經面世便創下了11個NLP任務的最優紀錄,在NLP領域奪得開創性的研究進展。因為BERT 提供了優良的效果,使得此方法受到了大批研究人員的青睞,一些基于BERT 衍生的語言模型相繼出現。

在醫學領域,NER任務的發展與常規的NER極為相似。傳統的醫療實體識別方法主要通過人工特征和規則進行實體識別。隨著近年來電子病歷數據的發展,對此類數據進行信息抽取越來越受到重視。但是因為電子病歷文本的特殊性,一般難以獲得大規模的數據進行訓練,也使得電子病歷的NER任務發展受到了限制。電子病歷文本內容中不僅有許多患者的個人隱私信息,且其內容專業性極強,專業術語復雜多變;不僅如此,電子病歷書寫因人不同,不同醫生的記錄習慣都有或大或小的差異,這些都是電子病歷NER任務中數據來源的困難,也是限制電子病歷發展的主要問題。

基于神經網絡結構的NER方法,無需大量人工標注,通過詞向量和字符向量即可達到不錯的效果,這也是他成為研究主流的原因,而且現階段的NER處理都更傾向于使用神經網絡與機器學習相結合的方法,結合二者的優點,使效果更為突出,無論是CNN-CRF 還是RNN-CRF 都取得了比基于豐富特征的CRF 模型更好的效果。其中最常用的是雙向循環神經網絡(Bidirectional Recurrent Neural Network,BRNN)與CRF 相結合的方式的方法:該方法通過從輸入句子的起點與終點同時進行處理,將上下文的信息編碼,并在最終增加CRF 層,既改進了CRF 收斂慢,訓練時間長的短板,又融入了神經網絡分詞算法對于處理輸入長序列的優勢,羅熹[9]等人基于自設計的優化字符級特征表示方法,提出將自注意力機制與BiLSTM-CRF 的命名實體識別方法,并與相關的醫學詞典結合,提高識別能力。除此之外,現在較為熱門的還有將注意力機制應用在基于RNN或CNN等神經網絡中,注意力機制的特點在于并不拘泥詞與詞之間的距離,直接計算二者的依賴關系,實現起來并不復雜。黃曉輝[10]等以卷積循環神經網絡為基礎,建立中文分詞和實體識別聯合學習的序列標注模型。基于統一的分詞和實體識別序列標注模式,構建了分詞信息與實體信息的聯合學習,避免了傳統流水線法的誤差傳播缺陷。不僅如此還可以在BiLSTM 的基礎上用其他方式對命名實體識別進行優化、Yuan 等[11]人在已有的基于BiLSTM 基礎上通過使用關鍵值記憶網絡將句法信息合并到主干序列標記器中的方法,提高了命名實體識別的效率。雖然電子病歷的NLP 任務處理尚不成熟,但是已經引起了許多學者的注意,楊文明和褚偉杰[12]在IDCNN-BiLSTM-CRF中,利用卷積神經網絡和循環神經網絡采集特征向量,將得到的向量拼合映射后,輸入CRF層中完成NER目標,雖整體性能較好,但仍需要提高醫療實體識別率,并進行訓練。其中,陳杰[13]等就基于ALBERT 模型,構建了一個ALBERT-BilSTM-CRF 模型,此方法減少了訓練時間,大大減少了時間開銷,但可能不如BERT可以訓練更好的模型。

但即便如此,我國電子病歷的NER任務近幾年的發展速度仍在提升,車翔玖[14]等人提出利用Word2Vec和BERT 為基礎進行預訓練,再將生成的詞輸入到BiLSTM-CRF 網絡的二階段法進行生物醫學的命名實體識別,其在Yidu-S4k 數據集實驗的結果準確率為80.94%。馬詩語[15]等人使用輕量級BERT 模型與BiLSTM-CRF 融合以減少訓練時長,針對糖尿病數據集進行訓練,取得了不錯的效果。景慎旗[16]等人使用中文百科半自動化實體標注依賴神經網絡GCN 對電子病歷文本的依賴結構建模,構建BERT-GCN-CRF模型進行電子病歷文書的NER 任務。胡海洋[17]等提出基于多頭注意力機制的膨脹卷積神經網絡模型,通過字嵌入和位置嵌入算法減輕模型對分詞效果的依賴,使用北京協和醫院的電子病歷文本數據進行訓練,準確率達到0.918。張厚昌與劉成良[18]提出融合字詞特征的中文醫療命名實體識別模型,其內在也是BERTBiLSTM-CRF 模型的搭建。2018 年,新加坡學者Yue Zhang、Jie Yang等[19]人提出了Lattice-LSTM模型,此模型也是基于BiLSTM-CRF 搭建,通過字向量與詞向量組成的Lattice 網格輸入,以減少識別的歧義。此模型充分利用了詞和詞序的信息,通過門控單元讓模型選擇最為相關的字和詞以實現實體識別,但是模型太過復雜且僅采用單向的LSTM,序列的反向信息并沒有得到充分的利用,如圖2所示。

圖2 Lattice-LSTM

綜上所述,可見在電子病歷的NER 任務中,BERT、BiLSTM、CRF 仍然是能夠取得最好效果的方法,在醫學方面也被廣泛應用,但效果都明顯落后于如新聞稿件,微博博客類的生活類文本,這與醫學文本本身具有的特殊性以及專業性有關系,另外,醫學文本的數據稀缺也是一個極為重要的原因。

NER 作為NLP 任務的底層任務,對于電子病歷的處理來說有著舉足輕重的作用,將這一任務處理好,后續的工作都將更為輕松。現今我國對于電子病歷NER任務的研究已經逐漸被研究人員注意,不再只聚集于特征工程任務的算法提高,而是因為電子病歷的特殊性逐漸做到對癥下藥,細致到每一步進程。

4 分詞

分詞作為語料預處理的一部分,其重要程度并不遜色于命名實體識別;現有公開的中文NLP 工具都十分出色,如哈爾濱工業大學研發的語言技術平臺(Language Technology Platform,LTP)、HanLP、THULAC、jieba 分詞,以及復旦大學邱錫鵬團隊的fastHan 及NLPIR;HanLP 蘊含的語料庫極為豐富,且針對不同NLP任務都有詳細代碼,且長期在GitHub上進行更新,方便同領域的其他研究人員使用學習。但是因為基于Java開發,環境或調用包的設置有些復雜,可能對于不熟悉Java 的人來說稍有難度,且對于大文本數據可能耗時較其他工具略長。哈工大研發的LTP 支持跨平臺,跨語言編程,高效精確,不需要下載SDK。主要可以進行分詞,詞性標注,命名實體識別,依存句法分析,語義角色標注及語義依存分析六項任務,其算法先進且功能全面,因此多被研究者們用來與自己算法結果進行對比。然而,它的缺點是必須基于API 參數構建HTTP 請求,并在線獲得分析結果。fastHan 算法基于BERT 的聯合模型,通過fastNLP 與pytorch 實現,且有base(前四層)與large(前八層)兩個版本。其安裝簡單方便,fastNLP 版本高于0.5.0,Pytorch版本高于1.0.0即可,可處理中文分詞、詞性標注、依存句法分析、命名實體識別4項任務。輸出結果表現為list形式,為后續其他領域的使用提供了方便。且使用簡單,如分詞粒度,分詞風格都可以根據使用者進行調換。Jieba 是基于前綴詞典實現高效的詞圖指標,選用實時規劃檢索最大概率路徑。支持精確模式、全模式及搜索引擎模式的3個分詞模式。不僅如此,jieba還支持自定義詞典,這對如電子病歷這種特性較強的文本處理非常友好,長期以來,jieba 是研究人員的基礎使用工具。但是詞典數據中不能包含空格,否則無法進行分詞。NLPIR使用基于CRF 的字標注模型實施分詞,將頻數超過一定閾值的詞語作為候選詞語。NLPIR可以多角度保證大數據文本的需求,其功能全面豐富,并且所有功能模塊全部具有對應的二次開發口,使用方便,也常常被用來與其他改進算法結果進行比較。THULAC所采用的分詞模型是結構化感知器,屬于兩種CWS 模型中的Character-Based Model,將中文分詞視為序列標注問題進行處理。不過雖然THULAC分詞時間消耗雖然比較少,但最后效果可能稍顯潦草。不過,這些NLP工具的分詞結果仍然都取得了喜人的效果,雖然因為病歷文本中許多疾病名稱或癥狀并不是這些工具訓練數據庫中常見的詞組,對于電子病歷分詞的處理效果會有所下降,但是可以在這些開源代碼上加以電子病歷的訓練達到更好的分詞效果。

5 其他工作

除了上述工作之外,后續的其他工作都對NLP 的結果產生影響。在上面提到的幾種分詞處理工具對于詞性標注都有非常不錯的結果,若集中電子病歷數據對其進行訓練,準確率將不會遜色;電子病歷文本的獨特性,導致其間沒有語氣感嘆詞及其他需要進行大量停用的詞,因此直接導入停用詞表即可,且對停用詞數據庫的要求不那么嚴格,甚至可以不加停用詞的設計。

獲得的數據經過預處理之后,得到了可用的特征語料,再進行文本特征選擇。文本的構造目前習慣用的幾種方法分別是句法分析、實體N-gram、頻次法及基于神經網絡的詞嵌入方法,文本特征包含以上這些但不限于這些。這幾種方法都有應在具體的應用中。如現在比較成熟的幾種分詞方法,都不同地使用的這幾種方法且取得了相應的成功。目前,較為熱門的方法仍然是無監督或弱監督的預訓練與端對端的有監督訓練,這兩類方法作為現在研究的主流方法,吸引了大批量學者的研究,其中,頻次法中的TF-IDF 也受到許多人的青睞,因為其算法可以有效地提取出關鍵信息且不會提取重復的無用信息,因此經常作為關鍵字抽取的主要算法之一。特征工程后,需要進行特征選擇工作,特征選擇的目的往往是降維。嚴格來講,一是減少特征數量,增強模型的泛化能力,降低過度擬合的出現概率;二是加強對特征和特征值的理解,但是特征選擇的工作往往使只能選擇其一,因此大部分的學者往往首選降維作為主要目的。當做完降維工作也就是特征選擇的工作之后,再對模型進行訓練以達到效果,現有的優化算法勢不可擋,但仍然是我們后續研究探索的重點。

6 結論與展望

盡管電子病歷在我國的研究與應用方面取得了一定的成績,但與發達國家相較仍有差距;一方面,礙于電子病歷的發展不均衡,軍隊醫院加速實現病例系統間信息聯結時,部分地方醫院仍然沒有使用電子病歷;另一方面,因為中文特有的文字表達方式及現在各個醫院結構化電子病歷投入力度不夠,同時醫生對于病人的病史和體檢,體征方面的敘述表達差異較大,且病歷的私密性與隱私等相關問題等,一系列的原因造成了現在研究人員數據大量不足的情況,使得診療數據沒有實現其科學研究價值。除此之外,現有分詞工具較少,針對中文的NLP任務相對還處在發展階段,相較于英文NER 發展相對滯后,但相關研究人員仍在努力,現階段可能不夠突出,但后續發展仍然十分樂觀。除此之外,近兩年關于電子病歷的NLP 任務逐漸受到重視,大量科研人員都在努力克服困難,雖然數據來源仍然有困難,但不再是不可攻克的難關。

對于NER任務,深度學習與統計相結合的方法成為了現在的主流,因為其具有良好的效果且不會過多消耗人力和時間,近幾年成為了新的研究熱潮并產生了許多優秀的成果。電子病歷的自然語言處理是電子病歷整理及后續研究工作的重點和基礎,為解決此問題許多方法如BERT、BiLSTM、QCNN 等新型的神經網絡模型被使用在電子病歷文本的處理上,并且具有良好的效果,如表1 所示[20]。且現在越來越多的學者已經不滿足于僅使用神經網絡模型,而是將神經網絡與機器學習的方法結合起來,未來研究方向也將朝著兩種甚至更多的神經網絡模型與機器學習的方法結合,以提高算法效率。為了滿足當今科技發展,推動醫療智能化和自動化發展,采用命名實體識別技術挖掘電子病歷的數據信息,是今后智能化工作的關鍵和必由之路。在后續的工作中如特征工程與模型訓練還有許多可以開發的空間,仍需要不斷地努力和探索。

表1 現有部分算法在Weibo數據集上NER效果對比

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产白浆在线观看| 国产女人在线视频| 青青草一区| 波多野结衣视频网站| 99这里精品| 天天爽免费视频| 国产69囗曝护士吞精在线视频| 无码人中文字幕| 国产成人久久综合一区| 亚洲第一视频免费在线| 亚洲天堂首页| 成人夜夜嗨| 高清码无在线看| 青草视频在线观看国产| 欧美人人干| 2020精品极品国产色在线观看| 色国产视频| 免费a在线观看播放| 在线观看亚洲精品福利片| 美女毛片在线| 亚洲欧美一区二区三区麻豆| 尤物国产在线| 国产极品美女在线| 香蕉国产精品视频| 国产女人在线观看| 日韩欧美色综合| 亚洲美女高潮久久久久久久| 国产视频自拍一区| 国产喷水视频| 国产97视频在线观看| 操操操综合网| 欧美成人第一页| 高潮爽到爆的喷水女主播视频 | 激情六月丁香婷婷| 国产精品短篇二区| 国产精选自拍| 久久久精品无码一二三区| 男女男精品视频| 国内精品一区二区在线观看| 亚洲浓毛av| 久久黄色视频影| 国产h视频免费观看| 久久黄色免费电影| 国产精品白浆在线播放| 无码丝袜人妻| 天堂成人在线| 欧美精品黑人粗大| 亚洲人成在线免费观看| 色婷婷电影网| 亚洲男人天堂网址| 国产亚洲精品自在线| 成人综合网址| 青青青国产视频| 九九热在线视频| 国产日韩丝袜一二三区| 国产成人欧美| 日本影院一区| 亚洲伦理一区二区| 日本国产一区在线观看| 中文字幕第1页在线播| www.亚洲国产| 亚洲国产看片基地久久1024| 色综合婷婷| 国产主播福利在线观看| 国产成人无码AV在线播放动漫 | 国产精品99久久久久久董美香| 国产精品流白浆在线观看| 人妖无码第一页| 又污又黄又无遮挡网站| 国产美女91视频| 日本久久网站| 久久久久青草线综合超碰| 色妺妺在线视频喷水| 中文精品久久久久国产网址| 无码精品国产VA在线观看DVD| 国产在线观看人成激情视频| 日本高清有码人妻| 91福利片| 亚洲视频二| 国产丝袜丝视频在线观看| 婷婷综合在线观看丁香| 国产91无码福利在线|