999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子病歷命名實體識別技術研究綜述

2022-11-16 02:25:36吳智妍
計算機工程與應用 2022年21期
關鍵詞:文本模型

吳智妍,金 衛,岳 路,生 慧

山東中醫藥大學 智能與信息工程學院,濟南 250355

電子病歷(electronic medical records,EMR)[1]由于快捷、易于統計和處理的特點在大數據分析在醫學中的應用中取代了傳統的紙質病歷。目前大部分的電子產品醫學病歷都采用非結構化的文本保存,其中非結構化文本蘊含著大量未被發現的病例記錄以及豐富醫療工作中專業知識的內容。運用自然語言處理技術(natural language processing,NLP)對電子病歷所蘊藏知識挖掘是實現電子病歷結構化和信息提取主要關鍵技術。其中命名實體識別[2](name entity recognition,NER)是NLP 技術對電子病歷的最基礎任務,電子病歷通常包括“癥狀”和“體征檢查和檢驗”“藥物”“疾病和診斷”以及“身體部位”五大類實體。對EMR 的命名實體識別可以挖掘出大量的醫學知識,分析其中的病情、體征以及與診斷之間的關聯,節省了大量人工成本,幫助醫學決策,醫療科學研究,提升醫學信息系統服務質量都具有非常重要的意義[3-5]。

許多學者對有關電子病歷命名實體的研究成果進行總結歸納,并對其研究現狀進行分析,推動電子病歷數據挖掘領域的發展。楊錦鋒等人[6]介紹了電子病歷文本特點,總結了基于詞典和規則的方法和機器學習兩種方法對電子病歷命名實體識別任務的研究。崔博文等人[7]對包括命名實體識別在內的電子病歷信息抽取研究進展工作進行了論述。吳宗友等人[8]基于詞典和規則、基于統計學習以及基于深度學習三類方法對電子病歷命名實體識別給予論述,并探討其對糖尿病、心腦血管疾病中的運用。

從電子病歷的自由文本中提取所蘊含豐富的表達性數據將有助于臨床研究。命名實體識別任務是電子病歷信息抽取的第一步,準確地識別各類實體類別有助于后續信息提取工作。因此,提高EMR 醫學命名實體的識別精確度和準確度仍有發展的空間。區別以上綜述,本文深究深度學習方法常用網絡模型與預訓練模型應用于電子病歷命名實體識別任務。本文歸納梳理了常用電子病歷文本研究的數據集、語料標注標準和評價指標,簡要地羅列基于字典和規則、傳統機器學習的命名實體識別方法在電子病歷中的應用,詳細介紹NLP領域中深度學習方法對醫學命名實體識別特征提取常見的網絡結構,以及介紹了融合傳統機器學習與深度學習相結合的混合模型用于電子病歷實體識別,由于深度學習方法中預訓練模型在命名實體識別任務中產生優異的結果,闡述了深度學習方法的通用領域預訓練模型,并且概述針對醫學領域的預訓練模型進一步提升醫學文本識別的準確度。針對訓練數據短缺導致模型泛化能力弱提出解決方法,最后分析目前電子病歷命名實體識別面臨的挑戰和未來的發展趨勢。

1 常用數據集、語料標注標準與評價指標

1.1 常用數據集

數據集是研究的基礎,電子病歷實體命名識別研究數據大多來自各種醫療機構,或是醫療信息資源平臺,再通過人為的標注進行研究,此外還有一些常用權威的數據。

(1)I2B2 2010數據集

I2B2系列評測數據在國外的有關研究成果中取得了至關重要的地位。其中應用最為普遍的是在2010年的評測數據集。I2B2 系列評測數據美國國家集成生物學和醫院信息系統學研究服務中心(informatics for integrating biology and the bedside)提供,I2B2 進行的一系列開放評測工作,大大地推動了基于英文電子病歷的抽取研發。I2B2 2010 數據集涵蓋包含871 份出院小結,3大類具體形式分為醫學現象(medical problem)、檢測(test)和診斷(treatment)并且提供了標注語料庫標準,為后期研究者建立語料庫奠定了基礎。

(2)CCKS 2017數據集

全國知識圖譜與語義計算大會(China conference on knowledge graph and semantic computing,CCKS)由中國中文信息學會語言與知識計算專家委員會組織和舉辦。CCKS 2017數據集是在中文電子病歷實體識別研究中最常見的數據集,同時是中文電子病歷的國內醫療實體識別測評挑戰賽所采用的公共數據集。CCKS2017的數據集人為地標注了表1五類實體數據。

表1 CCKS 2017語料統計數據Table 1 CCKS 2017 corpus statistics

(3)CHIP 2020數據集

CHIP 2020 數據集測評任務一——中文醫學文本命名實體識別,由北京大學計算語言學教育部重點實驗室、鄭州大學信息工程學院自然語言處理實驗室、哈爾濱工業大學(深圳),以及鵬城實驗室人工智能研究中心智慧醫療課題組聯合構建。總字數達到220 萬,包含47 194 個句子,938 個文件,平均每個文件的字數為2 355。數據集中涵蓋了504 種最常用的兒科病癥、7 085種人體部位、12 907種臨床表現、4 354種醫學程序等九大類別的醫療實體。數據集中的語料來自臨床兒科學,訓練集包含1 500條醫療記錄,驗證集為5 000條,測試集Test1、Test2分別包含3 000、3 618條醫療記錄。

(4)瑞金醫院糖尿病數據集

數據集將是2019 年阿里云天池實驗室所推出,內容來自中文糖尿病研究領域的權威雜志,時間跨度超過將七年。內容涵蓋了中國目前許多糖尿病的科學研究和熱點,數據集的標注者都具有醫學背景。盡管因為發布日期較短等因素,目前暫未獲得普遍應用,但依然是一個具有權威性的中文開源大數據集。依托于該數據集,包括醫生、科研人員、企業開發者就能開展用于臨床診斷的知識庫,知識圖譜,輔助診斷等產品開發,進一步探索研究糖尿病的奧秘。

(5)其他數據集

除這些公共數據收集外,有部分學者還利用了一些內部數據或臨床數據收集,進行了電子產品病史的實體鑒別研究工作,例如,曲春燕等人[9]通過與哈爾濱醫科大學第二附屬醫院建立的合作關系,收集了來自醫院35個主要科室和87個細分科室的992份電子醫療記錄,各科醫療人員參與數據標注工作,為數據集的質量提供保障。楊曉輝醫生[10]曾對新疆某三甲醫院提出的500余名冠心病患者的出院小結經行預處理,包括了300個診療記錄作為訓練集,測試集中包括了200 篇的診療記錄。參照2014年美國臨床信息學研究中心I2B2發布的冠心病危險因素標注語料庫,制定了標注指南并開發了危險因素語料庫標注工具,由兩名臨床醫生完成了預標注和正式標注工作。最后在XML 文件中存入入院記錄、治療方案、檢驗結論、出院小結、出院醫囑內容。表2總結了用于命名實體識別的數據集。

表2 電子病歷實體命名識別常用數據集Table 2 Common datasets for naming and identifying entities in electronic medical records

1.2 實體識別語料標注標準

語料庫的建立是命名實體研究的基石。美國國家集成生物技術和臨床信息系統研發中心已于2006年根據對不同病例及風險因素識別特征等情況建立了相應的語料庫,而中國的知識圖譜與語義計算大會(CCKS)也針對中文電子病歷系統建立了文本語料庫資源。哈爾濱工業大學的研發隊伍在借鑒了國外電子病歷標注規范的基礎上,也提供了一個較為完善的中文電子病歷系統命名與實體標注方法[9-12]。目前,對命名實體的標簽標注主要使用BIO 表達方式[13-14],中文文本命名實體識別相較于英文命名實體識別來說更加困難,因為英文中每個詞由空格區分,而中文中詞與詞之間是沒有明顯的邊界的。后來Uchimoto 等人[15]將獨立元素加入之中成為BIESO 表達方式有利于中文實體語料標注。B(Begin):指示命名實體組成的起始詞匯;I(Intermediate):指示由命名實體中間組成部分的詞;E(End):指示命名實體構成的結尾詞匯;S(Single):指示單個詞匯組成的命名實體;O(Other):指示與命名實體所構成不相干的詞匯。BIESO語料標注方式如表3所示。

表3 BIESO數據標注示例Table 3 BIESO data annotation example

1.3 評價指標

電子病歷的命名實體識別必須同時判斷實體界限以及實體類型,所以,只有在對實體界限和實體類別的辨認結果都無誤后,才能夠認為命名實體鑒別的結論是準確的。電子病歷命名實體識別使用的評估指數為精確度(Precision)、召回率(Recall)及其F1值。F1值是綜合精確度與召回率指數的綜合評估指數,用于綜合反映整體的指標,是目前使用最為廣泛的評測標準。其中,TP(true positive)為識別完全正確、FP(false positive)為不為該實體但模型判定為實體、FN(false negative)為應該被識別但模型實際沒有識別。

1.4 本章小結

本章介紹了常用的電子病歷文本數據集:I2B2 2010 數據集、中文電子病歷CCKS 2017 數據集、CHIP 2020數據集、瑞金醫院糖尿病數據集,還有兩個他人研究未公開的數據集。以及簡述語料庫建立的標注標準和命名實體識別是否準確的評價指標。

2 傳統命名實體識別方法

2.1 基于字典和規則方法

最早命名實體識別技術采取了基于字典匹配和規則的方法,基于字典方法先是構建醫學術語字典,之后再利用匹配算法進行名稱實體識別[16]。針對電子醫學病歷等專業性較強文獻,該方法對標識作語料即領域字典的規模與質量發揮著非常重要的功能,為了提高領域醫療詞典的個性化信息內容,可對電子醫學病歷文獻、領域醫療文獻等先采用分詞管理,然后透過抽取帶有較大詞頻——逆向文件頻率的幾個詞,加入到領域字典中。2013 年Xu 等人[17]創建了336 個出院小結,并分詞和標注同類實體語料,參考2010 年I2B2 數據集進行實體類別識別,把診斷劃分為藥物(medication)和過程(procedure),標注工作由2 名醫師負責,而且增加了人體部位(anatomy)這個類型。為了展開中醫病歷名稱實物研究,針對腫瘤相關的生物信息系統,Wang等人[18]在腫瘤病案命名系統中進行了一系列的研究,該論文共包含復旦大學中山醫院惡性腫瘤患者的115份手術記錄,并根據臨床醫學需求定義了12 個實體類別,其中兩個醫生分別標記,最后將961個實體標記出來。詞典匹配法雖然有很高的識別率,但該方法需要人員具有專業醫學知識,以及構建語料庫需投入大量的人力。

與詞典方式不同,基于規則的方法是一般是在分析實物的特征后,然后構造人工規律,利用實物的上/下文信息進行匹配。Kraus等人[19]建立大量臨床記錄中的藥物、劑量等醫學實體。使用基于規范的方式來完成命名實體識別工作,在較小型的語料測試中具有較好的有效性且迅速。

2.2 統計機器學習方法

根據上述問題,研究者們給出了統計機器學習的方法,并逐步形成了對命名實體識別的主要方式?;跀祿柧毜姆椒ㄖ饕峭ㄟ^在給定的數據中抽取出相應的詞特征,并利用機器學習的算法迭代更新參數,由此來構建模型,然后再把測試數據集注入到已經訓練好的詞模型,由模型算出下一個詞中所命名實體的概率,若概率超過模型中某值時,則判斷該詞為命名實體,否則不是命名實體。傳統的機器學習模型,如隱馬爾可夫(hidden Markov model,HMM)[20]、最大熵模型(maximum entropy,ME)[21]、支持向量機(support vector machine,SVM)[22]和條件隨機場(CRF)[23]。

De Brujin 等人[24]使用HMM 模型在I2B22010 數據集上取得0.85的F1值。張坤麗等人[25]采用最大熵(ME)模型以及基于規則的方法按照順產、剖宮產、引產、墮胎、保胎治療,以及其他6 類對中文產科電子病歷系統進行了分級,分類的F1 值達到88.16%。Doan 等人[26]特別突出了語義特征在NER的重要性,實驗結果表明,基于SVM 的NER 系統在考慮語義特征的情況下能夠獲得最佳F1值達到90.05%。Ju[27]利用SVM從生物醫療文本中標識特定種類的名稱。Tang[28]提出基于SVM 的NER系統,來標識在醫療服務收費摘要中的臨床實體。另外,他還獲得了2 種不同類別的詞表特性(基于聚類的表達特征和分布表達特性),并將它們與SVM的臨床NER 系統集成在一塊。支持向量機的多種分類模型能夠有效地利用醫療問題的上下文、句子、標題等多種特征。王世昆在文獻[29]給出了一個基于CRF 的中藥實體命名識別模型,表明了該模型對于明清時代提出的中國古代醫藥癥狀與疾病機理的認識有著突出的優越性。Ye 等人[30]利用詞性、字符、詞匯特征和詞的邊界等特點,運用CRF技術用到了中文電子病歷進行分析,取得了較好的結果。Liu 等人[31]首先構建了一個醫學詞典,并且采用條件型隨機場CRF算法,并深入地探究了各種分類特點在中文臨床文本NER任務中的意義。

2.3 本章小結

基于詞典和規則的命名實體識別方式不論是通過人工方法整理規范,或是對語料庫和命名實體庫的整合,均需耗費巨大的財力與時間;且泛化能力極差,使用到其他的應用領域則必須重新制定詞典,制定過多的規則會導致規則之間互相沖突。

相對于之前的方法,基于統計機器學習方法識別能力有了很大的提升。在開放性數據集中,由于新詞和語言表達的多樣性,采用統計機器學習雖然可以從小型標注數據集獲得較好的結果,但在大量的語料庫中,遇到更加復雜的語義,特別是在處理特定的詞語組合和同義詞等問題,其效果仍具有明顯的劣勢。

3 深度學習方法

近年來,深度學習的方法越來越成熟,通過構建深層結構,可以自動提取文本中的局部和全局特征。常見的深度學習中模型一般有卷積神經網絡(convolutional neural network,CNN)[32]、循環神經網絡(recurrent neural network,RNN)[33]、長短期記憶網絡系統(long short term memory network,LSTM)[34]、雙向長短期記憶網絡系統(bi-directional long-short term memory,Bi-LSTM)[35]和自注意力機制(self-attention mechanism)[36],其本質是通過使用大量無監督數據構建多層神經網絡模型。

3.1 卷積神經網絡

卷積計算神經網絡(CNN)是Lecun 在1989 年提出[32],由輸入層、卷積層、池化層、全鏈接層四部分組成。CNN在NLP中對詞向量輸入進行的特征提取是一重要方法。在詞嵌入層,CNN 將EMR 中的所有單詞轉換為詞矢量,并把生成的單詞矢量矩陣作為CNN 的層。在卷積層,利用不同的過濾器對向量陣的卷積操作,可以得到不同的局部表示。最大池化完成后,將提取到的多個局部表示進行了首尾連接。最后,通過全連接層,得到了EMR與疾病的關系。圖1為CNN對文本特征提取示意圖。

因為CNN 共用卷積核,對更高維數據處理并無壓迫,并且運行速度極快。然而CNN在提取特征時,受限于卷積核的大小,只能集中于提取部分單詞的信息,提取到的是EMR的局部特征。但是,EMR中的每個單詞都包含了它的上下文的語義信息,CNN 并不能夠提取整個EMR的序列信息。CNN的另一個問題是模型參數多,需要大量數據訓練,當數據不足時就有問題。Wu等人[37]先對中文臨床文本詞向量預訓練,再通過CNN 命名實體識別,提高了標準模型的準確性。Yang等人[38]使用帶有單層卷積層的CNN 方法對中文EMR 進行疾病診斷;Li等人[39]提出了基于微調的CNN對中文兒科EMR進行疾病診斷。Yin 等人[40]利用CNN 獲得字符的特征數據,并通過自注意力機制的文字間的依賴關聯等特性,來確定了醫學電子病歷的相關實體。

3.2 循環神經網絡

循環神經網絡(RNN),由輸入層、循環層和輸出層構成,是一種淺層、不斷重復的結構,是應用于自然語言處理(NLP)深度學習中最常使用的算法。經網絡的模塊A,開始讀出某個輸入Xi,并產生某個值hi,如圖2所示。循環可以讓訊息能夠在當前步中傳送到下步,而RNN 也可被認為是一種神經網絡的多次重復,因為每個神經網絡組都會將消息傳遞給下一次。

ArunKumar 等人[33]提出了最先進的深度學習循環神經網絡(RNN)模型來預測國家累計確診病例、累計治愈病例和累計死亡人數。基于集成的CNN-RNN 框架Zhou 等人[41]分析患者-醫生生成的數據,便于患者在線查詢。Al-Rakhami 等人[42]提出了卷積神經網絡(CNN)和循環神經網絡(RNN)的組合架構,用于通過胸部X光片診斷COVID-19。RNN 通過線形順序結構形式不斷地從前往后收集輸入數據,但是這個線形順序結構形式在相反傳遞的時刻面臨著優化困難等問題,而且由于相反傳遞路線很長,極易造成嚴重的階梯消失或階梯爆炸現象。

3.3 長短期記憶網絡

長短期記憶網絡(LSTM)提出有效克服了長距離依賴問題,并對模型梯度消失問題有一定程度上緩解。LSTM 作為RNN 的變體現廣泛應用于自然語言處理(NLP)領域[34]。LSTM也在RNN的基礎上引進了“門控”的選擇性機制,分別為遺忘門、輸入門和輸出門,從而有選擇性地保留或刪除信息,以能夠較好地學習長期依賴關系。在LSTM 里將原來記憶里的值乘上某個值后再加上輸入的值再放到單元里,它的記憶與輸入都是相加的,所以不像RNN在每個時間點都會被覆蓋掉,只要前一時刻的信息一旦被格式化掉,影響就消失了,但是在LSTM里的影響一直會存在,除非遺忘門把記憶里的信息清洗掉。LSTM網絡基本結構圖如圖3所示。

Liu等人[43]使用LSTM實體識別取得F1值為87.66%。LSTM能夠解決一百個量級的排序,但是對于一千個量級,甚至更長的排序則依然會變得非常棘手,因為計算量過于費時。而且每一個LSTM的工作單元里都有4個全連通層(MLP),所以一旦LSTM 的工作時段跨越較大,而且網絡范圍又非常深,這個運算量就會巨大而且費時。LSTM模式中只存在于單向傳輸,模式中實際只應用到了“上文”的信息內容,而并未顧及到“下文”的信息內容。在現實情景中,實體命名識別可以要應用到所有輸入順序的所有信息內容。

所以,目前電子病歷實體名稱識別一般采用的是雙向長短時記憶網絡技術(Bi-LSTM)。單向的LSTM 模型能夠捕捉到從前向后傳輸的信號,而正向和反向LSTM信息可以同時被Bi-LSTM捕捉,使得對文本信息的利用更全面,效果也更好。

由圖4中可以看出BiLSTM模型中能夠讓LSTM同時處理前向和后向兩個方向序列,并具有各自的隱藏層,在特定的時間步長下,每一個隱藏層都能同時捕捉到過去(向前)和將來(向后)的信息[35]。這樣,才能提取出比較全面的實體特征,提高網絡的預測性能。Huang等人[44]采用BiLSTM 進行通用領域的命名實體識別任務,取得了優秀的效果。李綱等人[45]使用BiLSTM模型的融合Word2Vec 和外部詞典信息,有效地識別中文電子病歷中的疾病實體,實體識別F1 值高90.14%。屈倩倩等人[46]將《傷寒論》分為五類實體,即“癥狀、病名、方劑、中藥名稱、時間”,融合自注意力機制采用BERT 模型詞嵌入,再通過BiLSTM 方法提取實體特征,將特征輸入CRF模型,以達到95%的F1值。Zhu等人[47]混合了臨床報告和相關維基百科頁面的語料庫上運用BiLSTMCRF 模型測試2010 年I2B2/VA 挑戰賽數據集,模型實體識別獲得F1 值達到88.60%。Yan 等人[48]提出基于ALBERT-BiLSTM-CRF 的半監督的中文電子病歷NER模型,與其他模型相比,使用半監督方法可以提高識別的準確性,該模型精確度、召回率和F1值分別為85.45%、87.81%和86.61%,醫療命名實體識別更加準確和全面。然而BiLSTM 模型如果不計算出前一個時刻的結果,就沒法計算下一個時刻的結果,因此會造成無法并行計算。

3.4 自注意力機制

2017 年文章Attention is all you need[36]提出的自注意力機制(self-attention mechanism)降低了對外部信號的依賴性,更善于抓住與數據或特征之間的內在關聯。Self-attention 并非基于Transformer 的傳統注意力機制的改變,而是一個全新的注意力機制,其設計思想來自RNN和CNN。自注意力機制應用在NLP領域,在文本中的運用主要是利用計算單詞中間的交互影響,來克服長距離依賴問題。Self-attention 機理,相對于傳統Attention 機制原理而言是將輸入映射在三種不同的空間上,在文本中自己生成如圖5所示key、value、query并且key=value=query,由文本和文本的自己求相似率再與文本自己相乘運算而得到。通過Self-attention 機理不但能夠獲取傳統Attention 機理中不存在的源頭端與目標端詞與詞相互之間的依賴關系,而且同樣還能夠有效地獲得源頭端或目標端自身詞與詞相互之間的依賴關系。

吳倩倩等人[49]利用自注意力機制提高CT圖像中腎臟小腫瘤自動分割準確率。鞏敦衛等人[50]在BiLSTM的隱藏層引入自注意力機制對CCKS 2017開源數據集與自建的糖尿病中文電子病歷中疾病、身體部位、癥狀、藥物、操作五類實體識別率均取得最好性能,其中身體部位相關的F1值高達97.54%。羅熹等人[51]結合多頭自注意力機制準確地捕獲電子病歷字符間潛在的依賴權重、語境和語義關聯等多方面的特征,將Embedding 層的輸出獨立并聯地依次注入在BiLSTM 層和多頭自注意力模式中,再將這兩種模式的輸入輸出經過相互融合后注入CRF 層得出的最終結果,從而有效地提升了中文電子病歷命名實體的識別能力。張世豪等人[52]對CHIP2020數據集中文醫學病歷運用多通道自注意力機制深入發掘句子的全局語義特性,F1值可達到85.23%。Yin等人[40]利用CNN獲得的文本字符間特征信息,并使用自注意力機制捕獲文字間的依賴關聯特征,來確定在電子病歷中的相關實體。自注意力機制能夠從始而終地獲取全局與局部聯系。Self-attention機制模型復雜度遠低于CNN 與RNN 網絡,參數少運行時間更為快速,最突出的特點是可以并行運算大大提高了計算效率。然而,自注意力機制無法學習序列中的順序關系,目前可以通過與預訓練模型相結合來改善該不足。

3.5 混合模型方法

近年來,研究者利用合理地集成詞典、規則、統計機器學習、深度學習等新技術,以提高NER模型穩定性與實體識別能力。

Wei等人[53]單一疾病名實體識別引入條件隨機場和雙向遞歸神經網絡,其最終F1 值達到了84.28%。龔樂君和張知菲[54]給出了一個詞典和CRF 雙層標準的電子病歷實體識別方式,F1值達97.2%。陳德鑫等人[55]使用CNN-BiLSTM 模型識別醫學相關實體。李麗雙等人[56]提出CNN-BLSTM-CRF模型識別生物醫學實體。Li等人[57]從中國電子病歷數據庫中提取語料庫,去除“急性上呼吸道感染”以外的7 大類疾病測試模型的有效性,再進行八大類以及數據集中63種疾病來測試模型的泛化能力,根據原始語料庫構建醫學詞典,作為分詞的外部專家知識,再使用單層CNN嵌套的5倍交叉驗證方法進行訓練,提高了文本分類的準確度。Tang等人[58]提出基于注意力機制的CNN-LSTM-CRF模型對CCKS2017_CNER數據集臨床文本分為疾病、癥狀、檢查、治療、身體五大類實體識別,經過測試識別癥狀、檢查F1值分別達到95.60%、93.57%。目前,大多數的基于實體識別的任務處理方法都是利用BiLSTM對字或詞向量特征提取,然后將其輸入到CRF 模型中來進行序列參數的優化。與以前只采用CRF 模式模型相比,BiLSTM-CRF 無需人為進行特征處理,利用LSTM 網絡抽取文本特征,實現了對句子層次的理解。近幾年,在電子病歷中應用BiLSTM-CRF模型的研究日益受到研究者重視[59-60]。

Zhu等人[61]在包括臨床治療報告及與臨床治療范圍有關的Wikipedia網頁的語料庫上先練習以上文有關單詞嵌入模式,之后訓練BiLSTM-CRF 模式。沈宙鋒等人[62]對中文電子病歷通過XLNet 預訓練模型進行詞向量表示,解決了同一詞語在不同語境下的含義,利用BiLSTM-MAH 模型對臨床文本的特征提取,最后輸入條件隨機場CRF 識別全局最優序列,在CCKS-2017 命名實體識別數據集數上取得了精確度92.07%、召回率91.21%、F1 值91.64%的優異結果。Yang 等人[63]共收錄了240 例肝細胞癌患兒的病歷記載,內容主要涉及了入院記錄與出院小結,以及基于BiLSTM-CRF 訓練實體識別的模型醫學與實體識別,取得了85.35%的F1值。Jagannatha等人[64]將BiLSTM網絡和CRF技術相結合,應用在了1 154份腫瘤患者的病歷中,結果達到了整體82.10%的F1值。

3.6 本章小結

由上述可知,深度學習方法因不需要太多的人工設定,已被廣泛地用于醫學命名實體識別并且取得了很好的效果。對于高維數據CNN 處理起來毫無壓力;RNN可以有效提取EMR前后信息;LSTM和BiLSTM網絡能夠較好地學習長期依賴關系,提取出比較全面的實體特征,提高網絡的預測性能;引入自注意力機制(selfattention)使得識別過程中可以并行運算且大大提高了計算效率。傳統方法與深度學習方法各模型相結合提高命名實體識別能力,BiLSTM-CRF是目前主流的特征提取模型。表4 對比分析各模型自身的特點與優勢及局限性,表5總結各混合模型在電子病歷命名實體識別的結果。

表4 基于深度學習的命名實體識別方法對比Table 4 Comparison of named entity recognition methods based on deep learning

表5 混合方法命名實體識別的評價指標結果Table 5 Results of evaluation metrics for hybrid approach to named entity identification

4 預訓練模型

在NLP模型的深度學習中,詞嵌入通常被用作第一個數據預處理層,即每個詞都需要嵌入到一個數學空間中,才能得到向量詞的表達式。因為模型學習到的單詞向量可以捕獲一般的語義和句法信息,單詞嵌入可以在各種NLP任務中產生優異的結果[65-66]。

4.1 通用領域預訓練模型

通用領域中常用的詞向量表示有兩種:一種為非語境的詞嵌入One-hot、Word2vec、Glove模型,另一種為結合上下文詞嵌入ELMo、BERT、XLNet模型。

4.1.1 One-Hot編碼

One-Hot 編碼又名“獨熱編碼”,One-Hot 編碼使每個詞都對應唯一的單詞向量,且任意兩個詞之間是獨立的。盡管One-Hot 編碼能夠很好地解決離散數據的難題,而且能夠對特征進行一定的擴展。但語料庫的大小決定了向量維度,隨著詞庫的規模越來越大,向量維數也會隨之暴漲,從而引發維度災難。由于One-Hot編碼是一個詞袋模型,每個詞向量之間相互獨立,具有高稀疏性、離散型性的特征,因此詞之間的關聯性會被忽略,帶來“語義鴻溝”問題。

4.1.2 Word2Vce模型

2013 年由Mikolov 等人[67]提出了Word2Vce 詞向量表示模型,Word2Vce是一種淺層神經網絡預處理模型,將大規模未標注的語料庫轉換為低維、稠密詞向量。Word2Vce 模型充分利用語境信息,通過聯系需要理解詞語的上下文即可理解該詞語在文本中的意思。

楊紅梅等人[63]基于Skip-gram 方法的Word2Vce模型將500 份電子病歷訓練出128 維詞向量,再使用Bi-LSTM+CRF模型對其命名實體識別達到總體0.805 2的F1 值。黃艷群等人[68]研究以Word2Vce 模型訓練北京市某三甲醫院144 375萬條住院患者EMR,以低維的詞向量表達病人特征(疾病、藥物、實驗室指標),從某種意義上解決了病人初始結構特征的高維特征,同時有效地利用特征低維向量來顯示特征之間的關系。Word2Vce模型克服了“維度災難”現象,但Word2Vec 窗口是以局部語料庫為基礎的,所以當在文本中使用Word2Vec 詞矢量表示時,則會失去上下文中各實體之間的關聯,僅提取語句層次的信息,造成同一實體在上下文中的標注不一致。

4.1.3 Glove模型

隨后,Pennington[69]又提出窗口基于文字全局語料Glove 模型,其收集詞語在文本共現的全文信息并對詞語進行單詞矢量表達,同時考慮了局部信息和整體的信息,以此增加了對文字中同一實體標注的準確性。

吳迪和趙玉鳳[70]提出融合LDA 和Glove 模型的病癥文本聚類算法,將電子病歷命名實體分為“呼吸科”“消化科”“神經科”“骨科”“皮膚科”和“其他”6 大類。馬滿福等人[71]采用Glove 模型與LCN 神經網絡相結合用于醫療問題的特征提取,對某三甲醫院的15 000份住院病歷進行詞向量訓練,采用Glove詞向量對詞匯的共現率進行統計,得到的詞特征信息更加完整,效果比其他的方法更好,準確率穩定在89%左右。鞏敦衛等人[50]通過維基百科、醫療論壇、相關醫學書籍獲取大量醫學文本,分詞訓練后使用Glove 模型得到100 維的字詞向量,作為下游任務的輸入層。Glove模型則和Word2Vce模型很相似,將同一文字中不同語義的詞匯表達為一個向量表示,而不會考慮同一詞語在不同的語境下產生的不同意義。

4.1.4 ELMo模型

前面介紹模型雖可以捕捉每個詞的表征,但它們無法捕捉上下文中的高層次概念,如句子結構、語義和詞語歧義等。為了解決這個問題。Peter等人[72]在2018年提出了ELMo 模型,將一個句子或段落輸入模型,它可以通過上下文語境動態地改變詞向量編碼,表達多義詞的多種語義。

在某些特定的領域中,專有的詞典的詞向量ELMo模型比通用的ELMo[73]具有更好的性能。在臨床NER任務中,Johnson 等人[74]使用ELMo-LSTM-CRF 模型在醫學語料庫重癥監護數據集III(MIMIC III)上進行了預訓練,結果顯著優于具有通用ELMo 的相同模型。Yang 等人[75]對2010 年I2B2/VA 挑戰賽數據集命名實體識別提出了一種基于注意力的ELMo-BiLSTM-CRF 模型,取得88.78%的F1值。實驗證明,ELMO模型在醫療領域數據上的表現也超過之前傳統語言模型。ELMO模型采用LSTM 的特征提取方法,具有較大的學習周期。基于上下文利用向量拼接方法進行特征的融合效果較差,且有偽雙向特性。

4.1.5 BERT模型

Devlin 在2018 年 提 出BERT 模 型[76],在 醫 學 領 域BERT 模型對電子病歷命名實體識別表現非常出色,如今大部分電子病歷命名實體識別研究在詞向量表達時都會使用BERT模型。BERT模型能夠在大量的無標記非結構化文本中獲取大量的語義信息,同時還利用了多層的Transformer為輸入序列的各個詞匯建模上下文語義信息,使同一詞匯在不同的上下文中根據含義不同而有不同的詞向量表達。圖6所示對某電子病歷“慢性胃炎,飲食不節”通過BERT模型詞向量表達。

李正民等人[77]提出了基于BERT 技術的BERTBiLSTM-IDCNN-CRF 多特征融合技術,對CCKS 2020中文電子病歷的6類命名實體進行了研究,該模型獲得最佳F1值達到89.68%。該模型在嵌入層使用BERT生成詞向量并且自動學習豐富的語義信息,使得命名實體識別能力有明顯的提高。Vunikili等人[78]對2020年ber-LEF的癌癥文本進行命名實體識別(NER),在不使用任何特征工程或基于規則的方法的情況下,通過BERT模型對西班牙語臨床報告中提取腫瘤形態,取得了73.4%的F1分數。為了確保訓練效率,BERT模型對輸入的句子最大長度限制為512個字。相對于傳統的語言模式,BERT 的每次訓練只能得到15%的標記被預測,從而使模型的學習過程變得更為復雜。

4.1.6 XLNet模型

XLNet[79]是CMU 與谷歌Brain 于2019 年推出的一種新的NLP預訓練模式,在模型中輸入句子[患,有,冠,心,病],隨機生成一種排列[冠,病,患,心,有] 。根據新的排列方式得到圖7所示的XLNet的掩碼機制圖,第一行為“患”,因為在新的排列方式中“患”在第三個,根據從左到右方式,“患”字可以獲得信息“冠”“病”字(在圖3中“冠”“病”位置用藍色實心表示),其他字則被遮掉(圖3中其他字位置用空心表示)。以此類推。第二行字為“有”,因為“有”在新排列是最后,就能看到“冠”“病”“患”“心”字,于是“冠”“病”“患”“心”字所在位置是藍色實心。第三行字為“有”,因為“有”在新排列中第一個,看不到其他信息位置,所有字全部遮蓋掉。

Yan 等人[80]證明在NER 任務中預訓練模型XLNet優于BERT 模型,比較在CoNLL-2003 數據集XLNet-BiLSTM-CRF、BERT-CRF 和BERT-BGRU-CRF 模型命名實體識別任務,Yan提出的XLNet-BiLSTM-CRF模型取得97.64%的F1 值。Wen 等人[81]收集了1 000 條中醫醫囑,證實了XLNet預訓練模型在醫學領域的命名實體識別任務中的優異性,與單一或聯合模型在同一數據集上的實驗結果相比,XLNet 預訓練模型的F1 值分別提高了9.65%和8.71%。XLNet 模型可以提取豐富的語境信息,從而在長文本輸入類型的NLP 中表現出多種優勢,可以根據句子的語義來充分表示每個標記。但XLNet預訓練模型相對于BERT需要更大的計算能力以及高質量的語料。

4.2 生物醫學領域預訓練模型

前文介紹的預訓練模型通用于一般領域的語料庫。然而,由于生物醫藥領域的文字中含有大量的專業術語和專有名詞,因此基于一般語料庫的預訓練模型在醫療文本的挖掘過程中常常表現不佳。近來研究者們提出了針對醫學命名實體識別任務預訓練模型可分為以BioBERT為代表的基于醫療領域數據進行繼續預訓練;基于醫療領域數據從頭進行預訓練Med-BERT 模型;以及MC-BERT 為代表的基于醫療領域數據的自監督訓練三類。

4.2.1 BioBERT

Lee 等人[82]在2020 年提 出的BioBERT 預訓練模型是為了更有效地進行醫學文本挖掘任務,該模型與BERT模型結構幾乎相似。BioBERT預訓練模型如圖8所示,首先運用BERT 的加權對BioBERT 進行初始化,在模型訓練階段采用已經通過英語維基百科和Books-Corpus 語料庫訓練完成的BERT 模型,進一步運用PubMed摘要和PMC全文文章對BERT模型訓練。

BioBERT 預訓練模型對于命名實體識別任務采用精確率、召回率、F1值作為評價指標。Lee等人[82]采用了多種組合和不同數量的通用領域語料庫和生物醫學語料庫對BERT、BioBERTv1.0、微調BioBERTv1.1 進行對比,結果表明在NCBI disease、2010 i2b2/VA、JNLPBA等8 個數據集中BioBERT 的得分均高于BERT,微調BioBERTv1.1 比BioBERT 平均F1 值提高0.62%。Yu 等人[83]實現EMR 中的臨床問題、治療和檢查進行自動標注,使用BioBERT模型對I2B2 2010挑戰數據集詞向量表示,再通過BiLSTM-CRF模型完成電子病歷命名實體識別任務,達到87.10%的F1 值。Symeonidou 等人[84]提出基于BioBERT-BiLSTM-CRF 的遷移學習的NER 模型,實驗數據表明增加BioBERT 預訓練模型相比于前人的NER模型在三個不同的醫學數據集上F1值分別提高了6.93%、10.46%、13.31%。并且由于引進遷移學習,Elsevier’s gold set 數據集只需要大約7 000 個標記的語句就可以達到80%以上的F1 分數的結果,這意味著遷移學習和BioBERT預訓練模型提高了實體命名識別的準確性。Naseem等人[85]提出了一種新的醫學命名實體識別(BioNER)方法,通過分層融合的BioBERT 模型對醫學文本進行詞向量表示,在BC5DR 數據集上識別藥物實體F1值達到94.24%。實驗對比表明分層融合的BioBERT詞向量模型能夠更有效的捕捉上下文,處理語義、新詞等問題。

BioBERT 是第一個基于生物醫學語料庫的預訓練模型,同時是將BERT 技術運用到臨床醫學中的關鍵。BioBERT能夠識別出BERT無法識別的醫學命名實體,并能準確地確定實體的邊界,使得可以識別更長的命名實體,僅僅只對結構進行小型的改動,BioBERT 就可以比先前的模型更好地識別醫學實體。

4.2.2 Med-BERT

針對生物醫學領域的Med-BERT 預訓練模型由Rasmy等人[86]于2021年提出,不同于之前先采用通用域語言模型再結合混合域方法的預訓練模型,如圖9所示Med-BERT 則是從一開始就使用PubMed 的摘要與PubMed Central(PMC)全文文章作為預訓練語料庫,并且對于一些醫學領域的專業術語或通用域中所認為的新詞該模型也能完整表示,在大部分的任務中能取得與BioBERT相同的效果。

Rasmy等人[86]評估了Med-BERT對糖尿病心力衰竭和胰腺癌的預測。實驗結果表明Med-BERT對疾病預測任務中的有效性,有助于減少數據標簽的負擔,大幅提高基礎模型在小樣本上的性能。楊飛洪[87]采用Med-BERT模型對中文電子病歷命名實體識別(CEMRNER)數據集“身體”“疾病和診斷”“藥物”“檢驗”“影像檢查”“手術”6種類型實體識別。Med-BERT在CEMRNER數據集總體F1值達到82.29%,其中對“藥物”實體的識別率最高,取得了90.48%的F1 值。Gan 等人[88]融合無監督增強文本和標簽策略Med-BERT 模型對CCKS2021 數據集中文電子病歷詞嵌入表示,提高了實體識別命名的準確性。

相比于只采用摘要的Med-BERT模型,由于全文文章的篇幅較大所含的噪聲更多,語料庫包含摘要與全文文章的Med-BERT 詞向量表示效果往往會有所降低。盡管訓練全文文章對模型有所幫助,但想要運用更多的信息,還需花費更多的訓練時間。研究者通過多次實驗得出,通過將訓練時間延長60%,選用摘要與全文文章的Med-BERT 比僅僅使用摘要結果更好。Med-BERT是一種全新的在特定的生物醫學領域從頭學習的神經語言模型,比以往的各種預訓練語言模型效果更好,是目前生物醫學領域預訓練的前沿技術。

4.2.3 MC-BERT

MC-BERT模型由阿里巴巴Zhang等人[89]在2020年提出針對中文醫學文本的預訓練模型。MC-BERT 將BERT模型作為基礎模型,用醫學數據對模型進行訓練,同時利用生物醫學語料與生物醫學實體知識同時注入到表示模型中進行訓練,進一步引入了領域知識。生物醫療領域的短語通過自動詞條和阿里巴巴知識圖譜獲取,此外使用一個二分類的模型(fasttext)用來識別是否真的是生物醫療領域的短語。

MC-BERT 生成器僅分成k條路徑,降低了系統的復雜性。在一個句子中,元控制器首先將抽樣的詞語替代一小節標簽來打破該語句。然后,在每個位置創建k個候選選項。生成器將受損的語句用作輸入,代入k個候選詞進行預測來糾正每個詞。MC-BERT測試類似于實際應用中的多項選擇型完型填空題如表6所示,基于上下文的深度語義信息做出相應的預測。

表6 MC-BERT測試示意表Table 6 MC-BERT test schematic table

總之,MC-BERT 能夠很好地兼顧了模型學習中的語義信息和訓練效率。對于命名實體識別任務,在cEHRNER 和cMedQANER 數據集測試下,與其他經典的預訓練模型相比,MC-BERT 平均F1 值達到90%。MC-BERT是一個預先訓練好的具有生物醫學領域知識的語言詞向量模型,與此同時也是對中文醫學文本處理方向的一個開端。

4.3 本章小結

本章從通用領域與生物醫學領域兩個角度介紹詞向量模型,通用詞向量模型的發展不斷提高醫學命名識別能力,表7 對通用領域詞向量模型進行綜合分析,從特點和優缺點方面進行對比總結。隨著醫學文本的數量急劇增長,通用領域的預訓練模型無法更好地表示生物醫學領域中的專業術語,醫療詞匯的長尾分布也很難從普通語料中學習,4.2 節介紹的在生物醫學領域中BioBERT、Med-BERT、MC-BERT三種主要預訓練模型能夠有效表達生物醫學詞匯,進一步提高命名實體識別準確度,三種醫學領域預訓練模型性能分析如表8所示。

表7 通用領域預訓練模型總結Table 7 Summary of general domain pre-trained models

表8 醫學領域預訓練模型性能分析Table 8 Performance analysis of pre-trained models in medical field

5 小樣本問題的處理

傳統的深度命名實體識別方法,依賴于大規模且具備已標注的訓練數據。電子病歷系統由于牽涉患者隱私的特點,使得生物醫學命名實體識別數據集相對匱乏,大部分的生物醫學挖掘模型都不能完全發揮深度學習的能力。如今,引入遷移學習、小樣本學習和多任務學習有效解決了標注數據稀疏以及模型泛化能力差的問題。

5.1 遷移學習

遷移學習是將一個任務或領域學到的知識轉移到另一個任務或領域應用。唐觀根[90]提出弱遷移方法,將新聞領域數據特征遷移到醫療領域,實現總體88.76%F1值,緩解了中文電子病歷語料庫缺乏的問題。Giorgi[91]將訓練源數據集SSC所有參數運用基于深度神經網絡的遷移學習提高了目標領域GSC“藥物”“疾病”“物種”“基因/蛋白質”四種生物醫學實體類別,利用遷移學習減少醫學命名實體識別所需的手工標記語料的數量。Lee 等人[92]使用MIMIC 作為源數據集訓練ANN模型,對于i2b2 2014目標數據集,應用遷移學習后僅使用5%數據的作為訓練集,命名實體識別F1 值達到了93.21%。將遷移學習引入到命名實體的識別中,通過使用源領域資源數據進行目標領域任務模型創建,以增加對目標領域的標注信息量和減少目標領域建模中對標注數據量的要求等,很好地解決了命名實體識別任務存在數據匱乏的問題。

5.2 小樣本學習

小樣本學習旨在使用少量標記的數據(即先驗知識)完成新的任務。Hofer團隊[93]從MIMIC III和i2b2 2010數據集中隨機抽取10 個樣本作為訓練集,識別i2b2b 2009命名實體,獲得平均F1值78.07%。Lara-Clares[94]采用小樣本學習對數據集MEDDOCAN shared task 500例樣本進行29類命名實體識別達到90%F1值。由于深度學習模型含有許多隱藏層和神經網絡,需要海量數據訓練提高模型的準確性,在醫學領域標注數據較少并且需要專家花費大量精力,因此通過小樣本學習緩解數據稀疏問題。在識別電子病歷中各類實體任務中引進小樣本學習,通過少量的標記數據對該任務建立模型,對不同的類別的實體進行區分,同時能在不改變模型參數的前提下對新的類別進行識別,大大減少了人工標記所帶來的成本。

5.3 多任務學習

通常用一個復雜模型解決單個任務,多任務學習目的是通過多個相關的任務包含的知識同時并行學習提升模型泛化效果。在多任務學習中,多任務間的參數共享會減弱網絡對單個任務的學習性能,減少過擬合,提高泛化效果。另外,當學習某項任務時,與此項任務無關的部分將會被視為噪聲,噪聲的加入則能改善其泛化能力。Yang 等人[75]對電子病歷中疾病實體識別和癥狀的嚴重程度抽取雙任務采用多任務學習,運用疾病實體以提高患者癥狀嚴重程度的性能。Xue等人[95]把BERT模式結合在多任務學習中,增加了共享參數層的特征表達能力,實驗結果表明,實體識別的F1值達到了96.89%,與之前的模型相比,F1值提高了1.65%。電子病歷命名實體識別與修飾識別和關系抽取具有較強的關聯性,結合這三個任務采用多任務模型,利用實體和關系之間緊密的交互信息,提升命名實體識別的準確率。

5.4 本章小結

綜上所述,遷移學習與小樣本學習能夠在有限的數據中完成命名實體識別任務,有效處理深度學習所需標注語料不足的難題。多任務學習通過參數共享并行學習相關任務的知識以提高準確預測命名實體識別和處理其余任務的能力,有效解決因數據稀缺導致模型泛化能力較弱的問題。在未來的研究中,遷移學習、小樣本學習和多任務學習如何應用在醫療領域具有重要意義。

6 總結與展望

將自然書面語言的非結構電子病歷轉換成結構化數據是醫學信息研究當下一大熱點,在醫學領域,命名實體識別的首要目標是確定電子醫療記錄中的治療方法、疾病類型、檢查方法、癥狀等實體。隨著深度學習技術的迅速發展,使用詞向量融合傳統機器學習與深度學習相結合尤其是BERT-BiLSTM-CRF 的混合模型用于電子病歷實體識別已成為主流方法并取得了較好的效果,研究人員提出了針對生物醫學領域BioBERT、Med-BERT、MC-BERT 預訓練模型進一步提高識別準確率,引入遷移學習、小樣本學習和多任務學習有效解決了標注數據稀疏以及模型泛化能力差的問題。當前,電子病歷命名實體識別仍面臨諸多挑戰:

(1)公開數據集匱乏。到目前為止,雖然國外電子病歷命名實體識別已經取得很大的進展。但國內使用最普遍的是全國知識圖譜與語義計算大會(CCKS)公開數據集,關于中文電子病歷的開源數據集稀缺,同時沒有公開的關于中文生物醫學技術語言資料的支持,這就給進行中文電子病歷研究工作造成了一定的障礙。

(2)標注成本高。在生物醫學文獻挖掘任務中,由于生物醫學文獻語料庫和一般領域文獻語料庫在用詞和表述方面都有著很大不同。并且新的醫學實體數量迅速增加,需要識別大量未注冊的詞匯,醫療領域對標注人員的專業性要求較高,使得醫學標注大規模的語料成本非常高。

(3)醫學實體多義性。目前電子病歷實體識別中存在著醫療實體邊界模糊,具有多義性,存在口語化、醫療實體詞縮寫等問題,這也是生物醫學命名實體識別的主要障礙之一。

為解決目前存在的問題,未來研究可著重于以下幾個方面:

(1)小樣本數據識別。在訓練數據不足或標注語料短缺的情況下,構建小樣本數據的網絡至關重要,引入遷移學習、小樣本學習、多任務學習、圖卷積網絡、對抗生成網絡、數據增強等方法,這有利于完成命名實體識別任務并提高識別準確率。

(2)加強小樣本方法運用。雖然小樣本學習在醫學領域中得到了普遍的認可,但在標注數據較少的情況下這一方法尚未得到充分利用。在未來,創建基于小樣本方法的生物醫學NLP 的標準化的公共數據集為生物可以引領該領域的研究,除此之外,多次重復實驗與比較研究在多個數據集性能設置也有助于命名實體識別評估。

(3)應用XLNet 預訓練模型。目前XLNet 預訓練模型還未廣泛應用于電子病歷命名實體識別任務中,XLNet預訓練模型利用隨機排列、雙流自注意力機制以及循環機制方法產生包含語境信息的動態詞向量,充分利用上下文信息有效解決醫學實體一詞多義的問題,提升命名實體識別的效果。

通過本文綜述,基于深度學習的命名實體識別技術有效地從非結構文本中提取醫療實體,并從中挖掘出醫療知識,從而有效地推動醫學學科的發展。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产无码网站在线观看| 无码AV高清毛片中国一级毛片| 久久五月天国产自| 久久精品国产精品青草app| 91视频99| 日本精品视频一区二区| 中文字幕在线播放不卡| 伊人色天堂| 日韩欧美在线观看| 久久美女精品| 伊人婷婷色香五月综合缴缴情| 亚洲日韩高清在线亚洲专区| 久久国产拍爱| 久久一本日韩精品中文字幕屁孩| 欧美亚洲国产精品久久蜜芽| 亚洲伊人天堂| 四虎国产永久在线观看| 国产主播一区二区三区| 日本不卡视频在线| 中文字幕欧美日韩| 国产91精品调教在线播放| 狠狠色丁香婷婷综合| 国产成人精品高清不卡在线| 久久人搡人人玩人妻精品| 中文字幕久久波多野结衣| 国产欧美日韩综合一区在线播放| 国产91熟女高潮一区二区| 欧美A级V片在线观看| 国产成人精品一区二区| 亚洲久悠悠色悠在线播放| 国产精品男人的天堂| 欧美综合成人| 九九热精品视频在线| 久久国产精品电影| 1769国产精品视频免费观看| 国内嫩模私拍精品视频| 成人亚洲天堂| 国产精品手机在线播放| 久久国产V一级毛多内射| 亚洲免费毛片| 天天综合网色| AV熟女乱| 国产无遮挡猛进猛出免费软件| 亚洲无码高清免费视频亚洲 | 国产精品不卡片视频免费观看| 人妻无码中文字幕第一区| 99国产精品国产高清一区二区| 99精品免费欧美成人小视频 | 国产一二三区视频| 亚洲毛片一级带毛片基地| 黄色成年视频| 无码在线激情片| 亚洲精品久综合蜜| 亚洲综合色区在线播放2019| 日本午夜三级| 激情五月婷婷综合网| 国产在线一区二区视频| 人人91人人澡人人妻人人爽| 美女一级毛片无遮挡内谢| 国产精品偷伦视频免费观看国产| 国产一级特黄aa级特黄裸毛片 | 中文字幕在线看视频一区二区三区| 亚洲成人一区二区三区| 久久人人爽人人爽人人片aV东京热| 91外围女在线观看| 国产成人h在线观看网站站| 免费a在线观看播放| 欧美97欧美综合色伦图| 日韩欧美91| 四虎国产永久在线观看| 秘书高跟黑色丝袜国产91在线 | 毛片基地视频| AV熟女乱| 国产精品美女在线| 精品视频一区在线观看| 国产特级毛片| 日韩第一页在线| 国产成人综合网在线观看| 亚洲乱码精品久久久久..| 欧美一级在线看| 日本欧美一二三区色视频| a级毛片免费网站|