999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

實體抽取綜述及其在中醫(yī)藥領(lǐng)域的應(yīng)用*

2023-01-05 14:04:02孔靜靜李敬華張竹綠祖雅琪
關(guān)鍵詞:中醫(yī)藥文本信息

孔靜靜,于 琦,李敬華,于 彤,張竹綠,田 野,祖雅琪

(中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所 北京 100700)

信息抽取技術(shù)(Information Extraction,IE)的目的是將非結(jié)構(gòu)化的信息進(jìn)行結(jié)構(gòu)化抽取[1]。自然語言處理技術(shù)(Natural Language Processing,NLP)可以把人類語言轉(zhuǎn)化為機器語言,從而實現(xiàn)人機交互,將非結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化信息,從而獲得有用的、更加便于處理的信息[2-3],結(jié)構(gòu)化的信息更有利于知識發(fā)現(xiàn)和數(shù)據(jù)挖掘。命名實體識別(Named Entity Recognition,NER)屬于自然語言處理的任務(wù)之一,又稱為實體抽取,其目的是從信息中抽取的人名、地名、組織機構(gòu)名等命名實體[4]。Rau[5]于1991年提出了從文本中提取公司名稱的實體抽取任務(wù),此外,在七屆MUC(Message Understanding Conference)會議形成了沿用至今的抽取評價標(biāo)準(zhǔn),大大推動了實體抽取發(fā)展的進(jìn)程。隨后,國際上舉辦眾多有關(guān)NER發(fā)展的會議,涉及了英語、阿拉伯語、漢語等多種語言,包括消歧、評估等多任務(wù)方向的發(fā)展[6]。上世紀(jì)90年代國內(nèi)出版了規(guī)則庫的識別方法的書用于識別人名[7],由于英文語言的天然分詞結(jié)構(gòu)及較為規(guī)范的語法表達(dá)方式,早期的結(jié)構(gòu)化信息抽取主要面向英文文本,信息抽取技術(shù)在英文上得到了很好的應(yīng)用和發(fā)展,而國內(nèi)的信息抽取技術(shù)起步較晚,中文語法復(fù)雜,不能直接進(jìn)行分詞等特點,使實體抽取在中文上的應(yīng)用面臨一定的挑戰(zhàn)[8-9]。

隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的劇增,人們難以從海量的數(shù)據(jù)中獲取有效的信息,實體抽取技術(shù)應(yīng)運而生。實體抽取近年來飛速發(fā)展,為信息化的發(fā)展帶來了新的契機。現(xiàn)如今實體抽取在生物醫(yī)學(xué)、警情軍事及農(nóng)業(yè)漁業(yè)等方面均有廣泛應(yīng)用[10]。在實際應(yīng)用當(dāng)中,由于不同的行業(yè)領(lǐng)域之間實體的相關(guān)性較弱,因此命名實體的確切含義需要根據(jù)具體應(yīng)用來確定,例如在面向中醫(yī)命名實體信息提取時,實體可為:中醫(yī)證候、舌象、脈象、治法、中藥和方劑等,在農(nóng)業(yè)領(lǐng)域可能會把農(nóng)作物、病蟲、農(nóng)藥[11]等作為實體。實體抽取作為自然語言處理的一個重要研究內(nèi)容,在信息提取、信息檢索、主題分類、知識發(fā)現(xiàn)等方面應(yīng)用廣泛[12],同時,知識圖譜的構(gòu)建也是以實體抽取為前提條件。實體抽取為更深層次的數(shù)據(jù)挖掘提供基礎(chǔ)[13]。

隨著信息抽取技術(shù)不斷的革新,在中文文本的應(yīng)用領(lǐng)域不斷拓寬,抽取效果不斷改善。信息抽取技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用能為中醫(yī)藥信息更深層次地挖掘奠定基礎(chǔ),讓中醫(yī)藥知識更好地服務(wù)于臨床應(yīng)用,有益于推動中醫(yī)的繼承和發(fā)展,使中醫(yī)藥與現(xiàn)代技術(shù)接軌。本文簡要介紹了實體抽取概念及發(fā)展,闡述了其發(fā)展過程中常見的技術(shù)手段,從中醫(yī)藥角度出發(fā),論述了實體抽取在中醫(yī)藥各領(lǐng)域中的研究應(yīng)用情況,為中醫(yī)藥實體抽取的發(fā)展研究提供思路參考,以期拓寬實體抽取在中醫(yī)藥領(lǐng)域應(yīng)用的范圍,推動實體抽取技術(shù)的應(yīng)用發(fā)展。

1 實體抽取技術(shù)

1.1 基于模式匹配的實體抽取

1.1.1基于規(guī)則的抽取

基于規(guī)則的實體抽取是最早使用的方法,1991年Rau在第7屆IEEE人工智能應(yīng)用會議上提出基于人工編寫規(guī)則的方法和啟發(fā)式算法,研究如何從文本中抽取公司的名稱[5]。基于規(guī)則的方法由專家針對數(shù)據(jù)集進(jìn)行人工構(gòu)造規(guī)則模板,將需要處理的信息與已制定規(guī)則進(jìn)行匹配,將符合的內(nèi)容信息提取,并且在抽取過程中不斷補充完善規(guī)則,以達(dá)到最優(yōu)化的抽取效果,通常選用特征信息等方法[14]。基于規(guī)則抽取的方法具有較好的靈活性,操作簡單,但抽取效果高度依賴制訂的規(guī)則,只適用于表達(dá)較為規(guī)范的文本和較小的數(shù)據(jù)集,且移植性較差,規(guī)則制作過程中耗費大量資源。

1.1.2基于詞典的抽取

基于詞典的方法最早是和基于規(guī)則的抽取方法聯(lián)合使用的,此方法需要構(gòu)建特定的詞典,然后按照需求將需要識別文本與所構(gòu)建的字典進(jìn)行匹配抽取[10],并在過程中不斷補充完善詞典。早期就有學(xué)者利用大量的醫(yī)療知識詞典結(jié)合既定的規(guī)則來建立專家系統(tǒng),目前,針對不同領(lǐng)域已經(jīng)構(gòu)建了比較完備的詞典,如基因詞典、情感詞典、姓名詞典等。此方法詞典是核心,因此依賴詞典的準(zhǔn)確性,適合于精確的搜索定位,對于詞典范圍外的實體難以準(zhǔn)確識別,針對這一問題,盡管后來提出來一種模糊字典匹配法,但是仍然擺脫不了對詞典的依賴。

基于模式匹配的實體抽取的兩種方法在一定程度上實現(xiàn)了實體抽取,但是由于基于模式匹配兩種方法的自身的局限性,很難再利用原方法對其改進(jìn)提升,再有大數(shù)據(jù)時代的來臨,信息量劇增,規(guī)則和詞典的制定更加繁瑣困難,因此,機器學(xué)習(xí)的應(yīng)用逐漸興起。

1.2 基于機器學(xué)習(xí)的實體抽取

1.2.1隱馬爾科夫模型HMM

HMM最早由Rabiner等[15]在統(tǒng)計學(xué)論文中提出,隨后在語言識別中應(yīng)用。HMM模型構(gòu)建較為簡單,在自然語言處理早期,在模式識別等領(lǐng)域得到廣泛的應(yīng)用,取得了不錯的效果。HMM模型對特定位置和文本長度有所限制,所以該模型的適應(yīng)性不理想。此外,有些學(xué)者通過建立高階的HMM模型來優(yōu)化模型抽取效果。

1.2.2最大熵模型ME

1957年E.T.Jaynes[16]提出了最大熵原理。最大熵模型不對未知信息做任何假設(shè),而是在已知特征的約束下使未知的信息分布去均勻分布,即熵最大[17]。在最大熵方法中,就是找出一個特征的集合,并確定每條特征的重要程度,以此來進(jìn)行抽取,最大熵模型可以集成各種特征與規(guī)則到一個統(tǒng)一的框架下[18]。

1.2.3支持向量機SVM

支持向量機是由Cortes等[19]在1995年提出并發(fā)表,SVM是指的一種二分類的統(tǒng)計模型,它是在特征空間中,使得兩類樣本間隔最大的線性分類器,它的分類方法就是最大化間隔[20]。SVM算法分類思想簡單,適用于小樣本和中樣本,大規(guī)模訓(xùn)練樣本會耗費大量計算時間和內(nèi)存,在解決多分類問題也存在困難。

1.2.4條件隨機場模型CRF

CRF是21世紀(jì)初由Lafferty et al.[21]首次提出發(fā)表,它是通過最大熵模型轉(zhuǎn)換而來,條件隨機場可以通過訓(xùn)練集的語料特征推斷每個標(biāo)簽應(yīng)有的類別標(biāo)記。CRF即通過計算不同候選序列的聯(lián)合分布概率,選擇概率最大的序列作為輸出結(jié)果[22]。相比于SVM、HMM具有無標(biāo)注偏見、可求得全局最優(yōu)值、小規(guī)模數(shù)據(jù)可獲得理想效果等優(yōu)點[23]。

實體抽取引入了機器學(xué)習(xí)方法,減少了對規(guī)則及詞典的依賴,使得抽取效果進(jìn)一步提升。機器學(xué)習(xí)方法是從樣本數(shù)據(jù)集合中統(tǒng)計出相關(guān)特征和參數(shù),以此建立識別模型對數(shù)據(jù)進(jìn)行抽取[14]。為提高抽取效果,機器學(xué)習(xí)可與規(guī)則庫和詞典方法結(jié)合使用來抽取,其抽取的效果也遠(yuǎn)遠(yuǎn)大于單一方法抽取[24]。機器學(xué)習(xí)的模型抽取的方法雖然優(yōu)于匹配模式的抽取方法,但是在構(gòu)建模型時仍舊需要投入一定的資源用在人工標(biāo)注數(shù)據(jù)和特征選擇上且泛化能力不高[25]。因此,隨著算法的不斷改進(jìn),引入了深度學(xué)習(xí),對抽取進(jìn)行了再度優(yōu)化。

1.3 基于深度學(xué)習(xí)的實體抽取

1.3.1 Word2vec

2013年Mikolov等[26]在谷歌團(tuán)隊的帶領(lǐng)下提出了Word2vec,是用來生成詞向量的模型,是一種淺層神經(jīng)網(wǎng)絡(luò)概率語言模型,一般分為CBOW和Skip-gram兩個基礎(chǔ)模型,可以將詞語轉(zhuǎn)換為包含語義的詞向量,表達(dá)詞內(nèi)間關(guān)系,詞語與文本前后內(nèi)容的聯(lián)系[27]。Word2vec模型提出有效提升了NPL任務(wù)的處理效果。

1.3.2 Attention機制

注意力機制是根據(jù)人類的注意力特點而提出的研究,可以實現(xiàn)高效分配信息資源。注意力機制能夠通過調(diào)整權(quán)重值,來鎖定所需的重要信息,同時可以過濾掉不重要的信息。具有很高的可擴(kuò)展性和魯棒性。在2017年,Vaswani[28]提出了Transformer模型,隨后,Kitaev等[29]提出了新的Reformer模型,改進(jìn)原來的Transformer模型。注意力機制與傳統(tǒng)算法的結(jié)合,能大大提高算法系統(tǒng)的性能,提升抽取能力。

1.3.3 LSTM

長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory)本質(zhì)上是一種RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),LSTM模型的3個門:“遺忘門”“記憶門”和“輸出門”,可以篩選過濾出短序列,選擇長序列處理成短序列,將含重要信息的進(jìn)行傳遞[30]。

1.3.4 BERT

BERT模型是在2018年提出的預(yù)訓(xùn)練模型,是基于Transformer的雙向編碼器表征,其結(jié)構(gòu)是來自于Transformers模型的Encoder,在處理一個單詞時,能夠聯(lián)系詞語上下文,從而得到其含義。BERT被設(shè)計為用未標(biāo)記的文本去訓(xùn)練出一個模型,它具有更深的層數(shù),很好的泛化性和并行性,可以充分描述字符級、詞級、句子級甚至句間關(guān)系特征[31]。并且模型增加了對上下文的記憶。可以把BERT模型看作一個深層的Word2vec模型,對于一些特定的任務(wù),只需在BERT后面下接一些網(wǎng)絡(luò)結(jié)構(gòu),就能很好的完成預(yù)設(shè)的任務(wù)。在文本挖掘領(lǐng)域,其優(yōu)勢巨大,BERT模型的出現(xiàn)是自然語言處理的一個巨大的進(jìn)步,推動了NLP任務(wù)的發(fā)展。

深度學(xué)習(xí)(Deep Learning)是機器學(xué)習(xí)的分支[32],是一種以人工神經(jīng)網(wǎng)絡(luò)為架構(gòu),對數(shù)據(jù)進(jìn)行自動的特征學(xué)習(xí)的算法。深度學(xué)習(xí)具有學(xué)習(xí)能力強、覆蓋范圍廣、適應(yīng)力強和可移植性好的優(yōu)點,但是,深度學(xué)習(xí)與機器學(xué)習(xí)相比較需要大的數(shù)據(jù)量,涉及的各類參數(shù)也更多,模型更加復(fù)雜。深度學(xué)習(xí)的發(fā)展,給實體抽取又提供了很大的改進(jìn)方法,相比于基于規(guī)則或傳統(tǒng)機器學(xué)習(xí)的方法,是當(dāng)前最受歡迎的實體抽取方法。近期的命名實體識別方法不再單獨利用單一的方法應(yīng)用,通常會融入基于匹配模式、基于機器學(xué)習(xí)、深度學(xué)習(xí)中兩種甚至多種方法,根據(jù)研究信息的特點選取抽取技術(shù)。還會在模型中加入注意力機制、遷移學(xué)習(xí)等來提高命名實體識別的效果。目前,BERT加雙向長短期記憶神經(jīng)網(wǎng)絡(luò)和條件隨機場是命名實體識別的熱門方法。

2 抽取評估方法

對抽取任務(wù)進(jìn)行抽取評價,是評價一個抽取方法或模型優(yōu)劣的準(zhǔn)則,為其他學(xué)者的研究提供參考價值。通常,在實體抽取任務(wù)中,一般采用3個評價指標(biāo)包括:精確率(Precision)、召回率(Recall)和F1值。對于給定的測試數(shù)據(jù)集,精確率是指正確預(yù)測為正占全部預(yù)測為正的比例,召回率則是正確預(yù)測為正占全部正樣本的比例,而F1值則是正確率和召回率的調(diào)和平均值,可以對系統(tǒng)的性能進(jìn)行綜合性的評價。通常綜合3個指標(biāo)情況,對抽取方法進(jìn)行評估抽取效果。

3 中醫(yī)領(lǐng)域中實體抽取技術(shù)的應(yīng)用

3.1 中醫(yī)藥領(lǐng)域信息特點

中醫(yī)藥領(lǐng)域包含了海量的中醫(yī)學(xué)知識,對其進(jìn)行信息抽取意義重大。到目前為止,中醫(yī)藥信息還沒有得到充分的挖掘和利用,中醫(yī)藥資源的海量性、散亂性和不規(guī)范性等特點,致使人們難以從海量的中醫(yī)數(shù)據(jù)中精準(zhǔn)獲取自己所需的信息,對中醫(yī)藥不斷地發(fā)掘和利用,有著巨大的醫(yī)學(xué)價值和社會價值,同時中醫(yī)藥信息的特點也讓實體抽取的應(yīng)用面臨更大的挑戰(zhàn)。從非結(jié)構(gòu)化的中醫(yī)信息中抽取有用信息,有助于中醫(yī)信息的精準(zhǔn)利用,避免人力以及資源的浪費,提高中醫(yī)信息的利用率,對中醫(yī)的進(jìn)一步挖掘應(yīng)用及傳承發(fā)展有著十分重要的推動作用,從而有助于為中醫(yī)臨床研究提供參考價值和辨證思路。

中醫(yī)藥數(shù)據(jù)的特點可以概括為:①多樣性。中醫(yī)藥數(shù)據(jù)來源廣泛,由于中醫(yī)藥歷史悠久,且國家面積廣闊,形成了地域性的中醫(yī)藥文化,其涵蓋了大量的中醫(yī)藥信息。且隨著信息化時代的到來,中醫(yī)藥數(shù)據(jù)也越來越多樣豐富。②復(fù)雜性。中醫(yī)數(shù)據(jù)的表達(dá)呈現(xiàn)多樣性,包含繁體字,民族語言,文言文等,使得抽取難度增加。③不規(guī)范性。例如對于同種疾病的描述可能會因人而異、因醫(yī)院而異,中草藥藥物分布范圍廣泛,相同的一味中藥名稱的表達(dá)也不盡相同,進(jìn)行統(tǒng)一的規(guī)范標(biāo)準(zhǔn)實行困難,這種沒有進(jìn)行統(tǒng)一規(guī)范化處理的數(shù)據(jù)信息,加深抽取的困難程度。

3.2 中醫(yī)醫(yī)案及中醫(yī)電子病歷領(lǐng)域的應(yīng)用

中醫(yī)醫(yī)案包含大量信息,其專業(yè)性強,短句形式的特點給結(jié)構(gòu)化抽取帶來了巨大的挑戰(zhàn),非結(jié)構(gòu)化的中醫(yī)醫(yī)案無法直接被計算機識別和利用。中醫(yī)醫(yī)案的知識豐富,實體抽取技術(shù)在中醫(yī)醫(yī)案中廣泛應(yīng)用,使醫(yī)案結(jié)構(gòu)化成為可能。

3.2.1中醫(yī)醫(yī)案

劉博等[33]針對傳統(tǒng)一階隱馬爾可夫模型在解決詞性標(biāo)注捕獲上下文的信息有限問題上的不足,推導(dǎo)了二階HMM的主要學(xué)習(xí)方法模型,該模型能更多地聯(lián)系上下文,使得中醫(yī)診斷文本的標(biāo)注更為精確。但構(gòu)建語料庫較小,需要進(jìn)一步優(yōu)化。屈丹丹等[34]對比了TFIDF與Word2vec方法抽取結(jié)果,隨著抽取個數(shù)的不斷增加,Word2vec在醫(yī)案信息抽取過程中,由于考慮了其上下文之間的聯(lián)系,使抽取結(jié)果的精確率和召回率較高。肖瑞等[35]基于BiLSTM-CRF的中醫(yī)文本命名實體識別研究,基于Word2vec的向量構(gòu)建,從而進(jìn)行模型訓(xùn)練迭代,利用CRF層,加強文本間信息的相關(guān)性,實現(xiàn)對中醫(yī)醫(yī)案文本進(jìn)行命名實體識別,但訓(xùn)練數(shù)據(jù)量較小,具有一定的局限,有待進(jìn)一步的優(yōu)化。高佳奕等[36]針對肺癌醫(yī)案構(gòu)建了LSTM_CRF混合模型,并且設(shè)計了多種算法,通過測試分析比較不同模型優(yōu)劣,發(fā)現(xiàn)帶有Peephole機制的雙向LSTM識別效果最好,能夠有效實現(xiàn)中醫(yī)醫(yī)案癥狀命名實體識別。但數(shù)據(jù)和標(biāo)簽等問題仍需進(jìn)一步解決。Liu等[37]基于500份標(biāo)注的中醫(yī)醫(yī)案數(shù)據(jù),構(gòu)建了對醫(yī)案中癥狀和病機實體抽取的CRF訓(xùn)練模型,利用模型來抽取癥狀和病機,實驗結(jié)果經(jīng)過交叉驗證,證明該模型的性能良好,F(xiàn)1達(dá)到了80%以上,適用于中醫(yī)醫(yī)案的信息提取利用,并且隨著訓(xùn)練醫(yī)案的增加,基于CRF的病機和癥狀實體識別性能穩(wěn)步提升。Yang等[38]針對中醫(yī)醫(yī)案中的分詞、實體多樣性和歧義性等難點,提出了一種基于BiLSTM-CRF的深度學(xué)習(xí)混合模型命名實體識別方法,獲得較好的實體抽取效果,處方實體抽取精確率在90%左右,并且了構(gòu)建知識圖譜,可以提供檢索、可視化等功能,幫助中醫(yī)知識的學(xué)習(xí)和共享。

3.2.2中醫(yī)電子病歷

劉一斌等[39]的基于樸素貝葉斯和Word2vec對中醫(yī)電子病歷文本信息抽取,利用了兩種算法對中醫(yī)電子病歷長短文本進(jìn)行了抽取,但是由于數(shù)據(jù)的限制以及供訓(xùn)練的中醫(yī)電子病歷的文本格式單一,可能造成了此方法的局限性。Jia等[40]介紹了一種從中醫(yī)臨床記錄中提取醫(yī)療實體的遠(yuǎn)程監(jiān)督NER方法。它利用預(yù)處理的語言模型和簡單的多層神經(jīng)網(wǎng)絡(luò)作為分類器來檢測和分類實體,并且加入了過濾機制,利用該方法對中醫(yī)臨床記錄的實體抽取,得到F1得分為77.34%,實驗結(jié)果表明,該方法比其他基線方法具有更好的性能。

3.3 中醫(yī)藥文獻(xiàn)領(lǐng)域的應(yīng)用

中醫(yī)文獻(xiàn)按時間劃分為古代文獻(xiàn)、近代文獻(xiàn)和現(xiàn)代文獻(xiàn)。我國保留了大量的中醫(yī)藥文獻(xiàn),包含了眾多名醫(yī)的診療記錄及中醫(yī)藥信息,體現(xiàn)了歷代醫(yī)家的中醫(yī)思想,對其進(jìn)行處理抽取可以便于更好的獲取和利用中醫(yī)文獻(xiàn)中的知識,從而有助于藥物搜索、藥物挖掘等。但是很多中醫(yī)文獻(xiàn)往往知識體系復(fù)雜、句式復(fù)雜,存在大量的繁體字、通假字以及專業(yè)術(shù)語等,因此進(jìn)行抽取困難。尤其是和民族醫(yī)藥相關(guān)的信息,處理難度更大。由于利用傳統(tǒng)的方法難以實現(xiàn),所以很多學(xué)者引入深度學(xué)習(xí)方法對中醫(yī)文獻(xiàn)進(jìn)行實體抽取。

3.3.1古籍文獻(xiàn)

在中醫(yī)古籍文獻(xiàn)方面,葉輝[41]通過條件隨機場研究出從中醫(yī)古籍中抽取癥狀和藥物的方法。利用此方法對《金匱要略》內(nèi)容進(jìn)行有效提取,抽取效果較其他方法更好,為將來建立中醫(yī)藥搜索引擎及新藥物發(fā)掘等方面提供了一種可行的方法。高甦等[42]采用了BiLSTM-CRF的實體識別模型,對中醫(yī)典籍《黃帝內(nèi)經(jīng)》中的中醫(yī)認(rèn)識方法、中醫(yī)生理、中醫(yī)病理、中醫(yī)自然、治則治法等5種實體進(jìn)行識別,與其他方法對比獲得了較好的識別效果。張藝品等[43]選用中醫(yī)典籍《備急千金方》、《千金翼方》、《神農(nóng)本草經(jīng)》作為語料,利用BiLSTM-CRF模型結(jié)構(gòu),對中醫(yī)疾病、方劑、中草藥等內(nèi)容抽取,對比單獨的HMM模型和CRF模型,結(jié)果表明BiLSTM-CRF模型算法抽取效果具有較高準(zhǔn)確性。北京科技大學(xué)的學(xué)者[44]發(fā)明了一種面向中醫(yī)古籍文獻(xiàn)的命名實體識別方法和裝置專利,根據(jù)標(biāo)注的中醫(yī)古文語料訓(xùn)練模型Word Embedding詞嵌入,并使用訓(xùn)練得到的AutoNER自動命名實體識別模型,對中醫(yī)古文語料進(jìn)行了實體識別。并結(jié)合現(xiàn)有的語言訓(xùn)練模型,研發(fā)了一種方法系統(tǒng),用以解決中醫(yī)命名實體的識別問題[45]。基于小樣本訓(xùn)練集,節(jié)省了人工標(biāo)注的成本,提高了識別效果并且易操作,實現(xiàn)了對中醫(yī)古籍文獻(xiàn)的有效和更全面地利用。Qu等[46]針對中醫(yī)領(lǐng)域的文本進(jìn)行命名實體識別,構(gòu)建了基于BERTBiLSTM-CRF模型,以《傷寒論》為訓(xùn)練集和測試集,對癥狀、疾病名稱、時間、處方名稱和藥物名稱五個實體進(jìn)行抽取,由于BERT在學(xué)習(xí)上下文特征更明確,與其他模型結(jié)合提高了總體性能,其抽取結(jié)果優(yōu)于BiLSTM-CRF及LSTM-CRF模型,且若提高樣本的訓(xùn)練量,會取得更好的效果。

3.3.2現(xiàn)代文獻(xiàn)

現(xiàn)代文獻(xiàn)方面,Zhu等[47]針對中醫(yī)教材,將語義本體與SVM分類和正則表達(dá)式匹配相結(jié)合,用于提取癥狀和診斷信息,把數(shù)據(jù)進(jìn)行自動關(guān)聯(lián),構(gòu)建了結(jié)構(gòu)化知識庫,為數(shù)字圖書館提供了服務(wù)。Deng等[48]利用雙向長短記憶網(wǎng)絡(luò)與條件隨機場相結(jié)合的方法對中藥專利中的中藥、疾病、癥狀等實體進(jìn)行了識別抽取,整體F1值高于90%,相比于HMM、LSTM、BiLSTM模型,取得了良好的效果。Zhang等[49]利用一種半監(jiān)督嵌入式BERT-BiLSTM-CRF模型,以《中醫(yī)診斷》為訓(xùn)練集和測試集,取得較好的抽取效果,精確率召回率和F1值達(dá)到80%以上,并且基于《中醫(yī)診斷》一書中的實體建立起了簡易的輔助診斷系統(tǒng),提供了知識檢索查詢服務(wù)。

3.3.3民族醫(yī)藥文獻(xiàn)

民族醫(yī)藥方面,何家歡等[50]提出了基于BiLSTMCRF深度學(xué)習(xí)模型對藏藥藥理命名實體識別,BiLSTM模型相比LSTM模型能獲取更佳特征表示,實現(xiàn)了對文獻(xiàn)中藏藥藥理實體的有效抽取,為藏醫(yī)藥文獻(xiàn)的數(shù)據(jù)挖掘提供了新方法。鄭光敏等[51]提出了一種先抽取關(guān)系和后抽取實體的自動抽取知識模型,BERTBiLSTM-CRF知識抽取模型能夠有效組合BERT和傳統(tǒng)模型的優(yōu)勢,可以充分提取文本特征,還進(jìn)一步利用句子中相鄰標(biāo)簽的關(guān)聯(lián)性獲得了全局最優(yōu)的標(biāo)簽序列,改善了實體識別性能,較其他模型方法各方取得了最優(yōu),能夠高效抽取《中國民族藥辭典》中的實體和關(guān)系。并且還利用此模型抽取的中國民族藥知識實體和關(guān)系構(gòu)建了知識圖譜,基于此知識圖譜實現(xiàn)了中國民族藥知識可視化和智能問答。

3.4 小結(jié)

中醫(yī)藥信息的多種特點讓實體抽取技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用面臨更大的挑戰(zhàn)。目前,在中醫(yī)藥領(lǐng)域中的醫(yī)案和臨床電子病歷、中醫(yī)文獻(xiàn)、和民族醫(yī)藥等多個方面都相應(yīng)的運用了實體抽取技術(shù)進(jìn)行處理信息,并且獲得了一定的成果,在不斷的改進(jìn)發(fā)展下,實體抽取技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用,實現(xiàn)了對中醫(yī)藥信息的有效抽取,為進(jìn)一步的中醫(yī)數(shù)據(jù)挖掘打下了基礎(chǔ),有利于發(fā)現(xiàn)中醫(yī)藥的規(guī)律及隱藏知識,以便更好的應(yīng)用中醫(yī)藥治療人類疾病。

4 總結(jié)與展望

自然語言處理的實體抽取可以有效獲取重要信息,信息抽取的數(shù)據(jù)形式由文本到圖像、音頻和視頻等發(fā)展,面向更多的數(shù)據(jù)形式,便于多樣的數(shù)據(jù)挖掘。中醫(yī)藥領(lǐng)域的復(fù)雜信息為實體抽出技術(shù)提供了大量數(shù)據(jù),實體抽取也有效地處理了一部分中醫(yī)藥信息,兩者之間得到了相互促進(jìn)發(fā)展。實體抽取技術(shù)的應(yīng)用,是對古代名醫(yī)學(xué)術(shù)思想的繼承挖掘和延續(xù)及對現(xiàn)代中醫(yī)信息的進(jìn)一步分析處理的重要基礎(chǔ)。本文總結(jié)了實體抽取技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用情況,為中醫(yī)藥實體抽取的研究提供一定的參考,以期促進(jìn)中醫(yī)藥的實體抽取研究。

本綜述從中醫(yī)藥領(lǐng)域中實體抽取的實際研究情況出發(fā),介紹了各技術(shù)的發(fā)展及中醫(yī)藥領(lǐng)域的應(yīng)用情況。中醫(yī)信息的抽取方法以及抽取模型,呈現(xiàn)出越來越多元化的研究發(fā)展趨勢,對于中醫(yī)領(lǐng)域的實體抽取的后續(xù)研究,在數(shù)據(jù)方面,需要足夠大的、適合訓(xùn)練的數(shù)據(jù)量,并且需要更加精確具體的標(biāo)注標(biāo)簽,在模型方面,要盡可能多方融合考慮各方法的優(yōu)劣性,集成應(yīng)用,力圖使抽取結(jié)果更優(yōu)化。抽取模型要盡可能提高其適用性、魯棒性、泛化性、并且能與中醫(yī)領(lǐng)域的信息契合,以達(dá)到不斷優(yōu)化的抽取方法的目的,以便進(jìn)行下一步的數(shù)據(jù)研究處理。

精準(zhǔn)的獲取利用醫(yī)療信息,能夠有效促進(jìn)醫(yī)學(xué)的進(jìn)步發(fā)展,造福于人類健康。在當(dāng)前中醫(yī)發(fā)展的最佳時期,對中醫(yī)領(lǐng)域包含的海量中醫(yī)知識和學(xué)術(shù)思想等信息進(jìn)行數(shù)據(jù)處理是重中之重,自然語言處理各種技術(shù)的出現(xiàn)與革新加速了中醫(yī)領(lǐng)域?qū)嶓w抽取進(jìn)程,為中醫(yī)藥的傳承發(fā)展做出了極大的貢獻(xiàn),中醫(yī)藥資源也會在技術(shù)不斷進(jìn)步中得到更好的挖掘與研究。

猜你喜歡
中醫(yī)藥文本信息
中醫(yī)藥在惡性腫瘤防治中的應(yīng)用
中醫(yī)藥在治療惡性腫瘤骨轉(zhuǎn)移中的應(yīng)用
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
從《中醫(yī)藥法》看直銷
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
中醫(yī)藥立法:不是“管”而是“促”
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产午夜人做人免费视频中文| 中文字幕乱妇无码AV在线| 1769国产精品视频免费观看| 精品人妻系列无码专区久久| 免费a级毛片18以上观看精品| 国产成人久久777777| 亚洲人成网站日本片| 亚洲精品视频网| 美女毛片在线| 色九九视频| 国产成人免费| 色天天综合| 欧美一区中文字幕| 免费无码一区二区| 亚洲日韩欧美在线观看| 国产午夜精品一区二区三| 国产激爽大片高清在线观看| 98精品全国免费观看视频| 91成人免费观看| 91视频精品| 真人免费一级毛片一区二区 | 天堂av高清一区二区三区| 精品亚洲欧美中文字幕在线看| 日韩国产精品无码一区二区三区 | 91午夜福利在线观看| 国产一级毛片yw| 国产精选自拍| 中文一区二区视频| 中文字幕亚洲另类天堂| 欧美亚洲日韩不卡在线在线观看| 久久久久久久久18禁秘| 久久福利片| 亚洲成人手机在线| 狠狠色噜噜狠狠狠狠奇米777 | 国产簧片免费在线播放| 91九色国产在线| 国产香蕉在线视频| 91在线播放国产| 亚洲精品高清视频| 99re经典视频在线| 国产精品xxx| 日韩无码黄色| 亚洲综合中文字幕国产精品欧美 | 亚洲资源站av无码网址| 国产一级精品毛片基地| 91黄视频在线观看| 91精品国产麻豆国产自产在线| 亚洲午夜国产精品无卡| 国产在线观看一区精品| 无码人中文字幕| 国产打屁股免费区网站| 91欧美在线| 五月天久久综合国产一区二区| 在线亚洲精品福利网址导航| 国产在线精彩视频二区| 伊人国产无码高清视频| 亚洲成人精品久久| 国产亚洲精品97在线观看| 日韩美女福利视频| 国产自在线拍| 国产区91| 久久久精品无码一二三区| 欧洲精品视频在线观看| 在线观看91香蕉国产免费| 亚洲第一成网站| 中字无码av在线电影| 在线欧美日韩| 婷婷亚洲天堂| 青草国产在线视频| 一区二区在线视频免费观看| 欧美亚洲一区二区三区导航| 99热这里只有免费国产精品| 综合色88| 免费在线观看av| 毛片视频网址| 亚洲永久视频| 999精品视频在线| 刘亦菲一区二区在线观看| 日本不卡视频在线| 日韩毛片免费| a网站在线观看| 久久国产精品麻豆系列|