999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向中文中醫藥領域的命名實體識別

2021-10-29 08:28:32雷迪張璞
電子制作 2021年18期
關鍵詞:語義中醫藥信息

雷迪,張璞

(1.河北地質大學,河北石家莊,050000;2.河北政法職業學院,河北石家莊,050000)

0 引言

中醫藥是中華文化的瑰寶,歷經上千年的傳承,形成了以經驗為依據的獨特理論體系。因此,對這些寶貴的中醫藥治療醫案進行數字化、結構化的知識構建,對中醫藥信息檢索與臨床應用、挖掘中醫辨證規律等方面具有非凡的指導意義。所以,對這些醫案中,相關病癥、方劑、治療手段等實體的正確提取,有利于推進中醫藥知識結構化、數字化、智能化的建設,進一步推進中醫藥領域的發展。

命名實體識別作為知識圖譜中的一部分技術,在自然語言處理特別是通用領域,已有多種模型,并且效果較好。然而針對中文的復雜語義關系及中醫藥領域中的特定語義信息,比如疾病名稱、中醫藥物等實體,當前大多命名實體識別模型還無法對這類實體進行準確的判斷。

針對此類問題,本文提出使用一種融合中醫藥領域字、詞信息,運用Lattice-LSTM-CRF 解決中文中醫藥特定領域的命名實體識別方法。使用Lattice 對中文語言命名實體識別的實體邊界劃分優勢,結合中醫藥領域詞信息的字符特征進行輸入。同時,在領域專家的指導下,運用BIOES 語言標注方法自行構建中醫藥醫案的數據集。本文所提出的方法可對中醫藥醫案中的中醫人體基礎、中醫治療手段、病癥醫治藥物等實體邊界進行有效的確定。

1 基于Lattice-LSTM-CRF 在中醫藥領域的命名實體識別模型

本模型主要考慮中文詞級和字級信息,經過Lattice-LSTM-CRF 幾部分。首先通過Lattice 輸入句子信息后,通過BILSTM 捕獲句子的上下文信息,理解其復雜的語義關系。最后利用CRF 將句子的語義表示進行判別和解碼,獲得最優標記序列。整體結構如圖1 所示。

圖1 Lattice-LSTM-CRF 整體結構

■1.1 Lattice-LSTM

我們使用BIOES 標記方案進行基于詞和基于字的命名實體識別標記。句子S可以表示為S=c1,c2,c3…,cm(共m個字符),如圖2 所示,基于字的模型可表示為其中j為句子中的索引值,c為字符信息,x表示文字的向量化表示。經過Bi-LSTM的輸入門、遺忘門和輸出門計算,公式如下:

其中i、o、f分別表示LSTM的輸入門、輸出門、遺忘門信息。Wc和bc是模型的參數。若將句子S看做基于詞的表示,句子S=w1,w2,w3,… ,wn(其中wi表示第i個單詞的表示)。b,e分別表示S中單詞開始和結束的索引值,則經過Bi-LSTM的輸入門、遺忘門和輸出門計算,公式如下:

由于標注序列均是在字后面進行的標注,所以對于詞級信息,LSTM 部分沒有輸出門信息。如圖2 所示,由于Lattice-Lstm 是考慮如何將當前位置索引為j的cj中能夠融合潛在的w的信息,將融合了詞的更新狀態送入LSTM 中,所以考慮在LSTM的輸入門位置更新cj。其中這一過程需要增加一個輸入門的向量

圖2 基于字、詞信息的Lattice-LSTM

對該向量進行歸一化的處理:

得到更新后的cj:

如圖3 所示,將更新的cj重新放入LSTM 中進行訓練,去掉LSTM 最后的輸出層softmax,將信息放入CRF 中,利用其轉移特征來對標簽進行語義約束。

圖3 經過Lattice-LSTM 后輸入CRF的特征信息舉例

■1.2 CRF

CRF 是一個判別式模型,也是一種無向的圖模型。可以看作是最大熵馬爾可夫模型在標注問題上的推廣。它可以通過特征函數來學習狀態間的關聯。如圖4 所示,對于本文來說,利用CRF 中輸出元素的前后關聯性,來對中文中的中醫藥領域標簽進行標簽前后的約束。

圖4 CRF 中進行Viterbi 解碼示例

對特征函數進行簡化,將兩種特征函數此時都用f表示,權重都用w 表示為:

給定一個輸入序列x,可以計算出輸出序列為y的概率,公式如下,其中n為序列的長度。

可以把Z(k) 看成是所有輸出序列的得分之和。最后采用L2 正則化的句子級對數似然損失訓練模型,防止小樣本數據實驗過擬合。

而命名實體識別任務本質上是一個seq to seq的任務,所以最后得到的結果還應轉化為相應標簽。這一部分,我們使用CRF 中的一階Viterbi 算法在本模型對應的輸入序列上找到得分最高的標簽序列。

2 實驗

本文數據集來自于中醫藥專家對多種病癥治療的中文中醫藥治療醫案,并且以中醫藥學科體系為核心,遵循中醫藥學語言特點,借鑒語義網絡的理念,建立的一個中醫藥學語言集成系統TCMLS 為依據,在專家指導下將中醫藥的醫案文本數據分為6 類不同標簽,共標注字數71902,實體10692 個,標注類別如表1 所示,對其相關實體進行BIOES 標注。

表1 6類標簽的劃分及示例

本實驗取數據集的80%作為訓練集,10%作為驗證集,10%作為測試集。實驗最終選取常用的精確率 P、召回率R 和F1 值對命名實體識別結果進行評價。為了驗證本文方法的有效性,我們設置了以下4 個實驗。

LSTM-CRF:LSTM 捕捉句子信息,理解語義內容,CRF 對標簽進行約束,更好的進行命名實體識別任務。

BiLSTM-CRF:BiLSTM由前項LSTM和后項LSTM組合而成,可以更好的捕捉上下文的語義信息。效果優于LSTM-CRF。

Lattice-LSTM-CRF:將分詞信息帶入LSTM,能夠將字符級別序列信息和該序列對應的詞信息同時編碼供模型取用,豐富了語義表達。對于中文中醫藥文本數據效果明顯。

Lattice-BiLSTM-CRF:結合字、詞信息同時,捕捉上下文語義,更好的理解中醫藥語義信息,可以看出F1 值最高,效果最好。實驗結果如表2 所示。

表2 4個實驗對比結果

3 結論

本文將Lattice-LSTM-CRF 模型引入到中文數據的中醫藥領域命名實體識別研究。通過標注的中醫藥醫案數據集發現,相比傳統的LSTM-CRF 實驗,Lattice-LSTM-CRF 更具有實驗優越性,對中醫藥醫案中的實體邊界的確定有更好的效果。本文對中文中醫藥領域中的6 類實體進行了很好的識別。在今后研究中,可以針對特定領域的詞信息及上下文的相關性,提前進行詞信息的預處理,比如構建相關詞典。使Lattice 可以更好的利用相關信息,更好的在命名實體識別任務中凸顯其效果。

猜你喜歡
語義中醫藥信息
中醫藥在惡性腫瘤防治中的應用
中醫藥在治療惡性腫瘤骨轉移中的應用
語言與語義
從《中醫藥法》看直銷
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
中醫藥立法:不是“管”而是“促”
中國衛生(2016年11期)2016-11-12 13:29:24
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 亚洲女人在线| 青草91视频免费观看| 国产伦片中文免费观看| 国产黄色视频综合| 国模沟沟一区二区三区| 特级精品毛片免费观看| 一级黄色欧美| 99久久精品国产麻豆婷婷| 久久一本精品久久久ー99| 日韩精品一区二区三区免费在线观看| 国产精品女主播| 99精品免费在线| 99热这里只有精品免费| 国产视频a| 午夜视频www| 精品国产成人av免费| 免费观看国产小粉嫩喷水| 色妞www精品视频一级下载| www中文字幕在线观看| 2021国产在线视频| 在线一级毛片| 久久性视频| 亚洲精品制服丝袜二区| 动漫精品中文字幕无码| 国产欧美日韩在线一区| 99资源在线| 欧美成人午夜视频| 999国内精品久久免费视频| 亚洲视频色图| 国产成年女人特黄特色毛片免| 狠狠色丁香婷婷综合| 波多野结衣亚洲一区| 国产精品3p视频| 精品久久久久久中文字幕女| 久久无码免费束人妻| 欧美成人h精品网站| 91综合色区亚洲熟妇p| 日韩欧美在线观看| 在线免费看片a| 久久国产精品娇妻素人| 亚洲精品爱草草视频在线| 亚洲国产中文综合专区在| 欧美亚洲香蕉| 国产97区一区二区三区无码| 成年片色大黄全免费网站久久| 欧美成人a∨视频免费观看| 国产亚洲视频在线观看| 一级毛片免费的| 国产精品毛片一区| 国产免费久久精品99re不卡 | 蜜桃视频一区二区| 国产超碰一区二区三区| 波多野结衣在线一区二区| 欧美国产日韩一区二区三区精品影视 | 一本大道AV人久久综合| 日本欧美午夜| 一级一级特黄女人精品毛片| 青青久在线视频免费观看| 99精品国产电影| 国产性生大片免费观看性欧美| 国产福利小视频高清在线观看| 国产成人精品免费av| 9丨情侣偷在线精品国产| 97成人在线观看| 天天躁狠狠躁| 亚洲精品无码成人片在线观看| 成人一区在线| 国产精品嫩草影院视频| 色悠久久久| 国产视频大全| 亚洲无码一区在线观看| 又污又黄又无遮挡网站| 在线日韩日本国产亚洲| 在线a网站| 999精品色在线观看| 精品国产女同疯狂摩擦2| 91www在线观看| 人妻无码一区二区视频| 色噜噜狠狠狠综合曰曰曰| 亚洲欧美日韩天堂| 国产欧美日韩另类| 中文国产成人精品久久|