999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡(luò)的醫(yī)療護理實體關(guān)系抽取

2024-04-19 13:56:38曹茂俊胡喆
電子設(shè)計工程 2024年8期
關(guān)鍵詞:文本實驗模型

曹茂俊,胡喆

(東北石油大學(xué)計算機與信息技術(shù)學(xué)院,黑龍江大慶 163000)

醫(yī)療護理學(xué)的形成與發(fā)展和人類文明及健康需要密切相關(guān),在不同的歷史發(fā)展時期,護理學(xué)都在不斷發(fā)展以適應(yīng)當(dāng)時社會對護理實踐的需求,有望帶來更高效精準(zhǔn)的醫(yī)療服務(wù)。實體關(guān)系抽取問題是知識抽取中的一個經(jīng)典問題,其目的是能夠準(zhǔn)確地挖掘相關(guān)領(lǐng)域的實體與實體之間的關(guān)系[1]。

基于醫(yī)療文本的特點,該文提出基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的實體關(guān)系抽取模型,模型中應(yīng)用弱監(jiān)督學(xué)習(xí)來進行實體關(guān)系標(biāo)注,并運用Softmax 回歸對語句文本進行分類處理,將所提取的文本特征向量矩陣化,同時將得到的向量輸入到卷積神經(jīng)網(wǎng)絡(luò)中,最終抽取到更為精確的醫(yī)療護理學(xué)實體關(guān)系[2]。

因此,采用卷積神經(jīng)網(wǎng)絡(luò)模型對醫(yī)療語料文本進行實體關(guān)系抽取,并采用分段最大池化策略,能夠明顯地降低一般最大池化策略對于信息缺失的影響[3]。

1 基于卷積神經(jīng)網(wǎng)絡(luò)的實體關(guān)系抽取模型

CNN 相比于其他模型來說,具有訓(xùn)練速度快、局部特征提取效率高、權(quán)值共享的同時還不易發(fā)生過擬合的問題等優(yōu)勢。因此該文選用卷積神經(jīng)網(wǎng)絡(luò)模型進行實體關(guān)系抽取任務(wù),將文本“她去婦科確診了慢性的乳腺炎”作為實例,提出的卷積神經(jīng)網(wǎng)絡(luò)實體關(guān)系抽取模型架構(gòu)如圖1 所示。

圖1 CNN實體關(guān)系抽取模型

該模型實際上代表輸入至輸出之間的一種映射,應(yīng)用一個含有實體對的相對全面的文本作為輸入,最終輸出一個與所有關(guān)系類型相對應(yīng)的概率向量。首先對現(xiàn)有的文本進行文本預(yù)處理,特征層主要是對文本進行標(biāo)記工作,嵌入層使用Word2vec 對于詞序列進行向量化[4]。最大池向量使用卷積核來獲取全局特征。并將采集得到的特征輸送到全連接前饋神經(jīng)網(wǎng)絡(luò)中完成推理。在輸出層,使用Softmax分類器,得到輸出數(shù)等于實體之間存在的關(guān)系數(shù),最終獲得實體關(guān)系的抽取結(jié)果。

1.1 文本預(yù)處理

文本預(yù)處理過程包括文本分句、去重、分詞和文本標(biāo)注。①文本分句: 關(guān)系的抽取主要是對文本進行分解抽取,通過將句號當(dāng)成分隔符,以此對文本進行分句。②去重: 刪除重復(fù)句子和只出現(xiàn)單個實體的句子,文本選用卷積神經(jīng)網(wǎng)絡(luò)模型進行實體關(guān)系抽取任務(wù),CNN 實體關(guān)系抽取模型如圖1 所示。首先,對輸入文本進行預(yù)處理,其次,在詞嵌入層使用Word2vec 對詞序列進行向量化,將得到的向量送入CNN 模型,最終,對模型的輸出進行池化和分類,得到關(guān)系抽取結(jié)果[5]。③分詞:該文將Python 中的jieba庫作為分詞的工具,以此對文本進行分詞操作。④數(shù)據(jù)標(biāo)注:實驗數(shù)據(jù)集是結(jié)合收集數(shù)據(jù)的特點,應(yīng)用參考文獻的部分關(guān)系名稱對數(shù)據(jù)進行手工標(biāo)注,總結(jié)歸納了以下10 種關(guān)系,其中,關(guān)系類型和相關(guān)術(shù)語如表1 所示。

表1 關(guān)系類型與術(shù)語

最終,經(jīng)過數(shù)據(jù)標(biāo)注操作之后的部分?jǐn)?shù)據(jù)樣例如表2 所示。其中,<e1>被放在實體1的后面,<e2>被放在實體2 的后面。

表2 數(shù)據(jù)樣例

1.2 特征層

該文將文本之間的所有詞使用5 個相對分散的特征進行表示,如下所示。

1)W:指代文本中所出現(xiàn)的詞語,圖1 中的模型中用v1-v8 來代表文本中的詞;

2)P1:當(dāng)前詞和第一個實體的間隔,如圖1 中所出現(xiàn)的第一個實體“婦科”,“慢性”一詞與“婦科”之間的間距為3,“去”同“婦科”之間的間距為-1。

3)P2:現(xiàn)有當(dāng)前的詞同相鄰第二個實體之間的間距,與P1 的計算方法相似。

4)N:詞性的標(biāo)簽,如上述文本分詞所示,該文對文本語句進行分詞并且對詞性進行標(biāo)注。選取jieba分詞進行功能標(biāo)注。

5)T:指代實體的類型,將處理后的句子進行實體類型標(biāo)注,因為醫(yī)療文本語料常常涉及醫(yī)療事件、醫(yī)療藥物處理等,該文所采用命名實體識別標(biāo)注法,即用BMEO 進行標(biāo)注。B 指代實體詞的開頭部分,M指代實體詞的中間詞部分,E 指代實體詞的詞尾部分,O 則指代與實體詞有關(guān)的詞。

1.3 詞嵌入層

詞嵌入層利用查找表把所有的特征轉(zhuǎn)變?yōu)榍度胂蛄浚⑵浯?lián)在一起。將語料文本中每個詞以及實體e1、e2 之間的距離依次代表p1 和p2 維向量,獲得語料文本所對應(yīng)的位置向量的矩陣。同傳統(tǒng)的文本詞向量化表示方法相比,詞嵌入技術(shù)能夠更全面地獲取文本特征。

實驗采用Google公司于2013年所開源的Word2vec工具,其能夠通過卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練語料文本,并將文本中的詞語轉(zhuǎn)化為k維的向量進行運算[6]。Word2vec 工具面向詞向量的訓(xùn)練共包含兩種模型,分別是CBOW 模型以及Skip-gram 模型。其中Skipgram 模型主要基于現(xiàn)有的詞語文本對上下文出現(xiàn)詞的概率進行推理預(yù)測,如現(xiàn)有一個詞w(t),對其進行上下文的概率推測,模型的結(jié)構(gòu)示意圖如圖2 所示,Skip-gram 模型共含有輸入層、映射層以及輸出層三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,最大化的目標(biāo)函數(shù)如式(1)所示:

圖2 Skip-gram模型

式中,w1,w2,w3,…,wt表示文本中的一組詞語的排列順序,該文窗口大小選的是5,詞向量維度數(shù)為100。

1.4 卷積層

卷積層作為卷積神經(jīng)網(wǎng)絡(luò)的核心,其本質(zhì)上為特征抽取層,能夠?qū)⑺斎氲尼t(yī)療語料文本通過卷積核進行卷積操作,從而抽取語料文本中的部分特征[7]。

卷積層主要由濾波器來完成操作,再實驗過程中,濾波器的數(shù)量通常和所提取特征的數(shù)量成正比。當(dāng)面對不同位置的輸入數(shù)據(jù)時,濾波器通常使用“滑動窗口”的方法來取得數(shù)據(jù)的特征,最終變?yōu)橐粋€特征集合。同時,當(dāng)前層取得的特征會作為下一層的輸入數(shù)據(jù)進行抽取,輸入文本的特征向量序列為x1,x2,x3…,xm,在該序列中,xi∈Rd代表第i個詞含有的特征向量,xi;i+j則代表xi-xi+j的特征相互連接[8]。假設(shè)存在權(quán)重向量參數(shù)化類型的卷積核,權(quán)重向量應(yīng)由w∈Rcd所指代;c指代卷積核的長度值,因而卷積層的輸出序列為hi=f(w·xi;i+c-l+b),其中,i=1,2,…m-c+1,操作“·”代表點乘,f為線性的整流函數(shù),b∈R為偏倚項,w和b均為學(xué)習(xí)參數(shù),并且對于所有的i=1,2,…,m-c+1 參數(shù)值均保持不變。

1.5 池化和分類

卷積神經(jīng)網(wǎng)絡(luò)的池化階段能夠獲得整個卷積進程中的重要特征,池化層的效用即為將獲取的特征進行過濾,清除前一層輸出中的噪音,并且通過降低卷積節(jié)點數(shù)量使得訓(xùn)練參數(shù)的數(shù)量減小,相應(yīng)的去除模型過擬合的問題[9]。

該文應(yīng)用最大池層獲取長度相對固定語料文本的全局特征,目的是要保存文本語料中有價值的信息,即僅考慮所有語料中相對來說最具有價值的特征。池化處理對于提升卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果和效率起到促進作用,并且在不缺失主要特征的前提下能夠減小輸出結(jié)果的維度,能夠減小整體模型的計算量[10],卷積層最終的輸出長度(m-c+1)取決于文本中m的個數(shù),如式(2)所示:

依據(jù)上所述過程,表達了如何利用單個過濾器從整個文本中提取一個特征。依據(jù)圖1 可知,實驗所利用長度為3 和4 的過濾器(卷積核)全面地提取了4 個特征。為了判斷過濾器長度對提取效果的影響,對不同長度過濾器進行實驗比較,同時也可以判斷上下文在不同的窗口大小時周圍的詞。卷積神經(jīng)網(wǎng)絡(luò)的池化層基于大小不同的濾波器獲得較為重要的特征,同時把獲取到的特征傳遞給輸出層,最后輸出層應(yīng)用Softmax 函數(shù)對池化層得到的特征進行分類,如式(3)所示:

式中,wy和by是分類函數(shù)的權(quán)重和偏置。

2 實驗與分析

2.1 實驗預(yù)料獲取及標(biāo)注

基于醫(yī)療領(lǐng)域的關(guān)系抽取研究較少,這是在護理學(xué)關(guān)系抽取任務(wù)中的一個難點。因此,該文根據(jù)專業(yè)醫(yī)生所提供的數(shù)據(jù)作為語料來源,構(gòu)建醫(yī)療護理學(xué)領(lǐng)域的語料數(shù)據(jù)庫。通過1.1 節(jié)的預(yù)處理和數(shù)據(jù)標(biāo)注工作,篩選出包含實體對和它們之間關(guān)系的句子,作為實驗語料。實驗主要針對于醫(yī)療護理領(lǐng)域的相關(guān)數(shù)據(jù),如表3 所示。

表3 醫(yī)療護理鄰域相關(guān)數(shù)據(jù)

實驗共收集了294 149 條數(shù)據(jù),包括疾病診斷項目、醫(yī)療科目、疾病名稱以及藥品名稱等。應(yīng)用詞頻統(tǒng)計的策略,將所獲取的數(shù)據(jù)進行剖釋處理,了解所收集到的醫(yī)療語料知識,并且依據(jù)預(yù)料文本進行匯總,共定義了10 種實體關(guān)系類型。

數(shù)據(jù)標(biāo)注部分主要依靠自己開發(fā)設(shè)計的醫(yī)療語料的標(biāo)注系統(tǒng),將語料的格式進行確認(rèn)后直接進行標(biāo)注工作。在預(yù)料標(biāo)注系統(tǒng)中,只需要選擇與要標(biāo)注的實體以及上述的各種關(guān)系即可完成對實體和彼此的關(guān)系標(biāo)注,使用該系統(tǒng)可以降低繁瑣的人為操作,同時提高了準(zhǔn)確率,最終完成基于該系統(tǒng)的半自動化標(biāo)注[11]。文本標(biāo)注的結(jié)果如例1 所示,將被標(biāo)注的部分結(jié)果進行了人工的校對,能夠獲得最終的實驗數(shù)據(jù)。

例1:<e1>乳腺增生</e1>疾病檢查<e2>婦科</e2>。

其中,“乳腺增生”被標(biāo)注為實體1,“婦科”被標(biāo)注為實體2。兩者之間的關(guān)系為“疾病檢查”。

2.2 實驗參數(shù)設(shè)計

在該實驗期間,共用到了如下評價指標(biāo):準(zhǔn)確率P、召回率R和F1 值,所應(yīng)用到的公式如式(4)-(6)所示:

式中,V表示正確識別的實體關(guān)系個數(shù);V1表示總的識別實體關(guān)系數(shù);V2表示總的實體關(guān)系個數(shù)。該實驗中,共獲取并標(biāo)注的數(shù)據(jù)為294 149 條,每次實驗都會隨機選擇10 000 條數(shù)據(jù)成為訓(xùn)練數(shù)據(jù),并進行3 次實驗,最終將3 次實驗的平均數(shù)作為該實驗的結(jié)果。

2.3 結(jié)果與分析

該文通過單個濾波器和組合濾波器對評價指標(biāo)的影響進行實驗,實驗結(jié)果顯示了不同長度的濾波器對準(zhǔn)確率、召回率以及F1值的影響效果,如表4所示。

表4 濾波器對訓(xùn)練模型的影響效果

如表4 所示,在實驗過程中,當(dāng)濾波器(卷積核)長度為3 時,其準(zhǔn)確率、召回率以及F1 值均小于濾波器(卷積核)長度為4 以及濾波器長度為5 時的數(shù)值,因此,相應(yīng)地填充單個濾波器的長度,能夠相對明顯地提高該實驗評價指標(biāo)的百分比[12]。但是當(dāng)濾波器長度大于5 時,實驗的測量數(shù)值明顯呈現(xiàn)下降趨勢。對組合濾波器進行實驗時,可以發(fā)現(xiàn)[3,4]組合濾波器的評價數(shù)值相對單個濾波器的較大值有所提升。因此,由表4 的實驗結(jié)果可知,3 和4 兩個濾波器整合的實驗效果可以達到最優(yōu),F(xiàn)1 值為89.77%。該文所標(biāo)注的數(shù)據(jù)共294 149 條,命名的實體關(guān)系對共10 種,在此過程中,相較其他的標(biāo)注來說“疾病-推薦藥品”類中所標(biāo)注語料最多,為59 467 條[13]。

關(guān)系抽取模型對比結(jié)果如圖3 所示,能夠得出該文方法與基于LSTM 和Bi-LSTM 的方法相比較,其準(zhǔn)確率P、召回率R包括F1 值都存在相對明顯的提高,其中,相對于LSTM,準(zhǔn)確率P,召回率R、F1 值指標(biāo)提升較為明顯[14]。對比實驗表明,該文所使用的方法能夠更好地應(yīng)用于醫(yī)療數(shù)據(jù)的領(lǐng)域關(guān)系抽取。

圖3 關(guān)系抽取模型對比結(jié)果

3 結(jié)束語

該文研究了基于卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)療護理領(lǐng)域的實體關(guān)系抽取情況。從醫(yī)療護理領(lǐng)域出發(fā),從近30 萬條數(shù)據(jù)中抽取了10 種實體-關(guān)系對,并基于此構(gòu)建關(guān)系語料庫[15]。最終,在池化層部分,采用了分段最大池化的策略,有效地降低了部分關(guān)鍵醫(yī)療實體特征的損耗。同時,該文基于LSTM 以及Bi-LSTM的方法同CNN 模型進行對比,最終得出該文所采用的卷積神經(jīng)網(wǎng)絡(luò)方法模型可以極大地增強醫(yī)療護理學(xué)實體關(guān)系抽取的成果,具有更好的性能[16]。

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产区精品高清在线观看| 美女潮喷出白浆在线观看视频| 欧美一级黄片一区2区| 人妻中文久热无码丝袜| 26uuu国产精品视频| 人人91人人澡人人妻人人爽 | 国产屁屁影院| 精品無碼一區在線觀看 | 国产一区二区三区精品久久呦| 国产特级毛片| 3D动漫精品啪啪一区二区下载| 超碰91免费人妻| 亚洲综合精品第一页| 香蕉久久国产精品免| 无码一区中文字幕| 日韩精品亚洲人旧成在线| 91蜜芽尤物福利在线观看| 国产日韩欧美黄色片免费观看| 国产小视频免费观看| 国产SUV精品一区二区| 亚洲天堂.com| 国产69精品久久久久孕妇大杂乱 | 国产精品三级av及在线观看| 影音先锋亚洲无码| 福利视频99| 欧美v在线| 欧美成a人片在线观看| 91麻豆久久久| 亚洲欧美综合另类图片小说区| 萌白酱国产一区二区| 欧美a在线看| 国产激情无码一区二区APP | 九九热精品视频在线| 欧美国产日产一区二区| 国产无码高清视频不卡| 国产精品手机在线播放| 成人在线天堂| 波多野结衣爽到高潮漏水大喷| 午夜无码一区二区三区| 波多野吉衣一区二区三区av| 国产一二视频| 99精品在线视频观看| 黄色国产在线| 毛片卡一卡二| AV熟女乱| 国产精品亚洲综合久久小说| 国产主播喷水| 国产一区在线视频观看| 2022国产91精品久久久久久| 九色91在线视频| 国产精品lululu在线观看| 欧美劲爆第一页| 看国产毛片| AV片亚洲国产男人的天堂| 在线观看免费人成视频色快速| 午夜丁香婷婷| 精品视频福利| 国产门事件在线| 丰满的少妇人妻无码区| 国产91久久久久久| 成人精品免费视频| 九月婷婷亚洲综合在线| 色爽网免费视频| 九九九久久国产精品| a级毛片免费网站| 99999久久久久久亚洲| 99久久国产精品无码| 沈阳少妇高潮在线| 久久精品一品道久久精品| 凹凸国产分类在线观看| 丁香婷婷综合激情| 久久综合激情网| 99久久精品免费看国产免费软件| 欧美一级在线| 国产网站免费| 婷婷亚洲天堂| 亚洲天堂首页| 久久香蕉国产线看观| 色婷婷狠狠干| 国产xx在线观看| 亚洲国产成人久久精品软件| 无码福利日韩神码福利片|