999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙向長短期記憶網(wǎng)絡(luò)的醫(yī)院電子病歷數(shù)據(jù)挖掘

2023-07-07 03:10:10
關(guān)鍵詞:文本模型

倪 凌

(江蘇省第二中醫(yī)院 江蘇 南京 210000)

0 引 言

大型醫(yī)院在每天診療過程中產(chǎn)生了大量的醫(yī)療數(shù)據(jù),包括門診病歷、臨床醫(yī)療數(shù)據(jù)、患者意見等[1]。這些數(shù)據(jù)大多以文本形式存儲(chǔ)于數(shù)據(jù)庫中,若通過人工對此類文本信息進(jìn)行歸檔和分析,將耗費(fèi)龐大的人力成本。隨著人工智能技術(shù)的飛速發(fā)展,對醫(yī)療文本信息進(jìn)行智能提取、識(shí)別和分析成為了可能[2]。在實(shí)際的臨床治療過程中,存在許多實(shí)驗(yàn)性質(zhì)的藥物治療方案[3],一方面可通過醫(yī)學(xué)指標(biāo)數(shù)據(jù)判斷藥物的效果,另一方面也可通過電子病歷觀察治療的結(jié)果,因此對電子病歷進(jìn)行分析具有重要的應(yīng)用價(jià)值。

觀點(diǎn)挖掘技術(shù)已經(jīng)得到了深入的研究,大多關(guān)注于電影評論[4]、圖書評論[5]、社交網(wǎng)絡(luò)[6]和短新聞[6]等文本數(shù)據(jù)的挖掘,這些文本內(nèi)容大多滿足語法約束,且詞匯的分布較為集中,傳統(tǒng)的n-gram、CBOW和skip-gram等詞嵌入模型即可較好地學(xué)習(xí)文本的特征,再通過分類器對用戶觀點(diǎn)進(jìn)行標(biāo)注。此類方法包括基于n-gram的Youtube觀點(diǎn)挖掘算法[7]、基于CBOW的方面級情感信息提取技術(shù)[8]和基于skip-gram的語義聚類技術(shù)[9],這些技術(shù)均達(dá)到了令人滿意的性能。

醫(yī)療領(lǐng)域的文本數(shù)據(jù)存在兩大特殊之處:(1) 醫(yī)生專家往往輸入大量的專業(yè)名詞和短語,而其中一部分名詞和短語不符合常規(guī)的語法或語義;(2) 患者描述的文本內(nèi)容非常口語化且不滿足醫(yī)療系統(tǒng)規(guī)范,導(dǎo)致語義實(shí)體的邊界較模糊。依然有學(xué)者對醫(yī)療文本數(shù)據(jù)完成了有效的研究,文獻(xiàn)[10]將卷積神經(jīng)網(wǎng)絡(luò)、雙向長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場結(jié)合,先利用卷積層捕獲詞語之間的邊界特征,把特征傳遞給長短期記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練和預(yù)測,再由條件隨機(jī)場模型對序列進(jìn)行標(biāo)注,該方法對臨床文本的復(fù)合實(shí)體識(shí)別具有突出的優(yōu)勢。其他針對醫(yī)療文本的研究大多針對英文文本,如基于概率模型的生物醫(yī)學(xué)文本分析[11]和基于頻繁項(xiàng)集挖掘的醫(yī)學(xué)自動(dòng)摘要技術(shù)[12],而中文與英文的語義本體之間存在較大的差異,因此很難把英文文本分析技術(shù)直接應(yīng)用到中文文本分析問題上。

為了進(jìn)一步完善醫(yī)院信息化建設(shè)的進(jìn)程,對電子病歷數(shù)據(jù)實(shí)現(xiàn)智能且高效的分析,設(shè)計(jì)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的臨床大規(guī)模文本數(shù)據(jù)分析算法。首先,對詞嵌入模型進(jìn)行修改,使其更加適合醫(yī)療領(lǐng)域,提高所提取方面項(xiàng)的性能。然后,把提取的方面項(xiàng)作為標(biāo)記數(shù)據(jù)訓(xùn)練Bi-LSTM網(wǎng)絡(luò),雙向LSTM學(xué)習(xí)詞語的正向與反向方向上下文信息。以句子“吃完藥后非常有精神!”為例,如果是沒有注意力機(jī)制的原LSTM,那么提取的目標(biāo)詞語為“藥物”,顯然未能全面捕捉到句子的語義。本文在Bi-LSTM中設(shè)計(jì)了注意力機(jī)制學(xué)習(xí)方面項(xiàng)之間的長期依賴關(guān)系,包含注意力機(jī)制的LSTM所提取的目標(biāo)詞語則為“藥物”和“精神”,這兩個(gè)詞能夠更好地表達(dá)該句子的語義。最終通過Softmax層對方面項(xiàng)的情感進(jìn)行標(biāo)記。本文系統(tǒng)主要有三點(diǎn)貢獻(xiàn):(1) 設(shè)計(jì)了醫(yī)療領(lǐng)域名詞處理技術(shù),過濾與醫(yī)療領(lǐng)域相關(guān)性高的名詞;(2) 通過雙向長短期網(wǎng)絡(luò)學(xué)習(xí)詞語的前文、后文語義,并設(shè)計(jì)注意力機(jī)制學(xué)習(xí)目標(biāo)詞語之間的長期關(guān)聯(lián)性;(3) 把提取的方面項(xiàng)作為詞語的標(biāo)簽,與其他語法特征一起送入Bi-LSTM模型學(xué)習(xí),提高了特征的豐富性。

1 問題模型

圖1所示是一個(gè)出院患者的評價(jià)實(shí)例,患者給出的評價(jià)內(nèi)容為“劉醫(yī)生很有耐心,診斷精準(zhǔn)有效”。觀點(diǎn)對象為劉醫(yī)生,方面項(xiàng)為服務(wù)態(tài)度和醫(yī)術(shù),兩個(gè)方面項(xiàng)的情感極性均為正面。電子病歷數(shù)據(jù)挖掘系統(tǒng)的目標(biāo)是對病歷中的文本進(jìn)行分析,提取出每個(gè)方面項(xiàng),并通過深度學(xué)習(xí)技術(shù)智能地識(shí)別每個(gè)方面項(xiàng)的觀點(diǎn)(情感極性)。

圖1 醫(yī)療文本觀點(diǎn)的本體劃分

2 總體框架與相關(guān)技術(shù)設(shè)計(jì)

本文提出一個(gè)兩步驟的方法來實(shí)現(xiàn)文本的方面項(xiàng)提取,流程如圖2所示。第1步提取細(xì)粒度名詞或短語,第2步借助臨床醫(yī)療語料庫對細(xì)粒度名詞進(jìn)行過濾和重組。

圖2 臨床文本數(shù)據(jù)方面級觀點(diǎn)識(shí)別的算法流程

2.1 提取方面項(xiàng)

電子病歷包含大量的醫(yī)學(xué)名詞和短語,采用Stanford Parser的chinese-distsim.tagger模塊工具[13]提取中文的方面項(xiàng)。該工具在處理不符合語言規(guī)范的文本內(nèi)容時(shí)錯(cuò)檢率和漏檢率均較高,例如:“吃了感冒藥第二天感覺好了很多”,Stanford Parser的分割結(jié)果為感冒//藥//好。該句子的方面項(xiàng)應(yīng)該是“感冒藥”,但Stanford Parser把“感冒藥”識(shí)別成了兩個(gè)方面項(xiàng)“感冒”和“藥”。因此Stanford Parser生成的POS標(biāo)記名詞無法準(zhǔn)確地識(shí)別語義層面的名詞和短語,本文對Stanford Parser進(jìn)行了擴(kuò)展,提高對醫(yī)療文本方面項(xiàng)提取的效果。

采用Stanford Parser的chinese-distsim.tagger模塊工具將句子分解,標(biāo)注每個(gè)名詞的細(xì)粒度token,將這些細(xì)粒度名詞稱為潛在方面項(xiàng)。以“吃了感冒藥第二天感覺好了很多”為例,Stanford Parser處理后的結(jié)果為“吃了(VB)|感冒(NNP)|藥(NNP)|第二天(DT)|感覺(VB)|好了(JJ)/很多(RB)”,具體如圖3所示。

圖3 Stanford Parser細(xì)粒度token標(biāo)注實(shí)例

2.2 醫(yī)療領(lǐng)域名詞處理

上一部分提取了所有文本的潛在方面項(xiàng),其中一些方面項(xiàng)與醫(yī)療領(lǐng)域無關(guān)。例如:“病人是南京大學(xué)的一名學(xué)生”,潛在方面項(xiàng)“大學(xué)”與醫(yī)療領(lǐng)域的相關(guān)性較低,因此設(shè)計(jì)了方面項(xiàng)過濾技術(shù)排除與醫(yī)療領(lǐng)域不相關(guān)的潛在方面項(xiàng)。圖4所示是醫(yī)療領(lǐng)域名詞處理的流程,利用收集的臨床醫(yī)療語料庫訓(xùn)練詞嵌入模型Word2Vec[14]或者GloVe[15],再利用訓(xùn)練的模型把輸入文本轉(zhuǎn)化成向量形式。

圖4 醫(yī)療領(lǐng)域名詞處理的流程

首先計(jì)算輸入文本A中所有潛在方面項(xiàng)ni詞wi的詞頻fi,把詞頻較低的名詞刪除,根據(jù)預(yù)處理實(shí)驗(yàn)的結(jié)果,將過濾不相關(guān)詞的詞頻閾值設(shè)為(lenth/30),其中l(wèi)enth為文本的句子數(shù)量。基于剩余的名詞建立頻繁詞集W和詞頻集F,然后采用余弦相似性度量名詞與語料庫之間的語義相似性,相似性越高說明該名詞與醫(yī)療領(lǐng)域的相關(guān)度越高。we(ni)與we(D)的相似性定義為:

(1)

式中:we(ni)表示詞wi的權(quán)重,we(D)=1表示醫(yī)療領(lǐng)域預(yù)分配的權(quán)重。

3 基于Bi-LSTM的觀點(diǎn)識(shí)別算法

3.1 句子標(biāo)記

3.2 特征提取

采用詞嵌入提取方面項(xiàng)特征,采用POS標(biāo)注提取觀點(diǎn)特征。

(1) 方面項(xiàng)特征提取:Word2vec是構(gòu)建連續(xù)詞向量表示的常用方法,Word2vec包括Skip-gram和CBOW兩個(gè)模型。通過預(yù)處理實(shí)驗(yàn)訓(xùn)練Skip-gram和CBOW兩個(gè)模型,最終兩個(gè)模型的超參數(shù)選定如下:向量維度D為300,上下文窗口為20,negative_sample_size為10,下采樣值為1×e-3,學(xué)習(xí)率為0.05。Skip-gram和CBOW為每個(gè)詞生成一個(gè)300維的向量。GloVe模型的超參數(shù)選定如下:向量維度D為200,窗口大小為15,verbose參數(shù)為2,最大迭代次數(shù)為45。

(2) 觀點(diǎn)特征提取:首先把輸入句子S={X1,X2,…,XT}表示成token序列,例如:“感冒”是第232個(gè)詞,那么pv等于232,將句子表示為索引序列ps=[pv(X1),pv(X2),…,pv(XT)]。設(shè)wt表示第t個(gè)詞在句子中的嵌入向量,將wt和Xi間的關(guān)系定義為:wt=E[pv(Xn)],將輸入句子表示為詞嵌入向量的序列W={w1,w2,…,wT}。

由于方面項(xiàng)大多為名詞,所以將POS標(biāo)注作為每個(gè)詞Xi的附加特征。采用獨(dú)熱編碼將POS標(biāo)注編碼成K維向量,再使用Stanford POS標(biāo)注器把POS向量編碼成6維的二值向量。假設(shè)輸入句子每個(gè)詞的POS標(biāo)注向量為P={p1,p2,…,pT},那么最終輸入句子每個(gè)詞的特征向量定義為:

X={x1,x2,…,xT}=

{(w1,p1)T,(w2,p2)T,…,(wT,pT)T}

(2)

3.3 Bi-LSTM的網(wǎng)絡(luò)結(jié)構(gòu)

將式(2)的序列傳入Bi-LSTM,提取句子的方面項(xiàng)。圖5所示是包含注意力機(jī)制的Bi-LSTM網(wǎng)絡(luò)結(jié)構(gòu)。

圖5 Bi-LSTM網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)

Bi-LSTM的嵌入層參數(shù)dropout設(shè)為0.5以防止過擬合。編碼器讀入序列X學(xué)習(xí)隱藏層響應(yīng)H,將時(shí)間步t輸入詞在Bi-LSTM中的隱藏響應(yīng)向量ht表示為:

ht=bi_LSTM(ht-1xt;θen)

(3)

式中:ht-1為上一個(gè)狀態(tài)的隱藏層激活;xt為輸入數(shù)據(jù);θen為網(wǎng)絡(luò)參數(shù)集。

bi_LSTM+(ht-1,xt;θen)⊕bi_LSTM-(ht-1,xt;θen)

(4)

Bi-LSTM網(wǎng)絡(luò)從時(shí)間步t-1到時(shí)間步t的更新過程可建模為:

it=sigmoid(Wi[ht-1,xt]+bi)

(5)

ft=sigmoid(Wf[ht-1,xt]+bf)

(6)

ot=sigmoid(Wo[ht-1,xt]+bo)

(7)

(8)

(9)

ht=ot⊙tanh(ct)

(10)

由于句子每個(gè)詞對觀點(diǎn)挖掘的重要性不同,并且句子不同方面項(xiàng)之間存在關(guān)聯(lián)性,常規(guī)的Bi-LSTM網(wǎng)絡(luò)無法識(shí)別詞的重要性。因此為Bi-LSTM增加注意力機(jī)制,通過該機(jī)制區(qū)分每個(gè)詞對觀點(diǎn)感情的影響,然后將詞向量及其權(quán)重組成一個(gè)密集向量。圖6所示是所設(shè)計(jì)注意力機(jī)制的結(jié)構(gòu)。

圖6 實(shí)現(xiàn)注意力機(jī)制的結(jié)構(gòu)

假設(shè)在時(shí)間步t輸入注意力機(jī)制的句子為X={x1,x2,…,xT},Bi-LSTM隱藏層響應(yīng)ht傳入前饋網(wǎng)絡(luò),經(jīng)過注意力機(jī)制處理,產(chǎn)生的解碼響應(yīng)st可定義為:

st=f(st-1,yt-1,ct)

(11)

式中:st-1為上一個(gè)時(shí)間步的解碼響應(yīng);yt-1為上一個(gè)時(shí)間步的輸出;ct為上下文向量。

解碼器網(wǎng)絡(luò)根據(jù)上下文向量ct和句子X預(yù)測下一個(gè)時(shí)間步的標(biāo)簽yt,然后以相同的方式預(yù)測之前的標(biāo)簽序列[y1,y2,…,yt-1]。

上下文向量ct的計(jì)算方法為:

(12)

式中:αti={αt1,αt2,…,αtT}為注意力權(quán)重。

假設(shè)網(wǎng)絡(luò)的輸入為st-1和hi,前饋網(wǎng)絡(luò)Bi-LSTM計(jì)算出注意力能量集eti:

eti=Bi_LSTM(st-1hi)

(13)

假設(shè)激活函數(shù)為tanh(),方面項(xiàng)嵌入向量為eva,權(quán)重矩陣為W和U,那么注意力能量集eti可計(jì)算為:

eti=eva·tanh(Ust-1Whi)

(14)

目標(biāo)序列的聯(lián)合概率可定義為:

(15)

將每個(gè)詞概率最高的標(biāo)注作為Bi-LSTM預(yù)測的IOB2標(biāo)注,每個(gè)時(shí)間步t預(yù)測的標(biāo)注作為一個(gè)情感分類,將最小化分類交叉熵?fù)p失函數(shù)H()作為訓(xùn)練網(wǎng)絡(luò)的代價(jià)函數(shù):

(16)

式中:qi為詞的IOB2標(biāo)注;pt為期望概率分布;K={I,O,B};pt(k)∈{0,1};qt(k)∈[0,1]。

注意力機(jī)制輸出第i個(gè)標(biāo)簽的概率,再經(jīng)過softmax函數(shù)計(jì)算注意力的權(quán)重ati,計(jì)算方法為:

(17)

4 實(shí)驗(yàn)與結(jié)果分析

編程環(huán)境為Java JDK 1.6,軟件環(huán)境為Windows 10操作系統(tǒng)。PC處理器為i7-10750H,主頻為2.60 GHz,內(nèi)存大小為8 GB。

4.1 實(shí)驗(yàn)數(shù)據(jù)處理

在江蘇省第二中醫(yī)院的數(shù)據(jù)庫中收集了500份臨床電子病歷和500份門診病歷,使用NLTK工具箱[17]對句子進(jìn)行分割和標(biāo)點(diǎn)符號預(yù)處理。由助理醫(yī)師對每份病歷的方面項(xiàng)和情感類型進(jìn)行標(biāo)注,最終共產(chǎn)生約30 000個(gè)不同詞匯,這些詞匯作為醫(yī)療領(lǐng)域語料庫,用于訓(xùn)練Skip-gram、CBOW和GloVe三個(gè)詞嵌入模型。采用五折交叉檢驗(yàn)方法完成驗(yàn)證實(shí)驗(yàn),隨機(jī)選擇800份病歷作為訓(xùn)練集,剩下的200份病歷作為測試集。

4.2 性能評價(jià)標(biāo)準(zhǔn)

采用三個(gè)常用指標(biāo)評價(jià)觀點(diǎn)挖掘系統(tǒng)的性能,分別為精度P、召回率R、F1-measure。

精度P定義為真正例數(shù)量占真正例和假正例總和的比例,計(jì)算公式為:

(18)

式中:TP表示真正例數(shù)量;FP表示假正例數(shù)量。

召回率R定義為真正例數(shù)量占真正例和假反例總和的比例,計(jì)算公式為:

(19)

式中:FN表示假反例數(shù)量。

F1-measure定義為精度與召回率的調(diào)和平均值,計(jì)算公式為:

(20)

4.3 參數(shù)實(shí)驗(yàn)

式(1)計(jì)算的相似性值是過濾醫(yī)療領(lǐng)域相關(guān)名詞的關(guān)鍵參數(shù),因此首先通過實(shí)驗(yàn)觀察不同相似性閾值對醫(yī)療觀點(diǎn)識(shí)別精度的影響,將余弦相似性閾值分別取值0.65、0.7、0.75、0.8、0.85,結(jié)果如圖7所示。Skip-gram與CBOW兩個(gè)詞嵌入模型的最優(yōu)相似性閾值為0.75,GloVe模型的最優(yōu)相似性閾值為0.8。當(dāng)相似性閾值較小時(shí),數(shù)據(jù)集中包含了較多與醫(yī)療領(lǐng)域不相關(guān)的方面項(xiàng),而這些方面項(xiàng)對Bi-LSTM網(wǎng)絡(luò)產(chǎn)生干擾,導(dǎo)致Bi-LSTM的精度下降。當(dāng)相似性閾值較大時(shí),一些與醫(yī)療領(lǐng)域相關(guān)的方面項(xiàng)被誤刪,導(dǎo)致了Bi-LSTM的精度下降。下文實(shí)驗(yàn)將Skip-gram與CBOW兩個(gè)模型的相似性閾值設(shè)為0.75,GloVe模型的相似性閾值設(shè)為0.8。

圖7 不同相似性閾值對觀點(diǎn)識(shí)別精度的影響結(jié)果

4.4 對比實(shí)驗(yàn)分析

目前尚未出現(xiàn)專門針對醫(yī)療領(lǐng)域觀點(diǎn)挖掘的有效技術(shù),大多是針對電影評論、圖書評論等日常生活文本的觀點(diǎn)挖掘技術(shù),因此選擇了5個(gè)觀點(diǎn)挖掘算法與本文算法完成對比實(shí)驗(yàn)。所選取的5個(gè)對比算法均支持不同的語料庫,分別為基于多特征融合和LSTM的方面級觀點(diǎn)挖掘算法LSTM-CRF[18]、基于雙向LSTM的兩分類方面級觀點(diǎn)挖掘算法BiLSTM[19]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的評論觀點(diǎn)挖掘算法RNN[20]、基于雙向卷積門控循環(huán)單元的觀點(diǎn)挖掘算法C-GRU[21]、基于自然語言多語法特征融合的觀點(diǎn)挖掘算法NLP[22]。其中BiLSTM與RNN僅支持兩個(gè)情感分類,即積極(positive)和消極(negative),其他算法均支持三個(gè)情感分類,即積極(positive)、消極(negative)和中性(neutral)。LSTM-CRF先對每個(gè)詞進(jìn)行語法標(biāo)注,提取上下文感知的特征集,再通過Bi-LSTM實(shí)現(xiàn)對觀點(diǎn)情感的識(shí)別,該模型在LSTM之外通過提取上下文特征實(shí)現(xiàn)對語義的識(shí)別,而本文算法則在LSTM內(nèi)部通過注意力機(jī)制實(shí)現(xiàn)對上下文語義的識(shí)別,由此可觀察兩種策略的有效性。BiLSTM、RNN和C-GRU三個(gè)算法則是分別通過長短期記憶網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元識(shí)別詞語的上下文語義,通過這三個(gè)算法可觀察不同深度學(xué)習(xí)網(wǎng)絡(luò)的性能差異。上述5個(gè)觀點(diǎn)挖掘算法在本文收集的醫(yī)療領(lǐng)域語料庫上再次進(jìn)行訓(xùn)練,在相同的實(shí)驗(yàn)條件下與本文算法進(jìn)行比較。本文算法分別采用Skip-gram、CBOW和GloVe三種嵌入模型完成實(shí)驗(yàn),分別簡記為LSkip、LCB和LGl,觀察不同詞嵌入模型對算法性能的影響。

圖8所示是不同算法的方面級觀點(diǎn)識(shí)別精度結(jié)果,可以看出,本文算法采用GloVe詞嵌入模型的性能優(yōu)于Skip-gram與CBOW兩個(gè)模型。深度雙向C-GRU網(wǎng)絡(luò)是一種可兼容不同語料庫的觀點(diǎn)挖掘模型,因此不僅在圖書評論問題和電影評論問題上取得了理想的效果,在醫(yī)療文本挖掘領(lǐng)域也明顯優(yōu)于其他幾個(gè)模型。本文算法考慮了BIO標(biāo)注、詞嵌入向量、POS標(biāo)注,因此能夠更加全面地提取每個(gè)方面項(xiàng)在文本中的上下文特征,再結(jié)合注意力機(jī)制能夠關(guān)注于語義重要性高的方面項(xiàng)。此外,本文算法通過2.2節(jié)的“醫(yī)療領(lǐng)域名詞處理”過濾了非醫(yī)療領(lǐng)域名詞,提高了所提取方面項(xiàng)的專業(yè)性。

圖8 不同觀點(diǎn)挖掘算法的情感識(shí)別精度

圖9所示是不同算法的方面級觀點(diǎn)識(shí)別召回率結(jié)果,可以看出,本文算法采用GloVe詞嵌入模型的召回率也優(yōu)于Skip-gram與CBOW兩個(gè)模型。NLP的召回率結(jié)果優(yōu)于Skip-gram與CBOW兩個(gè)模型下的本文算法,NLP算法具有較高的識(shí)別覆蓋率。雖然C-GRU模型實(shí)現(xiàn)了較好的觀點(diǎn)識(shí)別精度,但召回率略低于NLP算法。

圖9 不同觀點(diǎn)挖掘算法的情感識(shí)別召回率

圖10所示是不同算法的方面級觀點(diǎn)識(shí)別F1-measure結(jié)果,可以看出,本文算法采用GloVe詞嵌入模型的性能優(yōu)于Skip-gram與CBOW兩個(gè)模型。NLP算法的綜合識(shí)別性能優(yōu)于C-GRU模型,本文算法考慮了BIO標(biāo)注、詞嵌入向量、POS標(biāo)注,因此能夠更加全面地提取每個(gè)方面項(xiàng)在文本中的上下文特征,再結(jié)合注意力機(jī)制能夠關(guān)注于語義重要性高的方面項(xiàng)。此外,本文算法通過2.2節(jié)的“醫(yī)療領(lǐng)域名詞處理”過濾了非醫(yī)療領(lǐng)域名詞,提高了所提取方面項(xiàng)的專業(yè)性。

圖10 不同觀點(diǎn)挖掘算法的情感識(shí)別F1-measure

5 結(jié) 語

為了進(jìn)一步完善醫(yī)院信息化建設(shè)的進(jìn)程,實(shí)現(xiàn)對臨床文本數(shù)據(jù)智能且高效的分析,設(shè)計(jì)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的臨床大規(guī)模文本數(shù)據(jù)分析算法。首先,對詞嵌入模型進(jìn)行修改,使其更加適合醫(yī)療領(lǐng)域,提高所提取方面項(xiàng)的性能。然后,把提取的方面項(xiàng)作為標(biāo)記數(shù)據(jù)訓(xùn)練bi-LSTM網(wǎng)絡(luò)。最終,利用Softmax層對方面級觀點(diǎn)的情感進(jìn)行分類。本文算法考慮了BIO標(biāo)注、詞嵌入向量、POS標(biāo)注,因此能夠更加全面地提取每個(gè)方面項(xiàng)在文本中的上下文特征,再結(jié)合注意力機(jī)制能夠關(guān)注于語義重要性高的方面項(xiàng)。此外,本文算法通過 “醫(yī)療領(lǐng)域名詞處理”過濾了非醫(yī)療領(lǐng)域名詞,提高了所提取方面項(xiàng)的專業(yè)性。

本文算法目前僅研究了積極、中性和消極共三種情感極性,未來將關(guān)注于細(xì)粒度的觀點(diǎn)分析研究。借鑒推薦系統(tǒng)的評分方法,進(jìn)一步深化醫(yī)院的信息化建設(shè)。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 欧美中出一区二区| 中文字幕天无码久久精品视频免费| 92午夜福利影院一区二区三区| 一级爱做片免费观看久久| 亚洲视频影院| 在线亚洲精品福利网址导航| 一级毛片在线播放| 日本精品影院| 欧美午夜一区| 五月婷婷综合在线视频| 久久99国产综合精品1| 亚洲成人在线免费观看| 亚洲第一成年人网站| 亚洲人成电影在线播放| 亚洲国产91人成在线| 暴力调教一区二区三区| 国产在线观看第二页| 亚洲一区二区精品无码久久久| 日本一本正道综合久久dvd| 国产成人区在线观看视频| 亚洲成A人V欧美综合| 在线观看热码亚洲av每日更新| 99热这里只有精品5| 亚洲欧美日韩另类在线一| 国产麻豆精品久久一二三| 五月婷婷亚洲综合| 国产精品露脸视频| 欧美一级高清片久久99| 国产情侣一区| 亚洲一道AV无码午夜福利| 国产特级毛片| 国产精品蜜芽在线观看| 一级成人a做片免费| 456亚洲人成高清在线| 欧美一级黄色影院| 幺女国产一级毛片| 亚洲综合狠狠| 久久精品人人做人人综合试看| 日本爱爱精品一区二区| 熟女成人国产精品视频| 国产成人欧美| 久青草国产高清在线视频| 日韩精品免费在线视频| 精品综合久久久久久97超人| 国产极品粉嫩小泬免费看| 99在线小视频| 久热精品免费| 欧美午夜网| 亚洲人成网7777777国产| 欧美翘臀一区二区三区| 国产一级视频久久| 久久国产精品国产自线拍| 久久狠狠色噜噜狠狠狠狠97视色| 欧美在线国产| 18禁黄无遮挡免费动漫网站| 亚洲国产欧洲精品路线久久| 九九久久99精品| av无码久久精品| 欧美日韩中文字幕二区三区| 亚洲国产综合精品中文第一| 欧美午夜在线观看| 亚洲制服丝袜第一页| 大学生久久香蕉国产线观看| 日韩欧美成人高清在线观看| 试看120秒男女啪啪免费| 国产真实二区一区在线亚洲 | 男女性色大片免费网站| 香蕉久久国产精品免| 亚洲欧美成aⅴ人在线观看| 一级做a爰片久久毛片毛片| 亚洲a级在线观看| 久久精品国产精品一区二区| 国产日本欧美在线观看| 超碰aⅴ人人做人人爽欧美 | 国产一区二区三区精品欧美日韩| 国产粉嫩粉嫩的18在线播放91| 国产理论最新国产精品视频| 色哟哟精品无码网站在线播放视频| 久久美女精品| 国产精品欧美亚洲韩国日本不卡| 欧美激情综合| 国产成在线观看免费视频|