999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多特征混合神經網絡模型在ADR分類中的應用

2018-07-24 03:04:06趙鑫李正光吳鏑方金朋
大連交通大學學報 2018年4期
關鍵詞:分類特征文本

趙鑫,李正光,吳鏑,方金朋

(大連交通大學 軟件學院,遼寧 大連 116028)

0 引言

近年來,特別是社交網絡的發展使得用于研究藥物不良反應的互聯網數據增長迅速,文本分類成為處理大量文本數據的關鍵技術.文本分類,就是在事先給定的類別標記(label)集合下,根據文本的內容來判斷它的類別,這在自然語言處理中有著廣泛的運用[1].

目前應用到文本分類中的算法很多,例如KNN分類算法、樸素貝葉斯分類算法、支持向量機(SVM),神經網絡、最大熵等,這些方法都是通過淺層神經網絡來實現的,在文本分類中取得了很好的效果.但是它們的局限性表現在對復雜函數的表示能力不足,使得對復雜分類問題的泛化能力不足[2-3].

深度神經網絡的迅速發展為解決這個問題提供了可能,多層的神經網絡模型不但可以克服這一問題,同時非線性映射的深層結構能夠利用比較少的傳參數來完成較復雜的函數逼近,具備良好的特征學習能力.而在深度神經網絡模型中,文本的預處理以及特征的選擇在很大程度上影響最終分類器的性能.目前大多數的研究都提取了某一類特征運用于分類任務中.文獻[4]使用卷積神經網絡和詞向量,加入位置特征,其分類性能超越了傳統方法.但是,不同類型的特征所表征的信息并不相同,僅使用一種特征不能充分利用文本信息.基于此問題,本文提出了一種混合多特征的神經網絡模型,融合詞性特征,情感特征和位置特征作為多通道卷積網絡的輸入,通過CNN和LSTM模型的特征學習,最后利用softmax輸出關系類型完成分類.

1 方法

1.1 文本預處理

本文所用的數據來自twitter中與藥品相關的帖子共計6773條推文,預處理的過程包括:

(1)獲取文檔中的文本信息,即去除文檔中用戶的ID、名稱等信息,去除標點符號以及一些特殊符號(如“ , …”),并將所有的單詞變為小寫;

(2)構建映射表,將每個單詞均映射成數字,這樣可以將文檔表示成特征向量的形式,每個特征向量對應一個單詞.例如,單詞bloody映射成9.

通過以上處理工作,把文本表示成特征向量形式,結構化數據,以便于后續的處理.另外,模型訓練時,數據集中90%作為訓練集,為了加快訓練速度以及增加精確度,使用5倍平衡將訓練集中正例擴充5倍;剩余的10%作為測試集.

1.2 詞向量模型

詞向量(word vector)也稱為詞嵌入(word embedding),是詞語的一種分布式表示.每個單詞被表示成一個連續的實數值向量,并通過訓練使得向量空間的相似度可以表示文本語義的相似度[5].同時,相比較于其他的文本表示方法,例如one-hot、概率主題模型等,詞向量模型包含的語義信息更加豐富[6].本文選用Google在2013年開源Word2Vec作為詞向量訓練工具,該工具使用的訓練模型是Mikvolov等人[6]在2013年提出的CBOW和skip-gram,并且因為使用簡單,而且效果顯著被廣泛使用.

1.3 特征提取

1.3.1 詞性標注(Part-of-Speech tagging)

通過詞性標注概括文本,可以保存更多的文本信息,而且利用詞性能夠代表某一類文本的特征這一特點,以詞性序列作為文本的特征表示,相較于N-gram特征提取方法也可達到降低特征表示維度的效果[7].文獻[8]提出的詞性標注方法在twitter數據上實驗得到將近90%的準確率.本文利用NLP工具Word2Vec自動獲取詞性序列.如圖1所示.

圖1 本文獲取的詞性序列

用工具自動獲取詞性,構建詞性-數字映射表,則上述句子被表示為:[1,2,3,1,4].

1.3.2 情感分析(Sentiment Analysis)

對文本感情色彩的判斷來自于文本中帶有感情色彩的詞語,在特定的文本分類任務中,不同的感情色彩也影響著分類的精確度.在ADR文本分類中,帶有負面情感的文本屬于ADR的概率更大.文獻[9]提出一種基于監督學習的方法應用到情感分析中,對影評文本進行情感傾向性分類,該研究對之后的情感分析研究有著深遠的影響.

本文使用情感詞典,其中有117個負面情感詞,將情感詞映射為特征向量,與利用語料庫所構建詞袋(bag-of-words)中的每個詞所映射的特征向量通過式(1)計算得到情感特征向量.

(1)

1.3.3 位置特征(Position Features)

文本上下文中詞語對關系實例的描述能力與詞語和關系實例間相對位置有關.詞語距離關系實例越近,其對實例的描述能力越強[10].所以詞語的位置特征能夠作為文本分類中有用的特征.求詞語的位置特征有很多選取方法,文獻[11]提出將詞語相對位置的信息增益作為位置特征.

本文使用一種簡單的提取位置特征的計算方法,假設目標實體(即文本中的藥品名稱)的位置為a,則該實體所在的句子中其余詞相對于實體的位置信息表達為:

(2)

其中,c表示該詞語當前位置,sum表示句子長度.例如:“My doc is going to up my fluoxetine dosages.”,句子中藥品實體為“fluoxetine”,則通過式(2)計算其余詞相對實體的位置,最終句子表示為: [-0.78,-0.67,-0.56, -0.44,-0.33,-0.22,-0.11,0.0,0.11]

2 混合神經網絡模型

2.1 模型搭建

本文提出的多特征混合神經網絡模型結構如圖2所示,不同的特征向量通過不同的CNN模型通道輸入到模型中,經過CNN訓練之后的結果經過池化層以及merge層的融合連接作為LSTM模型的輸入,最終運用softmax分類器計算輸出向量在類別空間中的置信度分布.

圖2 多通道卷積神經網絡

2.1.1 卷積層

卷積層接收嵌入層輸出的特征向量r,

r=WwdV

其中:Wwd=[W1,W2,…,Wi]∈Rc×v×d是訓練好的詞向量矩陣,Wi表示輸入第i通道的特征向量,c為通道,υ為詞典大小,d為詞向量的維度;V∈Rc×n×d表示輸入矩陣,用于之后的卷積層提取特征,n表示輸入句子的最大長度.

卷積核D∈Rc×h×d,h表示卷積核的高度.設Di×Rh×d表示第i通道卷積核,大小為h×d,Vi[k:k+h-1]表示第i通道第k到k+h-1的向量,b為偏置,f為非線性激活函數,則卷積mk表示為:

mk=f(Vi[k:k+h-1]·Di+b)

(4)

輸入層矩陣通過式(4)得到卷積后得到一個新的特征C:

C=[m1,m2,m3,…,mn-h+1]

(5)

卷積層提取窗口大小為h的輸入層句子特征,由于輸入層特征不同,可以提取更多新的特征.

2.1.2 Bi-LSTM層

長短時間記憶網絡(Long Short Term Memory Net-works, LSTM),一種特殊的循環神經網絡(RNN),該網絡能夠解決深度學習中RNN梯度消失的問題.CNN模型的輸出經過池化層和merge層融合連接之后作為LSTM模型的輸入.LSTM 的模型由專門的記憶存儲單元組成,經過精心設計的輸入門、遺忘門和輸出門來控制各個記憶存儲單元的狀態,通過門的控制保證了隨著隱藏層在新的時間狀態下不斷疊加輸入序列,前面的信息能夠繼續向后傳播而不消失.

利用形式化語言,LSTM可以表述為:

其中,δ表示激活函數sigmod;W*,U*,V*,b*分別表示系數矩陣和偏置向量;it,ft,ot分別表示t時刻輸入門、遺忘門和輸出門的計算方法,ct表示t時刻記憶單元計算方法,表示t時刻LSTM單元的輸出.

另外,單向LSTM只能參考輸入序列的上文信息,而對下文信息并無涉及為了解決這一缺點,充分利用上下文信息,所以構建了雙向的LSTM(簡稱Bi-LSTM),對每個訓練序列分別訓練一個正向LSMT網絡和一個反向LSTM網絡,并且在同一個輸出層輸出,這樣能夠充分捕獲輸入序列每個點的上下文信息.

2.2 模型訓練

在訓練過程中有幾個參數需要調整:多通道詞向量矩陣Wwd,多通道卷積核D,轉移矩陣W,以及偏移量b,有θ=(Wwd,D,W,b), 使用式(11)作為損失函數:

(11)

yi為輸入xi的標簽,L表示每次訓練的樣本數量.在訓練參數時使用梯度下降最小化損失函數,使用式(12)更新梯度:

另一方面,為了減少固定學習率λ造成的不穩定的損失,使用adam算法改進每個訓練步驟中梯度下降參數.

3 實驗結果及分析

模型訓練各個超參數設置如下:卷積核個數為128;卷積核高度為3,4,5;步長為1;激活函數為Relu;池化窗口大小為5.為了驗證多通道模型可以提高關系抽取的性能,進行對比試驗,實驗分別設置為只使用位置特征,只使用詞性特征,只使用情感特征以及同時使用三通道,其他參數保持一致.

圖3 迭代次數對比

圖3所示為四種模型迭代次數的對比,從圖中可以看出多通道模型(Muti)迭代次數明顯少于詞性模型(POS)和情感特征模型(Sentiment)的迭代次數,而與位置特征(Position)的迭代次數相差不大,說明多通道模型可以加快收斂,使訓練速度大大提升.

表1為單個特征模型和多通道模型結果,通過對比得出:

(1)不同的特征向量訓練得出的結果有差別,說明不同的特征帶有不同的信息;

(2)使用多通道將各個特征向量融合后訓練結果優于使用單一特征向量的訓練結果.

表1 模型訓練結果

為了證明本文所提出的模型有較好的識別效果,表2列舉了幾個分類模型作為對比.

表2 模型對比

其中,FastText模型利用n元組(bag-of-n-gram)將特征轉化為低維向量空間,這樣可以通過分類算法實現不同特征共享[13];Supervised CNN使用上下文語境作為默認參數訓練CNN模型;ADR Classifier是一個較先進的二分類模型,識別短文本是否為藥物不良反應(ADR)文本[14];而Multi-CNN為本文提出的模型,通過對比可知,本文所提模型無論從準確率,召回率還是F值上都略高于其余模型,證明本文所提模型的有效性與先進性.

4 結論

本文提出一種多通道網絡模型,該模型用于生物醫學的實體關系抽取中,使用word2vec訓練工具提取特征向量并應用到多通道模型中,從而可以增加表征信息.通過實驗對比得知,多通道模型在生物醫學的實體關系抽取中表現突出.在未來的工作中,可以嘗試更多的特征融合到多通道中,比如依存句法樹等.另外可以使用GloVe作為詞向量提取特征向量.GloVe是由斯坦福大學Pennington等人[15]提出的,模型構造了一個全局的詞共現矩陣,是基于計數的方法,從而可以利用全局統計信息,更多的考慮了全局的信息.所以使用GloVe在多通道模型關系抽取中有很大的研究價值.

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产区网址| 亚洲激情区| 青草视频久久| 激情成人综合网| 一本大道香蕉高清久久| 精品国产成人a在线观看| 18禁不卡免费网站| 亚洲国产91人成在线| 久久窝窝国产精品午夜看片| 四虎在线高清无码| 久久无码高潮喷水| 女人18毛片水真多国产| 国产精品一线天| 国产日韩精品欧美一区喷| 伊人成人在线| 亚洲精品人成网线在线| 国产麻豆另类AV| 天天色天天综合网| 久久福利网| 亚洲一区二区约美女探花| 国产91精选在线观看| 国产又色又爽又黄| 国内黄色精品| 欧美一道本| 国产日韩精品欧美一区灰| 日本三级精品| 国产v精品成人免费视频71pao | 国产欧美又粗又猛又爽老| 日韩无码黄色| 国产在线拍偷自揄观看视频网站| 国产午夜精品鲁丝片| 成年午夜精品久久精品| 91蜜芽尤物福利在线观看| 国产欧美日韩另类| 国产成人亚洲精品无码电影| 午夜啪啪网| 天天爽免费视频| 操操操综合网| 99国产精品国产高清一区二区| 性色生活片在线观看| 一级毛片中文字幕| 在线视频亚洲色图| 成年A级毛片| 国产91无码福利在线| a毛片免费看| 97se亚洲综合在线| 8090成人午夜精品| 亚洲最大情网站在线观看 | 精品第一国产综合精品Aⅴ| 老司国产精品视频91| 国模沟沟一区二区三区| 中文字幕佐山爱一区二区免费| 91av成人日本不卡三区| 在线观看91精品国产剧情免费| 亚洲区欧美区| 国产精品太粉嫩高中在线观看| 欧美成人在线免费| 成人综合久久综合| 国内精品久久久久久久久久影视| 美女扒开下面流白浆在线试听 | 亚洲香蕉在线| 午夜一区二区三区| 色综合天天综合中文网| 91精品专区| 欧美笫一页| 国产麻豆永久视频| 亚洲综合一区国产精品| 国产男人天堂| 免费国产高清精品一区在线| 中文字幕久久亚洲一区| 多人乱p欧美在线观看| 97久久超碰极品视觉盛宴| 中文无码毛片又爽又刺激| 99精品免费欧美成人小视频| 国产微拍精品| 国产97视频在线观看| 日本三级黄在线观看| 爱色欧美亚洲综合图区| 亚洲天堂色色人体| 成人年鲁鲁在线观看视频| 欧美日韩综合网| 国产精品免费p区|