999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

集成學習在短文本分類中的應用研究

2019-04-28 12:24:23王國薇黃浩周剛胡英
現代電子技術 2019年24期
關鍵詞:機器學習深度學習

王國薇 黃浩 周剛 胡英

摘要:為了進一步提高基于深度神經網絡短文本分類性能,提出將集成學習方法應用于5種不同的神經網絡文本分類器,即卷積神經網絡、雙向長短時記憶網絡、卷積循環神經網絡、循環卷積神經網絡、分層注意力機制神經網絡,分別對兩種集成學習方法( Bagging,Stacking)進行了測試。實驗結果表明:將多個神經網絡短文本分類器進行集成的分類性能要優于單一文本分類模型:進一步兩兩集成的實驗驗證了單個模型對短文本分類性能的貢獻率。

關鍵詞:短文本分類;機器學習;深度學習;集成學習;Bagging;Stacking

中圖分類號:TN911.1-34;TP391

文獻標識碼:A

文章編號:1004-373X( 2019)24-0140-06

0 引言

近年來隨著網絡技術的快速發展,網絡用戶的數量呈現出爆發式的增長。越來越多的網絡用戶喜歡在新浪微博、今日頭條等社交平臺上發表短文本形式的言論。這些短文本包含天氣、政治、經濟、文化、對電影的評價等,對這些短文本進行分類從而提取出有用的信息,更好地為網絡用戶服務成為了關鍵。文本分類是用計算機對文本集(其他實體或物件)按照一定的分類體系或標準進行自動分類標記。短文本由于受字數的限制,有效信息少、特征難提取等因素與長文本分類相比難度更大。

傳統的機器學習文本分類方法主要包括潛在狄利克雷分布( Latent Dirichlet Allocation.LDA)[1]、K-最近鄰法(K - Nearest Neighbor,KNN)[2]、支持向量機(SupportVector Machine,SVM)[3]等。這些方法目前較為成熟,但分類效果嚴重依賴于所構建特征的質量和模型參數的調優,整個過程非常耗時[4]。隨著神經網絡在圖像識別和語音識別領域取得的巨大成功,越來越多的學者把神經網絡的方法應用到自然語言處理領域。文獻[5]將卷積神經網絡應用在句子分類上。文獻[6]將循環神經網絡與卷積神經網絡結合應用在文本分類上。文獻[7]將分層注意力機制應用在文本分類上。文獻[8]將字符級的卷積神經網絡用于文本分類上。在單一模型的短文本分類上,上述幾種方法由于模型復雜度高,研究較為成熟,已經取得了不錯的成果,但效果提升空間有限。本文提出采用結合多種最優短文本分類模型的集成學習方法來提高短文本分類的效果。集成學習[9]是將多個分類器進行組合從而獲得更優性能的機器學習方法。目前廣為通用的集成方法包括文獻[10]提出基于Bag-glng的概率神經網絡集成分類算法,該方法比傳統的BP神經網絡和決策樹分類方法效果更好;文獻[11]提出的隨機森林(Random Forest,RF)算法,綜合利用多個決策樹進行分類;文獻[12]提出基于Stacking的組合分類方法,組合了樸素貝葉斯、最大熵、支持向量機和隨機梯度下降線性分類方法對中文情感分類進行研究,實驗結果表明該方法能獲得比基分類器結果更佳的分類效果。

上述實驗表明集成學習可以通過集成多個模型來提升任務指標。文獻[9]曾指出集成方法比單個學習器效果顯著的三個主要原因:一是學習任務的假設空間一般很大,使用單個學習器通常不能學習到足夠的信息;二是弱學習器的學習過程可能存在缺陷;三是單個學習器學習到的假設空間可能并不真實,而通過結合多個學習器可以盡可能學習到真實的假設空間。

在集成學習方法中,為保證組合分類器取得比單個分類器更好的分類效果[13],在構造過程中需要遵循兩個原則:一是組合分類器中的各個基分類器產生的錯誤是不相關的;二是各個基分類器的分類效果至少要比隨機預測的效果好。因此本文采用當下較為流行的幾種短文本分類方法作為基分類器,即卷積神經網絡( Convolu-tional Neural Networks,CNN)、雙向長短時記憶網絡(Bi-directional Long Short Term Memory Networks. Bi -LSTM)、卷積循環神經網絡(Convolutional - Long ShortTerm Memory Networks,C-LSTM)、循環卷積神經網絡( Recurrent - Convolutional Neural Networks)、分層注意力機制神經網絡( Hierarchical Attention Networks,HAN)。這5種方法有著各自擅長的領域,它們在處理同一文本集時所產生的預測效果具有相對獨立的特性,滿足了錯誤不相關且優于隨機預測原則。因此本文將集成學習應用于這5種不同神經網絡文本分類模型。

1 基分類器短文本分類方法

1.1 卷積神經網絡

文獻[5]提出用CNN進行短文本分類,CNN可以很好地提取出文本的局部特征。CNN由輸入層、卷積層、池化層和輸出層構成,通過反向傳播算法進行參數優化。相鄰兩層之間只有部分節點相連。相比于全連接神經網絡的參數,它的參數大大減少,便于模型的訓練。

1.2 雙向長短時記憶網絡

文獻[14]提出用Bi-LSTM進行文本分類,即當前的狀態不僅僅與之前的句子有關系,還可能與之后的句子有關系。Bi-LSTM就是同時采用兩個LSTM沿著序列的兩個方向進行掃描,用來捕獲文檔所包含的所有重要信息。

1.3 循環卷積神經網絡

文獻[6]提出用循環卷積網絡的方法進行文本分類。使用該模型進行文本分類時首先利用雙向循環網絡對所有詞進行上下文向量表示,然后將上下文向量及當前詞的詞向量組合成當前詞的表示,最后利用最大池技術提取重要的上下文信息得到文本表示,利用文本表示進行文本分類。

循環卷積神經網絡能夠較多地保留文本的詞序信息[15],捕獲長距離的文本依賴關系,精確刻畫詞的語義。

1.4 卷積循環神經網絡

結合卷積神經網絡和循環神經網絡的優點,文獻[16]提出用C-LSTM模型進行文本分類。C-LSTM利用CNN提取出短語的特征,再送入到LSTM網絡獲取句子的特征。

卷積循環神經網絡既能獲取短語、句子的局部特征也能獲取全文中的時態句子語義。

1.5 分層注意力機制

文獻[7]提出用注意力機制模型進行文本分類。注意力機制( Attention Mechanisms)是自然語言處理領域一種常用的建模長時間記憶機制,能夠直觀地給出每個詞對結果的貢獻。Attention的實現是通過保留GRU編碼器對輸入序列的中間輸出結果,然后訓練一個模型來對這些輸入進行選擇性的學習并且在模型輸出時將輸出序列與之進行關聯。

2 集成學習方法

集成學習(Ensemble Leaming)也被稱為多分類器系統( Multi-classifier System)[17]。其主要思想是先通過一定的規則生成多個基學習器,再采用某種集成策略進行組合,最后綜合判斷輸出結果。

基學習器一般有兩種選擇:第一種稱為同質學習器( Homogeneous),即所有的學習器都是一個種類的;第二種稱為異質學習器( Heterogeneous),即所有的學習器不全是一個種類。常見的結合策略有平均法、投票法、學習法。本文使用常見的Bagging和Stacking兩種流行的集成學習方法。

2.1 基于Bagging的集成學習方法

Bagging集成學習方法是Bootstrap Aggregating的縮寫。1996年,Breima提出Bagging方法[9]。Bagging方法框架結構圖如圖1所示。

對于給定的包含m個樣本訓練集,采用有放回的隨機抽取,抽取出T個含有m個樣本的訓練集,初始訓練集中樣本在整個迭代過程中可能出現多次,也可能不出現,每輪迭代用于訓練的樣本之間互相獨立。然后基于每個采樣集訓練出一個基學習器,再將這些基學習器進行結合。一般而言,在基學習器性能相差較大時宜采用加權平均法,如果每個個體學習器有一個權值w,則最終預測為:

實驗中基學習器分別為:CNN,RNN,CRNN,RCNN,HAN。由于這幾種基分類器性能相近,故本文選用平均法作為結合策略。

2.2 基于Stacking的組合分類方法

基于Stacking的組合分類器方法是目前比較主流的組合分類方法[18]。Wolpert最早提出了Stacking思想,介紹了Stacking是一種估計和修正偏差的工具,可以用來減少模型的泛化誤差[19]。其后Beriman使用交叉驗證,大大提高了訓練的效率[9]。Stacking框架結構圖如圖2所示。

Stacking方法由樣本訓練集m利用Ⅳ種算法L1、L2…,LN處理所得。樣本訓練集m包含實例集m i=(xi,yi),其中,xi為特征向量矩陣,yi為其所對應的標簽。在第一階段,基學習器C1,C2。…,CN由各個分類算法訓練產生,即Ci=Li(m)。在下一階段則將基學習器預測的結果拼接起來作為元特征,輸入一個新的分類算法再次學習出一個分類器,該分類器即為元分類器。實驗中選用N=5,基學習器分別為:CNN,RNN,CRNN,RCNN,HAN,元分類器為Logistic Regression。

在訓練時,使用k -fold交叉驗證法產生元分類器的訓練集,即將訓練實例分成大小相等的k份,其中一份用作驗證集合,其余k一1份用作對Ⅳ個分類器的訓練集合。本文中k=5,即5-flod交叉驗證法進行訓練。

3 實驗分析與比較

3.1 實驗數據及評價指標

為了驗證本文方法的有效性,實驗數據為Kaggle中Machine Learning Homework 4- Text Sentiment Classifi-cation的20萬條訓練數據用于消極和積極兩種情感分類,每條句子進行了消極/積極情感標注。訓練集,驗證集和測試集按照8:1:1的比例劃分。為了驗證實驗結果的泛化性,又采用文獻[5]提供的電影評論MR數據集進行測試。MR數據集有10 662條句子,為用戶對該電影積極和消極的評論兩類。

實驗中,使用準確率( Precision)作為評價標準。定義如下:

Ac=分類正確的文本數/總的文本數 ×100%

(3)

3.2 詞嵌入向量的生成

首先對數據進行預處理,對全英文單詞中字母重復的最大次數超過2次的進行清除,然后使用word2vec工具生成用于訓練詞向量的語料庫。對短文本進行詞向量的訓練,每個單詞Wi。用訓練好的詞向量表示,如下:

Wi=(w1,w2,…,wk)

(4)式中:k表示通過word2vec訓練后形成詞向量的維度;w1表示詞向量中第i維度上的權重。句子S可以用單詞級聯進行表示:

式中:“0”為級聯操作符;Ⅳ表示該句子中單詞的個數。同理文本把相應的句子串聯在一起如下:

式中,m表示文本T中句子的個數。

由此可得句子的矩陣表示,該矩陣將作為各個模型的輸人數據。實驗中詞向量的維度設為200。

3.3 損失函數

文本使用最大熵損失函數,損失函數為:式中:N為訓練樣本數;c為數據集包含的類別數;pi為第i個類別的概率。這里使用時序后向傳播(Back Prop-agation Through Time,BPTT)來對網絡進行訓練。

3.4 模型方法與環境配置

本文的實驗環境:操作系統Ubuntu 16.04,內存128 GB,CPU為兩顆Xeon2630V4,GPU為GTX1080TI。深度學習開發環境為Python 3.6.4+Tensorflow l.5.0。

訓練中的所有權重隨機初始化為標準差為0.1的正態分布隨機數,偏置項初始化為0.1。在實驗中,采用Momentum優化方法來訓練模型,丟棄率為0.3,學習率為0.1,學習率衰減系數為0.9,最小學習率為0.005,早停止(Early Stop)為30,詞向量維度為200,批訓練樣本數為128。各模型中的參數如表1所示。Bagging集成方法如第3.1節中介紹。Stacking集成方法如第3.2節中介紹。

3.5 實驗結果與分析

3.5.1 詞嵌入方式

本文主要目的在于進一步提高基于深度神經網絡短文本分類的性能。文獻[5]中CNN模型數據有四種不同方式的詞向量輸入:

1)所有的詞向量都是隨機初始化的,同時當作訓練過程中優化的參數(rand);

2)所有的詞向量直接使用word2vec工具得到結果,并且是固定不變的(static);

3)所有的詞向量直接使用word2vec工具得到結果,在訓練的模型中也當作可優化的參數( non-static);

4)將static和non-static結合(multichannel)。

利用上述4種方式分別進行測試,結果如表2所示。

從表2看出,CNN-non-static的準確率為0.816 9優于其他模型,因此選用CNN-non-static模型來進行下面的實驗。

3.5.2 集成學習的有效性

根據上述的實驗設計,主要實驗結果如表3所示。基學習器中RCNN的效果最優,準確率為0.823 0。將集成學習應用于這5種神經網絡文本分類方法后,可以看出Bagging方法的準確率為0.829 8,相比最優的基分類器RCNN,準確率提高了0.83%;Stacking方法的準確率為0.823 8,相比基分類器實驗準確率提高了0.10%。

為了進一步驗證實驗的泛化性,將訓練好的模型在MR數據集上進行測試,結果如表4所示。從表中可以看出,單一模型中,RNN的準確率最高為0.585 4。Bag-glng方法的準確率為0.586 5,相比最優基分類器RNN準確率提高了0.1 8%,Stacking方法準確率為0.593 4,相比基分類器將實驗準確率提高了1.37%。

兩種方法集成后的準確率相比基分類器均有不同程度的提高,驗證了集成學習方法的有效性。在Kaggle數據上Bagging方法準確率的提升較為明顯,在外部數據上Stacking分類準確率的提升較為明顯,說明Stack-ing具有較好的泛化性能。

3.5.3 基學習器的貢獻率

為了進一步驗證基分類器在集成學習中的貢獻率,將這些方法進行兩兩集成,對每一個基分類器與其他4種基分類器集成的準確率進行求均值。Bagging方法的結果如表5所示。Stacking方法的結果如表6所示。

從表5中看出,在Kaggle數據上CNN與其他4種基分類器集成的準確率均值最低,僅為0.810 7。其中RNN與其他4種基分類器集成的準確率均值最高為0.828 7,且優于5種方法一起集成的準確率。在外部數據MR中CNN與其他4種基模型進行集成的準確率均值為0.576 6,也低于其他4種模型。RCNN與其他4種模型集成準確率的均值為0.588 7,優于其他4種模型,且優于5種方法一起集成的準確率。

從表6可以看出,在Kaggle數據上HAN與其他4種模型集成的準確率均值最低為0.821 4,RCNN與其他4種模型集成的準確率為0.828 2,優于其他4種模型,且優于5種方法一起集成的準確率。在外部數據MR上,RCNN和HAN與其他4種方法集成的準確率為0.587 2,低于其他3種模型。CRNN與其他4種模型集成的準確率均值為0.589 8,優于其他模型。

從表5、表6可以看出,在Bagging方法中,RNN在Kaggle數據上的貢獻率最大,RCNN在MR數據集上貢獻率最大;在Stacking方法中,RCNN在Kaggle數據上的貢獻率最大,CRNN在MR數據上的貢獻率最大。

4 結語

在兩種數據集上,本文使用Bagging和Stacking的方法與目前較為成熟的CNN,RNN,CRNN,RCNN,HAN文本分類實驗結果相比,證實了該方法的有效性,并討論了模型的貢獻率。未來的工作考慮將其他不同的集成學習方法,如Boosting算法等,用于短文本分類,進一步提高實驗的準確率。

參考文獻

[1] PAVLINEK M. PODGORELEC V.Text classification methodbased on self-training and LDA topic models [J]. Expert sys-tems with applications, 2017. 80: 83-93.

[2] BIJALWAN V. KUMARI P,PASCUAL J,et al.KNN basedmachine learning approach for text and document mining [J].International journal of datahase theory&application, 2014,7(1): 67-80.

[3]高超,許翰林.基于支持向量機的不均衡文本分類方法[J]現代電子技術,2018,41(15):183-186.

GAO Chao, XU Hanlin. Unbalanced text classification methodbased on support vector machine [J]. Modern electronics tech-nique, 2018, 41(15): 183-186.

[4]蔡慧蘋.基于卷積神經網絡的短文本分類方法研究[D],重慶:西南大學,2016.

CAI Huiping. Research of short - text classification methodbased on convolution neural network [D]. Chongqing: South-west University.2016.

[5] KIM Y.Convolutional neural networks for sentence classifica-tion[C]//Proceedings of 2014 conference on empirical methodsin natural language. Doha: EMNLP, 2014: 1746-1751.

[6] LAI Siwei. XU Liheng, LIU Kang, et al.Recurrent convolu-tional neural networks for text classification[C]//Proceedingsof Conference of the Association for the Advancement of Artifi-cial Intelligence.[S.1.]:AAAl. 2015: 135-142.

[7] YANG Z,YANG D, DYER C, et al.Hierarchical attentionnetworks for document classification[C]//Conference of theNorth American Chapter of the Association for ComputationalLinguistics: Human Language Technologies. San Diego Califor-nia: ACL. 2017: 1480-1489.

[8] ZHANG X. ZHAO J,LECUN Y.Character-level convolutionalnetworks for text classification [J]. Neural informational process-ing systems, 2015(1):649-657.

[9] DIETTERICH T G.Ensemble methods in machine learning [C]//,International Workshop on Multiple Classifier Systems. Berlin:Springer, 2000: 1-15.

[10]蔣蕓,陳娜,明利特,等.基于Bagging的概率神經網絡集成分類算法[J]計算機科學,2013,40(5):242-246.

JIANG Yun. CHEN Na. MING Lite.eC al.Bagging-basedprobabilistic neural network ensemble classification algorithm[J].Computer science,201 3,40(5):242—246.

[11]BREIMAN L.Random forests,machine learnin9 45[J].Jour—nal of clinical microbiology,2001,2:199—228.

[12]李壽山,黃居仁.基于Stacking組合分類方法的中文情感分類研究[J],中文信息學報,2010,24(5):56—62.

LI Shoushan,HUANG Juren.Chinese setiment classificationbased on stacking combination method[J].JournaI“Chineseinformatio“processi“g,20lO,24(5):56—62.

[13]何躍,趙書朋,何黎.基于情感知識和機器學習算法的組合微文情感傾向分類研究[J]情報雜志,2018(5):193—198.

HE Yue,ZHAO Shupeng,HE Li.Micro—text emotional ten一dentious cIassification based on combination of emotion knowl—edge and machine—Ieaming algorithrm[J].JournaI of intelli—gence,2018(5):193—198.

[14]萬圣賢,蘭艷艷,郭嘉豐,等.用于文本分類的局部化雙向長短時記憶[J]中文信息學報,2叭7,31(3):62—68.

WAN Shengxian,LAN Yanyan,GUO Jiafeng,et al.Local bi—directional long short term memory for text classification[J].Journa1 0f Chinese information processing,2017,31(3):62— 68.

[15]徐立恒,劉康,趙軍,等.一種基于循環卷積網絡的文本分類方法:CNl04572892A[P]2015一07一l3.

XU Liheng,LIU Kang,ZHAO Jun,et al.Recurrent Convolu—tionaI

Neural

Networks

for

Text

Classification:CNl04572892A[P].2015一07—13.

[16]ZHOU C,SUN C,LIU Z,et al.A C—LSTM neural networkfor text classification[J].Computer science,2015,1(4):39— 44.

[17]周志華.機器學習[M].北京:清華大學出版社,2016.

ZHOU Zhihua.Machine learning[M].Beijing:Tsinghua Uni—versity Press,2016.

[18]DzEROSKI S,之ENKO B.Is combining classifiers with stack—ing better than selecting the best one?[J].Machine Iearning,2004,54(3):255—273.

[19]WOLPERT D H Stacked generalization[J]Neural networks,1992,5(2):241—259.

作者簡介:王國薇(1994-),女,河南商丘人,碩士,研究領域為自然語言處理、文本分類。

黃浩(1976-),男,新疆烏魯木齊人,博士,教授,研究領域為語音識別、多媒體人機交互技術。

周 剛(1981-),男,新疆烏魯木齊人,博士,副教授,研究領域為機器學習與模式識別。

胡英(1975-),女,新疆烏魯木齊人,博士,講師,研究領域為語音及聲信號處理。

猜你喜歡
機器學習深度學習
基于詞典與機器學習的中文微博情感分析
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
基于支持向量機的金融數據分析研究
主站蜘蛛池模板: 久操线在视频在线观看| 一区二区午夜| 永久免费av网站可以直接看的 | 欧美亚洲国产一区| 国产青青操| 四虎国产永久在线观看| 风韵丰满熟妇啪啪区老熟熟女| 91精品综合| 人妻21p大胆| 日韩第八页| 日本不卡视频在线| 一级一级一片免费| 波多野结衣无码AV在线| 亚洲无码A视频在线| 国产丝袜第一页| 国产18页| 久久精品国产91久久综合麻豆自制| 强乱中文字幕在线播放不卡| 天堂在线www网亚洲| 亚洲侵犯无码网址在线观看| 日韩不卡免费视频| 狼友av永久网站免费观看| 成人伊人色一区二区三区| 欧美日本在线| 又爽又黄又无遮挡网站| 国产精品无码一区二区桃花视频| 99精品伊人久久久大香线蕉| 欧美啪啪精品| 精品国产成人av免费| h网址在线观看| 中国毛片网| 欧美精品亚洲精品日韩专区va| 国产欧美日韩在线一区| 国产一区二区三区在线观看免费| 亚洲欧美日韩中文字幕在线一区| 伊伊人成亚洲综合人网7777| 91免费国产高清观看| 欧美亚洲第一页| 国产精品漂亮美女在线观看| 激情爆乳一区二区| 欧美日韩免费| 欧美一级99在线观看国产| 在线视频亚洲色图| 狠狠做深爱婷婷综合一区| 国产精品大白天新婚身材| 久久精品一卡日本电影| 看你懂的巨臀中文字幕一区二区 | 国产精品99久久久久久董美香| 成人无码区免费视频网站蜜臀| 毛片免费网址| 国产一区二区三区在线无码| 日韩一级二级三级| 青草精品视频| 国产91精品久久| 日本国产精品| 亚洲91精品视频| 91免费精品国偷自产在线在线| 亚洲91精品视频| 98精品全国免费观看视频| 国产91小视频| 一级毛片免费高清视频| 91视频精品| 国产精品乱偷免费视频| 国产噜噜噜| 亚洲成人精品| 日韩精品成人网页视频在线 | 波多野结衣中文字幕久久| 91久久大香线蕉| 老司国产精品视频91| 成AV人片一区二区三区久久| 国产亚洲欧美在线视频| 小说 亚洲 无码 精品| 欧美国产综合视频| 国产精品专区第1页| 午夜激情福利视频| 欧美性久久久久| 香蕉eeww99国产在线观看| 大学生久久香蕉国产线观看| 国产亚洲高清在线精品99| 久久网欧美| 国产黄在线免费观看| 欧美精品黑人粗大|