999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiGRU_MulCNN 的農業問答問句分類技術研究

2020-07-07 06:09:08趙春江吳華瑞繆祎晟楊寶祝
農業機械學報 2020年5期
關鍵詞:分類特征文本

金 寧 趙春江 吳華瑞 繆祎晟 李 思 楊寶祝

(1.沈陽農業大學信息與電氣工程學院,沈陽110866;2.沈陽建筑大學研究生院,沈陽110168;3.國家農業信息化工程技術研究中心,北京100097;4.北京農業信息技術研究中心,北京100097;5.沈陽建筑大學黨委組織部,沈陽110168)

0 引言

隨著移動互聯網產業的高速發展,各類移動應用程序產生的評論信息、微信朋友圈、問答社區用戶提問等短文本數據呈爆發式增長[1]。在農業領域,“中國農技推廣App”作為農業信息服務方面的移動應用程序,為農業技術人員及農戶搭建了學習交流平臺,幫助農戶實時獲得在線農業技術指導。但大多數農戶不會選擇提問分類,部分已選擇的也存在分類不準確的問題,從而影響了農業技術指導的高效性、精確性。“中國農技推廣”每天增衍提問數量近萬條,人工篩選將消耗大量的人力、物力,且無法高效、準確實現分類。因此,利用計算機技術解決農戶提問的自動分類是“中國農技推廣”當前亟需解決的問題。農業問答問句的自動分類是實現農業智能問答的關鍵技術環節,是自然語言處理和農業大數據智能研究領域的熱點研究方向。

目前,深度學習方法[2-5]和機器學習方法[6-8]在解決文本分類問題上均取得了一定成果。在深度學習方法中,KIM[9]將文本當作固定長度的圖像,運用卷積神經網絡(Convolutional neural networks,CNN)有效解決了文本分類問題。隨后,研究人員以此為基礎,不斷優化文本分類模型,捕獲高層次的文本特征[10-11]。由于CNN 模型未考慮文本的語序,因此無法獲得文本上下文信息,制約了文本分類效果。相比于CNN 模型,循環神經網絡(Recurrent neural network,RNN)模型可對前后信息進行記憶,并應用于當前的計算,更適合處理序列化的文本數據,MIKOLOV 等[12]運用RNN 模型實現了文本分類。但RNN 長期依賴學習特征,容易出現梯度彌散的問題,為此,研究人員提出了長短期記憶神經網絡(Long/short term memory,LSTM)和門控循環單元神經網絡(Gated recurrent units,GRU)等優化模型,并應用于文本分類問題,取得了較好的分類效果。RNN 模型存在計算復雜、內存占用大、訓練耗時長、對局部關鍵信息提取不敏感等問題。為更好地提取文本關鍵信息,注意力機制(Attention)[13]被廣泛應用于文本分類問題[14-15],其通過模仿人腦的注意力分配機制,計算不同詞向量的權重,使關鍵詞語的權重更高,從而獲得高質量的文本特征。在機器學習方法中,K 最近鄰算法[16]、樸素貝葉斯模型[17]、隱馬爾科夫模型[18]等方法廣泛應用于文本分類,但存在嚴重的數據稀疏問題,影響了分類效果。在農業領域,由于受農業大數據源問題的限制,相關研究仍處于起步階段。魏芳芳等[19]運用支持向量機算法,周云成等[20]運用樸素貝葉斯算法,實現了機器學習算法對中文農業長文本的自動分類。由于機器學習方法需要人工提取特征,使其特征工程往往僅適用于特定數據集,不具備深度學習方法的適應性和易遷移性。此外,趙明等[21]針對番茄病蟲害問答系統問句分類問題,提出了基于雙向門控循環單元神經網絡(Bi-directional gated recurrent unit,BiGRU)的短文本分類模型,分類準確率明顯提升;梁敬東等[22]利用LSTM 算法計算問句相似度,提高了問答系統回答的準確性;許童羽等[23]提出一種基于注意力機制優化的序列到序列(Sequence to sequence,Seq2Seq)問答模型,提高了水稻病蟲害問答的準確率;張明岳等[24]利用CNN 提取文本特征,用于判斷問句是否有效,識別準確率明顯提升。上述研究為深度學習方法在農業領域的文本分類提供了可行性依據和參考,但在文本特征提取方面仍存在不足,特征提取方法較為單一,未能有效解決短文本的特征不足問題,并且相關模型均在特定的農業領域應用,未在涉及多類別的農業問答數據集中進行驗證。

針對農業問答問句短文本詞匯量少、特征稀疏性強、數據量大、噪聲大、規范性差的特點,本文對短文本特征詞匯進行拓展,根據詞匯重要程度加權表示詞向量,利用BiGRU 和CNN 提取文本特征,進一步優化和改進神經網絡模型結構及參數,構建一種基于混合神經網絡的短文本分類模型,以實現農業問答問句在多個類別上的精準自動分類。

1 BiGRU_MulCNN 文本分類模型構建

本文提出的BiGRU_MulCNN 模型如圖1 所示。該模型主要由文本預處理層、雙向門控循環單元層(BiGRU)和多尺度卷積神經網絡層(MulCNN)3 部分組成。與傳統深度學習分類模型相比,本文所提分類模型增加了對文本的加權預處理,使用TF-IDF算法擴充文本特征詞語,根據詞語的重要程度計算加權詞向量;采取多種方法提取文本特征,利用BiGRU 獲取詞語的上下文信息,構建多尺度并行CNN 以便提取文本不同粒度的局部特征。

1.1 文本預處理

由于計算機無法將中文文本直接作為分類模型的輸入進行分類計算,因此需要先將中文文本轉換成數字向量。為了盡可能保留文本特征及語義信息的完整性、全面性,本文首先對提問文本進行去噪、分詞等預處理操作,然后運用Word2vec[25]方法將分詞結果轉換為詞向量。本文提出的文本預處理流程如圖2 所示。

1.1.1 文本分詞

圖1 BiGRU_MulCNN 模型結構圖Fig.1 Schematic of BiGRU_MulCNN

圖2 文本預處理流程圖Fig.2 Flow chart of data preprocessing

本文采用Python 的Jieba 分詞庫對文本進行分詞。由于中文的分詞結果受語義和語境影響較大,為提高分詞的準確度,在分詞前加載了停用詞表,去除文本中的停用詞、特殊字符及空格等不利于特征提取的噪聲,減少文本的冗余信息[26]。針對農業問答數據集專業詞匯多的特點,本文加載了搜狗農業詞匯大全作為分詞字典[27]代替基礎分詞庫,提高對農業專業詞匯的識別度。

1.1.2 特征詞擴展

擴展短文本的特征是提高分類正確率的有效方法[28]。問句中每個詞語的重要程度均不相同,重要程度高的詞語更能體現提問的語意,更具有代表性。本文采用TF-IDF 方法計算每個詞語的重要程度,提取問句中最具有代表性的特征詞。TF-IDF 方法可保留文本中具有代表性的低頻詞語,去除區分度低的高頻詞,詞頻(TF)表示詞語在全部詞語中出現的頻率,計算公式為

式中 fi,j——詞ti的詞頻

ni,j——詞ti在文本中出現的次數

m——文本包含的單詞數

nm,j——詞tm在文本中出現的次數

逆文檔頻率IDF 表示詞語的普遍程度,計算公式為

式中 qi——逆文檔頻率

D——文本總量

dj——包含詞ti的文本

j——包含詞ti的文本數量

TF-IDF 值為fi,j與qi的乘積,計算公式為

式中 si,j——詞ti的TF-IDF 值

將每個問句中TF-IDF 值最高的詞語作為問句的特征詞。計算其他詞語與該特征詞的相似度,選擇相似度高于80%且排序前5 的詞語對文本進行特征詞擴充。

1.1.3 加權詞向量表示

Word2vec 是近年來較為流行的中文文本分布式表示方法[29]。Word2vec 可根據輸入的目標詞語,預測上下文信息,并將意思相近的詞映射到向量空間中相近的位置,有效解決了One-Hot 方法詞向量相互孤立和維度高的問題。本文采用Word2vec方法的Skip-gram 模型訓練分詞結果,將中文詞語轉換為低維、連續的詞向量。

為進一步突出不同詞語對問句含義的貢獻程度,本文將詞語的TF-IDF 值與Word2vec 詞向量的乘積作為該詞語的加權詞向量。

1.2 文本表示

本文先將問句中包含詞語的加權詞向量連接起來,組成加權文本向量組,將其作為BiGRU 模型的輸入。為充分考慮中文文本語序對語義的影響,本文利用雙向門控循環單元神經網絡挖掘當前詞語的上下文信息,獲得表達更為精確、特征更為豐富的文本向量,最后將BiGRU 模型的輸出與原加權文本向量組連接,組成新的文本向量。

1.2.1 加權詞向量文本

獲得每個詞的加權詞向量后,將文本中的每個詞替換成其對應的詞向量,組成加權文本向量組。由于問句的長短不一,需統一問句長度后,方可輸入到神經網絡模型中訓練。根據對文本的統計,99.9%的問句長度均少于100 個詞,因此將文本問句的長度設置為100,其余提問長度不足的,填充0補齊文本向量,長度超過100 的只取前100 個詞。門控循環單元神經網絡結構圖如圖3 所示。

圖3 門控循環單元神經網絡結構圖Fig.3 Schematic of GRU

1.2.2 BiGRU 模型文本

GRU[30]是一種特殊的循環神經網絡,能夠有效解決循環神經網絡中無法長期記憶和反向傳播的梯度問題。與LSTM 相比,GRU 具有參數少、結構簡單、便于計算、收斂性強的特點,其具體結構如圖3 所示。

GRU 結構中包含2 種狀態和2 個控制門,分別是隱含狀態h、候選狀態、重置門r 和更新門z,其中更新門用于控制前一時刻的狀態信息傳入到當前狀態中的程度,重置門用于控制忽略前一時刻狀態信息的程度。在t 時刻,的計算依賴于輸入詞向量xt和ht-1,rt作用于ht-1,并根據ht-1的重要程度控制過去隱含狀態保留程度。rt越大,表示ht-1對的影響程度越大。GRU 參數計算公式為

式中 wr——重置門權重 xt——輸入詞向量

wz——更新門權重

ht——隱含層狀態

rt——重置門 zt——更新門

σg——Sigmoid 函數

w——權重矩陣

⊙——對應元素相乘符號

GRU 神經網絡是從前向后單向輸出的。這與中文語意理解方式略有不同,中文語意與當前文字的上下文均有關系。在文本分類任務中,如果當前時刻的輸出能與前后時刻的狀態都產生聯系,會更有利于文本深層次特征的提取,突出文本關鍵信息。根據中文語意理解的特點,本文利用BiGRU 模型提取問句的特征向量。BiGRU 模型是由兩個單向且方向相反的GRU 組成的神經網絡模型,其輸出由兩個不同方向的GRU 的狀態共同決定。文本在t 時刻輸入的第i 個句子的第j 個單詞的詞向量為ctij,其隱含層狀態ht由前向隱含層狀態hft-1和反向隱含層狀態hrt-1加權得到,計算過程為

式中 GRU(·)——詞向量的非線性變換函數

yt——前向權重矩陣

vt——反向權重矩陣

bt——偏置

1.3 MulCNN 模型構建

在BiGRU 模型獲得詞語上下文信息后,構建了MulCNN 模型,進一步提取文本高維度、多尺度的局部特征。MulCNN 模型由多個一維卷積層、池化層、全連接層和分類層組成。

1.3.1 卷積層

卷積層的作用是在設定的窗口范圍提取局部特征,利用卷積核對輸入向量進行卷積計算,獲得特征輸出。在一維卷積神經網絡中,卷積核長度為詞向量的維度,高度為設定窗口的大小,卷積計算公式為

式中 cj——窗口特征值

f——激活函數 xj——詞向量

k——卷積核 b——偏置

針對短文本語義依賴距離短的特點[31],為了能夠提取文本的多粒度局部特征,本文設置了寬度不同、數量不同的多個卷積核窗口的卷積神經網絡。將不同粒度的特征值合并,作為卷積層計算的特征值。

1.3.2 池化層

由于在卷積層選擇了多個不同窗口寬度、不同數量的卷積核,使得卷積計算后生成的特征圖維度不一致,因此本文在模型中增加了池化層。池化層將卷積層提取的文本局部特征進一步整合,在縮減特征圖尺寸、提高計算速度的同時,使特征值獲得了全局信息,提高了所提取特征的魯棒性,控制了過擬合問題發生。本文利用全局平均池化和全局最大池化方法進行池化操作,即抽取每個特征圖的最大值和平均值,將兩者拼接后作為該特征圖的特征值。

1.3.3 全連接層

全連接層進一步對特征值進行抽象,將池化層的全部輸出作為輸入,其中每一個神經單元都與池化層的每一個單元對接,并通過激活函數ReLu 將池化層向量轉換成長向量,將文本從特征空間映射到標記空間。

1.3.4 分類層

使用Softmax 函數作為特征分類器。Softmax 函數對全連接層的輸出進行歸一操作,映射到(0,1)區間內,得到每類特征輸出的估算值。

2 試驗與結果分析

2.1 試驗數據

從“中國農技推廣”農技問答模塊2019 年不同月份的提問數據中隨機提取20 000 條作為試驗數據,提問類別具體分布情況見表1。由表1 可知,試驗數據涉及類別多,覆蓋了病蟲草害、栽培管理、養殖管理等12 個類別,并且數據分布不平衡,病蟲草害、栽培管理等類別數據量達幾千條,而屠宰加工等類別數據量僅有幾十條,數據量相差懸殊,增加了文本分類的難度。

從每個類別的問句中隨機選擇10%作為測試數據集,共2 000 條。在剩余數據中每個類別選擇90%的數據作為訓練數據集,共16 200 條;10%的數據作為驗證數據集,共1 800 條,用于驗證模型訓練及優化情況。測試數據集、訓練數據集和驗證數據集均無重復交叉,因此測試數據集的試驗結果可作為模型分類效果的評價指標。

表1 問題類別分布Tab.1 Distribution of question category

2.2 參數設置

使用128 維詞向量表示中文詞匯,設置問句最大長度為100。BiGRU 層設定GRU 輸出特征維度為128 維,并選擇concat 模式連接GRU 的前向和后向輸出。

由1.3 節可知,MulCNN 模型在同一窗口下包含多組卷積核個數不同的卷積神經網絡。試驗中,相同窗口下設置了2 組卷積神經網絡,不同數量的卷積核得到的試驗結果見表2。當卷積核尺寸為(96,160)時,分類效果最佳。

表2 MulCNN 模型卷積核的確定Tab.2 Determination of kernel size in MulCNN

設計多個卷積窗口尺寸不同的卷積層,用于提取不同粒度的文本特征。具體卷積窗口尺寸設置情況及試驗結果如表3 所示。當卷積窗口數為5,窗口寬度為1、2、3、4、5 時取得了最好的分類效果。

表3 MulCNN 模型卷積窗口尺寸的確定Tab.3 Determination of filters in MulCNN

為防止過擬合,對BiGRU 和MulCNN 均進行批規范化處理,全連接層單元丟棄比例設定為0.5,訓練過程中通過降低神經網絡的學習率來提高性能,每隔10 次訓練1 次學習率減小到原來的1/10。

2.3 對比模型

將BiGRU_MulCNN 與9 種近年來在文本分類領域和農業領域常用的分類模型進行比較,9 種分類模型可總結為CNN 分類模型、RNN 分類模型和混合神經網絡分類模型3 類。

CNN 分類模型:TextCNN 模型是將CNN 首次應用于文本分類的模型;DCNN[32]模型利用K 最大池化的動態CNN 進行文本分類;DPCNN[33]模型利用深層CNN 進行文本分類;Agro-CNN 模型[24]是針對農業問答有效性的識別模型。

RNN 分 類 模 型:TextRNN[34]模 型 利 用 標 準LSTM 進行文本分類;AttBiRNN[35]模型利用BLSTM并引入注意力機制進行文本分類;N-BiGRU 模型[21]是針對番茄病蟲害問答系統的多層BiGRU 分類模型。

混合神經網絡分類模型:RCNN[36]模型利用前向和后向RNN 結合CNN 進行文本分類;C-LSTM[37]模型利用CNN 獲得高維度詞表示,結合LSTM 進行文本分類。圖4 為不同模型下文本分類正確率的對比。

2.4 結果分析

圖4 不同模型下文本分類正確率對比Fig.4 Comparison of accuracy in different models

圖4 展示了10 種試驗模型在Word2vec 文本及TF-IDF 加權文本表示下的文本分類正確率。正確率是對全部數據集分類結果準確性的判斷,一般用于衡量模型的整體分類效果。如圖4 所示,針對農業問答問句短文本數據集,本文提出的TF-IDF 加權文本表示方式在10 種試驗模型的分類正確率均大幅超過Word2vec 文本表示方式,特別對于RNN 分類模型的正確率提升明顯。本文提出的BiGRU_MulCNN 模型在Word2vec 文本表示方式和TF-IDF加權文本表示方式下均取得了最優的結果,正確率分別達到了93.60%和95.90%,相比于其他9 種對比模型優勢顯著。在TF-IDF 加權文本表示方式下,CNN 分類模型中Agro-CNN 正確率最高,達到94.15%;RNN 分類模型中N-BiGRU 正確率最高,達到93.90%;混合神經網絡模型中RCNN 正確率最高,達到93.85%。

圖5 展示了在TF-IDF 加權文本表示下,各個類別分類模型中正確率最高的Agro-CNN、N-BiGRU、RCNN、BiGRU_MulCNN 模型對12 個問題類別分類的F1 值。F1 值表示分類精確率和召回率的調和平均數,常用于衡量模型分類性能。如圖5 所示,BiGRU_MulCNN 模型的F1 值在病蟲草害、市場營銷、動物疫病等9 個類別中均為最高,整體分類效果明顯優于其他模型。在病蟲草害、栽培管理等試驗數據量充足的數據集中,本文模型的F1 值略高于其他模型;在動物疫病、養殖管理、農業機械等數據量較少的數據集中,本文模型的F1 值明顯高于其他模型,說明BiGRU_MulCNN 模型在數據量不充足的情況下,仍然能夠有效提取短文本的特征進行分類。但是在飼料營養、屠宰加工等試驗數據集過少的情況下,4 種試驗模型表現均不穩定,說明深度學習分類模型需要大量數據集支撐,數據量過小會影響分類效果。

圖5 4 種試驗模型對于不同問題類別分類的F1 值對比Fig.5 Comparison of F1 values of four models for different question categories

在12 個問題類別中,栽培管理類別雖然試驗數據量充足,但分類效果遠不如數據量較少的市場營銷、動物疫病等類別。通過分析試驗文本可知,栽培管理類別涵蓋了多種復雜的農業生產操作,覆蓋面過大,導致了該類別的特征不明顯,影響了分類效果。表4 統計了4 種試驗模型在栽培管理類別的精確率、召回率和F1。由表可知,BiGRU_MulCNN 模型的精確率、召回率和F1 均取得了較好的結果,其中精確率和F1 遠遠高于其他模型,說明了該模型具有較強的魯棒性。

表4 4 種試驗模型在栽培管理類別的比較Tab.4 Comparison of four models in cultivation management categories %

如圖6 所示,試驗數據集的規模直接影響了模型的分類正確率。隨著數據量的增加,各分類模型的正確率均隨之增加,其中N-BiGRU 和BiGRU_MulCNN 在數據量較小的情況下分類效果較好,BiGRU_MulCNN 模型在大數據集上分類效果優勢明顯。

圖6 不同數據規模的模型分類正確率Fig.6 Classification accuracy of models for different datasets

如表5 所示,4 種試驗模型對2 000 條測試數據的響應時間達到了快速反饋問題分類的要求。其中RCNN 模型由于其結構簡單,模型層數較少,在訓練時間和測試時間上的優勢明顯,但其正確率明顯低于BiGRU_MulCNN 模型;以CNN 為基礎的Agro-CNN 模型的訓練時間較短,以RNN 為基礎的NBiGRU 模型及基于混合神經網絡的BiGRU _MulCNN 模型的訓練時間較長。由于分類模型的訓練可以離線運行,在分類結果反饋時間基本相同的情況下,分類模型更關注分類正確率的提升。

表5 4 種試驗模型的離線訓練時間和測試響應時間Tab.5 Offline training time and test time comparison of four models s

3 結論

(1)提出的BiGRU_MulCNN 模型滿足實際應用需求,可有效解決農業問答問句在多個類別上的自動分類問題,對測試集的正確率達到95.9%,大幅提高了分類正確率。在數據量不足、數據特征不明顯的數據集上仍取得了較好的分類效果,切實解決了傳統人工分類耗時、耗力的問題,實現了對農業問答問句的智能分類。

(2)對短文本進行特征詞擴充,并根據詞語重要性對文本詞向量進行加權表示,可明顯提高分類的正確率,有效解決了短文本特征不足的問題。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 香蕉eeww99国产精选播放| 久久这里只有精品66| 亚洲人成影院在线观看| 国产精品欧美在线观看| 亚洲三级色| 亚洲人成人伊人成综合网无码| 亚洲天堂网在线视频| 伊人网址在线| 亚洲日韩欧美在线观看| 亚洲成在人线av品善网好看| 一级香蕉人体视频| 麻豆国产原创视频在线播放| 无码AV高清毛片中国一级毛片| 91色在线观看| 91偷拍一区| 欧美特黄一免在线观看| 爱爱影院18禁免费| 久久精品人人做人人爽| 日韩麻豆小视频| 波多野结衣久久高清免费| 国产一级视频久久| 亚洲日韩国产精品综合在线观看| 亚洲三级a| 亚洲免费福利视频| 亚洲久悠悠色悠在线播放| 欧美亚洲香蕉| 精品国产一区91在线| 成人毛片免费观看| 国产亚洲欧美日本一二三本道| 99久久精品免费看国产免费软件| 欧洲成人在线观看| 久久综合丝袜长腿丝袜| 精品在线免费播放| 亚洲国产精品无码AV| jijzzizz老师出水喷水喷出| 在线欧美a| 白浆免费视频国产精品视频| 在线一级毛片| 免费观看无遮挡www的小视频| 久草热视频在线| 久久人妻xunleige无码| 青青国产成人免费精品视频| 噜噜噜久久| 久操线在视频在线观看| 久久青青草原亚洲av无码| 国产综合日韩另类一区二区| 午夜老司机永久免费看片| 女人天堂av免费| 成年人午夜免费视频| 亚洲国模精品一区| 欧美天堂在线| 新SSS无码手机在线观看| 91精品国产麻豆国产自产在线| 国产女人18水真多毛片18精品| 污网站在线观看视频| 色综合日本| 精品一区二区无码av| 欧美精品在线看| 狠狠做深爱婷婷久久一区| 国产微拍精品| 夜色爽爽影院18禁妓女影院| 亚洲无线视频| 欧美日韩第三页| av在线5g无码天天| 国模沟沟一区二区三区| 国产v欧美v日韩v综合精品| 成人在线不卡| 国产青青草视频| 精品无码一区二区三区在线视频| 免费毛片网站在线观看| 日本草草视频在线观看| 免费三A级毛片视频| 国产一级α片| 中文字幕va| 日韩精品亚洲精品第一页| 国产精品无码久久久久AV| 欧美激情成人网| 国产成人综合在线视频| 婷婷色中文| 国外欧美一区另类中文字幕| 久久精品丝袜高跟鞋| 国产精品va免费视频|