999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度預訓練模型的農業問句分類技術研究

2022-06-28 02:55:58胥建杰董莉霞鄧曉壘
軟件導刊 2022年6期
關鍵詞:分類深度農業

胥建杰,董莉霞,鄧曉壘

(甘肅農業大學信息科學技術學院,甘肅蘭州 730070)

0 引言

隨著互聯網的高速發展,在各類農業問答APP、農技論壇等平臺上,用戶提交的問題數量增長迅速,但許多平臺仍在使用人工篩選特征和淺層學習模型對提問數據進行分類,效率降低。為快速精準地為用戶提供所需信息,利用自然語言處理技術[1-2]構建智能問答系統,可以對農戶在種植生產過程中遇到的問題進行分析并給出相關解答。農業智能問答系統的核心模塊之一為農業問句分類[3],其直接影響系統的檢索效率[4-5]。

目前,國內眾多學者利用機器學習和深度學習等人工智能方法在農業文本分類方面進行了相關研究。例如,陳鵬等[6]、趙燕等[7]使用樸素貝葉斯分類器這一傳統機器學習方法對農業新聞文本信息進行了自動分類研究;馮帥等[8]運用深度卷積神經網絡實現了水稻知識文本的自動分類;趙明等[9]提出基于雙向門控循環單元的短文本分類模型,在番茄病蟲害細分領域進行了問句分類。目前,基于傳統機器學習和典型深度學習方法的文本分類技術已經相當成熟,但基于深度預訓練模型[10]的農業問句分類研究較少。針對農業問句特征稀疏、提問不規范、數據量龐大、分類繁多等特點[11-12],構建一種基于深度預訓練的農業問句分類模型,以實現農業問句更加精準的自動分類。

1 數據來源

采集農業科技網絡書屋專家在線系統[13](http://zjzx.cnki.net/)中的農業問句形成訓練所需數據集。整理5種類別問句作為原始訓練數據,分別為農作物、園藝、養殖技術、水產漁業、農業工程,均以分類標簽和文本內容的形式存儲。通過數據收集、清洗、整理后最終得到12.5 萬條數據,用于建立訓練模型的農業問句語料庫。按照8∶1∶1 的比例分配數據集,其中訓練集為80%,驗證集和測試集分別為10%。測試集、訓練集和驗證集均無重復交叉,因此測試數據集的試驗結果可作為模型分類效果的評價指標[14]。

2 深度預訓練語言模型

深度預訓練語言模型在自然語言處理任務中表現優異,可移植性強[15]。其中,BERT(Bidirectional Encoder Representations from Transformers)模型[16-17]和ERNIE(En?hanced Language Representation with Informative Entities)模型[18-20]利用注意力機制對數據進行建模處理,與典型的卷積神經網絡(Convolutional Neural Networks,CNN)[21]和循環神經網絡(Recurrent Neural Network,RNN)[22-23]有很大區別。注意力機制多與RNN 配合使用,以解決數據建模中的遺忘等問題。基于神經網絡的機器翻譯采用Seq2seq架構[24],其編碼器和解碼器均是基于RNN 構建的。

ERNIE 模型是百度公司提出的基于知識增強的預訓練模型,是對BERT模型的改進,其通過建模海量數據中的實體概念等先驗語義知識學習真實世界的語義關系。ER?NIE 模型采用了BERT 模型的基本架構,同樣使用雙向Transformer 編碼器進行編碼,結構如圖1 所示,其中E1、E2...En表示字的文本輸入,經過雙向Transformer 編碼器得到文本的向量化表示[25]。

Transformer 是一個基于自注意力機制(Self-atten?tion)[26]的Seq2seq 模型[27]。Seq2seq 模型為編碼器——解碼器(Encoder-Decoder)結構,即輸入和輸出是同樣的序列,編碼器將一個可變長度的輸入序列變化為固定長度的向量,編碼器再將固定長度的向量解碼為可變長度的輸出序列。該模型結構如圖2所示。

解決序列問題的編碼器——解碼器結構的核心為RNN,但由于RNN 不能進行并行計算,Transformer 采用Self-at?tention 替代RNN。ERNIE 模型中Transformer 的編碼器結構[28]如圖3所示。

Fig.1 Structure of ERNIE model圖1 ERNIE模型結構

Fig.2 Structure of Seq2seq model圖2 Seq2seq模型結構

Fig.3 Structure of Transformer encoder圖3 Transformer 編碼器結構

編碼器以一個句子的字嵌入表示[26],再加上這個句子中每一個字的位置信息,經過Self-attention 層,在每個字通過編碼器進行編碼時還可以看到這個字的前后信息。然后,編碼器的輸出會再次經過Add&Norm 層,將輸出與輸入相加,進行一次規范化,再將規范化的向量傳入Feed Forward 層,Feed Forward 層同樣會進行Add&Norm 處理,獲取輸出的規范化向量信息。ERINE 模型會對Self-attention層進行N 次堆疊[29],其中Self-attention 的核心思想是計算每個詞與整個句子其他詞之間的相互關系,關注的是詞與詞之間的語義關系,弱化不相關的詞,建立一個更加全局化的表達式,從而提高分類效果。假設Self-attention 的輸入用矩陣X 表示,該矩陣為輸入句子中每個詞的嵌入向量。使用線性變換矩陣WQ、WK、WV 計算出矩陣X 的Query、Key、Value 向量,其中X、Query、Key、Value 的每一行也都表示一個字的向量,則Attention的計算方法[30]表示為:

式中計算了矩陣Q和K每一行向量的內積,為防止內積過大,右端式中除以dk的平方根[31]。Q乘以K的轉置后得到的矩陣行列數均為n,n 為句子單詞數,該矩陣可以表示單詞之間的Attention 強度[32]。Softmax 是指將矩陣中每一行的和都變為1[33]。使用Softmax 計算每個單詞對于其他單詞的Attention 系數,最終得到已融合其他位置字的向量信息,是一個全新的向量表示。

基于深度預訓練模型的農業問句分類結構如圖4 所示。在模型的輸入層中將農業問句作為輸入,在輸入層后接入BERT 或ERNIE 模型,再加入全連接層,最后使用Softmax 層計算每種類別的概率分布情況[34-35]。

Fig.4 Agricultural question classification structure based on deep pretraining model圖4 基于深度預訓練模型的農業問句分類結構

3 實驗方法與結果分析

3.1 實驗設計

根據農業問句數量設計3 組實驗,分別為實驗A(50 000)、實驗B(100 000)、實驗C(125 000),并分別按照8∶1∶1 的比例生成訓練集、驗證集和測試集。各類別實驗數據如表1所示,各數據集數據分布如表2所示。

Table 1 Setting of experimental data表1 實驗數據設置

Table 2 Experimental data distribution表2 實驗數據分布

3.2 實驗環境

具體實驗環境參數配置如表3所示。

Table 3 Experimental environment parameters configuration表3 實驗環境參數配置

3.3 評價指標

本文使用的模型評價指標為精確率(Precision)、召回率(Recall)和F1值,計算方式分別為:

3.4 結果分析

采用精確率、召回率和F1 值評價比較TextRNN-Atten?tion 模型、Transformer 模型、BERT 模型、ERNIE 模型的分類性能,整體數據如表4所示。

Table 4 Comparison of classification effect evaluation indexes of dif?ferent models表4 不同模型分類效果評價指標比較

續表

由圖5 可以看出,隨著數據集中數據量的增加,4 個模型的F1 值均有所提高,且深度預訓練模型BERT 和ERNIE的F1 值一直優于深度學習模型TextRNN-Attention 和Transformer。在3 組實驗中,ERNIE 模型的F1 值均為最高,表明增加了實體級掩蓋和短語級掩蓋的預訓練分類模型性能明顯提升。

Fig.5 Comparison of F1 values in different experiment group圖5 不同實驗組別下各模型F1值比較

圖6 為3 組實驗中4 個模型對5 種類別農業問句分類的F1 值比較,可以看出養殖技術和水產漁業問句的分類精確率較高,這是由于這兩類數據文本特征明顯,有更多的類別區分詞,便于模型學習。此外,無論是何種類別的農業問句,ERNIE 模型的分類準確率均最高。

Fig.6 Classification effect of different kinds of data of each model圖6 各模型不同類別文本分類效果

4 結語

本文使用預訓練模型替代深度學習模型對農業問句進行分類,在農業問句數量不足、數據噪音大以及特征不明顯的數據集上,測試集的F1 值最高達到94.76%,且ER?NIE 模型的分類性能優于BERT 模型,可有效實現農業問句的自動分類。后續將會提高農業問句類別的覆蓋率和細粒度,并探索如何降低模型訓練成本,以及結合其他優質分類模型進一步提高農業問句分類的準確性。

猜你喜歡
分類深度農業
國內農業
今日農業(2022年1期)2022-11-16 21:20:05
國內農業
今日農業(2022年3期)2022-11-16 13:13:50
國內農業
今日農業(2022年2期)2022-11-16 12:29:47
擦亮“國”字招牌 發揮農業領跑作用
今日農業(2021年14期)2021-11-25 23:57:29
分類算一算
深度理解一元一次方程
分類討論求坐標
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 国产乱人免费视频| 国产凹凸视频在线观看| 蜜桃视频一区二区| 亚洲欧美日韩高清综合678| 老司机久久精品视频| 国产日本欧美亚洲精品视| 国产成人无码综合亚洲日韩不卡| 人妻免费无码不卡视频| 毛片在线区| 波多野结衣无码AV在线| 国产色偷丝袜婷婷无码麻豆制服| 性色一区| 青青国产在线| 国产日韩欧美视频| 国产精品私拍在线爆乳| 久一在线视频| 国产精品区视频中文字幕| 一级毛片免费不卡在线 | 福利片91| 日韩高清中文字幕| 91精品国产一区自在线拍| 国产性生大片免费观看性欧美| 欧美亚洲欧美区| 午夜欧美在线| 乱系列中文字幕在线视频| 国产中文在线亚洲精品官网| 2019年国产精品自拍不卡| 亚洲黄色成人| 综合天天色| 国产亚洲日韩av在线| 中文字幕亚洲电影| 国产成人三级在线观看视频| 日本黄网在线观看| 国产99精品视频| 亚洲AV永久无码精品古装片| 精品乱码久久久久久久| 3D动漫精品啪啪一区二区下载| 老司机久久99久久精品播放| 91无码人妻精品一区二区蜜桃| 久久频这里精品99香蕉久网址| 欧美日本视频在线观看| 找国产毛片看| 国产美女在线免费观看| 日本手机在线视频| 中文字幕永久视频| 亚洲看片网| 欧美中出一区二区| 欧美国产日韩另类| 91国内外精品自在线播放| 日韩毛片基地| 亚洲日韩AV无码一区二区三区人| 国产成人AV综合久久| 国产午夜小视频| 精品综合久久久久久97超人| 国产超薄肉色丝袜网站| 麻豆国产在线观看一区二区| 婷婷色一区二区三区| 亚洲中文在线视频| 欧美日韩精品综合在线一区| 国产亚洲现在一区二区中文| 白丝美女办公室高潮喷水视频| 国产激情无码一区二区三区免费| 97成人在线观看| 91成人在线免费观看| 97se综合| 97久久精品人人| 另类重口100页在线播放| 国产高潮流白浆视频| 国产流白浆视频| 无码啪啪精品天堂浪潮av| 亚洲国产AV无码综合原创| 97狠狠操| 思思热精品在线8| 国产成人免费| 国产成人三级在线观看视频| 日韩乱码免费一区二区三区| 色亚洲激情综合精品无码视频 | 久久99国产视频| 91在线精品免费免费播放| 97色婷婷成人综合在线观看| 国产在线一区视频| 日韩第一页在线|