999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT字向量和TextCNN的農業問句分類模型分析

2022-10-11 12:52:36鮑彤羅瑞郭婷貴淑婷任妮
南方農業學報 2022年7期
關鍵詞:特征

鮑彤,羅瑞,郭婷,貴淑婷,任妮*

(1江蘇省農業科學院信息中心,江蘇南京210014;2江蘇大學科技信息研究所,江蘇鎮江212013)

0 引言

【研究意義】隨著我國農業組織形式和生產方式發生深刻變化,農業技術服務有效供給不足、供需對接不暢等問題日益凸顯(趙秋倩等,2020)。農業技術服務過度依賴于領域專家及專業農技推廣人員,人才消耗難以滿足農業轉型升級和高質量發展的需要。隨著人工智能等技術的發展,構建農業領域的智能問答系統能更高效、精準和便捷地為農業生產經營者提供專業化農技指導,為解決上述問題提供了一種方法。智能問答系統通常由問題處理模塊、檢索模塊和答案抽取模塊組成,而問答語句的自動分類是提問處理模塊的關鍵環節,直接影響后續檢索和答案抽取的精確率(鄭實福等,2002;吳友政等,2005)。【前人研究進展】問句分類屬于文本分類的研究范疇,一直是自然語言處理領域的研究熱點。其中結合詞頻和逆文檔頻率的TF-IDF算法(武永亮等,2017)、利用空間聚類的K近鄰(K-NearestNeighbor,KNN)(周慶平等,2016)及基于條件獨立假設的樸素貝葉斯(Naive Bayes mode,NBM)(Jiang et al.,2016)等機器學習方法已達到較好的分類效果,但由于過于依賴人工定義特征,模型的泛化能力不夠理想。而基于神經網絡的深度學習方法因強大的特征提取能力備受青睞。Kim(2014)在預訓練Word2vec詞向量的基礎上,首次提出了基于卷積神經網絡(Convolutional neural networks,CNN)的文本分類模型;胡萬亭和賈真(2020)將新聞的標題和正文2個部分融入TF-IDF算法,進行詞向量加權輸入CNN模型進行分類。CNN僅利用卷積和池化就具備很好的特征提取能力,但卷積操作不能考慮文本序列的位置信息,而循環神經網絡(Recurrent neural network,RNN)具有的序列結構,可提取文本的上下文特征,因此許多學者將CNN與RNN相結合進行研究。Hassan和Mahmood(2018)利用CNN提取文本局部的靜態特征,同時利用RNN獲取文本的上下文信息,再將特征融合進行分類;Liu等(2020)提出CNN和門控循環單元(Gated recurrent unit,GRU)結合的短文本分類模型,降低了模型參數,有利于提升文本分類精度。此類組合方法也已經運用在醫學(杜琳等,2018)、知識產權(呂璐成等,2020)、公共政策(邱爾麗等,2020)和微博輿情(馬瑩雪和趙吉昌,2021)等領域的文本分類研究中。在農業領域,有學者利用農業專業詞庫已構建基于規則和機器學習方法相結合的問句分類模型(魏芳芳等,2015;趙燕等,2018)。隨著深度學習的發展,趙明等(2018)根據番茄智能問答系統的特點,提出基于BiGRU的番茄病蟲害問答系統問句分類模型;金寧等(2020)根據詞語重要性對文本詞向量進行加權,建立BiGRU和多尺度卷積神經網絡(Multi-CNN)結合的農業問句分類模型;馮帥等(2021)提出基于深度卷積神經網絡的水稻知識文本分類方法,將ResNet的殘差模塊進行改進設計,并利用膠囊網絡(Capsule network,Caps-Net)進行分類;王郝日欽等(2021)利用農業專業詞庫對文本進行向量編碼,引入注意力機制強化關鍵詞特征,構建了水稻問答系統中問句的自動分類模型。農業問句長度較短且句意多蘊含在各類專有名詞中,具有很強的領域性和稀疏性,因此當下主流的詞向量模型難以適用。隨著BERT(Bidirectional encoder representations from transformers)(Devlin et al.,2018)等預訓練語言模型的出現,有諸多學者利用BERT訓練更細粒度的動態字詞向量,并在特定領域的文本分類任務中取得了更好的效果(李悅晨等,2021;劉忠寶等,2021;王思麗等,2021;尹鵬博等,2021),但將該模型應用在農業的研究相對較少。【本研究切入點】農業領域短文本分類存在數據稀疏性、高度依賴上下文等問題,目前通過預訓練BERT模型對農業問句分類鮮有報道。【擬解決的關鍵問題】通過對不同詞向量模型和深度學習網絡結合進行試驗,選出效果最優的模型作為問答系統中的分類方法,為后續構建農業領域智能問答系統提供技術支持。

1 數據采集與研究方法

1.1 BERT-TextCNN分類算法

綜合利用預訓練模型BERT和TextCNN模型開展農業問句分類技術研究,本研究大致分為農業問句嵌入層、特征提取層和分類層3個部分(圖1)。以“玉米苗枯病怎么防治”為例:(1)BERT模型經過Tokennizer模塊將“玉米苗枯病怎么防治”按照單個漢字為最小單元進行拆分,生成問句編碼序列[‘玉’,‘米’,‘苗’,‘枯’,‘病’,‘怎’,‘防’,‘治’];(2)將拆分后序列按照Vocab字典中漢字對應ID進行向量編碼并進行Padding填充生成固定維度的的詞向量;(3)將詞向量矩陣輸入TextCNN網絡,利用不同大小的卷積核提取多維的特征圖,將多個特征進行拼接作為該句的分類結果輸出。

在農業問句的分類中,BERT對輸入的問句編碼包含字向量(Token embedding)、句向量(Segement embedding)和位置向量(Position embedding)。3個向量求和后生成最終的特征向量矩陣∈,式中,為句子長度,為詞向量維度。之后利用不同尺寸的卷積核對特征向量矩陣M進行卷積操作:

式中,為卷積核特征向量,()為卷積層激活函數,為偏置項。本研究中,經過卷積后的向量經過最大池化保留特征作為全連接層的輸入,計算公式如下:

在融合特征的基礎上,輸出層利用Softmax函數進行分類,并利用Dropout隨機丟棄神經單元。分類函數的計算公式如下:

式中,表示模型分類結果,為輸出層權重,為偏置項。

1.2 文本采集和數據集構建

本研究利用Python爬蟲從農業種植網、幫農網、淘金地農業網等網站共爬取76944條問答對數據,數據采集詳情如表1所示。在文本預處理過程中刪除問句中空格和中英文特殊符號,并在剔除無效字段后將疑問句全部轉為陳述句,構建農業問答對數據庫。

從預處理后的問答庫中隨機抽取20000條問句,利用關鍵詞的詞頻及共現頻次主題聚類后劃分類別。由表2可看出,農業問句的分類主要包括病蟲草害防治、栽培技術、田間管理、土肥水管理、品種資源與繁育和其他等6個類別。在經過多人標注和交叉檢驗后,按照8∶1∶1的比例劃分訓練集、驗證集和測試集。訓練集用來建立分類模型,驗證集用來調整模型參數,測試集用來驗證模驗分類效果。

1.3 試驗平臺和模型參數

程序運行平臺的CPU為Intel(R)Xeon(R)Silver 4114,GPU為Tesla P40 64G,操作系統為Ubuntu16.04,深度學習框架為Pytorch1.1,BERT選擇中文版本BERT-base-Chinese,詞向量維度為768,Word2vec詞向量維度為300,卷積核大小為[3,4,5],學習率為5e-5,截斷長度為32,Drop_rate為0.5。

1.4 模型評價指標

為驗證不同模型的分類效果,選擇精確率(Precision,P)、召回率(Recall,R)和調和平均值(F1-Score,F1)作為評價指標。相關公式如下:

圖1 基于BERT-TextCNN的農業問句分類模型Fig.1 Agricultural questions classification model based on BERT-TextCNN

表1 數據采集詳情Table 1 Data collection details

表2 農業問句類別分布Table 2 Category distribution of agricultural questions

式中,TP代表正類預測正確的數量,FP代表將負類預測為正類的數量,FN代表將正類預測為負類的數量。

2 基于BERT-TextCNN的農業問句分類模型分析

2.1 BERT與Word2vec分類結果驗證

為探究不同的詞向量編碼方式對農業問句分類模型的影響,將Word2vec-word、Word2vec-char、BERT分別作為編碼層,對比TextCNN、BiLSTM、TextRCNN、DPCNN等深度學習模型的分類效果。在進行多輪試驗并取最優值后,從表3可看出,在以詞向量作為嵌入時,各基線模型效果均不理想,其中TextCNN模型的值為50.55%,BiLSTM模型效果最差,值為47.48%;而將字級特征作為嵌入時,各基線模型的分類效果均大幅提升,其中TextCNN模型分類效果最優,值達91.22%,TextRCNN和DPCNN模型的值也均超過90%,BiLSTM模型的分類性能略低,值為89.42%。在字向量的對比中,單純利用BERT模型即得到更優秀的表現,值達92.06%;將BERT作為字向量嵌入到其他基線模型中效果也均有小幅的提升,其中表現最好的依然是BERT-TextCNN模型,值達93.32%,比Word2vecchar-TextCNN提升2.1%;BERT-BiLSTM模型的效果同樣略低,但值仍然達92.08%,比Word2vec-char-BiLSTM提升2.66%。

2.2 BERT-TextCNN模型農業問句分類結果比較

為對比本研究的方法對農業問句的分類效果,采用測試集分別將BERT-TextCNN和其他現在常用的4種農業領域文本分類方法進行測試和分析。由表4可看出,在農業短文本的分類模型中,相比時間序列模型BiGRU,基于空間卷積模型的CNN模型分類效果更好,其中引入注意力機制的Attention_DenseCNN和BiGRU_MulCNN在F1值方面比BiGRU分別提高2.82%和0.54%,其中原因是農業短文本的句式太短,BiGRU在上下文特征提取方面的優勢難以發揮作用。而預訓練模型BERT在值相比于BiGRU、Attention_DenseCNN和BiGRU_MulCNN均 有 較 大提升,達92.06%。此外,在BERT的基礎上拼接CNN層,對BERT生成的字向量進行空間維度的特征提取,可有效解決短文本特征稀疏的問題,提高分類準確率,該模型的值達93.32%,將BERT模型的值提高1.26%,取得了更好的分類效果。

表3 不同詞向量嵌入時分類結果比較Table 3 Results of question classification with different word vectors

表4 不同模型農業問句分類結果比較Table 4 Comparison of agricultural questions of different models

2.3 BERT-TextCNN模型農業問句細分試驗結果

為進一步對比模型間的差異和效果,通過細分實驗分析BERT字向量嵌入時各模型在不同類別上的、和值。由表5可看出,各模型在病蟲草害防治和土肥水管理2個類別中評價指標均很高,而在栽培技術、田間管理和其他3個類別中準確率稍差,因為前2個大類中標注的數據量較多,而在數據量小的類別上性能略有下降。同時,各模型在其他類別的值較低,因為其中包含了難以判斷或與其他類別有交叉的樣本,影響了整體分類效果。總體上,BERT-TextCNN在栽培技術、田間管理、土肥水管理和其他4個類別中均取得了最優的性能,證明TextCNN模型在農業短文本分類中的有效性和魯棒性。

為進一步分析模型在各類別的分類情況,對各模型在測試集的分類結果構建混淆矩陣。由圖2可看出,在6個類別中,病蟲害防治、土肥水管理和品種資源三個類別分類結果相對集中,錯分現象較少,而栽培技術與田間管理兩個類別間易出現交叉錯分,錯分。通過對問句文本的觀察發現,栽培技術和田間管理在少部分問句中分類界限比較模糊,如問句“苗木移栽時為什么要進行修剪”,其中“移栽”和“修剪”分別屬于栽培技術和田間管理2個類別,此類樣本在一定程度上影響了分類精度。另外,數據集中存在一句多問的樣本,同時包含多個分類類別,也對分類效果產生了負面影響。而其他類別的錯分情況比較分散,這是因為該類在數據標注時包含了大量難以明確定義的問句,在特征方面與別的類別存在融合,導致了分類錯誤,但是總體而言,各類別分錯的占比較低。

表5 基于BERT嵌入時各模型在不同類別的結果Table 5 Classification results of BERT embedding in different categories

圖2 基于BERT模型的分類結果混淆矩陣Fig.2 Confusion matrix of classification results based on BERT

2.4 BERT-TextCNN模型參數分析

模型中超參數的設置對最終分類結果有重要影響,為進一步提升BERT-TextCNN的分類性能,固定其他參數不變,對卷積核大小、迭代次數和學習率大小等參數進行進一步的探究。卷積核的大小決定了TextCNN抽取文本特征的視野程度,卷積核越大,捕獲的特征越多,但同時也會產生更多的參數計算,因此選擇合適的卷積核至關重要。由表6可看出,在卷積核大小設置為[3,4,5]時,模型分類的效果最好,當卷積核大小設置為[4,5,6]和[3,4,5,6]時效果也非常接近,但卷積核的寬度增加也帶來了更高的計算成本,因此,本研究中卷積核大小設定為[3,4,5]。

迭代次數可反映深度學習模型損失函數的下降程度和模型收斂情況。由圖3可看出,在BERTTextCNN模型迭代效果分析調參的3次試驗中,當訓練迭代至2次時,分類效果已有明顯的提升,迭代次數至4次時,模型已收斂完成并達到最優值,證明TextCNN在提取特征方面的并行計算能力可讓模型可更快速地收斂,之后繼續訓練對模型的分類性能不再有明顯的提升。而為降低訓練時間和計算成本,本研究中模型迭代次數設為5。

表6 卷積核大小對試驗結果的影響Table 6 Influence of convolution kernel size on experimental results

學習率作為深度學習中重要的參數,決定著優化函數能否收斂及何時收斂到全局最小值。當學習率設置得過小時,收斂過程將變得十分緩慢,會增加訓練時間;而當學習率設置的過大時,模型可能陷入局部最優,甚至不能收斂。由表7可看出,當學習率設置為1e-3時,BERT-TextCNN模型未能收斂;隨著學習率的增加,模型在5e-5時達最優值;而當學習率為5e-6時,分類性能開始下降。因此,本研究中學習率設定為5e-5。

圖3 迭代次數對分類結果的影響Fig.3 Influence of number of iterations on the experimental results

表7 學習率大小對試驗結果的影響Table 7 Influence of learning rate on experimental results

3 討論

本研究通過采集網絡文本中的農業問句數據,經過清洗后構建農業問句語料庫,并基于農業問句詞語特征稀疏、文本長度較短的特點,提出基于BERT字向量和TextCNN結合的農業問句分類模型,在進行多個深度學習模型對比試驗后,發現BERT模型作為詞向量嵌入時所有的分類評價指標上均優于Word2vec模型,說明BERT經過海量語料預訓練后生成的動態字向量比Word2vec具有更強的表征能力,與其他學者在情感分類(劉思琴和馮胥睿瑞,2020)、醫學(趙旸等,2020)及社交電商(李可悅等,2021)等領域的研究結果相符,證明BERT模型生成的字向量在專業領域文本分類中具有更好的分類性能。同時,在以Word2vec-word、Word2vec-char和BERT-char等不同向量編碼進行時,TextCNN的值均優于其他模型,表明在短文本的分類中,TextCNN僅通過卷積和池化操作獲取的局部特征可達到不錯的分類效果;而以BiLSTM為代表的循環神經網絡模型在不同詞向量嵌入時值均低于其他模型,說明循環神經網絡在問句文本較短、特征稀疏的情況下,其長距離特征提取的優勢不能充分發揮,分類效果不佳。最后,將BiLSTM和最大池化結合的TextRCNN及更深層次的DPCNN模型分類效果也均優于BiLSTM模型,也證明了在短文本分類中CNN模型的卷積和池化操作對分類性能具有明顯的提升效果。

目前,在農業問句的研究中,王郝日欽等(2021)提出基于Attention_DenseCNN的水稻問答系統問句分類,證明CNN模型可提高農業問句分類性能;馮帥等(2021)提出深度卷積神經網絡的水稻知識文本分類方法也表明具有卷積結構的CNN網絡更適合進行農業短文本分類,這與本研究的結果一致。金寧等(2020)提出BiGRU和MulCNN模型證明混合網絡可獲得比單一CNN網絡更好的分類效果,這與本研究結果結合,表明構建表征能力更強的詞向量和多特征混合神經網絡對于提升農業短文本分類效果具有積極的作用。

本研究采用的方法在農業問據的分類上雖取得了良好的效果,但在某些方面還需進一步改進。首先,構建數據集采用的是多個不同網頁自動收集的方法,導致源數據中存在大量的噪聲,盡管經過數據清洗等預處理操作,也難以避免模型在此數據集上的學習受到干擾。其次,本研究僅利用TextCNN進行特征提取,對農業問句中多維度的特征挖掘還不充分,模型在編碼過程中并未考慮詞頻與文檔等層面的特征分布,僅通過單一的網絡結構進行分類,易造成誤分現象。

4 建議

4.1 規范農業問句采集和處理流程,提升數據集構建質量

在農業問句的采集過程中,不同農技服務平臺或網頁的字段內容、格式不同,導致數據存在較大噪聲,需要花費大量人力和時間成本進行清洗。因此,需要規范農業問句的采集和處理流程,可利用正則表達式去除標簽、表格等無效的HTML字段,并清洗入庫;在數據的標注過程中可采用阿里NLP、哈工大LTP等開源共享平臺,進行多人協同標注和交叉檢驗,提升數據集構建質量。

4.2 獲取多維度的文本特征,提高分類精度

農業問句長度較短且口語化嚴重,文本的特征稀疏。各類專有名詞如杜鵑花、設施農業、番茄病毒病等具有很強的領域性,在去除停用詞后進行分詞往往只能保留少數動詞和名詞,再加上分詞工具的錯誤拆分會進一步稀疏特征,制約了模型的分類性能。建議采用TF-IDF等算法引入詞頻及文檔信息,并在特征提取階段加入BiLSTM、注意力機制等模型獲取問句上下文和關鍵詞特征,擴大特征提取范圍,提高模型分類精度。

4.3 完善農技人員培訓體系,探索數字化農技服務模式

農業問句表述的是農民實際生產、生活中遇到的迫切需要解決的問題,其中,病蟲害診斷防治和栽培管理技術是廣大農民群眾在生產中咨詢最多的話題。建議相關政府職能部門加強與農村合作社、農業科研院所等部門的合作,完善農技推廣與服務人員培訓體系。充分利用各類農技推廣平臺和移動終端應用程序等現代信息技術,開設農業科學技術相關培訓課程,提高農民知識儲備和技能水平,并利用線上線下結合的農技指導服務模式,積極開展農業生產病蟲害防治和栽培技術相關指導工作。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 日韩AV手机在线观看蜜芽| 国产情侣一区| 婷婷午夜天| 国产精品综合久久久| 国产精品无码翘臀在线看纯欲| 国产精品人莉莉成在线播放| 亚洲精品成人片在线观看| 一区二区影院| 亚洲天堂2014| 一级爆乳无码av| 国产精品自拍露脸视频| 18禁影院亚洲专区| 亚洲午夜片| 午夜啪啪福利| 久久亚洲欧美综合| 蜜桃视频一区| 午夜人性色福利无码视频在线观看| 伊人福利视频| 久久五月天综合| 国产亚洲一区二区三区在线| 日韩 欧美 小说 综合网 另类| 99久久精品免费看国产免费软件| 国产二级毛片| 精品福利视频网| www.av男人.com| 高清无码手机在线观看| 久久www视频| 国产香蕉国产精品偷在线观看 | 免费在线国产一区二区三区精品| 国产美女无遮挡免费视频网站| 国产成人久视频免费| 日韩欧美中文亚洲高清在线| 亚洲欧美自拍中文| 色婷婷在线播放| 在线看片中文字幕| 国产女人在线| 国产美女91呻吟求| 国产一区二区福利| 中文字幕欧美日韩| 99在线视频免费观看| 狠狠色狠狠色综合久久第一次| 国产九九精品视频| 4虎影视国产在线观看精品| 丰满人妻久久中文字幕| 欧美精品三级在线| 97人人做人人爽香蕉精品| 成人国产精品视频频| 97久久精品人人做人人爽| 精品国产成人三级在线观看| 日韩色图在线观看| 欧洲极品无码一区二区三区| 国产一区二区影院| 国产欧美日韩综合一区在线播放| 免费一级毛片在线播放傲雪网| jizz在线免费播放| 久久精品91麻豆| 无码国产偷倩在线播放老年人| 国产二级毛片| 中文字幕免费在线视频| 国产尤物在线播放| 精品一区二区三区四区五区| 国产免费怡红院视频| 国产精品夜夜嗨视频免费视频| 韩日午夜在线资源一区二区| 国产精品hd在线播放| 国产综合欧美| 伊人久热这里只有精品视频99| 少妇精品在线| 日本午夜精品一本在线观看 | 亚洲精品无码专区在线观看| 国产精品刺激对白在线| 亚洲免费播放| 高清久久精品亚洲日韩Av| 日韩欧美国产中文| 九色91在线视频| 色婷婷电影网| 亚洲一区免费看| 一级香蕉视频在线观看| 亚洲区第一页| 六月婷婷综合| 国产91精品调教在线播放| 国产成人夜色91|