999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Adaboost與樸素貝葉斯的農業短文本信息分類

2020-12-14 04:35:10陳鵬郭小燕
軟件導刊 2020年9期
關鍵詞:分類

陳鵬 郭小燕

摘 ?要: 樸素貝葉斯分類器過分依賴分類數據的質量,當待分類數據呈現復雜多元屬性時,其分類的效果急劇下降,利用adaboost算法組合多個樸素貝葉斯分類器設計A_B模型。將3600份原始數據經過中文分詞、句法分析、文本向量化后將A_B模型訓練成一個A_B分類器。解決了分類器對于待分類數據敏感的問題,兩個A_B分類器協同工作將二分類器轉換為三分類器,解決了將原始農業文本信息分為農業新聞類,農業技術類,農業經濟類三種類型的問題。分別利用600份標準數據與加了30%干擾信息的復雜數據測試分類器的分類效果,實驗結果表明A_B分類器不僅對標準分類數據具有良好的分類效果,面對復雜多元的分類數據是仍然表現出較好的分類性能。利用不同的測試數據對A_B分類器測試發現:A_B分類器均具有良好的收斂性,其分類效果不依賴分類數據特征,具有分類效果的穩定性。

關鍵詞: 貝葉斯;Adaboost;農業短文本;分類

中圖分類號: S24;TP3 ???文獻標識碼: A ???DOI:10.3969/j.issn.1003-6970.2020.09.004

本文著錄格式:陳鵬,郭小燕. 基于Adaboost與樸素貝葉斯的農業短文本信息分類[J]. 軟件,2020,41(09):1318

【Abstract】: Naive Bayes classifier relies too much on the quality of classification data. When the classified data presents complex multivariate attributes, whose classification effect decreases sharply. Adaboost algorithm is used to combine multiple Naive Bayesian classifiers to design A_B model. After Chinese word segmentation, parsing and text vectorization, the A_B model is trained as an A_B classifier based the 3600 sets of original data. The problem that classifier is sensitive to data to be classified is solved. Two A_B classifiers work together to convert two two-category classifiers into one three-category classifiers, and solve the problem that the original agricultural text information is divided into three types: agricultural news, agricultural technology and agricultural economy. Using 600 sets of standard data and complex data with 30% disturbed information to test the classification effect of the classifier, the experimental results show that the A_B classifier not only has a good classification effect on the standard classification data, but also has a good classification performance to complex and multivariate classification data. Using different test data to test A_B classifier, it is found that A_B classifier has good convergence, whose classification effect does not depend on the characteristics of classification data, and has the stability of classification effect.

【Key words】: Bayes; Adaboost; Agricultural short text; Classification

0 ?引言

隨著農業信息化進程的加快,農業新聞網站,農產品銷售網站,農業技術網站和農業數據庫等農業信息平臺也隨之出現,農業數據隨時間呈爆發式增長,海量的農業類數據需要處理。文本是網絡信息的主要載體、BBS、博客、新聞評論中往往包含著諸如農業政策法規,農民的消費需求以及農村的發展趨勢等數據信息。為了洞察農村、農業的發展規律,以及農民的消費規律,對這些文本信息進行合理地分析與挖掘顯得非常必須。文本自動分類技術能夠將海量非結構化文本信息規范歸類,幫助人們更好地管理、利用和挖掘信息[1],為農業信息的服務對象提供更加精準的信息,把分散在網絡中的信息進行整合,為用戶提供個性化信息推送服務[2]。

近年來,國內許多研究機構對文本分類工作開展了研究工作,其中有代表性的有:中科院的史忠植、李曉黎把網絡概念推理植入到文本分析中[3]。上海交通大學王永成將神經網絡模型運用到了中文自動分類系統[4],山西大學劉開瑛開發金融自動分類系統[5],南京大學計算機系的劉靜等對文本分類進行了研究,將分類規則和貝葉斯方法相結合放寬了貝葉斯對強獨立性假設條件的要求[6]。目前文本分類的主要研究方法主要有:機器學習方法[7]和深度學習[8] 方法。對于高維數據以及抽象數據,已經有許多學者開始嘗試使用深度學習的方法并取得了一定的成果[9]。研究發現,深度學習在圖像數據及語音數據中的優勢表現明顯,但是在短文本分析與計算中還未見突破性成果[10]。相比之下,傳統的深度學習則表現出優越的性能[11]。傳統機器學習常用模型有樸素貝葉斯模型(Naive Bayes)[12]、支持向量機模型(Support Vector Machine)[13]、邏輯回歸模型(Logistic Regression)[14]和K近鄰模型(K Nearest Neighbors)[15]等。樸素貝葉斯模型在文本特征提取,文本分類方面優勢明顯[16],傳統的貝葉斯分類模型由于采用單分類器分類,使得分類的效果不理想[17]。通過Adaboost訓練若干個弱分類器組合成強分類器,可大幅提升分類的準確率。楊麗麗利用Adaboost創建SVM分類器,解決棉葉螨危害的等級識別問題[18],胡祝華采用Adaboost進行魚眼識別[19],顧玉萍將Ada boost應用于不平衡數據的分類問題中,以上研究都取得了較好的效果[20]。本文采用Adaboost算法將多個貝葉斯分類器(弱分類器)組合訓練成一個強分類器(A_B分類器),解決農業網絡短文本分類問題,分別使用規范數據以及加入干擾數據的復雜多元數據對A_B分類器測試發現,A_B分類器可以有效地進行農業短文本分類,對于待分類數據有一定的包容性,解決了復雜多元文本數據的分類問題,目前在國內尚未有這方面的研究探索成果發現。

1 ?材料與方法

1.1 ?原始語料預處理

采用網絡爬蟲技術分別從農業新聞網,農業技術網,和農業經濟網,抓取4000份數據組成原始語料。由于html頁面中抓取的原始語料存在干擾詞組或者符號,為保證數據的有效性與準確性、降低冗余,需要對原始數據進行清洗,這主要包括:刪除無效或者冗余信息、對缺失值進行處理(刪除/填補)、對離群值進行處理(刪除/均值填補)。為了降低數據的維度、提高分類的效率需對清洗后的數據進行中文分詞和句法分析。

(1)中文分詞

中文語法中單個的字往往沒有特定的含義,為有效獲取文本信息,需對清洗后的文本進行分詞處理,即把連續的字序分解成詞序。中文分詞結果的好壞直接影響最后分類的結果,本文采用GitHub上開源的jieba分詞技術進行分詞處理[21-22],采用停用詞庫過濾技術去除無效詞匯對待分類文本的干擾,從而對分詞后所得的稀疏矩陣進行降維,提高分類的效率。

(2)句法分析與泛化

在對農業文本進行分詞處理的基礎上,為了統計高頻詞語,簡化文本結構,降低分析的復雜度,需要對文本分詞后的結果進行句法分析與泛化。本文利用哈工大社會計算與信息檢索研究中心的語言技術平臺()進行句法分析,并基于句法路徑進行精確匹配[23],為了更準確地分析句子結構,本文歸納出常用的程度副詞及常用詞,如表2所示,利用該表能快速有效地泛化原始句法,重構網絡短文本的句法結構。

2 ?文本分類模型

將樣本數據空間的數據分為兩部分:訓練空間和測試空間,其中為訓練樣本數量,為測試樣本數量。對于訓練空間中的數據做好類別標記,表示新聞類,農業技術類,農業經濟類三種類別。樣本數據用于訓練分類模型,測試數據用來檢測訓練好的效果。

2.1 ?樸素貝葉斯文本分類器

貝葉斯分類器是基于貝葉斯定理,依據統計學實現分類的方法。將貝葉斯分類器用于文本分類時,其主要思想是將文章看做獨立的單詞集合,通過訓練集,得到每個單詞在不同類的概率大小,從而實現分類的效果。本文利用訓練樣本以及其所屬的類別,計算每一個類別在訓練空間中出現的概率,以及每一個訓練樣本中特征詞在每個類別中出現的概率,如公式2,3所示。

2.3 ??AdaBoost-Bayes分類器

(1)A_B分類模型

為提升單個Bayes分類器的分類性能,本文設計A_B分類模型,利用Adaboost算法將多個Bayes分類器訓練成強分類器(A_B分類器),其基本思想是對于同一個訓練樣本空間訓練出T個有不同權值的Bayes分離器,這些分類器協同工作以照顧每一個樣本的特征,從而達到提高分類效果的作用。A_B強分類器生成原理為:將標記好類別的訓練樣本輸入到第一個Bayes分類器T1,輸出分類結果,根據分類結果,得出此Bayes分類器的權值,從而計算每個訓練樣本的權值(分錯的樣本權值增大以便下一個分類器對其特別關注,分對的樣本權值會減小),使原始的訓練集變成一個帶權訓練集,利用帶權訓練集再次訓練出下一個新的Bayes分類器T2并計算其權重,更新訓練集中每個樣本的權重產生新的訓練集,再訓練出新的Bayes分類器T3,一直往復,直到總誤差率小于一定的值則訓練結束,原理如果圖2所示。

2.4 ?分類流程

(1)設計分類詞典,構建特征空間。

(2)將分類樣本和分類詞典進行比對,形成特征向量,從而產生樣本空間。

(3)將樣本空間劃分為訓練空間和測試空間。

(4)利用訓練樣本訓練A_B模型,獲得模型的參數值:Bayes分類器個數n,每個Bayes分類器的權重whi(i=1,2…,n),生成A_B分類器。

(5)將測試樣本輸入到訓練好的A_B分類器,獲得分類輸出。

3 ?實驗及結果分析

實驗環境為intel i7處理器,12 GB機器內存。操作系統采用Windows 10企業版。軟件開發環境為python2.7,PyCharm,采用sklearn的模型庫進行算法的實現[17],采用scrapy爬蟲框架爬取4000份數據組成原始語料,如表4所示。

從表5可以看出,使用樸素Bayes進行分類時準確率,召回率,F1檢測值分別為92.01%,91.12%,91.62%,相比于SVM和決策樹分類,樸素Bayes有一定的優勢。為了測試以上算法對于多樣性數據的魯棒性,在測試數據中加入30%的干擾數據,使得數據中出現較多的離群值,從而增加測試數據的復雜性與多樣性。實驗結果表明,用Bayes,SVM,決策樹進行復雜文本數據的分類時,其準確率、召回率、F1值都有大幅下降,證明基本Bayes,SVM,決策樹在分類中對于待分類數據質量有很大程度的依賴,如果有離群數據或者不規范數據出現時分類的效果并不理想。

利用A_B分類器,以及A_S分類器(弱分類器采用SVM的Adaboost分類器),A_J分類器(弱分類器采用決策樹的Adaboost分類器)分別采用規范數據與加30%干擾數據進行30次分類實驗,實驗結果如表6所示。從實驗結果來看,采用標準規范測試數據測試發現分類的準確率、召回率、F1值都有所提升,其中表現最為明顯的是A_J分類器,其準確率和基本決策樹分類器相比提升了39.18%,召回率提升了33.12%,F1值提升了31.44%,說明利用Adaboost將弱分類器優化成強分類器對于文本分類有效可行。為測試分類器的魯棒性,仍然加入30%的干擾數據測試發現,分類準確率、召回率,F1仍然有所下降,但下降的幅度和基本分類器相比已經有所降低,說明優化后的分類器對于測試數據質量已經有了某種程度的免疫性。對于復雜多樣文本數據的分類結果發現,A_B分類器分類的準確率為89.12%,和普通bayes相比提升了9.01%,A_S分類器分類準確率為87.17%,和普通SVM相比提升了3.83%,A_J分類器準確率82.13%,和普通決策樹分類相比提升了33.57%,從提升的幅度來看,A_J分類器表現明顯,從分類的效果和準確率來看,A_B分類器占一定的優勢,如圖7所示。

通過加入干擾測試數據的實驗結果來看,普通的分類器過分依賴數據的質量,如果數據中出現離群值等多元數據,則對分類效果有較大的影響。當利用Adaboost將多個普通分類器優化成強分類器后,分類準確率有一定的提升,從加入干擾數據對于分類效果的影響來看,利用Adaboost優化普通分類器,可以增加分類器的魯棒性。從圖7所示的實驗結果來看,A_B分類器對分文本數據質量有較強的獨立性,不會過分依賴待分類文本數據的質量以及特征,因此具有較好的普遍適用性。

為了測試A_B分類器對于不同質量數據分類的穩定性,跟蹤利用不同待分類數據訓練不同強分類器的過程發現,隨著bayes基本分類器數目的增加,A_B分類器的分類準確率,召回率,F1值均在逐漸增加,通過30次試驗取平均值發現,當bayes基本的數目達到15個左右時,分類準確率,召回率,F1值開始收斂,到達18個左右時分類準確率,召回率,F1值開始趨于一個穩定值,如圖8a所示。跟蹤A_S分類器的訓練過程發現,基本分類器的個數對整個分類器的分類效果并沒有很大的影響,隨著基本SVM分類器個數的增加,A_S分類器并沒有出現明顯收斂的趨勢如圖8b所示。跟蹤A_J分類器則發現,基本決策樹分類器的個數增加到3個的時候,A_J分離器出現收斂程度趨勢,因此其訓練速度和A_B分類器相比占有一定的優勢,但是觀察其收斂值發現,A_B分類器分類準率、召回率、F1值發現,A_B分類效果優勢明顯。

從圖8中可以看出,A_B分類器在經過訓練后可以穩定地收斂,將其應用于農業文本類以及其他短文本分類時針對不同質量的數據均可以獲得穩定的分類結果,同時A_B分類器對于待分數據有一定的包容性,多元復雜數據仍然可以獲得較好分類效果。

4 ?結論

(1)設計了一種基于Adaboost算法的多個樸素貝葉斯分類模型A_B模型,提取樣本數據出現頻次前20%的詞匯創建特征空間,3600份原始語料通過預處理,中文結巴分詞,句法分析向量化為訓練空間,將A_B模型訓練為A_B分類器,將兩個A_B分類器組合來解決三分類問題,實現將待分類文本分為農業新聞類,農業技術類,農業經濟類三種類型分類的準確率,召回率F1值分別為:94.33%,91.27%,91.92%。

(2)將標準測試數據加入30%的干擾數據發現,和樸素貝葉斯分類器相比,A_B分類器對于數據質量有較大的包容性,對于復雜的多元數據而言仍然表現出較好的分類性能。將A_B分類器與A_S分類器,A_J分類器相比表現出較好的分類性能。

(3)通過30次試驗測試發現,當在訓練過程中當樸素貝葉斯分離器的數目增加到18個左右時,分類效果趨于穩定,證明A_B分類器具有良好的收斂性能,利用不同質量的測試數據測試分類器效果,均得到穩定的分類效果。但和A_J分類器相比,其收斂的速度較慢,今后可以從樸素貝葉斯權重更新算法等方面尋找突破。

參考文獻

[1]趙明, 杜會芳, 董翠翠. 基于word2vec和LSTM的飲食健康文本分類研究[J]. 農業機械學報, 2017(10): 207-213.

[2]徐朝輝, 施叢叢, 呂超賢, 等. 基于結構化支持向量機的泄洪聯動設計[J]. 軟件, 2015, 36(9): 62-65.

[3]李志欣, 鄭永哲, 張燦龍, 等. 結合深度特征與多標記分類的圖像語義標注[J]. 計算機輔助設計與圖形學學報, 2018, 30(02): 318-326.

[4]刁倩, 王永成, 張惠惠. 基于神經網絡的中文信息概念聯想構造算法[J]. 情報學報, 2000(02): 170-175.

[5]谷波, 李濟洪, 劉開瑛. 基于COSA算法的中文文本聚類[J]. 中文信息學報, 2007(06): 65-70.

[6]劉靜, 尹存燕, 陳家駿. 一種規則和貝葉斯方法相結合的文本自動分類策略[J]. 計算機應用研究, 2005(07): 84- 86+89.

[7]Lewis D D. Challenges in machine learning for text classi fication[C]//Conference on Computational Learning Theory. 1996.

[8]Liu J, Chang W C, Wu Y, et al. Deep Learning for Extreme Multi-label Text Classification[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. ACM, 2017.

[9]Shen F, Luo X, Chen Y. Text classification dimension reduction algorithm for Chinese web page based on deep learning[C]// International Conference on Cyberspace Tech nology. IET, 2014.

[10]He Y, Xie J, Xu C. An improved naive Bayesian algorithm for web page text classification[C]//Eighth International Conference on Fuzzy System & Knowledge Discovery. 2011.

[11]Tong S, Koller D. Support Vector Machine Active Learning with Applications to Text Classification[J]. Journal of Machine Learning Research, 2002, 2(1): 999-1006.

[12]張潔琳. 試論貝葉斯網絡在用戶信用評估中的應用[J]. 軟件, 2018, 39(12): 194-197.

[13]Manne S, Kotha S K, Hyderabad O. A Query based Text Categorization using K-Nearest Neighbor Approach[J]. International Journal of Computer Applications, 2013, 32(7): 16-21.

[14]李曉燃. 基于深度學習的傾斜車牌矯正識別[J]. 軟件, 2018, 39(10): 215-219.

[15]王子牛, 吳建華, 高建瓴, 等. 基于深度神經網絡和 LSTM 的文本情感分析[J]. 軟件, 2018, 39(12): 19-22.

[16]Yang G, Lin Z Y, Chang Y X, et al. Comparative analysis on feature selection based Bayesian text classification[C]// International Conference on Computer Science & Network Technology. IEEE, 2013.

[17]吳文俊, 殷恒輝, 陳麟. 基于 AdaBoost 算法的人臉檢測系統設計[J]. 軟件, 2018, 39(10): 145-149.

[18]楊麗麗, 張大衛, 羅君. 基于SVM和AdaBoost的棉葉螨危害等級識別[J]. 農業機械學報, 2019. 50(2): 14-20.

[19]胡祝華, 張逸然, 趙瑤池, 等. 權重約束AdaBoost魚眼識別及改進Hough圓變換瞳孔智能測量[J]. 農業工程學報, 2017, 33(23): 226-232.

[20]顧玉萍, 程龍生. 基于MTS-AdaBoost的不平衡數據分類研究[J]. 計算機應用研究, 2018, 35(02): 346-348+353.

[21]張永軍. 一種改進的高效貝葉斯短信文本分類器[J], 南京師范大學學報(工程技術版), 2014, 14(3):

[22]林江豪. 一種基于樸素貝葉斯的微博情感分類[J], 計算機工程與科學, 2012, 34(9):

[23]張潔琳. 試論貝葉斯網絡在用戶信用評估中的應用[J]. 軟件, 2018, 39(12): 194-197.

[24]徐凱, 陳平華, 劉雙印. 基于AdaBoost-Bayes算法的中文文本分類系統[J]. 微電子學與計算機, 2016, 33(6): 63-67.

[25]Iwakura T, Saitou T, Okamoto S. An AdaBoost for Efficient Use of Confidences of Weak Hypotheses on Text Categorization[C]// Pacific Rim International Conference on Artificial Intelligence. Springer International Publishing, 2014.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 一级片一区| 欧美人在线一区二区三区| 国产资源免费观看| 亚洲h视频在线| 精品丝袜美腿国产一区| 亚洲男人的天堂在线| 色噜噜综合网| 久久综合亚洲鲁鲁九月天| 国产噜噜噜视频在线观看| 99精品热视频这里只有精品7| 日韩在线欧美在线| 色精品视频| 亚洲经典在线中文字幕| 午夜日b视频| 日韩精品无码免费一区二区三区| 992tv国产人成在线观看| 91毛片网| 天堂成人在线| 亚洲成a人在线观看| 免费无遮挡AV| 夜夜操狠狠操| 欧美一区二区福利视频| 蜜芽一区二区国产精品| 久久久久中文字幕精品视频| 一本大道AV人久久综合| 国产91丝袜在线观看| 99中文字幕亚洲一区二区| 一级香蕉视频在线观看| 欧美色丁香| 欧美精品另类| 久久夜色撩人精品国产| 亚洲天堂网视频| 91色国产在线| 久久久久亚洲AV成人人电影软件 | 99九九成人免费视频精品| 国产一级特黄aa级特黄裸毛片| 亚洲成a人片在线观看88| 国产精品毛片一区| 成人国产免费| 亚洲天堂首页| 亚洲国产成人久久精品软件| 欧美亚洲一区二区三区导航| 永久成人无码激情视频免费| 日韩在线第三页| 久久99热这里只有精品免费看| 日本不卡在线播放| 欧亚日韩Av| 18禁色诱爆乳网站| 国产欧美精品一区aⅴ影院| 国产精品xxx| 在线精品视频成人网| 亚洲精品自在线拍| 国产波多野结衣中文在线播放| 欧美成人一区午夜福利在线| 国产成人8x视频一区二区| 自拍偷拍欧美日韩| 久久青草精品一区二区三区| 在线国产91| 国产国语一级毛片在线视频| 成年午夜精品久久精品| 成人综合网址| 久久99国产精品成人欧美| 国产欧美日韩一区二区视频在线| 亚洲AV无码乱码在线观看裸奔 | 天天操天天噜| 国产人人射| 久久精品中文无码资源站| 亚洲男人天堂2020| 亚洲性视频网站| 色偷偷一区二区三区| 欧类av怡春院| 美女一级毛片无遮挡内谢| 国产美女精品一区二区| 国产精品短篇二区| 91青青视频| 一本色道久久88综合日韩精品| 一本色道久久88| 亚洲av无码人妻| 欧美.成人.综合在线| 日韩高清成人| 99草精品视频| 久久网欧美|