999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost模型的文本多分類研究

2020-07-18 11:44:50方俠旋
網絡安全技術與應用 2020年6期
關鍵詞:分類特征文本

◆方俠旋

(安徽大學經濟學院 安徽 230601)

1 研究背景與現狀

隨著互聯網時代的發展,網絡上開始產生大量的信息,信息量呈爆發式增長,而對這些信息的收集與處理就顯得尤為重要。一方面可以掌握當前形勢下各種信息的情況;另一方面,充分利用這些信息可以幫助人們解決更多繁雜的問題,比如根據各種信息的特點進行垃圾郵件的過濾,或者利用信息預測未來事件的走勢,以及對各種文本信息進行分類。

而文本分類任務一般分為兩大類,輸入文本對應一個輸出類別的分類稱為單標簽分類;若輸入一個文本,輸出類別大于或等于二,則稱為多標簽分類。其中,單標簽分類又分為二元文本分類和多類別文本分類:二元文本分類就是數據集僅有兩個類別,多類別文本分類的數據集有超過兩個的類別[1]。

當前學者所做的文本分類成果較多。有基于短文本評論數據進行的情感極性分類:其中王獻偉[2]以京東智能冰箱的評論數據對文本情感進行正、負極性分類;Sanjiv R.Das[3]等人結合五種不同的分類器,通過投票機制將股票評論數據進行正、負、中情感極性分類;還有的學者基于文本主題進行分類:其中霍婷婷[4]基于FastText模型的三種改進算法對新聞文本進行分類,主要分為農業和非農業新聞;景永霞[5]等人基于矩陣SVD的方法對10個類別的文本數據進行了多分類,相較于以往基于信息增益的KNN算法分類性能有所提高;也有學者沒有按主題而是按文檔的整體情感對文檔進行了分類[6]。本文就含有 19個類別的新聞數據基于 XGBoost進行單標簽下的文本多分類,分析分類模型的性能優劣。

2 相關模型

在介紹XGBoost之前,介紹兩種常用的分類模型,邏輯回歸和 Navie Bayes,這兩種模型在以往的很多分類任務中的分類效果都比較好,因此本文鑒于這兩種模型來與 XGBoost進行對比分析。

邏輯回歸(logistic regression)是一個應用非常廣泛的機器學習算法,它基于極大似然估計的思想,利用模型所生成的概率去比較真實值與預測值之間的差異,可用于文本二分類或者多分類中;在文本分類任務中,如果把某個文本預測為某一類別當作一次事件,那么從文本中提取的特征及其頻率等信息就可以作為此次事件發生的各個因素,使用回歸去訓練文本特征之間的關系,從而再去預測文本類別[7]。

樸素貝葉斯(Na?ve Bayes,NB)是一種概率模型,算法簡單且有大量的數學理論支撐,易于解釋。雖然它基于一個假設:各樣本屬性之間是獨立的,但是很多情況下,它的分類效果仍表現得很好,也因此在很多領域有大量應用,比如垃圾郵件的過濾、情感判別以及文本分類等等[8]。在文本分類任務中,模型計算每個樣本屬于各個類別的概率,將樣本判給概率最大的類別。

XGBoost(eXtreme Gradient Boosting)是一種優秀的集成學習模型,主要思想就是訓練很多個準確率較低的弱學習器(樹模型),然后將它們集成為一個準確率較高的強學習器[9]。在擬合模型時,XGBoost運用二階泰勒展開式,并且自帶正則化項,可以有效防止過度擬合,提高模型泛化性能;在2014年由陳天奇將它實現,可同時并行多個CPU,運行速度快,分類效果好,并大量運用于工業中。

3 評測指標

3.1 對數損失函數

多數學者在進行文本分類時,都是直接使用召回率、準確率、Fβ值來評判分類效果,很少注意到模型的擬合情況。損失函數可以用來表示樣本真實值與預測值之間的偏差,它的值往往表現一個模型的擬合情況和模型的性能。模型的擬合效果對最終預測有很大作用,往往直接決定最終的預測情況[10],用在分類問題中,它也可以反映模型的分類效果。

本文引用多類別對數損失(Multi-Class Log-Loss)來對模型的擬合效果進行分析,同時它也是 Kaggle大賽上通用的多分類問題的評測指標。

多類別對數損失與交叉熵損失函數有異曲同工之處。主要區別在于交叉熵損失函數多數情況下是作為二元分類模型的評判標準,而 log似然損失函數一般用于多分類,它的簡化公式為:

其中:N為樣本量;m為總類別數,本文為14;yi,k表示第i個樣本的標簽,取值為0或1;pi,k為觀測樣本i屬于第k個類別的預測概率;從對數損失函數的含義可以看出:損失值越小,模型擬合效果也越好。

3.2 準確率

在得到模型擬合情況下,為了進一步判斷模型分類的效果,我們使用準確率來進行分析。本文準確率(Accuracy)即為預測正確的樣本數量與總測試樣本數量之比,即:

4 數據處理

采用復旦大學中文分類語料庫,一共9249篇文本觀測數據,包含藝術、文學、哲學和法律等19個類別,且各類別數據量不相同,如表1。將數據集按8:2分為訓練集與測試集;用訓練集擬合模型,在測試集中計算損失函數的值及分類準確率。

表1 復旦大學中文分類語料

類別 計算機 環境 電子 農業 體育 時政 醫療 經濟 法律數量 1356 1218 28 1022 1254 520 53 1601 52

4.1 分詞與停用詞

本文分詞工具使用Python中最常用的jieba分詞,一般來說jieba分詞結果較為精準;停用詞庫為根據哈工大、川大、百度停用詞庫以及代碼運行過程中的提示自行整理而成。

4.2 文本特征提取

在分詞、剔除停用詞以后,需要對文本進行特征表示,從而使文本數據轉化為計算機可以識別的形式。其中最常用的是向量空間模型,它將每篇文本表示為一個向量形式;它也具有很多衍生版本,其中使用最多的是詞袋模型。

詞袋模型(bag of words)對每個訓練文本中所出現的詞匯的出現頻率進行統計,將出現的所有詞匯進行排列,當作一列特征,進而構成一個詞匯矩陣。它是最基本的一種特征提取方法,易于理解和使用,但是它依賴于詞典的構建,也容易造成稀疏矩陣的問題。詞袋法不考慮每個詞匯出現的順序,也不考慮單詞與句子或者段落之間的復雜聯系。

相比較于詞袋法——直接將所有詞匯在本篇文檔中的出現頻率作為這個詞的特征權重,TF-IDF方法不僅考慮出現的詞匯在本篇文檔中的頻率,而且考慮每個詞匯在所有文檔中的出現頻率。它認為,某個詞匯的重要性與這個詞匯在本篇文檔中的概率成正比,而與在所有文檔中出現的概率成反比;相關計算公式如下:

其中,ni,j表示特征項tj在文檔di中出現的次數;分母表示文檔di中所有特征項出現的次數;N為所有文檔的總數;nj表示含特征項tj的文檔總數;

則idfi,j表示出現特征項tj的文檔的倒數;此處為了避免分母除零的現象,我們將分母中含有特征項tj的文檔總數加 1,用來平滑IDF權重,也即改進逆文檔頻率,公式如下:

最后我們得到TF-IDF的表達式為:tfidfi,j=idfi,j*tfi,j

也即一個詞在某篇文檔中出現次數越多越重要,同時這個詞在所有文檔集合中出現的次數越少也越重要;因為出現次數越少,表明對主題的代表性越好,區分文檔的能力越強。

本文在提取文本特征時,將所有數字更換為同一個占位符,以達到降維作用。同時將詞袋模型與采用TF-IDF加權方法的建模結果進行對比分析,尋找最優模型。

5 數據實現與結果分析

本文采用前面所描述的兩種特征提取方法,結合三種模型,對數據集使用Python平臺進行代碼實現。最終輸出為6個對數損失值和對應的準確率,我們將其匯總為以下兩張表格進行展示。

表2 對數損失值

表3 準確率

觀察對比兩個表格可以發現:

表2中XGBoost的對數損失值要比邏輯回歸和Navie Bayes小很多,說明就模型的擬合情況來看,XGBoost算法具有一定的優勢;其中,Navie Bayes擬合效果最差,可能是由于NB一般適用于小規模的數據,且樣本間的獨立性也有待考究[8],所以對于本文數據而言,性能有所下降;而邏輯回歸由于多數情況下是在兩個類別中進行分類,而且不能很好地處理特征空間很大的情況,所以在本文類別較多且數據量不平衡的情況下分類性能也不算特別好,而且,邏輯回歸由于自帶正則化項(本文為L2正則化)有時還會出現欠擬合的情況。

與表2相對應的觀察表3,可以看到,擬合效果越好的模型,分類準確率也越高;其中,XGBoost的準確率依然最高,主要還是因為 XGBoost類似于一種集成學習,將大量弱學習器集成一個強學習器,改善了模型對不平衡數據的敏感性;同時我們對此次XGBoost中每個弱學習器,也即每個樹模型賦予7層樹結構,從而使模型具有優良的性能;對比另外兩個模型,Navie Bayes依然效果最差,邏輯回歸居中,也說明自帶正則化項的XGBoost和邏輯回歸可以有效地防止過擬合現象的發生,對數據的預測能力較Navie Bayes要更好。

另外對比兩個表格發現,三種算法里基于TF-IDF提取文本特征的效果大多都不如普通詞袋模型,究其原因可能有三個方面:第一,TF-IDF法沒有考慮到特征詞在類間和類內的分布情況[12],比如部分詞在某一類文章中不常見,會賦予較高的TF值,但是不足以作為區分文檔的關鍵類別詞,這些低頻詞的偶然出現被當作高權值的關鍵詞,這將過度放大生僻詞的重要性[4];同時,在計算TF值時,也放大了常用詞的重要性;第二,TF-IDF法也沒有考慮到新聞中各特征詞的位置;第三,由于本文數據各類別的數量差異較大,不平衡性較嚴重,而TF-IDF恰恰對不平衡數據比較敏感。所以就提取文本特征這一環節來看,可以進一步尋找其他優化算法。

6 結束語

本文根據包含19個類別的復旦大學中文分類語料,基于兩種特征提取方法、三種分類模型對文本進行了分類,同時使用了多分類對數損失率來衡量模型的擬合效果,并根據準確率進行了最終分類評測。一方面看到不同模型對數據的擬合情況,也反映了不同模型的分類效果,并且探討了XGBoost的機制,了解了其算法的優劣之處,可見,XGBoost模型對于不平衡數據的文本分類任務表現很好。

進一步還可以進行以下工作:(1)由于分詞效果對結果影響較大,可嘗試其他分詞器,進行對比優化;(2)此次運行時間長,可對 XGBoost模型中的參數進行調參以優化結果、縮短運行時間。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 免费观看欧美性一级| 中文无码精品a∨在线观看| 99国产精品免费观看视频| 在线免费不卡视频| 国产成人精品午夜视频'| 婷婷亚洲视频| 亚洲国产中文精品va在线播放| 华人在线亚洲欧美精品| 亚洲日韩精品欧美中文字幕| 亚洲日本韩在线观看| 狠狠综合久久| 国产a v无码专区亚洲av| 国产免费怡红院视频| 亚洲免费黄色网| 国产成人精品优优av| 亚洲精品在线观看91| 色丁丁毛片在线观看| 欧美人人干| 欧洲亚洲欧美国产日本高清| 亚洲精品手机在线| 欧美中文字幕第一页线路一| 欧美激情成人网| 亚洲欧美日本国产专区一区| 一区二区影院| 亚洲91精品视频| 中文字幕无码中文字幕有码在线| 97久久精品人人做人人爽| 国产97色在线| 91视频精品| 54pao国产成人免费视频| 91国内视频在线观看| 国产91av在线| 成人免费黄色小视频| 国产制服丝袜91在线| 国产一级裸网站| 亚洲第一成人在线| 黄色网在线| 亚洲精品在线91| 激情综合激情| 亚洲色图欧美一区| 亚洲国产日韩一区| 日韩精品少妇无码受不了| 欧洲亚洲一区| 久久熟女AV| 综合天天色| 精品人妻无码区在线视频| 欧美精品1区2区| 欧美精品黑人粗大| 啦啦啦网站在线观看a毛片| 色综合久久88| 99久久精品视香蕉蕉| 国产男人天堂| 亚洲乱强伦| 国产成人久久综合777777麻豆| 亚洲成人网在线观看| 69视频国产| 久久永久视频| 69视频国产| 欧美性精品| 亚洲成aⅴ人片在线影院八| 亚洲欧美精品一中文字幕| 日本午夜影院| 香蕉久久国产超碰青草| 免费人成视网站在线不卡| 成人免费黄色小视频| 特黄日韩免费一区二区三区| 女人av社区男人的天堂| 丁香六月激情综合| 久精品色妇丰满人妻| 成人亚洲天堂| 色妞永久免费视频| 99久久人妻精品免费二区| 欧美日韩资源| 欧洲亚洲欧美国产日本高清| 大陆精大陆国产国语精品1024| 国产精品无码影视久久久久久久| 毛片在线播放a| 美女国产在线| 一级一级特黄女人精品毛片| 美女国内精品自产拍在线播放| 日韩第九页| 国产国语一级毛片在线视频|