999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘分類算法的比較研究

2017-06-09 13:06:28張鑫
科學(xué)與財富 2017年9期

張鑫

摘要:本文借助R軟件,采用來自某新聞媒體官方微信公眾號中16個類別的中文文本數(shù)據(jù),對所發(fā)布內(nèi)容進(jìn)行分類。首先對文本進(jìn)行預(yù)處理,主要是進(jìn)行分詞和去除停用詞,并加入自定義詞典,然后采用TF-IDF權(quán)重法提取文本特征,按照訓(xùn)練集與測試集10:3的比例,用支持向量機(SVM),隨機森林(RF),Boosting,最大似然的廣義線性回歸(GLMNET),最大熵(MAXENT)這5種分類算法,對選取的訓(xùn)練文本進(jìn)行訓(xùn)練得到不同的分類模型,進(jìn)而對測試文本進(jìn)行自動分類,并采用5折交叉驗證法比較不同算法的分類性能。結(jié)果顯示Boos~ng分類算法對于該文本的分類準(zhǔn)確率最高。

關(guān)鍵詞:TF-IDF;支持向量機;隨機森林;Boosting;分類模型

一、引言

文本分類是指依據(jù)文本的內(nèi)容,根據(jù)某種自動分類算法按照一定分類體系或標(biāo)準(zhǔn),對大量文本進(jìn)行判斷并歸類為預(yù)先定義好的一個或者多個類別的過程。本文根據(jù)微信公眾號發(fā)布內(nèi)容,建立分類模型進(jìn)行文本自動分類,主要采用支持向量機(SVM)、隨機森林、Boosting、最大似然的廣義線性回歸、最大熵這5種分類技術(shù)。

二、描述性統(tǒng)計

從該新聞媒體官方微信公眾號的發(fā)布內(nèi)容及其所屬類別來看,共發(fā)布了780條新聞,其中社會類新聞達(dá)到了352條,生活服務(wù)類新聞共有118條,健康類新聞有65條。因此,該新聞媒體比較關(guān)注有關(guān)社會民生、身體健康等方面的內(nèi)容,較適合普通民眾閱讀。

詞云圖是一種信息文本可視化技術(shù),可過濾掉大量的龐雜文本信息,容易看出哪些類型的關(guān)鍵詞出現(xiàn)頻率最高,從而更容易對其進(jìn)行分類。以下是對該新聞媒體的幾種具有代表性的新聞類型分別作出詞云圖,可以觀察到在某類型新聞中哪些詞出現(xiàn)的頻率較高,從而更容易對一則新的新聞進(jìn)行分類。

圖1-圖5分別展示出的是社會類新聞、生活服務(wù)類新聞、房產(chǎn)類新聞、財經(jīng)類新聞、環(huán)保類新聞。但若僅僅通過觀察來判斷一條信息屬于哪一類型,不僅工作量大且正確率有待考究,因此需要通過文本分類算法來規(guī)范化新聞的分類。由于篇幅受限未給出詞云圖。

三、實證分析

3.1文本集整合

在提取文本特征之前,要對文本做預(yù)處理,主要是對文本進(jìn)行分詞和去除停用詞處理。去除停用詞一般通過導(dǎo)入中文停用詞表來實現(xiàn),本文采用的中文停用詞表含有4545個停用詞。去除這些與主題無關(guān)的詞以后,按照實際需求選取權(quán)重最高的幾個詞匯來代表該文本的核心內(nèi)容。此外,在文本信息處理過程中,通過從搜狗細(xì)胞詞庫中選擇自定義詞典將文本中出現(xiàn)的特殊詞加進(jìn)去,有助于識別文本,提高分類的準(zhǔn)確率。

3.2提取特征文本

選取能夠反映文本類別的文本特征。各個詞匯對文本分類的影響是不同的,一些通用的或者各個類別中都普遍存在的詞匯對文本分類的影響很小,去除掉這些沒有影響力的詞匯,篩選出代表該類的特征項集合。特征提取是文本分類中的關(guān)鍵問題,它對分類精確率有很大影響。文本特征提取有很多方法,其中最常用的方法是通過詞頻選擇特征。通過詞頻計算出權(quán)重。采用TF-IDF(詞頻率-逆文檔頻率)法計算權(quán)重。

3.3利用訓(xùn)練集訓(xùn)練模型

本文選用某新聞媒體官方微信公眾號的發(fā)布內(nèi)容為研究文本,文本類別為時政、社會、頭條新聞、視頻、生活服務(wù)、財經(jīng)、科技、健康、房產(chǎn)、環(huán)保等16類。取600篇作為訓(xùn)練文本,其余180篇作為測試文本。在模型訓(xùn)練時,對訓(xùn)練文本進(jìn)行詞頻統(tǒng)計,得到詞頻統(tǒng)計矩陣,構(gòu)造不同算法對應(yīng)的分類器模型。分別是支持向量機(SVM),隨機森林(RF),Boosting,最大似然的廣義線性回歸(GLMNET),最大熵(MAXENT)這5種分類算法。

3.4利用測試集對模型測試

對于選取的180篇測試文本,根據(jù)不同的分類器模型,對測試文本進(jìn)行自動分類,以支持向量機和最大熵算法為例,得到的分類結(jié)果見表1。(藍(lán)字標(biāo)注的表示分錯的類別)

進(jìn)一步,針對這兩種算法的180篇測試文本分類結(jié)果及各個類別正確分類和錯誤分類的文本數(shù)。對應(yīng)計算出各類別的正確率。

在支持向量機SVM算法下,社會和活動這兩個類別分類的正確率相對較高,分別為81%,68%。在最大熵MAXENT算法下,社會、時政、活動、生活服務(wù)這四個類別分類的正確率分別為63%,67%,78%,66%。

3.5分類性能的比較

針對五種分類算法,采用5折交叉驗證,得到分類準(zhǔn)確率Accuracy。支持向量機(SVM)、隨機森林(RF)、Boosting、最大似然的廣義線性回歸(GLMNET)、最大熵(MAXENT)這五種算法的5折交叉驗證準(zhǔn)確率分別為0.573、0.667、0.692、0.608、0.574。這五種分類算法的準(zhǔn)確率都基本上在60%以上,其中Boosting的準(zhǔn)確率最高,近70%。Boosting算法對于此文本分類是分類性能最好的算法。

四、結(jié)論

由實證部分交叉驗證結(jié)果得到Boosting算法是此文本分類中性能最好的分類算法。Boosting算法具有速度快、簡單、編程容易、適應(yīng)性強和精度高的特點,并在進(jìn)行分類的同時能夠進(jìn)行特征選取,可以提高弱分類算法的識別率。

主站蜘蛛池模板: 99热最新网址| 精品丝袜美腿国产一区| 国产不卡国语在线| 韩国自拍偷自拍亚洲精品| 在线观看视频一区二区| 国产激情无码一区二区三区免费| 精品国产污污免费网站| 99这里只有精品免费视频| 91精品专区国产盗摄| 国产精品专区第一页在线观看| 中文字幕亚洲综久久2021| 亚洲日本中文字幕天堂网| 中文字幕在线永久在线视频2020| 日韩午夜片| 国产亚洲精品自在久久不卡| 日韩欧美视频第一区在线观看| 亚洲欧美一区二区三区麻豆| 中文无码伦av中文字幕| 午夜日本永久乱码免费播放片| 日本精品一在线观看视频| 99热国产这里只有精品无卡顿"| 欧美一级黄色影院| 91精品国产情侣高潮露脸| 国产精品熟女亚洲AV麻豆| 国产欧美日韩精品综合在线| 一级毛片不卡片免费观看| 亚洲 日韩 激情 无码 中出| 国产女人综合久久精品视| 免费人成在线观看视频色| 国产手机在线小视频免费观看| 亚洲一区国色天香| 日本91在线| 亚洲天堂免费观看| 国产成人精品免费视频大全五级 | 亚洲精品在线观看91| 喷潮白浆直流在线播放| a级毛片免费播放| 免费A∨中文乱码专区| 日韩无码视频专区| 手机在线免费不卡一区二| 亚洲综合九九| 久久精品无码一区二区日韩免费| 亚洲第一色视频| 免费国产无遮挡又黄又爽| 四虎成人在线视频| 欧美色综合网站| 亚洲成在人线av品善网好看| 91免费国产高清观看| 91麻豆精品视频| 一本大道香蕉久中文在线播放 | 久久久久久国产精品mv| 丰满人妻久久中文字幕| 欧美色视频网站| 欧美精品在线看| а∨天堂一区中文字幕| 日韩最新中文字幕| 黄色三级网站免费| 国产真实乱子伦视频播放| 国产成人精品综合| 在线国产欧美| 日韩精品久久久久久久电影蜜臀| 色成人亚洲| 97视频在线观看免费视频| 国产午夜人做人免费视频中文| 婷婷综合色| 成人午夜视频免费看欧美| 国产乱人伦AV在线A| 国产区在线观看视频| 亚洲人成色77777在线观看| 一级看片免费视频| 欧美成人午夜视频免看| 91精品情国产情侣高潮对白蜜| 欧美a级在线| 亚洲精品大秀视频| 欧美成人影院亚洲综合图| 国产在线精品美女观看| 在线看片中文字幕| av一区二区三区高清久久| 国产91高清视频| 欧美日韩一区二区三| 久久久波多野结衣av一区二区| 欧美一级夜夜爽www|