999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的中文網(wǎng)絡(luò)評(píng)論分類方法研究

2021-01-20 06:21:12劉思聰盧甘霖崔子良尹建爍西北農(nóng)林科技大學(xué)信息工程學(xué)院
數(shù)碼世界 2020年12期
關(guān)鍵詞:分類文本模型

劉思聰 盧甘霖 崔子良 尹建爍 西北農(nóng)林科技大學(xué)信息工程學(xué)院

引言

網(wǎng)絡(luò)論壇相關(guān)技術(shù)的發(fā)展,使其能夠承載更多網(wǎng)絡(luò)用戶產(chǎn)生的信息。但網(wǎng)絡(luò)評(píng)論來(lái)源的復(fù)雜性,造成了網(wǎng)絡(luò)論壇中的評(píng)論文本質(zhì)量良莠不齊。因此,對(duì)網(wǎng)絡(luò)評(píng)論文本進(jìn)行實(shí)時(shí)并且快速的分類成為了當(dāng)前比較緊迫的商業(yè)需求。

但當(dāng)前網(wǎng)絡(luò)評(píng)論文本分類的有關(guān)研究還未成熟,其亟待解決的問(wèn)題可總結(jié)為:文本分類的類別設(shè)置不全面;使用的分類算法性能不佳。為解決以上問(wèn)題,本文建立了一套較為科學(xué)的評(píng)論文本分類標(biāo)簽,提出了一套基于XGBoost算法的分類系統(tǒng)。

1 相關(guān)技術(shù)

1.1 數(shù)據(jù)獲取與預(yù)處理流程

采用網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)絡(luò)論壇上的評(píng)論信息,運(yùn)用NLTK工具集對(duì)無(wú)關(guān)信息進(jìn)行清洗,建立符合需求的評(píng)論文本數(shù)據(jù)集。

1.2 文本分詞處理流程

使用Jieba進(jìn)行中文分詞,該工具包實(shí)現(xiàn)了高效的詞圖掃描,能找出基于詞頻的最佳切分方式。

1.3 基于TF-IDF的特征提取流程

通常運(yùn)用TF-IDF提取文章的特征,具體如下:

2 XGBoost算法

該分類算法的基本思想是選擇部分樣本和特征生成一個(gè)簡(jiǎn)單模型,將其作為基本分類器。在生成新模型時(shí),學(xué)習(xí)以前模型的殘差最小化目標(biāo)函數(shù)。重復(fù)執(zhí)行,最終產(chǎn)生準(zhǔn)確率很高的綜合模型。它的目標(biāo)函數(shù) Oobj經(jīng)過(guò)泰勒公式展開(kāi)后,最終化簡(jiǎn)為

3 網(wǎng)絡(luò)評(píng)論分類系統(tǒng)的構(gòu)建

分類系統(tǒng)由文本獲取(使用網(wǎng)絡(luò)爬蟲(chóng)從網(wǎng)絡(luò)論壇抓取文本信息)、文本整理與清洗(剔除文本中的無(wú)關(guān)信息)、文本分詞(對(duì)經(jīng)過(guò)預(yù)處理的文本進(jìn)行分詞)、特征提取(對(duì)分詞后的文本建立特征矩陣)和模型訓(xùn)練(訓(xùn)練出XGboost模型)構(gòu)成。

4 實(shí)驗(yàn)驗(yàn)證

4.1 實(shí)驗(yàn)驗(yàn)證平臺(tái)

硬件平臺(tái):CPU:Intel i5 7300HQ,內(nèi)存:DDR4 12G,硬盤(pán):260G硬盤(pán);

開(kāi)發(fā)及運(yùn)行環(huán)境:操作系統(tǒng) Windows 10 OS, 編程語(yǔ)言:Python 3。

4.2 項(xiàng)目所使用數(shù)據(jù)集

首先,設(shè)定體育、健康等12類標(biāo)簽。其次,在SougoCS數(shù)據(jù)集的基礎(chǔ)上,使用網(wǎng)絡(luò)爬蟲(chóng)和手工標(biāo)注將訓(xùn)練集和測(cè)試集分別增強(qiáng)到24000條和12000條。

4.3 分類性能評(píng)判標(biāo)準(zhǔn)

使用準(zhǔn)確率,召回率和F1三個(gè)指標(biāo)作為分類器評(píng)判標(biāo)準(zhǔn),定義如下:

4.4 不同分類模型的比較

為驗(yàn)證XGBoost的分類準(zhǔn)確性,選擇Logistics、隨機(jī)森林和樸素貝葉斯三種算法,在100%數(shù)據(jù)量下,進(jìn)行比較。由表1可知,XGBoost模型的結(jié)果好于其他三種算法。其中,較排名第二的Logistics仍高出8%。

4.5 不同數(shù)據(jù)量的影響

隨機(jī)選取20%、40%、60%、80%的數(shù)據(jù)作為訓(xùn)練集。從折線圖中可以看出,隨著數(shù)據(jù)量的增加,模型的結(jié)果逐步增強(qiáng),且未出現(xiàn)明顯的下降趨勢(shì)。

表2 訓(xùn)練樣本量對(duì)XGBoost算法的影響

圖1 XGBoost在不同數(shù)據(jù)量下測(cè)試結(jié)果的變化

5 結(jié)論

(1)針對(duì)當(dāng)下分類標(biāo)簽設(shè)定不科學(xué)的問(wèn)題,可在原有基礎(chǔ)上。根據(jù)實(shí)際,設(shè)計(jì)出更精細(xì)的標(biāo)簽;然后,利用人工標(biāo)注的方法,逐步增強(qiáng)適用于網(wǎng)絡(luò)評(píng)論分類的評(píng)論語(yǔ)料。

(2)針對(duì)準(zhǔn)確率的問(wèn)題,提出了一套基于XGBoost算法的分類方法。通過(guò)與其他分類算法的比較可得:XGBoost算法的結(jié)果好于其他算法;通過(guò)在不同數(shù)據(jù)量下的測(cè)試可得:隨著訓(xùn)練樣本的增加,準(zhǔn)確率保持穩(wěn)定增長(zhǎng),未出現(xiàn)較明顯的下降趨勢(shì)。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 91精品最新国内在线播放| 一本大道视频精品人妻| 国产精品 欧美激情 在线播放| 精品久久久久久成人AV| 99久久人妻精品免费二区| 精品久久久久无码| 亚洲欧洲天堂色AV| 色婷婷丁香| 无码一区中文字幕| 尤物精品视频一区二区三区| 激情综合图区| 91亚瑟视频| 国产在线一区视频| 免费观看男人免费桶女人视频| 99精品久久精品| 久久精品女人天堂aaa| 国产69精品久久| 久久精品人人做人人综合试看 | 久久久精品无码一区二区三区| 成人精品区| av手机版在线播放| 丰满少妇αⅴ无码区| 无码国内精品人妻少妇蜜桃视频| 欧美在线网| 热re99久久精品国99热| 国产成人一二三| 国产成人区在线观看视频| 97se亚洲综合| 手机在线看片不卡中文字幕| 精品无码一区二区三区在线视频| 亚洲日韩Av中文字幕无码| 欧美不卡视频在线观看| 亚洲无码视频图片| 久久国产高潮流白浆免费观看| 日本精品αv中文字幕| 2022精品国偷自产免费观看| 女人18毛片一级毛片在线 | 美女国产在线| 亚洲人成在线精品| 亚洲高清免费在线观看| 日本在线欧美在线| 久久久国产精品免费视频| 久久精品无码国产一区二区三区| 999福利激情视频| 色综合天天视频在线观看| 国产激情在线视频| 国产91久久久久久| 国产女人在线视频| 毛片免费观看视频| 日韩在线网址| 久久伊伊香蕉综合精品| 亚洲aaa视频| 在线高清亚洲精品二区| 国产一区二区精品高清在线观看| 免费一级成人毛片| 永久免费精品视频| 国产呦视频免费视频在线观看| 黄片在线永久| a在线亚洲男人的天堂试看| 欧美亚洲日韩不卡在线在线观看| 欧美特黄一级大黄录像| 亚洲中文字幕在线精品一区| 九九久久99精品| 六月婷婷精品视频在线观看| 亚洲成A人V欧美综合| 久久国产高潮流白浆免费观看| 久久综合久久鬼| 久久久精品国产亚洲AV日韩| 国产精品午夜福利麻豆| 国内精品久久久久久久久久影视| a级毛片毛片免费观看久潮| 国产黄在线免费观看| 91九色视频网| 无码久看视频| 91精品专区| 激情网址在线观看| 精品久久高清| 成人福利在线免费观看| 亚洲黄色高清| 热九九精品| 漂亮人妻被中出中文字幕久久| 无码'专区第一页|