999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

詞袋模型和TF-IDF在文本分類中的比較研究

2021-11-28 02:30:43閻亞亞
電腦知識與技術 2021年28期

閻亞亞

摘要:電商市場日益完善,網絡購物成為更多人的消費方式,用戶在電商平臺上保留了大量的產品評論信息,通過人工對文本評論情感分類任務愈加艱巨,文本情感的自動分類作為自然語言處理技術的重要一門,近年來受到各界的廣泛關注。本文首先對京東網頁上爬取的某商品評論文本做預處理,重點研究詞袋模型和TF-IDF兩種文本特征選擇方法下不同文本分類算法的分類效果,研究結果表明TF-IDF下的文本分類效果顯著優于詞袋模型。

關鍵詞:詞袋模型;TF-IDF;文本分類

中圖分類號:TP391.1? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)28-0138-03

開放科學(資源服務)標識碼(OSID):

Comparative Study of Word-bag Models and TF-IDF in Text Classification

YAN Ya-ya

(Chongqing Industrial and Commercial University, Chongqing 400067,China)

Absrtact: E-commerce market is becoming more and more perfect, online shopping has become more and more people's consumption mode, users have retained a large number of product comment information on the e-commerce platform, through manual text comment emotional classification task is becoming more and more arduous. As an important natural language processing technology, text emotion automatic classification has attracted wide attention in recent years. This paper first preprocesses the text of a commodity comment crawling on the JingDong web page, focusing on the classification effect of different text classification algorithms under the word bag model and TF-IDF two text feature selection methods. The results show that the text classification effect under TF-IDF is significantly better than that of the word bag model.

Key words: word bag model; TF-IDF; text classification

隨著大數據、云技術等現代化信息技術不斷發展,電商市場也成為經濟市場的重要部分,人們開始普遍習慣網絡購物模式,很多購物平臺保留了大量用戶的評價信息,這些信息體現用戶對商品的真實購買體驗,對于新用戶來說,根據他人的評論內容決定是否購買此商品,因此,這些評論信息對新用戶的購買行為產生一定影響,同時,商家也可通過用戶評論提高相關服務水平。類似此類評論信息更新速度快,信息量大,傳統的人工文本處理不能滿足發展需求,所以自動文本分類技術日益成為時代背景下的研究熱點。

1文本分類概述及研究現狀

文本分類可以理解為按照一定的分類標準或體系使用計算機對文本集實現對文本自動打標簽的分類過程[1],文本分類的目的是將文檔集合中為止類型的文本自動識別到一個類別或幾個類別中。復旦大學李榮陸依據最大熵模型進行中文文本分類研究[2]。文本特征選取是文本分類的重要過程,ChuanWan等人提出了一種基于文本結構的SABigam算法可以對文本進行復合特征的提取[3]。徐冠華等人詳細地對文本特征提取方法做了研究,從封裝式特征選擇算法和過濾式特征選擇算法兩方面進行總結[4]。朱夢等人引入特征詞類間分布的表現力指數的特征選取算法[5]。文本分類在應用于眾多領域中,學者對于文本分類的研究逐漸深入,文本自動分類技術愈加成熟。

2相關工作

本文為研究詞袋模型和TF-IDF進行文本特征選擇處理方法對文本分類效果的不同,設計了以下總體框架如圖1所示。

2.1文本采集及預處理

2.1.1文本采集

本文使用八爪魚采集器,從京東商品網頁上隨機獲取某商品的文本評論內容,將數據集保存在excel表格中,每條評價內容對應相應的評價態度,對應為1-5星,5星為評價最好的星級,這里采用人工打標簽方式將星級劃分為兩種情感態度,其中1-2級為差評,3-5級為好評。

2.1.2文本預處理

首先對采集到的文本數據進行去重、刪除異常樣本處理,得到有效樣本2566條,其中好評2083條,差評483條,并采用jieba分詞工具進行分詞,將文本中的停用詞剔除;其次拆分訓練集和測試集,得到訓練樣本1924條,測試樣本642條。

2.2文本表示

文本是由詞和短語構成的符號序列。要將自然語言處理問題轉化成機器可學習的數學模型,首先要對詞和文本進行向量化建模,即將自然語言轉化為向量,這一過程叫做文本表示。

主站蜘蛛池模板: 91久久偷偷做嫩草影院电| 久久精品国产免费观看频道| 国内熟女少妇一线天| 亚洲精品欧美日本中文字幕| 亚洲中文字幕久久无码精品A| 亚洲精品日产精品乱码不卡| 欧美亚洲国产一区| 精久久久久无码区中文字幕| 亚洲第一视频网站| 日韩中文精品亚洲第三区| 人妻一区二区三区无码精品一区| 国产精品黑色丝袜的老师| 97se亚洲综合在线天天| 99久久精品国产自免费| 婷婷激情亚洲| 伊人中文网| 国产高清在线观看| 全午夜免费一级毛片| 日本国产精品| 国产日韩精品一区在线不卡| 国产成人综合网在线观看| 久久青草精品一区二区三区| 尤物精品国产福利网站| 日韩大片免费观看视频播放| 国产精品熟女亚洲AV麻豆| 一级片一区| 日韩毛片基地| 91一级片| 国产专区综合另类日韩一区| 国产免费看久久久| 中国丰满人妻无码束缚啪啪| 成·人免费午夜无码视频在线观看| 欧美亚洲另类在线观看| 伊人久久综在合线亚洲2019| 国产jizz| av免费在线观看美女叉开腿| 欧美日本一区二区三区免费| 青青极品在线| 精品无码一区二区在线观看| 首页亚洲国产丝袜长腿综合| 日本三级欧美三级| 欧美精品v欧洲精品| 97se亚洲综合在线韩国专区福利| 一级毛片免费观看不卡视频| 国产一级妓女av网站| 成年人视频一区二区| 久久黄色影院| 中文字幕av一区二区三区欲色| 国产精品人成在线播放| V一区无码内射国产| 不卡国产视频第一页| 国产精品一区二区久久精品无码| 在线观看国产黄色| 少妇人妻无码首页| 日韩天堂网| 最新亚洲人成网站在线观看| 高清欧美性猛交XXXX黑人猛交 | 人人爱天天做夜夜爽| 婷婷成人综合| 少妇精品网站| 老司机精品一区在线视频 | 91香蕉视频下载网站| 国产尤物视频网址导航| 四虎精品国产AV二区| 国产一区二区人大臿蕉香蕉| 2021最新国产精品网站| 114级毛片免费观看| 欧美国产中文| 欧美翘臀一区二区三区| 婷婷六月色| 欧美日韩导航| 色屁屁一区二区三区视频国产| 黄色网址免费在线| 国产乱人伦AV在线A| 国产精品尤物铁牛tv| 国产美女无遮挡免费视频网站| 一级毛片免费的| 国产欧美精品一区aⅴ影院| 亚洲福利视频一区二区| 国产视频a| 素人激情视频福利| 波多野结衣在线一区二区|