999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本分類方法研究

2019-05-24 14:11:40李凱
電腦知識與技術(shù) 2019年4期

李凱

摘要:由于現(xiàn)實(shí)生活中大多數(shù)信息被存儲為文本,因此文本挖掘具有在商業(yè)上的高潛在價(jià)值。實(shí)際應(yīng)用中可以從許多信息來源中挖掘知識,然而,非結(jié)構(gòu)化文本仍然是最容易獲得的知識來源。該文介紹了文本分類的過程以及對三種分類器的概述,并在最后對三種分類器分別實(shí)驗(yàn),以及對實(shí)驗(yàn)結(jié)果分析得知本實(shí)驗(yàn)環(huán)境下支持向量機(jī)分類器的分類效果要好于另外兩種分類器。

關(guān)鍵詞:文本分類;文本表示;特征選擇;權(quán)重;文本分類器

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2019)04-0242-03

Abstract: Since most of the information in real life is stored as text, text mining has high commercial potential. In practice, knowledge can be mined from many sources of information, however, unstructured text is still the most accessible source of knowledge.This paper introduces the process of text classification and the overview of the three classifiers. Finally, the experiments of the three classifiers and the analysis of the experimental results show that the classification effect of the support vector machine classifier is better than the other two classifiers.

Key words: text classification;text representation;feature selection;weightstext classifier

自數(shù)字文檔開始以來,自動文本分類一直是一個(gè)重要的應(yīng)用和研究課題。文本分類(text categorization)是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識別這三個(gè)學(xué)科在某一具體領(lǐng)域應(yīng)用的結(jié)合。由于我們每天都要處理大量的文本文檔,因此,對文本分類的研究是十分有必要的。

1文本分類的一般過程

文本分類的任務(wù)可以近似為一個(gè)未知的目標(biāo)函數(shù)Φ:D×C→{T, F},其中,D={[d1],[d2],…,[d|D|]}是一個(gè)文檔的領(lǐng)域,C={[c1],[c2],…,[c|C|]}是一組預(yù)定義的類別。對于<[dj],[ci]>來說T值與F值分別表示文檔[dj]是否屬于類[ci][1]。

2文本預(yù)處理

文本預(yù)處理的主要任務(wù)是首先對中文文本進(jìn)行分詞處理,然后再刪除停用詞。由于中文中的單詞之間沒有像英文單詞間可以利用空格作為明顯的分割標(biāo)記,因此首先要對文本進(jìn)行分詞處理[2]。

中文分詞方法主要方法以及分詞方法之間的比較如表1表示。

3文本表示

5文本分類算法

5.1樸素貝葉斯分類器

樸素貝葉斯分類器(NB)是一種基于貝葉斯定理的概率分類器,具有強(qiáng)大的獨(dú)立性假設(shè)。它被認(rèn)為是最基本的文本分類技術(shù)之一,在垃圾郵件檢測、個(gè)人郵件分類、文檔分類、語言檢測和情感檢測等方面有著廣泛的應(yīng)用。貝葉斯分類器計(jì)算量小,訓(xùn)練數(shù)據(jù)量小,是一種高效的分類器[4]。

5.2基于支持向量機(jī)的分類器

基于支持向量機(jī)(SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)算法。SVM通常被用于解決線性約束凸二次規(guī)劃問題(QP),并且該解決方案具有唯一的最優(yōu)超平面,它的最終目標(biāo)是找到這樣的最優(yōu)的高維分類超平面。

5.3 k-最近鄰法

k-最近鄰法(KNN)是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,它預(yù)先存儲所有可用的樣本,并基于相似性度量(如距離函數(shù))對新的樣本進(jìn)行分類。KNN算法是基于空間中接近的點(diǎn)(文檔)屬于同一類的原則。

6文本分類性能評測

常用的文本分類器性能評價(jià)方法有召回率(Recall),準(zhǔn)確率(Precision),F(xiàn)-度量值等。

7 實(shí)驗(yàn)結(jié)果與分析

本實(shí)驗(yàn)的數(shù)據(jù)采用搜狗新聞數(shù)據(jù)集,該數(shù)據(jù)集一共有10類新聞,每類新聞60000條文本數(shù)據(jù),其中訓(xùn)練集取90%,測試集取10%。本實(shí)驗(yàn)文檔都是以空間向量的形式表示并且采用信息增益法與TF-IDF權(quán)值法來進(jìn)行特征選擇與特征權(quán)重的計(jì)算。我們從預(yù)處理好的文本中提取80%作為訓(xùn)練文本集,20%作為測試文本集, 分別將文本集投入樸素貝葉斯分類器(NB)、支持向量機(jī)分類器(SVM)、k-最近鄰分類器(KNN)三種分類器中進(jìn)行三組實(shí)驗(yàn)。為了評估短文本分類系統(tǒng)的性能,評估方法選擇了傳統(tǒng)的評估標(biāo)準(zhǔn):準(zhǔn)確率P、召回率 R ,以及兩者的綜合評價(jià) F-度量值。實(shí)驗(yàn)結(jié)果如表2:

從上表來看, 準(zhǔn)確率在整體上是要明顯高于召回率。KNN分類器的準(zhǔn)確率最高, SVM分類器的召回率最高。從宏平均F-度量值上看, 樸素貝葉斯分類器和K-最近鄰分類器在分類效果上相差較小。支持向量機(jī)分類器在分類效果上較優(yōu)于另外兩種分類器。文本分類的過程中在數(shù)據(jù)預(yù)處理時(shí)采取的分詞方法和特征選擇方法對分類效果是有直接影響的,因此上述結(jié)論不是絕對的。

8結(jié)語

本文主要分析了文本分類的過程并在最后描述了分類器性能評價(jià)并從實(shí)驗(yàn)上進(jìn)行比較。通常情況下,不能將單個(gè)文本表示方法和分類器作為任何通用的模型。應(yīng)根據(jù)數(shù)據(jù)的特征,選擇相應(yīng)的文本表示方法和分類器,以此來確保分類結(jié)果達(dá)到預(yù)期的效果。

參考文獻(xiàn):

[1] 宗成慶.統(tǒng)計(jì)自然語言處理[M].清華大學(xué)出版社,2013.

[2] 林少波.中文文本分類特征提取方法的研究與實(shí)現(xiàn)[D].重慶大學(xué),2011.

[3] 奉國和.文本分類性能評價(jià)研究[J].情報(bào)雜志,2011,30(8):66-70.

[4] YAN Rui, CAO Xian-bin, LI Kai, Dynamic Assembly Classification Algorithm for Short Text[J].ACTA ELECTRONICA SINICA,2009,37(5):1019-1024.

[5] 申紅,呂寶糧,內(nèi)山將夫,等.文本分類的特征提取方法比較與改進(jìn)[J].計(jì)算機(jī)仿真,2006(3):222-224.

【通聯(lián)編輯:唐一東】

主站蜘蛛池模板: 日韩无码视频播放| 日韩欧美中文字幕在线精品| 国产伦片中文免费观看| 国产 在线视频无码| 亚洲VA中文字幕| 国内熟女少妇一线天| 日韩国产一区二区三区无码| 无码人妻热线精品视频| 精品人妻系列无码专区久久| 国产成人1024精品| 久夜色精品国产噜噜| 人妻一区二区三区无码精品一区| 国产精品美女自慰喷水| 久久国产精品电影| 日本黄色不卡视频| 亚洲成人黄色网址| 香蕉视频在线观看www| 国产美女视频黄a视频全免费网站| 狠狠亚洲婷婷综合色香| 欧美午夜在线视频| 在线中文字幕网| 久久这里只有精品国产99| 亚洲视频免费播放| 国产在线一区视频| 国产女人爽到高潮的免费视频| 精品亚洲欧美中文字幕在线看| 99久久婷婷国产综合精| 成人在线亚洲| 国产成人精品午夜视频'| 全部免费毛片免费播放| 日韩精品一区二区三区免费| 全部毛片免费看| 亚洲最新在线| 国产无套粉嫩白浆| 国产成人精品一区二区不卡| 亚洲人成网站18禁动漫无码| 亚洲日本韩在线观看| 狠狠五月天中文字幕| 91色国产在线| 精品国产美女福到在线不卡f| 亚洲码在线中文在线观看| 亚洲国产天堂久久九九九| 国产精品青青| 成人精品亚洲| 六月婷婷精品视频在线观看| 青草国产在线视频| 国产精品视频观看裸模| 欧美在线一二区| 亚洲AV一二三区无码AV蜜桃| 日韩欧美一区在线观看| 亚洲一级毛片在线播放| 欧美另类第一页| 国产三级精品三级在线观看| 亚洲一区毛片| 日本免费新一区视频| 91精品综合| 在线免费观看a视频| 亚洲成年人网| 91精品久久久无码中文字幕vr| 国产精品福利社| 青青操国产| 精品无码一区二区三区电影| 99视频在线免费| 一级做a爰片久久毛片毛片| 制服无码网站| 国产1区2区在线观看| 国产AV无码专区亚洲精品网站| 性视频久久| 欧美一区二区啪啪| 高清不卡毛片| 国产资源站| 性色生活片在线观看| 久久天天躁夜夜躁狠狠| 日韩天堂视频| 欧美第二区| 天堂在线www网亚洲| 亚洲日韩日本中文在线| 国产精品冒白浆免费视频| 日韩欧美国产综合| 亚洲婷婷在线视频| 国产高清免费午夜在线视频| 日韩在线永久免费播放|