999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)頁分類中特征選擇方法的研究

2016-09-13 09:27:42唐喆曹旭東
電子設(shè)計工程 2016年5期
關(guān)鍵詞:分類特征文本

唐喆,曹旭東

(中國石油大學(北京)地球物理與信息工程學院,北京 102249)

網(wǎng)頁分類中特征選擇方法的研究

唐喆,曹旭東

(中國石油大學(北京)地球物理與信息工程學院,北京102249)

準確的網(wǎng)絡(luò)分類對于健康的網(wǎng)絡(luò)環(huán)境至關(guān)重要,本文基于這樣的目的,采用了效果理想SVM分類技術(shù),考慮到不同的特征選擇方法造成的分類結(jié)果的差異,分別在相同和不同的分類樣本的條件下測試了4種特征選擇方法,研究得出TFIDF方法的突出優(yōu)點,并總結(jié)了合適的特征選擇方法對于應用到不同的分類系統(tǒng)的重要性。

文本分類;SVM;特征選擇;TFIDF

支持向量機SVM[1]是一種可訓練的機器學習方法,它對小樣本進行學習,得到一個分類函數(shù),再將待測文本代入此分類函數(shù)中判定文本所屬的類別。SVM的特點是:SVM可以通過映射把低維樣本空間映射到高維特征空間中,成功地將非線性可分問題轉(zhuǎn)化為線性可分的問題,并且在特征空間中構(gòu)造線性函數(shù),實現(xiàn)對文本的自動分類。SVM將非線性問題轉(zhuǎn)化成線性可分問題,巧妙地解決維災難和過學習現(xiàn)象。特征選擇是整個分類模塊中的重要部分,選擇合適的特征提取方法對分類的效果有很大的影響。

1 分類算法比較

如表1,從表1的結(jié)果可以得出:選擇每一種分類算法的時候要從樣本量的大小、樣本數(shù)據(jù)的維度、樣本數(shù)據(jù)的線性可分情況3種情況來考慮,對不同形式的訓練樣本采用不同的分類算法會大大提高分類的效率和準確率,節(jié)省開銷。

基于本論文所處理的分類數(shù)據(jù)是web文本,而SVM分類算法處理非線性和高維度的數(shù)據(jù)能力強,從樣本量的大小和數(shù)據(jù)維度兩方面來考慮,選擇了SVM分類算法。

它具有以下3個特點:

第一,SVM可以避免“維數(shù)災難”,其最終決策函數(shù)僅僅是由少數(shù)的支持向量來確定,它的計算困難程度由支持向量的數(shù)目決定,與樣本空間特征的維數(shù)無關(guān)。

第二,SVM擁有“魯棒”性,只需通過少數(shù)樣本特征,即關(guān)鍵特征,來實現(xiàn)分類,所以“剔除”了大多數(shù)冗余樣本信息。

第三,SVM擁有堅固的理論基礎(chǔ),通過新的高效的統(tǒng)計方法,來預測樣本類別,使實現(xiàn)分類的原理和過程得到簡化。

表1 5種分類算法優(yōu)缺點比較Tab.1 The advantages and disadvantages compared five classification algorithm

2 文本預處理

文中選用了能夠?qū)崿F(xiàn)SVM算法的LABSVM軟件平臺,經(jīng)過人工標注的樣本數(shù)據(jù)不能滿足LABSVM分類器的格式要求,樣本數(shù)據(jù)不能識別,我們要通過樣本的預處理將數(shù)據(jù)轉(zhuǎn)化成分類器能識別的格式[2]。

2.1文本分詞

分詞方法因為語種的不同而不同,一般的分詞方法有3種:基于理解的分詞方法,基于詞典的分詞方法和基于統(tǒng)計的分詞方法。

2.2特征選擇

經(jīng)過文本分詞處理以后,要進行特征選擇標記相關(guān)的文檔。文本特征是指對文本主題歸類貢獻較大的具有實際意義的詞。通過選取這些特征,可以構(gòu)造出更精確的模型[3]。

特征選擇方法有很多,譬如:TFIDF、信息增益、互信息,卡方等,其中最著名的是TFIDF算法。特征選擇是網(wǎng)頁分類過程中的關(guān)鍵技術(shù)。特征選擇的過程實質(zhì)上是一個從特征集合中選取特征子集的過程。

3 特征選擇方法

3.1TFIDF

TF-IDF算法[4]是依據(jù)詞或者短語在文本中出現(xiàn)的頻率為測度,以此來判斷該特征詞區(qū)別不同類別文本的能力大小的一種方法。TF-IDF算法的假設(shè)基礎(chǔ):對區(qū)別文檔作用比較大的特征詞語應該是那些在分類文檔中出現(xiàn)頻率高,而在整個文檔集合的其他文檔中出現(xiàn)頻率少的詞語。

詞頻TF是指一個特征詞在某個文檔中出現(xiàn)的次數(shù)。

反向詞頻IDF是指在所有文本的集合中,特征詞出現(xiàn)的次數(shù)。

TF-IDF方法的計算公式如下。

3.2信息增益

信息增益(IG)[5]是用來衡量某個文本中的某個詞語是否被當選為特征項的標準。從信息論角度來講,當用IG進行特征選擇時,以各個特征項取值情況來劃分學習樣本空間,如果某個詞出現(xiàn)對判斷某個文本屬于某個類別的信息量大,則該詞就被選為特征項,否則不被當選為特征項。評價函數(shù)為:

其中,P(Ci|t)表示文本中出現(xiàn)某個特征t時,文本屬于類別Ci的概率;表示文本中不出現(xiàn)某個特征t時,文本屬于類別Ci的概率;P(Ci)表示類別出現(xiàn)的概率;P(t)表示特征t在整個訓練文本集中出現(xiàn)的概率。

3.3互信息

互信息(MI)[6]:在進行特征選擇時,互信息是用來衡量t特征和類別Ci之間的相關(guān)程度的。具有較高的互信息的特征項是在某個類別Ci中出現(xiàn)的概率高而在其它類別中出現(xiàn)概率低的特征t,其評價函數(shù)為:

但是互信息存在一個很大的缺點就是當兩個詞語具有相同的條件概率P(t|Ci)時,出現(xiàn)次數(shù)多的詞語會比出現(xiàn)次數(shù)少的詞語具有較小的MI值。

3.4卡方法

卡方(χ2)統(tǒng)計法[7]:在進行特征選擇時,用χ2統(tǒng)計法來衡量詞語與類別之間的相關(guān)性,它基于的假設(shè)如下:在某個類別中出現(xiàn)頻率高的詞語對判斷該文本的類別有幫助。其評價函數(shù)為:

4 分類性能評估

在文本分類中如何對分類結(jié)果進行評價至關(guān)重要,對單個類的分類性能評估指標:對單個類的分類性能的評估中普遍使用的分類性能評估指標有召回率和查準率[8]。下面使用鄰接表來表示準確率和召回率。如表2所示。

表2 二值分類鄰接表Tab.2 Binary classification adjacency list

查準率用公式表示如下:

召回率用公式表示如下:

采用性能評價方法是Fβ,F(xiàn)β將召回率和查準率結(jié)合起來,其計算公式為:

其中,β一個調(diào)整召回率和查準率權(quán)重的參數(shù),即當β=1時,召回率和查準率同等重要;

5 實驗結(jié)果分析

我們從互聯(lián)網(wǎng)抓取網(wǎng)頁,實驗將對于6個類別進行,保證訓練集與測試集的樣本不重疊。為了考察不同的特征選擇方法對準確率的影響,我們觀察對同一個類別的網(wǎng)頁的分類準確率。實驗條件見表3。

表3 各類文本分布表Tab.3 All kinds of text distribution table

實驗方案:

1)對已經(jīng)抽取的樣本數(shù)據(jù)進行樣本訓練與分類預測。

2)在原有的訓練集內(nèi)增加1 000條人工標注的網(wǎng)頁,其中體育類為50%,再對樣本數(shù)據(jù)進行訓練。

3)在第二次實驗的基礎(chǔ)上,在訓練集內(nèi)增加1 500條人工標注的網(wǎng)頁,其中體育類占50%,再進行訓練。

實驗結(jié)果見表4,表5和表6。

從表4,表5和表6可以得出結(jié)論:

表4 方案1的分類結(jié)果Tab.4 Classification results of Plan 1

表5 方案2的分類結(jié)果Tab.5 Classification results of Plan 2

表6 方案3的分類結(jié)果Tab.6 Classification results of Plan 3

1)對樣本量相對較小且樣本特征不明顯的樣本可以選擇TFIDF和卡方特征選擇算法;

2)對樣本量相對較大且樣本特征較明顯的樣本可以選擇互信息和信息增益特征選擇算法;

3)對樣本量較大且特征很明顯的樣本四組特征選擇的算法都能提高分類的準確率;

6 結(jié)束語

通過對不同數(shù)量的測試文本集合進行分類訓練,研究得出在文本分類方案的預處理過程中,可以針對樣本的特征和樣本量的大小來選擇特征提取的算法,無論樣本量的大小還是樣本特征明顯與否,TFIEF方法相較與其他3種常用分類方法更為適用。

[1]匡春臨,夏清強.基于SVM—KNN的文本分類算法及其分析[J].計算機時代,2010(8):29-31.

[2]郝春風,王忠民.一種用于大規(guī)模文本分類的特征表示方法[J].計算機工程與應用,2007,43(15):170-172.

[3]陸景輝.基于信息理論的特征選擇算法研究 [D].北京:北京交通大學,2007.

[4]許曉昕,李安貴.一種基于TFIDF的網(wǎng)絡(luò)聊天關(guān)鍵詞提取算法[J].計算機技術(shù)與發(fā)展,2006(3):122-123.

[5]秦進,陸汝占.文本分類中的特征提取[J].計算機應用,2003(2):45-46.

[6]王濤,何聚厚,張嬌艷.Naive Bayes郵件過濾模型的特征詞選取方法研究[J].航空計算技術(shù),2008(2):131-134.

[7]張治國.中文文本分類反饋學習研究[D].西安:西安電子科技大學,2009.

[8]劉懷亮.基于SVM與KNN的中文文本分類比較實證研究[D].西安:西安電子科技大學,2008.

Research of feature selection methods of web page classification system

TANG Zhe,CAO Xu-dong
(The Earth Physics and Information Engineering Institute,China University of Petroleum(Beijing)Beijing 102249,China)

Accurate classification for a healthy network environment is of crucial importance.Based on the above background,we choose an ideal effect of the SVM classification technique.Considering the different feature selection methods of the classification results of difference,respectively under the condition of the same and different classification samples tested four feature selection methods,research the prominent importance of TFIDF.And we include that selecting the appropriate feature selection method for application to the different classification system is very important.

text classification;SVM;feature selection;TFIDF

TN91

A

1674-6236(2016)05-0120-03

2015-03-27稿件編號:201503391

唐 喆(1990—),女,江蘇泰州人,碩士研究生。研究方向:信息安全,數(shù)據(jù)挖掘。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 露脸一二三区国语对白| 456亚洲人成高清在线| 99久久精品视香蕉蕉| 高h视频在线| 手机成人午夜在线视频| 狠狠躁天天躁夜夜躁婷婷| 99一级毛片| 熟女成人国产精品视频| 国产精品部在线观看| 亚卅精品无码久久毛片乌克兰| 国产日产欧美精品| 自慰网址在线观看| 经典三级久久| 国产精女同一区二区三区久| 国产丰满大乳无码免费播放| 九色视频最新网址| 国产伦片中文免费观看| 亚洲va视频| 欧美在线一二区| 久草中文网| 又黄又爽视频好爽视频| 97狠狠操| 亚洲精品视频网| 亚洲狼网站狼狼鲁亚洲下载| 99re视频在线| 亚洲日韩高清无码| 欧美伦理一区| 日本久久网站| 免费毛片全部不收费的| 欧美日本二区| 视频二区国产精品职场同事| 亚洲天堂免费| 免费人成在线观看成人片| 97视频免费看| 国产剧情国内精品原创| 国产人人干| 一级成人a做片免费| 国产99免费视频| 亚洲AV成人一区国产精品| 韩国v欧美v亚洲v日本v| 2020国产在线视精品在| 久久人搡人人玩人妻精品 | 亚洲日韩精品无码专区97| 日本免费a视频| 91麻豆国产视频| 国产白丝av| 另类欧美日韩| a级毛片在线免费观看| 免费不卡在线观看av| 热99精品视频| 亚洲专区一区二区在线观看| 欧美日韩北条麻妃一区二区| jizz在线观看| 国产在线自在拍91精品黑人| 特级aaaaaaaaa毛片免费视频| 91精品综合| 一级毛片免费高清视频| 丁香婷婷激情网| 伊人AV天堂| 欧美午夜在线视频| 国产一级毛片高清完整视频版| 国产女人爽到高潮的免费视频| 欧美97色| 国产九九精品视频| 久久人搡人人玩人妻精品| 亚洲热线99精品视频| 婷婷午夜影院| 欧美日韩一区二区三区四区在线观看| 污污网站在线观看| 高清大学生毛片一级| 精品国产成人三级在线观看| 久久精品中文无码资源站| 在线精品亚洲一区二区古装| 亚洲日本韩在线观看| 亚洲国产精品不卡在线| 国产精品视频观看裸模| 毛片一级在线| 亚洲AⅤ综合在线欧美一区| 欧美另类精品一区二区三区| 亚洲无码熟妇人妻AV在线| 美女免费黄网站| 欧美日韩激情|