999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于[χ2]統(tǒng)計量的不良文本過濾特征選擇方法

2019-04-12 00:00:00管江紅
現(xiàn)代電子技術(shù) 2019年21期

摘" 要: 針對現(xiàn)有以[χ2]統(tǒng)計量為基礎(chǔ)的特征選擇方法在不良文本過濾過程中效果欠佳的問題,利用雙層分類對特征選擇方法進行改良,提出一種不良文本過濾特征選擇方法。首先通過改良逆文檔頻率來區(qū)分特征項在所屬類別類內(nèi)與其他類別之間的分布差別;其次,引入逆類別頻率彌補抑制強度;最后,加入逆上層類別頻率,清晰劃分具有較高相似度的某兩類二層類別。所改良的特征選擇方法能夠彌補現(xiàn)有[χ2]統(tǒng)計量在類內(nèi)/類間特征項分布情況判別能力的缺陷,將其應(yīng)用于不良文本過濾過程,能夠充分貼合不良文本過濾過程的特征選擇需求。通過對比評估指標(biāo)的結(jié)果,表明所提方法在不良文本過濾領(lǐng)域具有更好的效果。

關(guān)鍵詞: 特征選擇; [χ2]統(tǒng)計量; 雙層分類; 不良文本過濾; 特征項分布; 評估指標(biāo)

中圖分類號: TN911.1?34; TP18" " " " " " " " " "文獻標(biāo)識碼: A" " " " " " " " " " "文章編號: 1004?373X(2019)21?0182?05

Abstract: Since the current feature selection method based on the improved [χ2] statistics has no good effect in the process of harmful text filtering, a harmful text filtering feature selection method is proposed, in which the double?layer classification is adopted to improve the feature selection method. First, the inverse document frequency is improved to distinguish the distribution difference of the feature items in their subordinate categories and between the other categories, and then the inverse category frequency is introduced to compensate the suppression intensity. In addition, by adding the inverse super?stratum category frequency, the double?layer category with high similarity is clearly divided into two categories. The modified feature selection method can compensate the shortcomings of the existing [χ2] statistics in discriminating the intra?class/inter?class distribution of feature items. The modified feature selection method can fully meet the feature selection requirements of the harmful text filtering process when it is used in the process of harmful text filtering. The comparison results of evaluation indexes show that the proposed method has better effect in the field of harmful text filtering.

Keywords: feature selection; [χ2] statistics; double?layer classification; harmful text filtering; feature item distribution; evaluation index

0" 引" 言

不良文本過濾過程中,需要將文本表示為計算機容易處理的形式,這種表示方法既要包含足夠的信息用來反映文本的特征,又不至于太過龐大使學(xué)習(xí)算法無法處理[1]。通常所使用的文本表示方法為向量空間模型 (Vector Space Model,VSM),空間向量雖然經(jīng)過分詞過程的預(yù)處理,但其維數(shù)依舊很高,不僅會使分類時間大大延長,還會導(dǎo)致分類結(jié)果誤差加大[2]。因此,需要找到一種合適的特征選擇方法[3?4]對空間向量降維,即對特征項進行特征選擇。

特征選擇方法種類繁多且各有優(yōu)劣[5?6]。文獻[7]提出一種基于文檔頻率(DF)的特征選擇方法,其結(jié)構(gòu)簡單,但缺點也較為明顯,詞頻作為唯一的判斷標(biāo)準,會導(dǎo)致特征選擇結(jié)果過度偏向高頻詞,另外,實驗結(jié)果表明其可能導(dǎo)致部分低頻詞包含更多的特征信息。文獻[8]考慮了特征未發(fā)生的情況,提出信息增益(IG)特征選擇方法,但是在類別分布與特征項分布不均時,絕大部分的特征項不會出現(xiàn),則導(dǎo)致特征選擇不準確。文獻[9]考慮了特征項與類別的關(guān)聯(lián),提出基于互信息(MI)的特征選擇方法,但忽略了特征項出現(xiàn)的頻率,因此會導(dǎo)致特征選擇結(jié)果過度偏向低頻詞。

對于以上特征選擇方法所存在的缺陷,[χ2]統(tǒng)計方法具有極高的優(yōu)越性,但依舊存在缺陷,本文為提高不良文本過濾效果,針對其缺陷進行改進,得到更加優(yōu)化的特征選擇方法[10]。

[χ2]統(tǒng)計量方法雖然是目前文本分類中應(yīng)用效果最好的特征選擇方法之一,但不可避免地存在缺陷。主要有:降低了部分具有明確分類意義的低頻詞權(quán)重;提高了部分在其他各類別頻繁出現(xiàn),但很少出現(xiàn)在指定類別的高頻詞權(quán)重。

本文針對現(xiàn)有以[χ2]統(tǒng)計量為基礎(chǔ)的特征選擇方法在不良文本過濾過程中效果欠佳的問題,提出一種不良文本過濾特征選擇方法。所改良的特征選擇方法能夠彌補現(xiàn)有[χ2]統(tǒng)計量在類內(nèi)/類間特征項分布情況判別能力的缺陷,進而充分貼合不良文本過濾過程的特征選擇需求,從而提升不良文本過濾效果。

1" [χ2]統(tǒng)計量計算

特征選擇方法種類繁多且各有優(yōu)劣,[χ2]統(tǒng)計方法通常用來檢驗兩個變量是否獨立,一般來說,原假設(shè)為兩變量獨立,計算得到的[χ2]統(tǒng)計量值越大則說明實際與原假設(shè)越背離,則原假設(shè)成立的可能性越小,兩變量關(guān)聯(lián)性越強。在文本分類領(lǐng)域,原假設(shè)H0:特征項與該類別沒有相互影響,無關(guān)聯(lián);備擇假設(shè)H1:特征項與該類別有關(guān)聯(lián),[χ2]統(tǒng)計量越大即偏離值越大,特征項與該類別關(guān)聯(lián)度越高。若特征項與類別相互獨立,則[χ2]統(tǒng)計量為0。

特征項與類別關(guān)系表如表1所示,[A]為既包含特征項[tj]又屬于類別[Ci]的文檔頻數(shù);[B]為雖然包含特征項[tj]但不屬于類別[Ci]的文檔頻數(shù);[C]為類別[Ci]中不包含特征項[tj]的文檔頻數(shù);[D]為所有文檔中既不包含特征項[tj]又不屬于類別[Ci]的文檔頻數(shù)。

在特征選擇過程中,根據(jù)[χ2]統(tǒng)計量在類別內(nèi)對特征項由大及小降序排列,從而選出統(tǒng)計量相對較大,即與該類別相關(guān)性相對較強的特征項,因此,[χ2]統(tǒng)計量的具體數(shù)值并不重要,對于每一個類別來說,其訓(xùn)練文檔總數(shù)[N]、屬于[Ci]類文檔數(shù)[A+C]以及不屬于[Ci]類文檔數(shù)[B+D]是相同的,因此,可將式(1)簡化為:

多個類別分類過程就是將類別內(nèi)所有特征項分別計算[χ2]統(tǒng)計量,按照其數(shù)值大小排列后,有兩種特征選擇方式:選取序列靠前的[k]個特征項為最終確定的特征項集合,其中[k]可根據(jù)具體情況設(shè)定;也可以設(shè)置閾值,選取[χ2]統(tǒng)計量超過該閾值的特征項,否則舍棄。

2" 不良文本過濾特征選擇方法

2.1" 雙層分類的特征選擇方法

在文本分類過程中存在雙層分類的情況,如不良文本過濾過程。其中,將文本分為正常文本及不良文本兩大類別的過程為一層分類;兩大類別的小類細分為二層分類。不良文本過濾雙層分類示意如圖1所示。

在不良文本過濾過程中,針對[χ2]統(tǒng)計量在類內(nèi)類間特征項分布情況判別能力的缺陷,將改進后的分類特征權(quán)重值CTW(Category Term Weight)作為特征選擇的依據(jù)。CTW值計算公式為:

式中:[χ2(tj,Ci)]為特征項[tj]對于類別[Ci]的[χ2]統(tǒng)計量;IDF(Inverse Document Frequency)為改良后逆文檔頻率;ICF(Inverse Category Frequency)為逆類別頻率;ISDF(Inverse Super?stratum Document Frequency)為逆上層文檔頻率。下面對IDF值、ICF值及ISDF值的計算進行詳細介紹:

1) IDF值的計算

傳統(tǒng)IDF值公式為:

由IDF公式可知,如果包含該特征項[tj]的文檔數(shù)越多,則IDF值越趨近于0,但顯然,這沒有區(qū)分特征項在所屬類別類內(nèi)與其他類別之間的分布差別,因此,將IDF公式改進為:

式中:[N]為訓(xùn)練文檔集合總文檔數(shù);[n]為包含該特征項[tj]的文檔數(shù),[n=m+k],[m]為類別[Ci]中包含該特征項[tj]的文檔數(shù),[k]為除類別[Ci]外其他各類包含該特征項[tj]的文檔數(shù)。

式中若[m1gt;m2],則有[f(m1)gt;f(m2)],由此可知,[f(m)]與[m]為正比例關(guān)系,與[k]為反比例關(guān)系,達到對特征項類內(nèi)與類間分布情況考慮的改良,即該項IDF值滿足以下條件時獲取較大值:特征項[tj]在類別[Ci]中頻繁出現(xiàn),并且在其他類別中鮮少出現(xiàn)。

2) ICF值的計算

在訓(xùn)練文檔集合中,往往不能保證所有類別文檔數(shù)量相同,導(dǎo)致文檔數(shù)量關(guān)于類別的分布情況出現(xiàn)傾斜,而當(dāng)這種不均衡出現(xiàn)時,如某類別文檔數(shù)較少時,IDF值幾乎不能起到抑制作用,導(dǎo)致權(quán)重偏向依賴于[χ2]統(tǒng)計量,最終導(dǎo)致CTW值偏高。

因此加入逆類別頻率ICF值彌補抑制強度為:

式中:[p]為訓(xùn)練文檔集合的全部類別數(shù)量;[q]為包含特征項[tj]的類別數(shù)量。

由式(7)可知,當(dāng)包含特征項[tj]的類別越多時,ICF值越趨近于0,即該特征項[tj]的代表性越差,權(quán)重值越低。

3) ISDF值的計算

在訓(xùn)練文檔集合中,考慮到某兩類二層類別有可能具有較高的相似度,即某一特征項在其中某幾個一層其一類別部分文檔中頻繁出現(xiàn),在其他類別(包括其他一層其他類別)文檔,以及上述某幾個一層其一類別中的其他文檔中很少出現(xiàn)的情況,有可能導(dǎo)致在分類過程中,一層類別特征項被分散,使得介于兩類一層類別之間的文檔不能被識別,即不能被清晰劃定是否屬于該一層類別。

因此加入逆上層類別頻率ISDF值彌補,公式為:

式中:[N]為訓(xùn)練文檔總數(shù);[w]為包含該特征項[tj]的文檔數(shù),[w=v+l],[v]為全部一層其一類別中包含該特征項[tj]的文檔數(shù),[l]為除其他一層類別中包含該特征項[tj]的文檔數(shù)。

式中若[v1gt;v2],則有[fv1gt;fv2],由此可知[f(v)]與[v]為正比例關(guān)系,與[l]為反比例關(guān)系,該項ISDF值滿足以下情況時獲取較大值:特征項[tj]在一層其一類別中頻繁出現(xiàn),并且在其他一層類別中出現(xiàn)較少。由此,達到了模糊一層其一類別中各類別界限的目的,可提高一層類別之間的識別能力。

2.2" 基于雙層分類特征選擇的不良文本過濾

不良文本過濾技術(shù)實現(xiàn)過程可分為訓(xùn)練文本過程與測試文本過程兩個部分,總流程如圖2所示。

訓(xùn)練文本過程如圖2左側(cè)分支所示,首先,利用網(wǎng)絡(luò)爬蟲抓取一篇類訓(xùn)練文檔,進行中文文本分詞后進入樸素貝葉斯分類算法的訓(xùn)練階段,其主要目的是確定類中心向量所包含的特征項及其前驗概率與后驗概率,最后進行類別閾值的確定。

測試文本過程如圖2右側(cè)分支所示,進行中文文本分詞后生成測試文本文檔的向量空間模型表示,進入樸素貝葉斯分類器應(yīng)用階段。首先要對作為反例類別的5類分別計算測試文檔屬于該類概率,為了盡量減小分類誤差,在判斷測試文檔最可能的歸屬類別時,將類別概率與其所對應(yīng)的類別閾值作比較后取最大值,假定測試文檔屬于該類,最后,將該類別概率與其閾值進行第二次對比后,得到最終分類結(jié)果。

樸素貝葉斯算法多項式模型[P(tjCi)]采用最為常見的詞頻法計算,由于存在概率估計過低(為0)的情況,引入[m]估計([m]?estimate):

式中:[Nji]為特征項[tj]在[Ci]類所有文檔中出現(xiàn)的總次數(shù);[V]為待測試文檔[Xr]的單詞表長度(不包含重復(fù)單詞),即該文檔所包含的非重復(fù)特征項的數(shù)量。由此可知,[j=1VNji]為[Ci]類中所有特征項的總次數(shù)。

類別[Ci]類的先驗概率[P(Ci)]為:

[PCi=Ci類中訓(xùn)練文檔的全部特征項數(shù)量訓(xùn)練文檔集合的全部特征項數(shù)量] (11)

將改良后的[χ2]統(tǒng)計方法應(yīng)用于不良文本過濾過程中,ISDF值的計算公式為:

式中:[N]為訓(xùn)練文檔總數(shù);[w]為包含該特征項[tj]的文檔數(shù),[w=v+l],[v]為全部反例類別中包含該特征項[tj]的文檔數(shù),[l]為除反例類別外其他正例類別中包含該特征項[tj]的文檔數(shù)。

3" 實驗與分析

針對不良文本檢索與正常文本檢索,分別計算正確率、召回率及[F]值,使用改良前及改良后特征選擇方法的評估指標(biāo)結(jié)果如表2,表3所示。為更直觀地觀察對比情況,將數(shù)據(jù)表示為柱狀圖的形式,如圖3~圖5所示。

由圖3可知,針對不良文本檢索來看,正確率由于特征選擇方法的改良有了明顯的提高,由87.11%提高至90.33%,由此可判定通過特征選擇方法的改良能夠確定更具有類別特征的代表性項,在過濾假設(shè)類別分類過程中,提高了測試文本在假設(shè)階段更加準確,從而提高不良文本過濾技術(shù)的過濾能力,針對正常文本檢索來看,正確率也有了小幅提高,增長了1%。

由圖4可知,通過特征選擇方法的改良對召回率的影響不大,但也有小幅提升,針對不良文本檢索召回率增長4%,針對正常文本檢索召回率僅增長0.03%,幾乎不變。

由圖5可知,綜合評估指標(biāo)[F]值綜合正確率與召回率來看,特征選擇方法改良的效果較好,針對不良文本檢索[F]值由85.06%增至88.48%,針對正常文本檢索[F]值由96.43%增至97.21%。由以上結(jié)果可知,特征選擇方法改良有助于提高不良文本過濾技術(shù)的過濾功能,效果明顯。

4" 結(jié)" 語

本文針對雙層分類的特性,提出IDF,ICF及ISDF作為計算因子,對[χ2]統(tǒng)計方法進行改良,從而提出了一種新的特征選擇方法。實驗結(jié)果顯示,對特征選擇方法的改良大大增強了不良文本分類準確度,提高了分類效率。

參考文獻

[1] 林偉.中文微博輿情分類中一種改進的特征選擇方法[J].中國人民公安大學(xué)學(xué)報(自然科學(xué)版),2017,23(2):72?75.

LIN Wei. An improved feature selection method in Chinese micro?blog public opinion classification [J]. Journal of People′s Public Security University of China (Nature science edition) 2017, 23(2): 72?75.

[2] SRIDHARAN K, SIVAKUMAR P. A systematic review on techniques of feature selection and classification for text mining [J]. International journal of business information systems, 2018, 28(4): 504?518.

[3] 曾輝,唐佳麗,熊李艷,等.基于動詞名詞和CHI特征選擇的中文人物社會關(guān)系抽取[J].計算機應(yīng)用研究,2017,34(6):1631?1635.

ZENG Hui, TANG Jiali, XIONG Liyan, et al." Personal social relation extraction in Chinese based on feature selection of CHI, verb and noun [J]. Application research of computers, 2017, 34(6): 1631?1635.

[4] GHAREB A S, BAKARA A A, AL?RADAIDEH Q A, et al. Enhanced filter feature selection methods for Arabic text categorization [J]. International journal of information retrieval research, 2018, 8(2): 1?24.

[5] 張向陽,那日薩.基于復(fù)雜網(wǎng)絡(luò)的情感分類特征選擇[J].計算機應(yīng)用研究,2017(4):1000?1003.

ZHANG Xiangyang, NA Risa. Emotional classification feature selection based on complex network [J]. Application research of computers, 2017(4): 1000?1003.

[6] 李燕,衛(wèi)志華,徐凱.基于Lasso算法的中文情感混合特征選擇方法研究[J].計算機科學(xué),2018,45(1):39?46.

LI Yan, WEI Zhihua, XU Kai. Hybrid feature selection method of chinese emotional characteristics based on Lasso algorithm [J]. Computer science, 2018, 45(1): 39?46.

[7] 楊凱峰,張毅坤,李燕.基于文檔頻率的特征選擇方法[J].計算機工程,2010,36(17):33?35.

YANG Kaifeng, ZHANG Yikun, LI Yan. Feature selection method based on document frequency [J]. Computer engineering, 2010, 36(17): 33?35.

[8] 郭亞維,劉曉霞.文本分類中信息增益特征選擇方法的研究[J].計算機工程與應(yīng)用,2012,48(27):119?122.

GUO Yawei, LIU Xiaoxia. Study on information gain?based feature selection in Chinese text categorization [J]. Computer engineering and applications, 2012, 48(27): 119?122.

[9] 辛竹,周亞建.文本分類中互信息特征選擇方法的研究與算法改進機應(yīng)用[J].計算機應(yīng)用,2013,33(z2): 116?118.

XIN Zhu, ZHOU Yajian. Study and improvement of mutual information for feature selection in text categorization [J]. Journal of computer applications, 2013, 33(S2): 116?118.

[10] 閆健卓,李鵬英,方麗英,等.基于[χ2]統(tǒng)計的改進文本特征選擇方法[J].計算機工程與設(shè)計,2016, 37(5):1391?1394.

YAN Jianzhuo, LI Pengying, FANG Liying, et al. Improved method for text feature selection based on CHI [J]. Computer engineering and design, 2016, 37(5): 1391?1394.

主站蜘蛛池模板: 亚洲精品老司机| 亚洲一级毛片免费观看| 日韩一级毛一欧美一国产| 精品福利视频网| 免费无码网站| 免费中文字幕在在线不卡| 精品五夜婷香蕉国产线看观看| 亚洲欧美激情小说另类| jizz在线观看| 欧美精品不卡| 在线观看无码av免费不卡网站| 好吊妞欧美视频免费| 日本久久免费| 欧美三级视频在线播放| 亚洲国产精品日韩欧美一区| 亚洲精品成人片在线观看 | 亚洲精品成人福利在线电影| 在线无码av一区二区三区| 亚洲欧洲日韩综合| 在线亚洲精品福利网址导航| 免费一级毛片在线观看| 国产精品入口麻豆| www亚洲天堂| 久久综合亚洲色一区二区三区| 97se亚洲综合| 喷潮白浆直流在线播放| 国国产a国产片免费麻豆| 亚洲福利视频一区二区| 美女毛片在线| 999精品视频在线| 十八禁美女裸体网站| 高清亚洲欧美在线看| 精品久久综合1区2区3区激情| 欧美自慰一级看片免费| 毛片久久久| 老司国产精品视频| 噜噜噜久久| 色欲不卡无码一区二区| 亚洲欧洲国产成人综合不卡| 国产成人夜色91| 国产精品第一区在线观看| 中文字幕丝袜一区二区| 中国黄色一级视频| 国产一线在线| 在线高清亚洲精品二区| 亚洲无码高清一区二区| 久久久噜噜噜久久中文字幕色伊伊| 伊人久久大线影院首页| 91精品视频在线播放| 国产精品大白天新婚身材| 欧美在线网| 伊人激情综合| 欧美日韩国产高清一区二区三区| 91精品国产无线乱码在线| 亚洲国产亚洲综合在线尤物| 爽爽影院十八禁在线观看| 日韩精品高清自在线| 日韩午夜片| 亚洲中文精品人人永久免费| 国产成人a在线观看视频| 国产屁屁影院| 日本www色视频| 中文字幕日韩视频欧美一区| 日本五区在线不卡精品| 色综合久久综合网| 亚洲综合色在线| 久操中文在线| 一级毛片网| 久久久久九九精品影院| 99中文字幕亚洲一区二区| 国产精品精品视频| 免费国产小视频在线观看| 国产女人水多毛片18| 高清无码一本到东京热| 色偷偷男人的天堂亚洲av| 中文字幕欧美成人免费| 久久伊伊香蕉综合精品| lhav亚洲精品| 久久99国产综合精品1| 国产一级无码不卡视频| 国产一区免费在线观看| 77777亚洲午夜久久多人|