999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于包含度和頻繁模式的文本特征選擇方法

2018-09-18 09:19:24池云仙趙書良李仁杰
中文信息學(xué)報 2018年8期
關(guān)鍵詞:關(guān)聯(lián)特征文本

池云仙, 趙書良, 李仁杰

(1. 河北師范大學(xué) 資源與環(huán)境科學(xué)學(xué)院,河北 石家莊 050024;2. 河北師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北 石家莊 050024)

0 引言

文本數(shù)據(jù)維度在大數(shù)據(jù)時代下呈迅猛增長趨勢。在影響數(shù)據(jù)挖掘性能的各因素中,特征選擇成為其中至關(guān)重要的環(huán)節(jié)之一。特征選擇通過提取特征子集來有效縮小高維特征空間,可有效提高數(shù)據(jù)挖掘性能,故各領(lǐng)域?qū)W者均致力于特征選擇方法的研究。Zhao等基于特征選擇算法“保留樣本相似性”的共同點,提出一種通用的相似性保留特征選擇框架[1]。Zhuang等提出基于主題模型進行特征選擇以提高模型預(yù)測性能的ssLDA模型[2]。Song等提出基于圖論聚類模型的高維數(shù)據(jù)子類劃分與關(guān)聯(lián)特征子集速選方法[3]。Li等提出基于文檔與特征關(guān)聯(lián)性的關(guān)聯(lián)特征選擇方法[4]。張延祥等針對數(shù)據(jù)不平衡問題提出基于類別區(qū)分力的文本特征選擇方法DA[5]。

“基于詞語”的特征選擇方法,因其被“同義詞、一詞多義及噪聲詞語”等問題所困擾,特征提取效率大打折扣。相比之下,“基于模式”方法憑借“保留詞語間關(guān)聯(lián)性”的優(yōu)勢,很好地克服了以上問題。它可以在從“數(shù)據(jù)”中高效挖掘“知識”的同時,有效減輕“數(shù)據(jù)爆炸”問題帶給大數(shù)據(jù)時代的困擾。作為數(shù)據(jù)挖掘領(lǐng)域的重點與熱點,“基于模式”研究已擴展至諸多領(lǐng)域。Gao等提出基于主題最大匹配模式的文檔過濾模型MPBTM,依托用戶所需信息與模式間的關(guān)聯(lián)度去除不相關(guān)文檔[6]。Zhao等提出基于未確定數(shù)據(jù)庫的潛在頻繁序列模式挖掘方法[7]。Kessl提出基于概率性平衡負載的并行頻繁序列模式挖掘方法[8]。Pumjun等提出基于動態(tài)數(shù)據(jù)庫調(diào)整支持度閾值的多級關(guān)聯(lián)規(guī)則挖掘模型MLUPCS[9]。Zhang等提出基于馬爾科夫性質(zhì)的DNA序列模式挖掘模型[10]。Turdi等結(jié)合維吾爾文間關(guān)聯(lián)規(guī)則進行頻繁模式挖掘,進而實現(xiàn)語義串快速抽取[11]。

“通過最優(yōu)化特征排序標準來進行特征排序與選擇”的思想是大多特征選擇方法的共同特點,但由此產(chǎn)生的“相關(guān)特征排序相近”的特征冗余問題嚴重影響文本挖掘效率。因此,將冗余特征進行去噪處理將明顯提升文本挖掘性能。Ding等提出基于貪心算法的連續(xù)特征選擇冗余最小化方法mRMR[12]。Wang等提出基于全局冗余最小化的整體局部差異化特征選擇方法[13]。

事物間的“差異性”和“不確定性”是普遍存在的,而這種“相似程度”和“不定關(guān)系”通常用包含度原理進行描述。Gong等提出基于模糊集包含度的非參數(shù)統(tǒng)計模型[14]。Ma等在模糊粗糙集的基礎(chǔ)上提出包含度與相似度計算的通用模型[15]。Liu等提出基于最大包含度原理的樣本決策表分類方法[16]。李陽等基于知識圖譜提出一種通用的實體相似性度量方法[17]。

為擴充基于頻繁模式的文本特征選擇方法在文本挖掘領(lǐng)域的應(yīng)用,提出基于包含度和頻繁模式的文本特征選擇方法TFSIDFP。TFSIDFP方法利用頻繁模式詞語間的關(guān)聯(lián),有效避免了“基于詞語”方法的噪聲問題影響;同時,利用包含度原理可以對文本中的冗余頻繁模式進行過濾,有效提高了模式提取效率及特征選擇性能。

后續(xù)內(nèi)容為: 第一節(jié)介紹基于包含度和頻繁模式進行文本特征選擇的模型框架;第二節(jié)詳細介紹基于包含度和頻繁模式的文本特征選擇方法;第三節(jié)為實驗;第四節(jié)為全文總結(jié)。

1 模型框架

基于包含度和頻繁模式進行文本特征選擇,旨在基于包含度原理過濾掉文本中的冗余頻繁模式,并在經(jīng)過優(yōu)化處理后的非冗余文本頻繁模式基礎(chǔ)上進行文本特征選擇。該框架主要分為以下幾部分:

(1) 文本頻繁模式挖掘: 利用FP-Growth算法挖掘文本中所有頻繁模式;

(2) 冗余文本頻繁模式過濾: 基于包含度原理,度量文本頻繁模式間的相似性,將子模式和相似度高于閾值的交叉模式進行去冗余操作;

(3) 非冗余文本頻繁模式特征選擇: 基于過濾后的非冗余頻繁模式,進行文本特征選擇,并利用特征與文檔的關(guān)聯(lián)度進行詞語類別劃分及權(quán)重分配;

(4) 文本分類: 利用所選擇的特征詞語進行文本分類。

基于包含度和頻繁模式的文本特征選擇流程圖如圖1所示。

圖1 基于包含度和頻繁模式的文本特征選擇流程圖

2 基于包含度和頻繁模式的文本特征選擇方法

文本頻繁模式挖掘過程中會不可避免地產(chǎn)生大量冗余模式。例如,較長文本頻繁模式所蘊含的子模式集合以及與該文本頻繁模式相似的交叉模式集

合,對于同一類別主題而言,往往是冗余的。冗余模式會嚴重制約文本挖掘性能。因此,為提高文本分類運行效率,本文提出基于包含度和頻繁模式的文本特征選擇算法TFSIDFP。首先,提出基于包含度的相似性度量原理;然后,提出基于包含度的冗余文本頻繁模式過濾方法;最后,提出基于關(guān)聯(lián)度的文本特征選擇方法。

2.1 基于包含度的相似性度量原理

“包含度”概念源于真實世界中信息的“不完整性”。這種“不完整性”無法用經(jīng)典邏輯問題的兩個絕對標準(“相等”和“不相等”)度量,由此便衍生出包含度理論。

冗余模式產(chǎn)生問題在挖掘文本頻繁模式的過程中無法規(guī)避。這不僅影響模式挖掘效率,還會間接制約文本特征選擇性能?;诎壤碚搶Υ攘康奈谋绢l繁模式進行評估,先過濾掉相似度超過預(yù)定閾值的冗余模式,可有效地縮減文本頻繁模式集合的規(guī)模,進而提高文本頻繁模式的挖掘性能。首先,定義“包含度”和“相似度”的概念;然后,提出并證明基于包含度的相似性度量原理的性質(zhì)。

定義1包含度(InclusionDegree) 設(shè)論域Dom_Dis有兩個子集Dom_SubA和Dom_SubB,即Dom_SubA,Dom_SubB?Dom_Dis。 若存在IDDom_SubB/Dom_SubA滿足下述三個性質(zhì):

(Ⅰ) 非負性: 0≤ID(Dom_SubB/Dom_SubA)≤1;

(Ⅱ) 規(guī)范性: 當Dom_SubA?Dom_SubB時,IDDom_SubB/Dom_SubA=1;

(Ⅲ) 傳遞性: 當Dom_SubA?Dom_SubB?Dom_SubC時,有IDDom_SubA/Dom_SubC≤IDDom_SubA/Dom_SubB。

則稱IDDom_SubB/Dom_SubA為Dom_SubB包含Dom_SubA(或Dom_SubA包含于Dom_SubB)的包含度。

定義2相似度(SimilarityDegree) 設(shè)論域Dom_Dis有兩個子集Dom_SubA和Dom_SubB,即Dom_SubA,Dom_SubB?Dom_Dis。 若存在SD(Dom_SubA,Dom_SubB)滿足下述四個性質(zhì):

(Ⅰ) 非負性: 0≤SD(Dom_SubA,Dom_SubB)≤1;

(Ⅱ) 自反性:SDDom_SubA,Dom_SubA=1;

(Ⅲ) 對稱性:SDDom_SubA,Dom_SubB=SDDom_SubB,Dom_SubA;

(Ⅳ) 傳遞性: 當Dom_SubA?Dom_SubB?Dom_SubC時,有SDDom_SubA,Dom_SubB≥SDDom_SubA,Dom_SubC。

則稱SDDom_SubA,Dom_SubB為Dom_SubA和Dom_SubB之間的相似度。

性質(zhì)1設(shè)論域Dom_Dis有兩個子集Dom_SubA和Dom_SubB,即Dom_SubA,Dom_SubB?Dom_Dis。 那么,Dom_SubA和Dom_SubB之間基于包含度的相似性度量公式如式(1)所示。

其中,NumDom_SubA∩Dom_SubB為集合Dom_SubA和Dom_SubB公共元素數(shù)目,NumDom_SubA∪Dom_SubB為集合Dom_SubA和Dom_SubB中互異元素總數(shù)。

證明:

(一)相似性證明:

(Ⅰ) 非負性:

(Ⅱ) 自反性:

SDDom_SubA,Dom_SubA

=IDDom_SubA/Dom_SubA=1;

(Ⅲ) 對稱性:

SDDom_SubA,Dom_SubB

=SDDom_SubB,Dom_SubA;

(Ⅳ) 傳遞性: 當Dom_SubA?Dom_SubB?Dom_SubC時,

=IDDom_SubA/Dom_SubC。

(二)包含度證明:

(Ⅱ) 規(guī)范性: 由于Dom_SubA∩Dom_SubB?Dom_SubA∪Dom_SubB,則

(Ⅲ) 傳遞性:

當Dom_SubA∩Dom_SubB?(Dom_SubA∪Dom_SubB)?Dom_SubC,

那么,Num((Dom_SubA∩Dom_SubB)∩(Dom_SubA∪Dom_SubB))=Num(Dom_SubA∩Dom_SubB),

NumDom_SubA∩Dom_SubB∩Dom_SubC=NumDom_SubA∩Dom_SubB。

綜上所述,基于包含度的相似性度量公式為

證畢。

例如,基于FP-Growth算法挖掘三個頻繁模式X:,Y:,Z:。 采用相似度式(1)計算X與Y的相似度以及X與Z的相似度:

若相似度閾值預(yù)先設(shè)定為SD≥0.7,則將X和Y視為相似模式,X和Z視為非相似模式。根據(jù)2.2節(jié)保留較長模式的原則,在進行冗余頻繁模式過濾操作時,會將Y從模式集合中去除。

2.2 基于包含度的冗余文本頻繁模式過濾方法

定義3頻繁模式(FrequentPattern)指頻繁出現(xiàn)在數(shù)據(jù)集中的模式,含頻繁項集、子序列或子結(jié)構(gòu)。

定義4文本頻繁模式(TextFrequentPattern) 若文檔Td中某一詞集WSeti_Td={w1,w2,…,wq}?W的支持度滿足SupportWSeti_Td≥MinSupport,則稱WSeti_Td構(gòu)成的模式為文本頻繁模式,記作TFP。其中MinSupport為預(yù)定的最小支持度。

定義5文本頻繁子模式(TextFrequentSubpattern)若兩個文本頻繁模式TFPi和TFPj對應(yīng)詞集WSet_TFPi和WSet_TFPj滿足關(guān)系WSet_TFPi?WSet_TFPj,則稱TFPi為TFPj的文本頻繁子模式,記為TFPi?TFPj。

定義6文本頻繁交叉模式(TextFrequentCrossPattern)若兩個文本頻繁模式TFPi和TFPj對應(yīng)詞集WSet_TFPi和WSet_TFPj滿足關(guān)系WSet_TFPi?WSet_TFPj&WSet_TFPj?WSet_TFPi&WSet_TFPi∩WSet_TFPj≠Φ,那么TFPi與TFPj為文本頻繁交叉模式,記為TFPi?TFPj&TFPj?TFPi&TFPi∩TFPj≠Φ。

頻繁模式挖掘過程中不可避免地會受到噪聲問題的影響。較長的頻繁模式往往包含比較短模式更多的有用信息,有時甚至可以完全覆蓋某些子模式,因此在模式過濾中留下較長的頻繁模式可保留更多與類別相關(guān)的信息,對于類別劃分更加有利。

設(shè)TFPSet=TFP1,TFP2,…,TFPn為文本頻繁模式全集,集合中的頻繁模式按照模式長度進行降序排序。文本頻繁模式過濾集合初始化為Filter_TFPSet=Φ。 從集合TFPSet中依次選取頻繁模式與Filter_TFPSet中的模式做比較。對于?TFPi∈TFPSet,TFSIDFP算法進行冗余文本頻繁模式過濾的過程如下:

(1) 對于?TFPj∈Filter_TFPSet:

① 若TFPi為TFPj的文本頻繁子模式,即TFPi?TFPj,則執(zhí)行冗余模式過濾操作TFPSet-TFPi;

② 若TFPi和TFPj為文本頻繁交叉模式,即TFPi?TFPj&TFPj?TFPi&TFPi∩TFPj≠Φ,則計算其相似度SDTFPi,TFPj,若SD(TFPi,TFPj)≥θ(θ為預(yù)定相似度閾值),則執(zhí)行冗余模式過濾操作TFPSet-TFPi,同時歸并支持度SupportTFPj=SupportTFPj+SupportTFPi;

③ 否則,執(zhí)行文本頻繁模式計數(shù)器增值操作TFP_counti++。

(2) 若TFP_counti=Filter_TFPSet,表示TFPi與Filter_TFPSet中任意文本頻繁模式TFPj均不存在子模式或高相似度交叉模式關(guān)系,則將TFPi歸入Filter_TFPSet,并從TFPSet中去除。

(3) 重復(fù)執(zhí)行過程(1)(2),直至TFPSet=Φ。

經(jīng)過冗余文本頻繁模式過濾,可明顯縮減文本頻繁模式集合容量,提高文本頻繁模式挖掘效率,進而提升文本特征選擇的性能。

2.3 基于關(guān)聯(lián)度的文本特征選擇方法

本節(jié)在經(jīng)過過濾優(yōu)化處理后的非冗余文本頻繁模式基礎(chǔ)上,基于特征與文檔的不同關(guān)聯(lián)度對特征進行類別劃分及權(quán)重分配,以此實現(xiàn)文本特征選擇。

定義7關(guān)聯(lián)文檔和非關(guān)聯(lián)文檔(CorrelatedDocumentandUncorrelatedDocument) 指定類別C,若文本文檔Td滿足Td∈C,則稱Td為關(guān)聯(lián)文檔。所有關(guān)聯(lián)文檔集合表示為TDcor={Td|Td∈C}。 若文檔Td滿足Td?C,則稱Td為非關(guān)聯(lián)文檔,所有非關(guān)聯(lián)文檔集合表示為TDuncor={Td|Td?C}。Td的訓(xùn)練集合為TD=TDcor∪TDuncor。

定義8嵌入式文檔(EmbeddedDocument)WSet_TDcor表示關(guān)聯(lián)文檔集合TDcor的詞集。對于任意詞語w∈WSet_TDcor,有

稱為詞語w的嵌入式關(guān)聯(lián)文檔集。

稱為w的嵌入式非關(guān)聯(lián)文檔集。

定義9關(guān)聯(lián)度函數(shù)(CorrelativeDegreeFunction) 在訓(xùn)練集TD=TDcor∪TDuncor中,詞語w與文檔間的關(guān)聯(lián)度函數(shù)為:

其中,n=TDcor為關(guān)聯(lián)文檔數(shù)目。CorDeg(w)值越大,代表w與預(yù)定類別關(guān)聯(lián)度越大。CorDeg(w)>0表示w較常描述關(guān)聯(lián)文檔;反之,則說明w描述非關(guān)聯(lián)文檔較多。

定義10關(guān)聯(lián)特征詞語和普通特征詞語(CorrelatedFeatureWordandGeneralFeatureWord) 頻繁出現(xiàn)在關(guān)聯(lián)文檔中且較少出現(xiàn)在非關(guān)聯(lián)文檔中的詞語稱為關(guān)聯(lián)特征詞語,如式(5)所示。

頻繁出現(xiàn)在關(guān)聯(lián)和非關(guān)聯(lián)文檔中的詞語稱為普通特征詞語,如式(6)所示。

其中,δ表示CorFW和GenFW的關(guān)聯(lián)度界限。

定義11特征選擇支持度(FeatureSelectionSupport) 詞語wj的特征選擇支持度定義,如式(7)所示。

定義12特征權(quán)重分配函數(shù)(FeatureWeightDistributionFunction) 詞語w在關(guān)聯(lián)文檔集合TDcor中的特征選擇支持度為FS_Support(w,TDcor),與預(yù)定類別的關(guān)聯(lián)度為CorDegw,則w的特征權(quán)重分配函數(shù)定義,如式(8)所示。

例如,假設(shè)訓(xùn)練集中包含的文檔總數(shù)為5,其中,3個關(guān)聯(lián)文檔Td1,Td2,Td3中包含特征詞w2,且有1個非關(guān)聯(lián)文檔Td4也包含w2。 從Td1,Td2,Td3中提取的頻繁模式如表1所示(符號< >腳標為頻繁模式對應(yīng)支持度):

表1 文檔與對應(yīng)的頻繁模式

那么,特征詞語w2的權(quán)重計算如下:

其中,ωw12=

(3) 特征權(quán)重:Weightw2=FS_Support(w2,TDcor)1+CorDegw2=0.905×(1+0.4)=1.267。

2.4 算法偽代碼

算法1為基于包含度和頻繁模式的文本特征選擇算法TFSIDFP。步驟1-26為冗余文本頻繁模式過濾過程,步驟27-42為文本特征選擇過程。其中,步驟1初始化文本頻繁模式過濾集合Filter_TFPSet和文本頻繁模式計數(shù)器TFP_counti;步驟2利用FP-Growth算法挖掘所有文本頻繁模式,并按長度進行降序排序;步驟3-6判斷集合Filter_TFPSet是否為空,將TFPSet中首個文本頻繁模式TFP1從集合中刪除,加入Filter_TFPSet中;步驟7-20為冗余模式過濾過程,將TFPSet與Filter_TFPSet中模式逐一比較,若TFPSet中模式為Filter_TFPSet中模式的子模式或二者相似度大于預(yù)定閾值,則將其從TFPSet中刪除,否則加入Filter_TFPSet中;步驟21-26將非冗余文本頻繁模式加入Filter_TFPSet,判定TFPi并非Filter_TFPSet中任意文本頻繁模式TFPj的子模式或相似度較高的交差模式,則將TFPi選入集合Filter_TFPSet,并從TFPSet中刪除。步驟27-30定義變量及集合的值;步驟31-34計算文本特征詞語支持度及關(guān)聯(lián)度;步驟35-36為特征詞語類別劃分,采用聚類方式確定關(guān)聯(lián)度界限δ;步驟37-42為文本特征詞語加權(quán);步驟43返回文本頻繁模式過濾集合及特征詞語權(quán)重。

算法1 基于包含度和頻繁模式的文本特征選擇算法TFSIDFP

INPUT: 關(guān)聯(lián)文檔集合TDcor和非關(guān)聯(lián)文檔集合TDuncor,其中Tdi∈TDcor;相似度閾值θ;

OUTPUT: 文本頻繁模式過濾集合Filter_TFPSet;文本特征詞語權(quán)重:Weightw。

METHOD:

/*冗余模式過濾*/

(1)Filter_TFPSet=Φ,TFP_counti=0

(2)TFPSet=procedureFP_Growth(Tdi) /*挖掘頻繁模式,并按模式長度降序排序*/

/*判斷Filter_TFPSet是否為空,將TFPSet中第一個模式TFP1從集合中刪除,并加入Filter_TFPSet*/

(3)IFFilter_TFPSet=ΦTHEN

(4)TFPSet=TFPSet-TFP1

(5)Filter_TFPSet=Filter_TFPSet∪P1

(6)ENDIF

/*冗余模式過濾過程*/

(7)FOREACHTFPiINTFPSetDO

(8)FOREACHTFPjINFilter_TFPSetDO

(9)IFTFPi?TFPjTHEN/*子模式*/

(10)TFPSet=TFPSet-TFPi

(11)ELSEIFTFPi?TFPj&TFPj?TFPi&TFPi∩TFPj≠ΦTHEN/*交差模式*/

(20)ENDIF

(21)IFTFP_counti=Filter_TFPSetTHEN/*將非冗余模式并入Filter_TFPSet*/

(22)Filter_TFPSet=Filter_TFPSet∪TFPi

(23)TFPSet=TFPSet-TFPi

(24)ENDIF

(25)ENDFOR

(26)ENDFOR

/*文本特征選擇*/

(27)n=|TDcor| /*關(guān)聯(lián)文檔數(shù)目*/

(28)WSet_Filter_TFPSet=w|w∈TFP,TFP∈Filter_TFPSet/*文本頻繁模式過濾集合詞集*/

(29)Emb_TDcorw=Td|Td∈TDcor,w∈Td/*嵌入式關(guān)聯(lián)文檔*/

(30)Emb_TDuncorw=Td|Td∈TDuncor,w∈Td/*嵌入式非關(guān)聯(lián)文檔*/

(31)FOREACHwINWSet_Filter_TFPSetDO

(34)ENDFOR

(35)CorFW+=w∈WSetCorDeg(w)≥δ/*詞語類別劃分*/

(36)GenFW0=w∈WSetCorDeg(w)<δ/*詞語類別劃分*/

(37)FOREACHwINw∈CorFW+DO/*關(guān)聯(lián)特征詞語加權(quán)*/

(38)Weightw=FS_Supportw*1+CorDegw

(39)ENDFOR

(40)FOREACHwINGenFW0DO/*普通特征詞語加權(quán)*/

(41)Weightw=FS_Supportw

(42)ENDFOR

(43)RETURNFilter_TFPSet,Weightw

分類性能評價指標為準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值(F1-Measure),及各自對應(yīng)的宏平均值。

硬件環(huán)境: CPU 3.40Hz;內(nèi)存4G。軟件環(huán)境: 操作系統(tǒng) Windows7 32位;開發(fā)環(huán)境 Eclipse JDK 1.6,Pydev 3.9;開發(fā)語言 Python 2.7。

3.1 數(shù)據(jù)集

數(shù)據(jù)集選取公共語料庫Reuters-21578: Acq(2 369篇),Crude(578篇),Earn(3 964篇),Grain(1 102篇),Interest(478篇),Money(717篇),Ship(286篇),Trade(486篇)。其中,訓(xùn)練樣本與測試樣本比例為7∶3。

3.2 實驗結(jié)果

3.2.1 參數(shù)分析

為驗證冗余文本頻繁模式過濾方法有效性,令相似度閾值θ在最小支持度min_sup取不同值,得到非冗余頻繁模式數(shù)量占模式總數(shù)的比重,如圖2所示??芍热≈挡煌?,文本頻繁模式過濾集合中模式數(shù)量在模式總數(shù)中占比均有明顯下降,證明冗余模式過濾對提升頻繁模式挖掘效率具有重要作用。為保證頻繁模式盡可能多地保留與文檔關(guān)聯(lián)的信息,將min_sup設(shè)為較小值。由于FP-Growth算法和TFSIDFP方法復(fù)雜度較低,min_sup較小并不會明顯提升時間復(fù)雜度。隨著θ設(shè)置增高,文本頻繁模式過濾集合中的模式數(shù)量逐漸增多。θ設(shè)置過高,會保留大量冗余頻繁模式;θ設(shè)置過低,會過濾掉過多與文檔關(guān)聯(lián)的頻繁模式。由圖2可知,當θ取值為0.7左右,頻繁模式數(shù)量相對穩(wěn)定。因此,設(shè)定min_sup=0.2,θ=0.7。

圖2 非冗余頻繁模式占所挖掘模式總數(shù)的比重

3.2.2 特征選擇性能評價

(1) 基于信息熵的性能評價

在數(shù)據(jù)集Reuters-21578中,比較基于關(guān)聯(lián)度進行特征詞語類別劃分對特征熵值的影響。計算前kk=10,…,2 000個特征的平均熵值。如圖3所示, unCor表示僅參照詞語支持度進行特征選擇,CorDeg表示在支持度基礎(chǔ)上利用關(guān)聯(lián)度進行詞語類別劃分和權(quán)重分配后進行特征選擇。基于關(guān)聯(lián)度劃分特征詞語后,關(guān)聯(lián)特征詞語CorFW+相對該類的關(guān)聯(lián)度加強,對類別區(qū)分力增強,錯誤率下降,對應(yīng)熵值降低。由圖3可知,前200個特征主要為關(guān)聯(lián)特征,其對應(yīng)熵值的平均值明顯低于未使用關(guān)聯(lián)度函數(shù)的特征;隨著特征數(shù)目增加,普通特征數(shù)目增多,其取值差異較小,無法有效區(qū)分類別,平均熵值逐漸增大。因此,在所選特征數(shù)目有限的條件下,基于關(guān)聯(lián)度進行特征選擇,對類別劃分更有效。

圖3 基于信息熵的特征選擇方法性能對比

(2) 基于關(guān)聯(lián)度的特征詞語分類模型性能評價

在數(shù)據(jù)集Reuters-21578中,將基于關(guān)聯(lián)度的特征詞語分類模型在分類器SVM上進行驗證,如圖4所示。由圖可知,關(guān)聯(lián)特征詞語CorFW+和普通特征詞語GenFW0同時使用可以明顯提升分類精度。相較CorFW+∪GenFW0而言,僅將CorFW+用于分類效果欠佳,原因在于CorFW+對所屬類別區(qū)分性較好, 卻不足以完整描述該文檔, 需要

圖4 SVM分類器采用不同特征詞語的分類PR曲線

加入GenFW0來輔助分類;若僅用GenFW0,分類精度將大幅降低,這是由于GenFW0頻繁出現(xiàn)在關(guān)聯(lián)和非關(guān)聯(lián)文檔中,無法有效劃定文檔類別。

3.2.3 與經(jīng)典特征選擇方法的比較

表2 Reuters-21578數(shù)據(jù)集中精確率、召回率和F1值對比

續(xù)表

3.2.4 與新方法的比較

(1) 與新特征選擇方法的比較

Filter和Wrapper是兩種主流的特征選擇模式?;贔ilter模式的特征選擇方法基于原始數(shù)據(jù)評價特征性能,無需考慮具體分類器;與之不同,Wrapper模式的特征選擇方法依托具體分類器的分類性能對特征進行評價。

① 與Filter類型的特征選擇方法的比較

Y Gao等[6]在信息過濾領(lǐng)域提出基于最大匹配模式的主題模型MPBTM,其中使用了Filter類型的特征選擇方法。MPBTM模型使用模式表示各主題。這些模式依據(jù)統(tǒng)計和分類特性從主題模型中生成并組織,然后再選出最具代表性和區(qū)分力的最大匹配特征來判定文檔與用戶信息間的關(guān)聯(lián)性,以此過濾不相關(guān)文檔,提高文本分類性能。TFSIDFP方法與MPBTM模型對比如圖5(a)所示,可知TFSIDFP性能優(yōu)于MPBTM。

為進一步驗證TFSIDFP方法性能,使用McNemar[18]統(tǒng)計測試對TFSIDFP方法與MPBTM模型做統(tǒng)計顯著性檢驗。分類器選用SVM、KNN(k=1)和NB(Na?ve Bayes),顯著性水平設(shè)定為0.05。為獲得穩(wěn)定結(jié)果,每個算法均運行10次,驗證結(jié)果如表3所示。其中,“Win”表示TFSIDFP性能明顯優(yōu)于MPBTM;“Lose”表示TFSIDFP比MPBTM性能明顯較差;“Tie”表示二者性能沒有明顯差別。由表可知,TFSIDFP性能優(yōu)于MPBTM。

表3 TFSIDFP方法與MPBTM模型的統(tǒng)計顯著性檢驗結(jié)果

② 與Wrapper類型的特征選擇方法的比較

圖5 TFSIDFP算法與新特征選擇方法的比較((a)與Filter模式的特征選擇方法MPBTM的性能比較;(b)與Wrapper模式的特征選擇方法MD和MD-的性能比較)

(2) 與新特征抽取方法的比較

作為文本挖掘領(lǐng)域兩種典型的特征選取方式,特征選擇(Features selection)和特征抽取(Features extraction)均能有效地降低特征空間維數(shù)。特征選擇是從D個特征中選出使準則函數(shù)最優(yōu)的dd

M Khabbaz等[20]提出一種基于軟聚類和信息增益特征約簡的特征抽取方法Cluster BOW-Inforgain。首先,軟聚類方法使用模糊C均值將每一個詞語依據(jù)不同組內(nèi)關(guān)聯(lián)度劃分至多個聚類中,將每個聚類作為一個特征;然后利用信息增益進行特征約簡。這樣在傳統(tǒng)詞袋基礎(chǔ)上,每篇文檔被表示成一個經(jīng)過軟聚類及信息增益特征約簡的特征向量。將TFSIDFP方法用于SVM分類器,與Cluster BOW-Inforgain方法的對比結(jié)果如圖6所示。由圖可知,當所選特征數(shù)目有限時,TFSIDFP方法性能優(yōu)于Cluster BOW-Inforgain。這是由于特征提取是將所有詞語進行轉(zhuǎn)換從而降低維度,詞語數(shù)目并未發(fā)生巨大縮減,Cluster BOW-Inforgain方法每個聚類特征中均包含多個詞語,因此分類需要的詞語數(shù)目巨大。同時,由于TFSIDFP方法增大了關(guān)聯(lián)特征詞語強度,能有效提升分類精度。數(shù)據(jù)維度過高會增加系統(tǒng)開銷,因此若能利用少量特征得到較高的分類精度,可明顯提高分類性能和效率。因此當所選特征數(shù)目受限時,TFSIDFP方法性能明顯優(yōu)于Cluster BOW-Inforgain。

圖6 TFSIDFP方法與新特征抽取方法Cluster BOW-Inforgain的性能對比

4 總結(jié)

在文本數(shù)據(jù)量呈爆炸式增長的大數(shù)據(jù)時代,進行文本特征選擇可快速并準確提取文本主題信息,提升文本分類精度。傳統(tǒng)基于詞語的文本特征選擇方法被噪聲問題影響,導(dǎo)致分類精度受到制約。提出基于包含度和頻繁模式的文本特征選擇方法。首先,定義基于包含度的相似性度量原理;然后,提出基于包含度的冗余文本頻繁模式過濾方法;最后,提出基于關(guān)聯(lián)度的文本特征選擇方法。該方法基于包含度原理度量文本頻繁模式間相似性,去除冗余模式,提升文本頻繁模式挖掘性能;基于冗余去噪后的非冗余模式選擇文本特征,并利用特征與文檔的關(guān)聯(lián)度進行特征類別劃分與權(quán)重分配,所選特征與文檔關(guān)聯(lián)度更強,對分類貢獻度更大。該方法與傳統(tǒng)基于詞語文本特征選擇方法相比,可以利用文本頻繁模式中詞語間關(guān)聯(lián)性,很好地解決基于詞語方法因無法有效克服噪聲問題而導(dǎo)致的分類性能下降問題。對解決大數(shù)據(jù)時代的“數(shù)據(jù)爆炸”問題具有重要影響。此外,在進行特征選擇時,還未深入考慮冗余特征詞語對文本分類性能的影響,以后將深入研究特征詞語去冗余方法,進一步提升文本特征選擇質(zhì)量及分類精度。

猜你喜歡
關(guān)聯(lián)特征文本
“苦”的關(guān)聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久国产精品影院| 亚洲最大福利网站| 国产欧美一区二区三区视频在线观看| 亚洲婷婷在线视频| 国产精品一区二区无码免费看片| 免费看a级毛片| 2021最新国产精品网站| 四虎亚洲精品| 国产精品毛片在线直播完整版| 国产色婷婷视频在线观看| 亚洲天堂精品在线| 亚洲熟妇AV日韩熟妇在线| 日本在线亚洲| www亚洲天堂| 亚洲精品无码日韩国产不卡| 国产成人禁片在线观看| 免费A∨中文乱码专区| 中日无码在线观看| 日本91视频| 日韩av无码精品专区| 日韩无码黄色| 东京热av无码电影一区二区| 久久99国产视频| 97一区二区在线播放| 一级香蕉视频在线观看| 伊人久久婷婷| 日本欧美午夜| 久久久波多野结衣av一区二区| 亚洲天堂在线视频| 91青草视频| 成人一级免费视频| 国产精品成人不卡在线观看| 性色一区| 国产精品网拍在线| 伊人福利视频| 国产精品极品美女自在线| 国产成人91精品| 99久久国产综合精品2020| 日本精品中文字幕在线不卡| 九九九九热精品视频| 国产女人喷水视频| 不卡无码网| 色悠久久综合| 米奇精品一区二区三区| 国产欧美日韩资源在线观看| 亚洲国产精品无码久久一线| 婷婷综合缴情亚洲五月伊| 久久黄色小视频| 久久九九热视频| 亚洲国产精品VA在线看黑人| 亚洲精品天堂自在久久77| 亚洲国内精品自在自线官| 日韩精品一区二区深田咏美 | 婷婷六月综合| 老司机久久99久久精品播放 | 国产丝袜一区二区三区视频免下载| 亚洲成人动漫在线观看| 91视频日本| 四虎影视库国产精品一区| 亚洲精品国产乱码不卡| 99久久亚洲精品影院| 国产97视频在线观看| 国产av无码日韩av无码网站| 国产成人永久免费视频| 日韩色图在线观看| 精品国产黑色丝袜高跟鞋 | 国产在线97| 午夜在线不卡| 国产乱码精品一区二区三区中文 | www亚洲天堂| 日本a级免费| 57pao国产成视频免费播放| 色婷婷成人| 在线观看免费国产| 久久久久久高潮白浆| 国产中文在线亚洲精品官网| 国产精品所毛片视频| 国产乱人伦AV在线A| 亚洲色无码专线精品观看| 国产欧美日韩综合在线第一| 网友自拍视频精品区| 综1合AV在线播放|