999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于極限學(xué)習(xí)機(jī)的中文文本分類方法

2018-09-13 02:19:24程?hào)|生范廣璐俞雯靜曾偉波
關(guān)鍵詞:語義分類特征

程?hào)|生,范廣璐,俞雯靜,伍 飛,曾偉波

(1.國(guó)家電網(wǎng)公司 國(guó)網(wǎng)安徽省電力有限公司, 合肥 230061;2.國(guó)網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司 福建億榕信息技術(shù)有限公司, 福州 350003)

互聯(lián)網(wǎng)的普及和信息技術(shù)的日益發(fā)展導(dǎo)致信息的爆炸式增長(zhǎng),其中大部分信息以文檔形式存在。這些雜亂無章的文檔中往往包含著對(duì)人們非常重要的信息,如果能對(duì)這些信息進(jìn)行有效的管理和分類就可滿足人們高效獲取信息的需求。但是面對(duì)海量的文本信息,傳統(tǒng)的人工分類方式效率低下,顯然已經(jīng)無法滿足實(shí)際工作的需要,因此急需開發(fā)文本自動(dòng)分類管理系統(tǒng)。文本分類技術(shù)作為自動(dòng)文本管理系統(tǒng)的關(guān)鍵技術(shù),越來越受到學(xué)者的關(guān)注。經(jīng)過多年的研究,在文本分類領(lǐng)域產(chǎn)生了許多優(yōu)秀的模型和算法。文本分類一般包括預(yù)處理、文本表示、分類3個(gè)模塊,預(yù)處理一般包括去除非法字符、詞性標(biāo)注等步驟,其中文本表示和分類模塊是研究的重點(diǎn)。

傳統(tǒng)的文本分類方法普遍采用向量空間模型(vector space model,VSM)對(duì)文本進(jìn)行向量化表示。VSM是20世紀(jì)70年代Salton等學(xué)者提出的,該模型曾被用于SMART信息檢索系統(tǒng)[1]。VSM由于具有較好的計(jì)算性和可操作性,在信息檢索領(lǐng)域和文本分類領(lǐng)域都有廣泛的應(yīng)用。VSM模型一般采用TF-IDF、DF等方式進(jìn)行特征值(權(quán)重)的計(jì)算。這種權(quán)重計(jì)算方式在簡(jiǎn)單的文本分類中取得了不錯(cuò)的效果,但是這種方式存在“詞匯鴻溝”,即無法保存詞語、語法的信息以及相關(guān)的語義信息,這就意味著該方法無法衡量單詞之間的語義相關(guān)度,同時(shí)這種方法還存在特征向量維度過高和數(shù)據(jù)稀疏的問題,所以VSM模型不適用于復(fù)雜的文本分類任務(wù)。為了解決“詞匯鴻溝”問題,相關(guān)學(xué)者提出了很多解決方案[2-8]。雖然這些改進(jìn)的特征提取方式能有效改善傳統(tǒng)VSM模型的缺點(diǎn),但是這些方法都是通過人為添加一些限制條件,在一定程度上限制了特征提取的泛化能力。因此,這些改進(jìn)的VSM模型無法從本質(zhì)上解決VSM模型在特征表達(dá)上存在的問題。后續(xù)有學(xué)者提出了詞向量模型,該模型可以有效地解決以上問題。其中比較著名的是Word2Vec模型。Word2Vec由Google的Tomas Mikolov團(tuán)隊(duì)[8]提出并實(shí)現(xiàn)。該算法可以在很短的時(shí)間內(nèi)從大規(guī)模的語料庫(kù)中學(xué)習(xí)到詞向量,在得到詞的低維度向量表達(dá)后可在一定程度上判斷詞語間在語義上的相似性。

在分類階段,Logistic回歸、樸素貝葉斯[9-11]、決策樹、KNN[12]、支持向量機(jī)[13-14]等方法在文本分類領(lǐng)域有著廣泛應(yīng)用,取得了豐碩的研究成果。同時(shí),有學(xué)者提出將不同分類模型進(jìn)行融合的策略[15-16]。總體來說,這些分類模型復(fù)雜度低,訓(xùn)練速度相對(duì)較快,可解釋性較強(qiáng),但不能實(shí)現(xiàn)文本特征的自動(dòng)提取,分類性能較差。

近年來,深度學(xué)習(xí)模型在自然語言處理(natural language processing,NLP) 領(lǐng)域有了較大的突破[17-20]。2003年,加拿大蒙特利爾教授Bengio等[17]提出用神經(jīng)網(wǎng)絡(luò)來訓(xùn)練語言模型,嘗試將詞語映射到N維實(shí)數(shù)向量空間中,從而有效避免了因語料龐大而造成的維度災(zāi)難;Weston[18]嘗試將深度學(xué)習(xí)模型應(yīng)用到自然語言處理任務(wù)中的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和語義角色標(biāo)注等多個(gè)典型問題中,并取得了與其他先進(jìn)模型相當(dāng)?shù)乃剑辉谶@之后, Andriy Mnih等[19]提出一種層次化的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,希望通過層次化來降低單個(gè)神經(jīng)網(wǎng)絡(luò)語言模型的復(fù)雜度; Irsoy等[20]將遞歸神經(jīng)網(wǎng)絡(luò)的深度擴(kuò)展到3層使其成為一個(gè)更深層的網(wǎng)絡(luò),從而有效提高了網(wǎng)絡(luò)的表達(dá)能力。可以看出,近年來深度學(xué)習(xí)模型在自然語言處理領(lǐng)域有不小的進(jìn)步,但是深度學(xué)習(xí)訓(xùn)練效率非常慢,這導(dǎo)致無法在海量數(shù)據(jù)中進(jìn)行有效推廣。

綜上所述,目前文本分類領(lǐng)域還存在一些難點(diǎn)急需解決,主要包括:① 如何構(gòu)建一個(gè)高效、穩(wěn)定的語義詞典;② 如何打破向量空間模型中詞與詞之間的獨(dú)立性;③ 如何使分類精度與海量數(shù)據(jù)訓(xùn)練速度之間有效平衡。

本文提出了基于極限學(xué)習(xí)機(jī)的中文文本分類方法。該方法包括預(yù)處理模塊、文本特征提取模塊、特征融合模塊和基于極限學(xué)習(xí)機(jī)的分類模塊。其中文本特征提取模塊包含兩個(gè)子模塊:底層特征提取模塊和中層特征自主學(xué)習(xí)模塊。底層特征提取模塊主要包括語義詞典構(gòu)造和特征表達(dá)兩個(gè)步驟,在語義詞典構(gòu)造步驟中,本文加入詞性選擇和底層特征選擇兩個(gè)過程,以此構(gòu)建一個(gè)高效、穩(wěn)定的語義詞典。實(shí)驗(yàn)結(jié)果表明,本方法可有效解決上述問題。

1 文本分類方法模型構(gòu)建

本文所提出的基于ELM的中文文本分類方法總體框架如圖1所示。該方法可分為4個(gè)連續(xù)的模塊:預(yù)處理模塊、文本特征提取模塊、特征融合模塊和分類模塊。文本特征提取模塊包括底層特征提取和中層特征提取兩個(gè)子模塊。在分類模塊中該方法采用ELM作為基分類器,包括學(xué)習(xí)和運(yùn)行兩個(gè)階段,兩個(gè)階段的第一步都要經(jīng)過預(yù)處理模塊。該模塊主要功能是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,去除與本任務(wù)不相干的信息。模塊首先將文本內(nèi)容統(tǒng)一為UTF-8的編碼格式;再采用正則表達(dá)式匹配的方式對(duì)非法字符進(jìn)行過濾處理;然后采用ICTCLAS漢語詞法分析系統(tǒng)進(jìn)行分詞和詞性標(biāo)注;最后采用百度停用詞表對(duì)文本中經(jīng)常出現(xiàn)但其本身對(duì)文本分析意義不大的詞進(jìn)行過濾。

在模型學(xué)習(xí)階段中,訓(xùn)練樣本首先經(jīng)過預(yù)處理模塊去除不相干的信息,然后進(jìn)入底層特征提取子模塊。該子模塊包括語義詞典的構(gòu)建和形成訓(xùn)練樣本的底層特征表達(dá)兩個(gè)過程。本方法不是采用傳統(tǒng)的語義詞典構(gòu)造方法,而是提出一套語義詞典的通用構(gòu)建方法,主要包括詞性選擇和底層文本特征選擇兩個(gè)步驟,可在一定程度解決傳統(tǒng)語義詞典詞性單一且覆蓋面不足的問題。底層特征最后采用向量空間模型進(jìn)行表達(dá),其中向量中每維的特征是歸一化后的TF-IDF權(quán)重。中層特征提取子模塊首先結(jié)合上一子模塊生成的語義詞典和大規(guī)模的語料庫(kù),采用無監(jiān)督方式訓(xùn)練Skip-gram模型,接著用訓(xùn)練好的模型產(chǎn)生訓(xùn)練樣本詞向量。最后采用池化技術(shù)形成每個(gè)訓(xùn)練文檔的中層特征表達(dá)。特征融合模塊將之前模塊計(jì)算到的底層特征和中層特征加權(quán)串聯(lián)起來形成融合特征表達(dá);分類模塊采用監(jiān)督式訓(xùn)練方式分別訓(xùn)練3個(gè)基于極限學(xué)習(xí)機(jī)的文本分類模型,即對(duì)應(yīng)底層特征文本分類模型、中層特征文本分類模型和融合特征文本分類模型。

在模型測(cè)試階段中,測(cè)試樣本同樣要經(jīng)過預(yù)處理模塊去除與本任務(wù)不相干的信息。在文本特征提取模塊中,本文結(jié)合學(xué)習(xí)階段生成的語義詞典和訓(xùn)練好的Skip-gram模型得到測(cè)試樣本的底層特征和中層特征表達(dá),然后經(jīng)過特征融合模塊生成融合特征表達(dá)。計(jì)算好的底層特征、中層特征和融合特征分別送入模型學(xué)習(xí)階段中學(xué)習(xí)好的3個(gè)基于極限學(xué)習(xí)機(jī)的文本分類模型中進(jìn)行分類,最后綜合3個(gè)分類模型的分類結(jié)果得出待判定樣本所屬的文本類別。

下面詳細(xì)介紹本方法中涉及到的一些技術(shù),主要包括語義詞典構(gòu)造、底層特征表達(dá)、中層特征表達(dá)、融合特征表達(dá)和基于ELM的分類器。

圖1 基于極限學(xué)習(xí)機(jī)的中文文本分類框圖

1.1 語義詞典構(gòu)造

鑒于使用傳統(tǒng)語義詞典識(shí)別效果不佳,本文提出了一套語義詞典生成的方法。該語義詞典基于輸入的語料庫(kù)訓(xùn)練,訓(xùn)練文本進(jìn)行文本預(yù)處理后首先進(jìn)行詞性選擇,選取動(dòng)詞、名詞、形容詞、副詞共同組成,保證了語義詞典的穩(wěn)定。通過底層特征選擇的方式對(duì)語義詞典做進(jìn)一步的篩選,將最能代表文本類別屬性的詞選出,保證了語義詞典的高效性。需要說明的是,本文提出的語義詞典構(gòu)建過程都在訓(xùn)練階段完成。

本文方法認(rèn)為除了形容詞,名詞、動(dòng)詞和副詞都能在一定程度上體現(xiàn)文本的屬性類別,因此將這幾種詞性進(jìn)行組合對(duì)比。經(jīng)過多組對(duì)比后,最后選擇了名詞、動(dòng)詞、形容詞和副詞共同作為基準(zhǔn)詞,認(rèn)為這樣能最大程度地保證語義詞典的覆蓋面,同時(shí)保留了文檔的語義信息。相比選擇所有詞作為特征詞的方法,詞性選擇在一定程度上降低了語義詞典的維度。

在進(jìn)行文本表達(dá)的過程中發(fā)現(xiàn),如果選擇所有的基準(zhǔn)詞作為底層特征,依然會(huì)得到一個(gè)高維度的特征空間,特征的維度達(dá)到了幾萬維。這樣高維度的底層特征會(huì)給后續(xù)文本分析模塊帶來巨大的負(fù)擔(dān),不僅高維度的特征帶來訓(xùn)練時(shí)間的增加,同時(shí)許多分類器無法適應(yīng)如此高維度的特征空間,使分類的性能受到一定的影響。由于真正對(duì)文本分類有積極意義的特征只是少數(shù),所以本文在詞性選擇基礎(chǔ)上采取了特征選擇過程。特征選擇過程使用卡方統(tǒng)計(jì)為評(píng)估函數(shù),為每個(gè)類別下的每個(gè)基準(zhǔn)詞都進(jìn)行計(jì)算得到其對(duì)應(yīng)的CHI值,然后對(duì)這個(gè)類別下的所有基準(zhǔn)詞基于CHI值進(jìn)行降序排序,選擇出最大的K個(gè)基準(zhǔn)詞。K的取值根據(jù)語料的大小來確定,不同語料的值不同。最后將多個(gè)類別下選擇的多組K個(gè)基準(zhǔn)詞進(jìn)行合并,得到最終的特征詞用于構(gòu)建語義詞典。通過這兩個(gè)過程的選擇,語義詞典的維度也從開始的幾萬維降低到幾千維,在一定程度上緩解了高維度特征帶來的訓(xùn)練時(shí)間的增加和分類器分類性能下降的情況。

1.2 底層特征表達(dá)

本文采用空間向量模型作為底層特征的文本表達(dá)。向量空間模型是一種簡(jiǎn)便、高效的文本表示模型。向量空間模型的形式化表達(dá)如下:

對(duì)于給定的文本D=D{t1∶w1,t2∶w2,…,tn∶wn},其中ti表示第i個(gè)特征項(xiàng),wi表示特征項(xiàng)ti所擁有的權(quán)重,n為特征項(xiàng)的總數(shù),在本文中指語義詞典的維度。

在一篇文檔中,選取的不同特征詞對(duì)一篇文檔的類別屬性貢獻(xiàn)應(yīng)該是不相同的。例如形容詞的類別屬性貢獻(xiàn)可能比較大,副詞可能略小于形容詞。為此,本文認(rèn)為有必要對(duì)經(jīng)過選擇的特征詞進(jìn)行加權(quán),對(duì)文本類別屬性貢獻(xiàn)較大的特征詞賦予較大的權(quán)重,類別屬性貢獻(xiàn)較小的賦予較小的權(quán)重。故本文采用TF-IDF計(jì)算每個(gè)特征向量中的每個(gè)權(quán)重。

TF-IDF算法是自然語言處理領(lǐng)域常用的一種特征權(quán)重計(jì)算方法,相比單獨(dú)依靠詞頻統(tǒng)計(jì)的方法,它將特征詞頻和逆文檔頻率結(jié)合起來用于計(jì)算某個(gè)特征詞的權(quán)重,TF-IDF對(duì)于類別表征能力的評(píng)判更加全面。詞頻(term frequency,TF) 指某個(gè)給定的詞語在文檔中出現(xiàn)的頻率。逆文檔頻率(inverse document frequency,IDF) 是以包含特征詞的文檔數(shù)為參數(shù)構(gòu)造特征權(quán)重函數(shù),衡量的是詞語的普遍重要性。將TF與IDF結(jié)合起來使用可以衡量詞語對(duì)某個(gè)文檔的重要性,兩者相乘就形成了TF-IDF權(quán)重。為了消除不同文本長(zhǎng)度對(duì)于特征詞權(quán)重的影響,本文還對(duì)TF-IDF值進(jìn)行了歸一化處理。

1.3 中層特征表達(dá)

中層特征的文本表達(dá)以詞向量為基礎(chǔ),詞向量通過神經(jīng)網(wǎng)絡(luò)對(duì)語料庫(kù)進(jìn)行訓(xùn)練,將語料庫(kù)中的每個(gè)詞語都映射成一個(gè)指定長(zhǎng)度的向量。這個(gè)向量的維度一般在幾十維到幾百維,相比于One-hot表示法,該向量的維度有了極大的降低。詞向量可以擺脫傳統(tǒng)表示法中詞語之間獨(dú)立的情況。本文采用skip-gram模型獲取詞向量,同一個(gè)詞在不同的輸入語料下學(xué)習(xí)到的詞向量是不同的,skip-gram模型是一個(gè)自學(xué)習(xí)模型,在自主學(xué)習(xí)過程除了幾個(gè)參數(shù)的選擇,人為干預(yù)很少。

為了獲得文檔的整體表達(dá),本文在得到文檔詞向量的基礎(chǔ)上提出了池化(Pooling)表示法。使用池化表示法既保留了特征詞之間的語義相似性,又在一定程度上降低了底層特征的向量維度,提高了文本識(shí)別精度。圖2所示為本文提出的池化方法示意圖。中層特征表達(dá)的詳細(xì)步驟流程如下:

1) 假設(shè)文本包含x個(gè)詞語,經(jīng)過底層特征提取后剩下t個(gè)詞語(即詞典個(gè)數(shù)為t),則這條文本表示為T=(w1,w2,…,wt),其中每個(gè)單詞的詞向量為v(wi),每個(gè)詞向量有m維特征;

2) 將文本T中的詞向量等分成N份,形成N個(gè)詞向量組,每個(gè)組里面對(duì)應(yīng)有t/N個(gè)詞向量;

3) 對(duì)于每個(gè)詞向量組進(jìn)行以下操作:將組內(nèi)所有詞向量進(jìn)行累加,最終每個(gè)詞向量組都形成一個(gè)特征向量v(z),該特征向量的維度也是m;

4) 將N個(gè)詞向量組的特征向量串聯(lián)起來就得到整個(gè)文檔的特征向量v(z1)‖v(z2)‖…‖v(zN),其中‖表示串聯(lián)的符號(hào)。

圖2 池化方法示意圖

1.4 融合特征表達(dá)

為了進(jìn)一步提高特征的表達(dá)能力,本文提出了融合特征表達(dá),該方法的主要思路是將之前模塊提取到的底層特征和中層特征進(jìn)行融合,其融合策略是采用權(quán)重組合,公式為?L‖(1-?)M,其中:L表示底層特征向量;M表示中層特征向量;?為底層特征的權(quán)重,設(shè)置為0.2;‖表示串聯(lián)的符號(hào)。該融合特征思路簡(jiǎn)單,能有效地結(jié)合不同尺度下的特征表達(dá)。實(shí)驗(yàn)結(jié)果證明,該融合特征可提高分類精度。

1.5 基于ELM的分類器

ELM是一種單隱層的前饋神經(jīng)網(wǎng)絡(luò)[21]。該網(wǎng)絡(luò)由輸入層、隱藏層、輸出層三部分組成,輸入層到隱藏層、隱藏層到輸出層之間都是全連接。其中輸入層x表示樣本特征向量,隱含層包括L個(gè)隱含神經(jīng)元,一般情況下L遠(yuǎn)小于N(樣本個(gè)數(shù)),輸出層輸出m維的向量(對(duì)應(yīng)于文本類別的個(gè)數(shù))。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不同的是,ELM輸入層和隱含層之間的權(quán)重隨機(jī)生成,只需考慮隱藏層和輸出層之間的連接權(quán)重。ELM優(yōu)化過程不僅要使誤差最小,也要使隱藏層輸出權(quán)值達(dá)到最小,這樣模型的泛化能力就會(huì)最好,優(yōu)化目標(biāo)方程如下:

Minimize: ‖Hβ-T‖2and ‖β‖

(1)

其中,

H為針對(duì)多個(gè)訓(xùn)練樣本x=[x1,…,xn,…,xN]的隱藏層輸出矩陣。此處的x表示N個(gè)訓(xùn)練樣本文本表達(dá)的集合,H的大小由訓(xùn)練樣本的數(shù)量N和隱藏節(jié)點(diǎn)的數(shù)量L決定,通常L遠(yuǎn)小于N。T是訓(xùn)練樣本集形成的標(biāo)簽矩陣,每一行代表一個(gè)樣本,采用one-hot的形式存儲(chǔ)。

β是隱藏層和輸出層的連接權(quán)重。根據(jù)ELM理論可以求出式(1)中β的解析解:

雖然ELM算法與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)、SVM相比表現(xiàn)出運(yùn)行速度快、泛化能力強(qiáng)等特點(diǎn),但是本文需要解決二元甚至三元的文本類別分析,而在三元文本分析中特征面臨著高度線性不可分。因此,本文將核函數(shù)引入到ELM算法中進(jìn)行改進(jìn),既Kernel ELM[22]。其主要思想是利用核函數(shù)先將這些特征映射到高維特征中,使得各個(gè)類別的特征在高維空間中不再那么高度非線性。

核函數(shù)定義為

K(xi,yj)=h(xi)·h(yj)

(5)

在ELM中,核技術(shù)就是將顯式的激活函數(shù)G(a,b,x)轉(zhuǎn)換為隱式的映射函數(shù)K(xi,yj)。定義內(nèi)核矩陣求解輸出值為

ΩELM=HHT∶ΩELMi, j=

h(xi)·h(yj)=K(xi,yj)

(6)

則Kernel ELM輸出可以表示為

從式(7)可以看出,不再需要輸入層到隱藏層之間的激活函數(shù)集合h(x)的具體值和隱藏層的節(jié)點(diǎn)個(gè)數(shù)L,而只要知道核函數(shù)K(xi,yj)的具體形式和輸入的樣本個(gè)數(shù)N就可計(jì)算出一個(gè)文本表達(dá)x的表達(dá)值。也就是說,從網(wǎng)絡(luò)模型上看,相比于傳統(tǒng)的ELM,Kernel ELM固定了網(wǎng)絡(luò)結(jié)構(gòu)而不再受隱藏層節(jié)點(diǎn)數(shù)的干擾,提高了Kernel ELM的穩(wěn)定性。更為重要的是,引入核函數(shù)后的原始特征數(shù)據(jù)會(huì)被映射到高維特征空間中,從而增大了特征間線性分隔的概率,使得分類器易于以擅長(zhǎng)的線性算法去檢測(cè)特征間的非線性關(guān)系。

本文選定高斯核函數(shù)作為映射函數(shù),即:

K(u,v)=exp(-γ‖u-v‖2)

(8)

其中,γ為高斯核平滑參數(shù)。結(jié)合式(7)和(8)可知,KernelELM算法的性能依賴于正則化系數(shù)C和高斯核平滑參數(shù)γ。訓(xùn)練過程的算法示意圖見圖3。

算法Kernel ELM訓(xùn)練過程輸入:訓(xùn)練樣本集{(xi, yi)i=1,…,N},核函數(shù)K(xi, yj),常數(shù)C,高斯核平滑參數(shù)γ;輸出:(I/C+ΩELM-1T1.根據(jù)公式(5)~(6)求出ΩELM;2.根據(jù)公式(5)~(7)求出(I/C+ΩELM)-1T;3.保存(I/C+ΩELM)-1T;

為了提高識(shí)別精度,本文提出了集成ELM分類模型。該模型主要思路是分別針對(duì)不同的特征訓(xùn)練分類器,最后綜合3個(gè)分類器的輸出得到最后的分類結(jié)果。圖4所示為本文提出的集成分類器方法。

該算法由如下步驟組成:

1) 分別提取文本樣本的底層特征、中層特征和融合特征;

2) 將3種特征分別送入訓(xùn)練好的基于底層特征的文本分類模型、訓(xùn)練好的基于中層特征的文本分類模型和訓(xùn)練好的基于融合特征的文本分類模型;

3) 將3個(gè)分類模型輸出結(jié)果向量(其中向量每一維對(duì)應(yīng)其中一類的文本類別,每一維的數(shù)值代表文本樣本屬于該文本類別的概率)相加,得到最終輸出向量;

4) 找到最終輸出向量中數(shù)值最大的量,其所對(duì)應(yīng)的文本類別即需要判定樣本的文本類別。

圖4 集成分類器方法示意圖

2 實(shí)驗(yàn)及結(jié)果分析

2.1 數(shù)據(jù)集介紹

為了驗(yàn)證提出的文本分類算法,本文將設(shè)計(jì)的算法運(yùn)用于電網(wǎng)檔案管理系統(tǒng)中的檔案分類任務(wù)。實(shí)驗(yàn)所需數(shù)據(jù)集由國(guó)網(wǎng)安徽省電力有限公司提供。該數(shù)據(jù)集提取了2015—2016年國(guó)網(wǎng)安徽省電力有限公司各部門歸檔的文件信息的匯總條目。整個(gè)數(shù)據(jù)集共包括6 713條條目,每一條條目包括序列號(hào)、文件名、文件歸檔部門3個(gè)信息。該任務(wù)的具體要求是:只需根據(jù)文件名完成對(duì)文件歸檔部門的判定。這個(gè)任務(wù)本質(zhì)上是一個(gè)多類文本分類問題。數(shù)據(jù)集共涉及22個(gè)部門,每個(gè)部門對(duì)應(yīng)的文件數(shù)如表1所示,可以看出該數(shù)據(jù)集分布不均衡。其中,基建部收集了845條文件,而運(yùn)營(yíng)監(jiān)測(cè)(控)中心只收集了15條文件。為了保證語料庫(kù)的多樣性,本文在訓(xùn)練階段所用的語料庫(kù)除了這些檔案的文件名之外還有檔案對(duì)應(yīng)的文件內(nèi)容。

表1 各部門檔案條數(shù)

2.2 編程環(huán)境

實(shí)驗(yàn)所用的硬件配置為Intel(R) Pentium(R) G2030,CPU頻率為3.0 GHz,內(nèi)存為8 G。在實(shí)驗(yàn)過程中,底層特征的所有步驟以及中層特征的學(xué)習(xí)提取都是通過JAVA語言實(shí)現(xiàn)完成,分詞以及詞性標(biāo)注處理引用了ICTCLAS的Jna-4.0.0的JAR包。最后的分類模塊在Matlab R2012a上實(shí)現(xiàn)。對(duì)照試驗(yàn)中,SVM算法和基于核的SVM(Kernel_SVM)算法使用臺(tái)灣林教授提供的SVM軟件包[23]。

2.3 評(píng)價(jià)指標(biāo)

本文采用分類精度(accuracy)指標(biāo)來驗(yàn)證提出的基于極限學(xué)習(xí)機(jī)的文本分類方法(本文提出的方法在下文中簡(jiǎn)稱為Kernel_ELM)。使用的評(píng)價(jià)指標(biāo)的計(jì)算公式為:

分類精度=(被正確分類的樣本個(gè)數(shù)/樣本總數(shù))×100%

采用5折交叉驗(yàn)證方式,最后記錄5次實(shí)驗(yàn)的平均精度和標(biāo)準(zhǔn)差,精度越高,標(biāo)準(zhǔn)差越小,則該算法性能越好。

2.4 結(jié)果分析

2.4.1 底層特征維度對(duì)模型性能的影響

底層特征采用VSM模型進(jìn)行表示,所以底層特征維度與語義詞典的個(gè)數(shù)有關(guān)。語義詞典構(gòu)建經(jīng)過詞性選擇和底層特征選擇兩個(gè)過程,其中涉及的可調(diào)參數(shù)為底層特征選擇過程中的K值。在底層特征選擇過程中,使用卡方統(tǒng)計(jì)量,為每個(gè)類別下的每個(gè)詞都進(jìn)行計(jì)算得到一個(gè)CHI值,然后對(duì)這個(gè)類別下的所有詞基于CHI值進(jìn)行排序,選擇出最大的K個(gè)詞,K的取值會(huì)直接影響底層特征維度和模型的性能。實(shí)驗(yàn)分別設(shè)置K值為100、150、200、250、300,分類器采用Kernel ELM。為客觀反映不同K值下模型的性能,本文分別采用尋優(yōu)策略得到不同K值下模型的最優(yōu)結(jié)果(即找到不同K值下對(duì)應(yīng)分類器的最優(yōu)正則系數(shù)C和高斯核平滑參數(shù)γ)。從表2可以看出,K值為250時(shí)模型達(dá)到最優(yōu),但是K值取200時(shí)的結(jié)果與K值取250時(shí)的差距很微弱。為了平衡精度和時(shí)間效率,實(shí)驗(yàn)中將每個(gè)類的K值設(shè)置為200。

表2 不同特征詞數(shù)下的分類精度

2.4.2 詞向量維度對(duì)模型性能的影響

中層特征中詞向量的維度是非常重要的參數(shù),直接影響中層特征文本表達(dá)的維度,因此本節(jié)將對(duì)詞向量的維度m對(duì)模型性能的影響進(jìn)行驗(yàn)證。實(shí)驗(yàn)中分別將詞向量的維度設(shè)置為50、100、200、300,訓(xùn)練模型采用Skip-gram,訓(xùn)練過程中上下文窗口大小選擇為5,采用Hierarchical Softmax算法進(jìn)行采樣,采樣閾值設(shè)置為10-4,這樣如果一個(gè)詞語在訓(xùn)練語料中出現(xiàn)的頻率越高,就越會(huì)被采樣。實(shí)驗(yàn)中將池化表示法中的N值統(tǒng)一設(shè)置為10。實(shí)驗(yàn)結(jié)果如表3所示,表明詞向量維度越高,效果越好,但是識(shí)別精度會(huì)隨著維度上升增幅逐漸減小。表3顯示維度200和維度300之間的精度差距非常微小,但是維度300以下所需的訓(xùn)練時(shí)間和測(cè)試時(shí)間卻大大超過維度200下的情況。綜合考慮時(shí)間效率和精度,本文將中層特征中詞向量的維度設(shè)置為200。

表3 不同詞向量維度下的分類精度

2.4.3融合特征及集成分類器對(duì)模型性能的影響

驗(yàn)證本文提出的融合特征和集成分類器策略對(duì)模型性能的影響。表4分別是底層特征、中層特征、融合特征和集成分類器對(duì)應(yīng)的分類精度。從表4可以看出,本文提出的融合特征的分類精度為96.11%,比中層特征提高了0.99%,而采取集成分類器策略的分類精度為97.81%,高于采用一種特征的分類精度,證明本文提出的融合特征和集成分類器策略可顯著提高分類性能。

表4 不同特征下的分類精度

2.4.4 整體性能的比較

將本文提出的方法與傳統(tǒng)方法進(jìn)行比較,本文選取的對(duì)比模型為基于SVM的模型和基于kernel_SVM的模型。為保證公平性,所使用的特征保持一致,集成策略也保持一致。表5展示的是不同方法下得到的分類精度。其中,單獨(dú)SVM、單獨(dú)Kernel_SVM和單獨(dú)Kernel_ELM表示只使用融合特征,集成SVM、集成Kernel_SVM、集成Kernel_ELM表示采取本文提出的集成策略。可以看出,本文提出的方法在單獨(dú)使用融合特征時(shí)和采取集成策略時(shí)都比SVM模型和Kernel_SVM模型的精度高。另外,集成策略對(duì)于SVM基本沒起到作用,對(duì)于Kernel_SVM的作用也很微弱,但是集成策略卻在本文采用的Kernel ELM分類器上表現(xiàn)出很好的性能提升。這也驗(yàn)證了本文提出方法的優(yōu)越性能。

表5 不同方法分類精度比較

3 結(jié)束語

本文提出了一種基于極限學(xué)習(xí)機(jī)的中文文本分類方法,采用單隱層神經(jīng)網(wǎng)絡(luò)作為分類器并使用ELM算法來訓(xùn)練分類器,有效平衡了模型性能和學(xué)習(xí)效率。為提高精度,本文分別針對(duì)不同的特征訓(xùn)練分類器,并綜合3個(gè)分類器的輸出得到最后的分類結(jié)果。在電網(wǎng)檔案管理系統(tǒng)中的檔案分類問題中驗(yàn)證本文方法,實(shí)驗(yàn)結(jié)果表明:本文所提出的算法取得了97.81%的分類精度,相較于基于Kernel SVM的方法提高了1.26%;同時(shí)算法具有極低的計(jì)算復(fù)雜度,只需450 s就可完成模型的訓(xùn)練,相比基于Kernel SVM的方法速度提高了38倍;在測(cè)試階段,識(shí)別一張圖只需要3.76 ms,相比基于Kernel SVM的方法速度提高了10倍。因此,本文所提出的方法適用于海量數(shù)據(jù)下的中文文本分類場(chǎng)景,具有重要的研究意義和推廣價(jià)值。

猜你喜歡
語義分類特征
分類算一算
語言與語義
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 九色视频最新网址| 尤物在线观看乱码| 99久久国产综合精品2020| 高清无码不卡视频| 国产区在线观看视频| 日本www在线视频| 亚洲男人在线天堂| 日韩高清一区 | 国产成人1024精品| 一区二区三区成人| 欧美日韩中文国产va另类| 亚洲AⅤ波多系列中文字幕| 99re这里只有国产中文精品国产精品| 亚洲成年人网| 9啪在线视频| 四虎永久免费地址在线网站| AV不卡国产在线观看| 欧美成人综合在线| 乱色熟女综合一区二区| 国产小视频免费观看| 国产办公室秘书无码精品| 国产福利免费视频| 中文字幕免费播放| 免费一级成人毛片| 国产欧美精品一区二区 | 四虎永久免费在线| 国产色图在线观看| 国产av色站网站| 国产日韩精品欧美一区喷| 日韩精品资源| 欧美在线精品怡红院| 日韩国产一区二区三区无码| 黄色网在线| 无码av免费不卡在线观看| 免费全部高H视频无码无遮掩| 成人综合久久综合| 超清无码一区二区三区| 日韩国产综合精选| 秋霞午夜国产精品成人片| 国产天天色| 999国产精品永久免费视频精品久久| 大陆精大陆国产国语精品1024| a在线观看免费| 99热最新在线| 91口爆吞精国产对白第三集| 人妻丰满熟妇av五码区| 国产手机在线ΑⅤ片无码观看| 日本不卡在线| 国产麻豆aⅴ精品无码| 一级爆乳无码av| 日韩精品欧美国产在线| 毛片免费试看| 国产噜噜噜| 直接黄91麻豆网站| 亚洲第一成年免费网站| 精品国产Ⅴ无码大片在线观看81| 福利视频一区| 欧美高清视频一区二区三区| 熟妇无码人妻| 色婷婷成人网| 日本精品影院| 国产成人亚洲无码淙合青草| 看你懂的巨臀中文字幕一区二区| 拍国产真实乱人偷精品| 91在线激情在线观看| 中文一区二区视频| 99久久精品国产麻豆婷婷| 男女男精品视频| 国产va在线观看免费| 国产一区二区网站| 国产成人福利在线视老湿机| 波多野结衣AV无码久久一区| 亚洲国产综合自在线另类| 亚洲国产成人麻豆精品| 在线日韩日本国产亚洲| 国产特级毛片aaaaaaa高清| 欧美黄网站免费观看| 国产精品黑色丝袜的老师| 99久久精品免费看国产电影| 亚洲首页在线观看| 97亚洲色综久久精品| 另类综合视频|