基于Word2Vec的中文短文本分類問(wèn)題研究①

2018-05-17 06:48:08王德強(qiáng)

計(jì)算機(jī)系統(tǒng)應(yīng)用 2018年5期

汪靜,羅浪,王德強(qiáng)

(中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074)

1 引言

移動(dòng)終端的智能化和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展促使人們?cè)谝苿?dòng)互聯(lián)網(wǎng)上交流的越來(lái)越頻繁,由此產(chǎn)生了大量的信息數(shù)據(jù)[1],這些數(shù)據(jù)多以短文本的形式作為信息傳遞的載體,例如微博和即時(shí)推送新聞等,其內(nèi)容通常都是簡(jiǎn)潔精煉并且含義概括,具有很高的研究?jī)r(jià)值.因此,如何通過(guò)機(jī)器對(duì)這些短文本內(nèi)容進(jìn)行自動(dòng)分類以及對(duì)短文本所具有的豐富含義進(jìn)行有效的理解鑒別已經(jīng)成為自然語(yǔ)言處理和機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)和難點(diǎn)[2].

短文本自動(dòng)分類首先需要將文本轉(zhuǎn)化為計(jì)算機(jī)能理解處理的形式,即文本數(shù)據(jù)的表示,其對(duì)文本分類至關(guān)重要,可直接影響分類效果.傳統(tǒng)的文本表示方法主要基于空間向量模型 (Vector Space Model,VSM),俗稱詞袋模型[3],該方法認(rèn)為文檔是無(wú)序詞項(xiàng)的集合,丟棄了詞序、語(yǔ)法等文檔結(jié)構(gòu)信息,忽略了詞語(yǔ)間的語(yǔ)義關(guān)系,存在數(shù)據(jù)高維稀疏問(wèn)題,對(duì)分類效果的提升存在瓶頸.于是一些學(xué)者引入外部的知識(shí)庫(kù)(如搜索引擎、維基百科等)對(duì)文本進(jìn)行特征擴(kuò)展,豐富詞語(yǔ)間語(yǔ)義關(guān)系[4,5],但其嚴(yán)重依賴外部知識(shí)庫(kù)的質(zhì)量,對(duì)于知識(shí)庫(kù)中未收錄的概念無(wú)能為力且計(jì)算量大、耗時(shí)長(zhǎng).另有部分學(xué)者挖掘文本潛在的語(yǔ)義結(jié)構(gòu)[6],生成主題模型如LSA,pLSI和 LDA[7–9],但模型構(gòu)建屬于“文本”層面,缺少細(xì)節(jié)性研究.因此短文本的表示方法還有待研究.

Bengio在2003年首次提出了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM),但由于其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)較復(fù)雜,許多學(xué)者在其基礎(chǔ)上進(jìn)行改進(jìn)優(yōu)化,最具代表性之一的當(dāng)屬T.Mikolov等人在2013年基于神經(jīng)網(wǎng)絡(luò)提出的Word2Vec模型[10].Word2Vec模型通過(guò)對(duì)詞語(yǔ)的上下文及詞語(yǔ)與上下文的語(yǔ)義關(guān)系進(jìn)行建模,將詞語(yǔ)映射到一個(gè)抽象的低維實(shí)數(shù)空間,生成對(duì)應(yīng)的詞向量.Word2vec詞向量的維度通常在100～300維之間,每一維都代表了詞的淺層語(yǔ)義特征[11],通過(guò)向量之間的距離反映詞語(yǔ)之間的相似度,這使得Word2Vec模型生成的詞向量廣泛應(yīng)用于自然語(yǔ)言處理 (Natural Language Processing,NLP)的各類任務(wù)中,如中文分詞[12],POS 標(biāo)注[13],文本分類[14,15],語(yǔ)法依賴關(guān)系分析[16]等.與傳統(tǒng)的空間向量文本表示模型相比,使用詞向量表示文本,既能解決傳統(tǒng)向量空間模型的特征高維稀疏問(wèn)題,還能引入傳統(tǒng)模型不具有的語(yǔ)義特征解決“詞匯鴻溝”問(wèn)題,有助于短文本分類[17].但如何利用詞向量有效表示短文本是當(dāng)前的一個(gè)難點(diǎn),目前在這方面的研究進(jìn)展緩慢,常見(jiàn)的方法有對(duì)短文本所包含的所有詞向量求平均值[18],但卻忽略了單個(gè)詞向量對(duì)文本表示的重要程度不同,對(duì)短文本向量的表示并不準(zhǔn)確.Quoc Le和Tomas Mikolov[19]在2014年提出的Doc2Vec方法在句子訓(xùn)練過(guò)程中加入段落ID,在句子的訓(xùn)練過(guò)程中共享同一個(gè)段落向量,但其效果與Word2Vec模型的效果相當(dāng),甚至有時(shí)訓(xùn)練效果不如Word2Vec模型.唐明等人[20]注重單個(gè)單詞對(duì)整篇文檔的影響力,利用TF-IDF算法計(jì)算文檔中詞的權(quán)重,結(jié)合Word2Vec詞向量生成文檔向量,但其單純以詞頻作為權(quán)重考慮因素太單一,生成文本向量精確度不夠,未考慮文本中所含有的利于文本分類的因素的重要性,比如名詞、動(dòng)詞等不同詞性的詞對(duì)于文本內(nèi)容的反映程度是不同的,詞性對(duì)于特征詞語(yǔ)的權(quán)重應(yīng)該也是有影響的.在上述研究的基礎(chǔ)上,考慮到不同詞性的詞語(yǔ)對(duì)短文本分類的貢獻(xiàn)度不同,引入基于詞性的貢獻(xiàn)因子與TF-IDF算法結(jié)合作為詞向量的權(quán)重對(duì)短文本中的詞向量進(jìn)行加權(quán)求和,并在復(fù)旦大學(xué)中文文本分類語(yǔ)料庫(kù)上進(jìn)行測(cè)試,測(cè)試結(jié)果驗(yàn)證了改進(jìn)方法的有效性.

2 相關(guān)工作

短文本自動(dòng)分類是在預(yù)定義的分類體系下,讓計(jì)算機(jī)根據(jù)短文本的特征(詞條或短語(yǔ))確定與它關(guān)聯(lián)的類別,是一個(gè)有監(jiān)督的學(xué)習(xí)過(guò)程.在自動(dòng)文本分類領(lǐng)域常用的技術(shù)有樸素貝葉斯分類器(Navie Bayes Classifier)、支持向量機(jī) (Support Vector Machine,SVM)、K 進(jìn)鄰算法(KNN)等.本文提出的短文本分類算法結(jié)合Word2Vec和改進(jìn)的TF-IDF兩種模型.

2.1 Word2Vec模型

Word2Vec 模型包含了 Continuous Bag of Word(CBOW)和Skip-gram兩種訓(xùn)練模型,這兩種模型類似于NNLM,區(qū)別在于NNLM是為了訓(xùn)練語(yǔ)言模型,詞向量只是作為一個(gè)副產(chǎn)品同時(shí)得到,而CBOW和Skip-gram模型的直接目的就是得到高質(zhì)量的詞向量,且簡(jiǎn)化訓(xùn)練步驟優(yōu)化合成方式,直接降低了運(yùn)算復(fù)雜度.兩種模型都包括輸入層、投影層、輸出層,其中CBOW模型利用詞wt的上下文wct去預(yù)測(cè)給定詞wt,而Skip-gram模型是在已知給定詞wt的前提下預(yù)測(cè)該詞的上下文wct.上下文wct的定義如公式(1)所示:

其中c是給定詞wt的前后詞語(yǔ)數(shù)目.CBOW模型和Skip-gram模型的優(yōu)化目標(biāo)函數(shù)分別為公式(2)和公式(3)的對(duì)數(shù)似然函數(shù):

其中C代表包含所有詞語(yǔ)的語(yǔ)料庫(kù),k代表當(dāng)前詞wt的窗口大小,即取當(dāng)前詞的前后各k個(gè)詞語(yǔ).針對(duì)NNLM輸出層采用Softmax函數(shù)進(jìn)行歸一化處理計(jì)算復(fù)雜度較大的問(wèn)題,Word2Vec模型結(jié)合赫夫曼編碼的Hierachical Softmax 算法和負(fù)采樣 (Negative Sampling)技術(shù)對(duì)式中的條件概率函數(shù)的構(gòu)造進(jìn)行優(yōu)化,處理如公式(4)所示,vw和vw'分別代表詞w的輸入輸出詞向量,W代表詞典大小.之后采用隨機(jī)梯度下降算法對(duì)模型的最優(yōu)參數(shù)進(jìn)行求解.

當(dāng)模型訓(xùn)練完成時(shí)即可得到所有詞語(yǔ)對(duì)應(yīng)的詞向量,發(fā)現(xiàn)詞向量間往往存在類似的規(guī)律:由此可以看出Word2Vec模型對(duì)語(yǔ)義特征的有效表達(dá).

2.2 TF-IDF模型

詞頻與逆文檔頻率(Term Frequency-inverse Document Frequency,TF-IDF)是一種統(tǒng)計(jì)方法,用以評(píng)估詞語(yǔ)對(duì)于一份文件或者一個(gè)文件集的重要程度.字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降.通俗表達(dá)的意思是如果某個(gè)詞或短語(yǔ)在一個(gè)類別中出現(xiàn)的頻率較高,并且在其他類別中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類[21].TF-IDF由詞頻和逆文檔頻率兩部分統(tǒng)計(jì)數(shù)據(jù)組合而成,即 TF×IDF.詞頻 (Term Frequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文檔中出現(xiàn)的頻率,計(jì)算公式如(5)所示:

其中ni, j表示詞語(yǔ)ti在文檔dj中的出現(xiàn)次數(shù),分母則是在文檔dj中所有字詞的出現(xiàn)次數(shù)之和,k代表文檔dj中的總詞數(shù).已知語(yǔ)料庫(kù)中的文檔總數(shù),一個(gè)詞語(yǔ)的逆向文件頻率 (Inverse Document Frequency,IDF)可由總文檔數(shù)目除以包含有該詞語(yǔ)的文檔的數(shù)目得到,計(jì)算公式如(6)所示:

其中表示語(yǔ)料庫(kù)中的文檔總數(shù),代表包含詞語(yǔ)ti的文檔數(shù)目(即的文檔數(shù)目),如果該詞語(yǔ)不在語(yǔ)料庫(kù)中會(huì)導(dǎo)致分母為零,因此一般情況下使用由此可得出詞語(yǔ)ti的TF-IDF權(quán)重歸一化后的計(jì)算公式如(7)所示:

3 基于改進(jìn)的TF-IDF算法的加權(quán)Word2Vec分類模型

短文本分類的關(guān)鍵在于短文本的表示,一般的做法是利用向量空間模型將文檔表示為TF-IDF的加權(quán)向量,但這樣得到的短文本向量往往有特征高維稀疏等問(wèn)題.Word2Vec模型提供了一種獨(dú)特的方法解決特征稀疏問(wèn)題,而且引入了語(yǔ)義特征,能訓(xùn)練出更加豐富準(zhǔn)確的詞向量,短文本向量即可由這些包含語(yǔ)義關(guān)系的詞向量表示.

在Word2Vec詞向量的基礎(chǔ)上,結(jié)合改進(jìn)的TFIDF算法即PTF-IDF算法提出了短文本向量的表示方法及短文本分類模型.

3.1 PTF-IDF

傳統(tǒng)的TF-IDF權(quán)重計(jì)算方法用于短文本分類時(shí)是將文檔集作為整體考慮的,未體現(xiàn)出詞性對(duì)短文本分類的影響程度,但在實(shí)際的分類過(guò)程中,不同詞性的詞語(yǔ)對(duì)短文本分類的貢獻(xiàn)度和影響力是不同的.因此,本文考慮在TF-IDF基礎(chǔ)上根據(jù)詞語(yǔ)的詞性引入一個(gè)貢獻(xiàn)因子,通過(guò)調(diào)整詞性的特征權(quán)重,減少噪音項(xiàng)的干擾,凸顯特征詞的重要程度,使得不同類的短文本差別更明顯.

通過(guò)已有的研究可以了解到,名詞、動(dòng)詞對(duì)文本內(nèi)容的反映程度更強(qiáng),更能表征文本的主題,而形容詞、副詞次之,其他詞性的詞對(duì)于短文本分類的貢獻(xiàn)更小.文獻(xiàn)[22]更是直接指出中文短文本主要依靠名詞、動(dòng)詞、形容詞、副詞4種詞性進(jìn)行表達(dá),文中給出了各種詞性的詞語(yǔ)對(duì)短文本內(nèi)容的表征能力,其中動(dòng)詞和名詞對(duì)短文本內(nèi)容的表征能力最強(qiáng),對(duì)分類類別具有更高的貢獻(xiàn)度.基于此,本文引入基于詞性的貢獻(xiàn)因子與TF-IDF算法結(jié)合作為詞向量的權(quán)重,改進(jìn)的TF-IDF算法(PTF-IDF算法)計(jì)算公式如(8)所示:

式中,ti表示短文本中的當(dāng)前詞,e即為根據(jù)當(dāng)前詞的詞性所分配的權(quán)重系數(shù),且滿足即為公式(7).

3.2 Word2Vec模型結(jié)合PTF-IDF算法表示短文本

將Word2Vec模型應(yīng)用于文本分類解決了傳統(tǒng)空間向量模型的特征高維稀疏問(wèn)題和“詞匯鴻溝”問(wèn)題,但鑒于短文本具有篇幅短小、組成文本的特征詞少等不同于長(zhǎng)文本的特點(diǎn),單個(gè)詞語(yǔ)的重要程度顯得尤為重要,因此與引入了詞性貢獻(xiàn)因子的PTF-IDF算法結(jié)合,借助PTF-IDF算法從詞頻和詞性兩方面計(jì)算短文本中詞匯的權(quán)重.

Mikolov在文獻(xiàn)[10]中指出詞向量的學(xué)習(xí)不僅能學(xué)習(xí)到其語(yǔ)法特征,還能利用向量相加減的方式進(jìn)行語(yǔ)義上面的計(jì)算.為了突出單個(gè)詞語(yǔ)對(duì)文本內(nèi)容的影響,考慮其詞頻、詞性特征作為權(quán)重,可直接對(duì)短文本中的詞語(yǔ)進(jìn)行加權(quán)求和.在分類效果相差不大的情況下,相比于通過(guò)神經(jīng)網(wǎng)絡(luò)構(gòu)建短文本向量具有較高的復(fù)雜度,加權(quán)求和構(gòu)造短文本向量數(shù)學(xué)模型構(gòu)造簡(jiǎn)單且更容易理解.對(duì)于每篇短文本其短文本向量可以表示為如(9)所示的形式:

其中,wi表示分詞ti經(jīng)過(guò)Word2Vec模型訓(xùn)練出來(lái)的詞向量,通常將詞向量的維數(shù)定為200,因此短文本向量同樣是200維,大大減少了分類過(guò)程中的計(jì)算量.即為詞語(yǔ)ti引入了詞性貢獻(xiàn)因子的PTFIDF權(quán)重,Word2Vec詞向量乘以對(duì)應(yīng)的PTF-IDF權(quán)重得到加權(quán)Word2Vec詞向量.累加短文本中詞語(yǔ)的加權(quán)Word2Vec詞向量,得到短文本向量dj.

3.3 短文本分類的工作流程

對(duì)未知短文本的分類過(guò)程如圖1所示.首先利用Word2Vec模型對(duì)大型分好詞的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,將所有詞語(yǔ)根據(jù)其上下文語(yǔ)義關(guān)系映射到一個(gè)低維實(shí)數(shù)的空間向量,即可獲得每個(gè)詞語(yǔ)對(duì)應(yīng)的Word2Vec詞向量.利用結(jié)巴分詞工具對(duì)訓(xùn)練集中的短文本進(jìn)行分詞并與訓(xùn)練Word2Vec模型得到的詞向量一一對(duì)應(yīng).結(jié)巴分詞工具同樣可以對(duì)分好的詞語(yǔ)進(jìn)行詞性標(biāo)注,根據(jù)詞語(yǔ)的詞頻和詞性計(jì)算PTF-IDF值,與Word2Vec詞向量結(jié)合進(jìn)行加權(quán)求和得到短文本向量.

很多研究表明,與其他分類系統(tǒng)相比,SVM在分類性能上和系統(tǒng)健壯性上表現(xiàn)出很大優(yōu)勢(shì)[23],因此實(shí)驗(yàn)選用SVM作為分類工具,根據(jù)短文本向量及其對(duì)應(yīng)的標(biāo)簽訓(xùn)練出分類器.測(cè)試過(guò)程與訓(xùn)練過(guò)程相似,只是最后通過(guò)已訓(xùn)練好的分類器預(yù)測(cè)測(cè)試短文本的標(biāo)簽.

圖1 短文本分類的工作流程

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)集來(lái)自于由復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國(guó)際數(shù)據(jù)庫(kù)中心自然語(yǔ)言處理小組收集發(fā)布的文本分類數(shù)據(jù)集.原始數(shù)據(jù)集共20個(gè)分類,包含文本9804篇文檔,每個(gè)類別中所包含的文檔數(shù)量不等.本文選取其中文檔數(shù)量大于500的類別參與實(shí)驗(yàn),一共包含3435篇文檔,分別是藝術(shù)類、農(nóng)業(yè)類、經(jīng)濟(jì)類和政治類,每個(gè)分類下的文檔數(shù)量如表1所示.從中抽取新聞標(biāo)題作為中文短文本分類數(shù)據(jù)集,并把數(shù)據(jù)集隨機(jī)劃分成5份,每次取其中4份作為訓(xùn)練集,1份作為測(cè)試集,然后把5次分類結(jié)果的平均值作為最終結(jié)果.所有20個(gè)類別的正文內(nèi)容用Word2Vec模型訓(xùn)練詞向量.

表1 數(shù)據(jù)集各類別文檔數(shù)量

4.2 分類性能評(píng)價(jià)指標(biāo)

分類任務(wù)的常用評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Precision),召回率(Recall)和調(diào)和平均值F1.其中準(zhǔn)確率P是指分類結(jié)果中被正確分類的樣本個(gè)數(shù)與所有分類樣本數(shù)的比例.召回率R是指分類結(jié)果中被正確分類的樣本個(gè)數(shù)與該類的實(shí)際文本數(shù)的比例.F1是綜合考慮準(zhǔn)確率與召回率的一種評(píng)價(jià)標(biāo)準(zhǔn).計(jì)算公式分別如下所示:

各參數(shù)含義如表2所示.

表2 分類評(píng)價(jià)指標(biāo)參數(shù)含義表

4.3 PTF-IDF算法的權(quán)重系數(shù)確定

本文提出的分類模型在短文本分類問(wèn)題上的準(zhǔn)確率受PTF-IDF權(quán)重系數(shù)的影響較大.為得到較好的分類效果,需要確定PTF-IDF算法中的最優(yōu)權(quán)重系數(shù).當(dāng)設(shè)置不同權(quán)重系數(shù)時(shí),基于Word2Vec模型與PTFIDF算法結(jié)合表示的短文本向量在SVM分類器中的分類效果不同,選取分類效果最好即F1值最大時(shí)的系數(shù)值作為PTF-IDF算法的權(quán)重系數(shù).

由于動(dòng)詞和名詞對(duì)短文本內(nèi)容的表征能力最強(qiáng),因此實(shí)驗(yàn)中將名詞或者動(dòng)詞的權(quán)重系數(shù)α從0.5開(kāi)始取值,按的規(guī)則,采用三重循環(huán)依次以0.1的步長(zhǎng)增大的值.部分實(shí)驗(yàn)結(jié)果如表3所示.

表3 F1 值與權(quán)重系數(shù)關(guān)系

實(shí)驗(yàn)結(jié)果顯示當(dāng)分別取0.6、0.3、0.2時(shí),分類效果最好,F1 值可達(dá) 93.01%.當(dāng)取 0.8、0.4、0.2 時(shí)其次,F1 值也達(dá)到 92.79%,而當(dāng)三者系數(shù)相近時(shí),如分別取0.5、0.4、0.3和0.7、0.6、0.5時(shí)類似于原TF-IDF算法與Word2Vec詞向量加權(quán)求和,分類效果適中,由此也驗(yàn)證了引入詞性貢獻(xiàn)因子改進(jìn)TF-IDF算法對(duì)短文本分類的有效性.但并不是所有的詞性貢獻(xiàn)因子的組合都能取得不錯(cuò)的效果,當(dāng)過(guò)分看重名詞和動(dòng)詞的權(quán)重而忽略其他詞性的貢獻(xiàn)度時(shí)結(jié)果反而差強(qiáng)人意.因此通過(guò)合理調(diào)整詞性貢獻(xiàn)因子組合,獲得最優(yōu)的詞向量權(quán)重系數(shù),可以提升短文本的分類效果.

4.4 實(shí)驗(yàn)對(duì)比與分析

本文將分別使用TF-IDF、均值Word2Vec、TFIDF加權(quán)Word2Vec以及PTF-IDF加權(quán)Word2Vec四種模型對(duì)實(shí)驗(yàn)數(shù)據(jù)集中的新聞標(biāo)題進(jìn)行分類.

對(duì)于TF-IDF分類模型,使用Scikit-learn提供的TfidfVectorizer模塊提取文本特征并將短文本向量化.均值Word2Vec模型是計(jì)算一篇短文本中所有通過(guò)Word2Vec模型訓(xùn)練出的Word2Vec詞向量的均值.TF-IDF加權(quán)Word2Vec模型是將短文本中詞向量和對(duì)應(yīng)詞匯的TF-IDF權(quán)重相乘得到的加權(quán)Word2Vec詞向量,累加加權(quán)詞向量得到加權(quán)短文本向量化表示.PTF-IDF加權(quán)Word2Vec模型與TF-IDF加權(quán)Word2Vec模型類似,只是引入詞性貢獻(xiàn)因子改進(jìn)TFIDF算法,綜合考慮詞性與詞頻為詞向量賦予不同的權(quán)重,根據(jù) 4.3小節(jié)中權(quán)重系數(shù)確定的實(shí)驗(yàn),將分別設(shè)置為0.6、0.3、0.2.

實(shí)驗(yàn)中分類算法均使用Scikit-learn提供的LinearSVM算法,所有實(shí)驗(yàn)采用五分交叉驗(yàn)證,測(cè)試結(jié)果用準(zhǔn)確率(P)、召回率(R)、F1指標(biāo)進(jìn)行測(cè)評(píng),測(cè)試結(jié)果如表4–表7所列.其中類別 C1、C2、C3、C4分別代表藝術(shù)類、農(nóng)業(yè)類、經(jīng)濟(jì)類、政治類,avg代表C1–C4的平均值.

表4 TF-IDF 模型 (單位: %)

表5 均值 Word2Vec 模型 (單位: %)

表6 TF-IDF 加權(quán) Word2Vec 模型 (單位: %)

表7 PTF-IDF 加權(quán) Word2Vec 模型 (單位: %)

由表4–表7的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),均值Word2Vec模型在SVM分類器上的準(zhǔn)確率、召回率以及F1值比TF-IDF模型稍有提升,由此也驗(yàn)證了Word2Vec模型應(yīng)用于短文本分類的可行性以及Word2Vec模型所生成的詞向量比傳統(tǒng)模型所生成的詞向量更能有效地表示文檔特征.

基于TF-IDF加權(quán)的Word2Vec模型相比均值Word2Vec模型又有所提高,在SVM分類器上所有類別的平均準(zhǔn)確率、召回率、F1值分別提升了2.08%,0.21%,1.04%.這歸因于 TF-IDF 權(quán)重可以權(quán)衡Word2Vec模型生成的每個(gè)詞向量在短文本中的重要性,TF-IDF加權(quán)的Word2Vec詞向量使用于文本分類的短文本表示更合理準(zhǔn)確.

本文提出的引入詞性貢獻(xiàn)因子的PTF-IDF加權(quán)Word2Vec模型較對(duì)比的分類模型效果最好,由圖2也可以清楚地看出,基于PTF-IDF加權(quán)的Word2Vec模型在多數(shù)類別上均有不錯(cuò)的表現(xiàn),所有類別的平均F1值驗(yàn)證了所提出的基于Word2Vec的PTF-IDF加權(quán)求和計(jì)算短文本向量表示方法在短文本分類方面的有效性.

圖2 4種短文本向量表示模型分類效果比較

5 結(jié)束語(yǔ)

針對(duì)當(dāng)前短文本向量表示方法的不足,借助Word2Vec模型的優(yōu)點(diǎn),將Word2Vec模型與引入詞性貢獻(xiàn)因子的改進(jìn)TF-IDF算法結(jié)合,綜合考慮詞頻和詞性特征,提出了一種基于Word2Vec的PTF-IDF加權(quán)求和計(jì)算短文本向量算法,并應(yīng)用于短文本分類問(wèn)題,在復(fù)旦大學(xué)中文文本分類語(yǔ)料庫(kù)上的實(shí)驗(yàn)表明,相較于傳統(tǒng)的TF-IDF模型、均值Word2Vec模型以及TD-IDF加權(quán)Word2Vec模型,本算法模型有更好的短文本分類效果.但文章也有一些不足之處,數(shù)據(jù)集較少,實(shí)驗(yàn)中采用的類別不夠豐富,后續(xù)可在多個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,加強(qiáng)所提算法模型的可移植性; 在進(jìn)行短文本向量表示時(shí)只是簡(jiǎn)單加權(quán)求和,未考慮詞與詞之間的順序及位置關(guān)系,有待后續(xù)進(jìn)一步的研究和實(shí)驗(yàn).

參考文獻(xiàn)

1Manyika J,Chui M,Brown B,et al.Big data: The next frontier for innovation,competition,and productivity.McKinsey Global Institute.https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-datathe-next-frontier-for-innovation.[2015-09-05 ].

2余凱,賈磊,陳雨強(qiáng).深度學(xué)習(xí): 推進(jìn)人工智能的夢(mèng)想.程序員,2013,(6): 22–27.

3Ling W,Luís T,Marujo L,et al.Finding function in form:Compositional character models for open vocabulary word representation.Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon,Portugal.2015.1520–1530.

4朱征宇,孫俊華.改進(jìn)的基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算.計(jì)算機(jī)應(yīng)用,2013,33(8): 2276–2279,2288.

5王榮波,諶志群,周建政,等.基于 Wikipedia 的短文本語(yǔ)義相關(guān)度計(jì)算方法.計(jì)算機(jī)應(yīng)用與軟件,2015,32(1): 82–85,92.

6Rubin TN,Chambers A,Smyth P,et al.Statistical topic models for multi-label document classification.Machine Learning,2012,88(1-2): 157 –208.[doi: 10.1007/s10994-011-5272-5]

7Dumais ST.Latent semantic analysis.Annual Review of Information Science and Technology,2004,38(1): 188–230.

8Hofmann T.Probabilistic latent semantic indexing.Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Berkeley,CA,USA.1999.50–57.

9Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation.J Machine Learning Research Archive,2003,(3): 993–1022.

10Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality.Proceedings of the 26th International Conference on Neural Information Processing Systems.Lake Tahoe,NV,USA.2013.3111–3119.

11Zheng XQ,Chen HY,Xu TY.Deep learning for Chinese word segmentation and POS tagging.Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing.Seattle,WA,USA.2013.647-657.

12Tang DY,Wei FR,Yang N,et al.Learning sentimentspecific word embedding for twitter sentiment classification.Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.Baltimore,MD,USA.2014.1555–1565.

13Kim HK,Kim H,Cho S.Bag-of-concepts: Comprehending document representation through clustering words in distributed representation.Neurocomputing,2017,(266):336–352.[doi: 10.1016/j.neucom.2017.05.046]

14Socher R,Bauer J,Manning CD,et al.Parsing with compositional vector grammars.Proceedings of the 51st Meeting of the Association for Computational Linguistics.Sofia,Bulgaria.2013.455–465.

15Lilleberg J,Zhu Y,Zhang YQ.Support vector machines and Word2vec for text classification with semantic features.Proceedings of the IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing.Beijing,China.2015.136–140.

16Xing C,Wang D,Zhang XW,et al.Document classification with distributions of word vectors.Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA).Siem Reap,Cambodia.2014.1–5.

17Le QV,Mikolov T.Distributed representations of sentences and documents.Proceedings of the 31st International Conference on Machine Learning.Beijing,China.2014.1188–1196.

18唐明,朱磊,鄒顯春.基于 Word2Vec 的一種文檔向量表示.計(jì)算機(jī)科學(xué),2016,43(6): 214–217,269.[doi: 10.11896/j.issn.1002-137X.2016.06.043]

19Turian J,Ratinov L,Bengio Y.Word representations: A simple and general method for semi-supervised learning.Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Uppsala,Sweden.2010.384–394.

20Sun YM,Lin L,Yang N,et al.Radical-enhanced Chinese character embedding.In: Loo CK,Yap KS,Wong KW,et al.eds.Neural Information Processing.Cham: Springer,2014,(8835): 279–286.

21張玉芳,彭時(shí)名,呂佳.基于文本分類 TFIDF 方法的改進(jìn)與應(yīng)用.計(jì)算機(jī)工程,2006,32(19): 76–78.[doi: 10.3969/j.issn.1000-3428.2006.19.028]

22黃賢英,張金鵬,劉英濤,等.基于詞項(xiàng)語(yǔ)義映射的短文本相似度算法.計(jì)算機(jī)工程與設(shè)計(jì),2015,36(6): 1514–1518,1534.

23李玲俐.數(shù)據(jù)挖掘中分類算法綜述.重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,28(4): 44–47.