999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2Vec的中文短文本分類問(wèn)題研究①

2018-05-17 06:48:08王德強(qiáng)
關(guān)鍵詞:分類文本模型

汪 靜,羅 浪,王德強(qiáng)

(中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074)

1 引言

移動(dòng)終端的智能化和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展促使人們?cè)谝苿?dòng)互聯(lián)網(wǎng)上交流的越來(lái)越頻繁,由此產(chǎn)生了大量的信息數(shù)據(jù)[1],這些數(shù)據(jù)多以短文本的形式作為信息傳遞的載體,例如微博和即時(shí)推送新聞等,其內(nèi)容通常都是簡(jiǎn)潔精煉并且含義概括,具有很高的研究?jī)r(jià)值.因此,如何通過(guò)機(jī)器對(duì)這些短文本內(nèi)容進(jìn)行自動(dòng)分類以及對(duì)短文本所具有的豐富含義進(jìn)行有效的理解鑒別已經(jīng)成為自然語(yǔ)言處理和機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)和難點(diǎn)[2].

短文本自動(dòng)分類首先需要將文本轉(zhuǎn)化為計(jì)算機(jī)能理解處理的形式,即文本數(shù)據(jù)的表示,其對(duì)文本分類至關(guān)重要,可直接影響分類效果.傳統(tǒng)的文本表示方法主要基于空間向量模型 (Vector Space Model,VSM),俗稱詞袋模型[3],該方法認(rèn)為文檔是無(wú)序詞項(xiàng)的集合,丟棄了詞序、語(yǔ)法等文檔結(jié)構(gòu)信息,忽略了詞語(yǔ)間的語(yǔ)義關(guān)系,存在數(shù)據(jù)高維稀疏問(wèn)題,對(duì)分類效果的提升存在瓶頸.于是一些學(xué)者引入外部的知識(shí)庫(kù)(如搜索引擎、維基百科等)對(duì)文本進(jìn)行特征擴(kuò)展,豐富詞語(yǔ)間語(yǔ)義關(guān)系[4,5],但其嚴(yán)重依賴外部知識(shí)庫(kù)的質(zhì)量,對(duì)于知識(shí)庫(kù)中未收錄的概念無(wú)能為力且計(jì)算量大、耗時(shí)長(zhǎng).另有部分學(xué)者挖掘文本潛在的語(yǔ)義結(jié)構(gòu)[6],生成主題模型如LSA,pLSI和 LDA[7–9],但模型構(gòu)建屬于“文本”層面,缺少細(xì)節(jié)性研究.因此短文本的表示方法還有待研究.

Bengio在2003年首次提出了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM),但由于其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)較復(fù)雜,許多學(xué)者在其基礎(chǔ)上進(jìn)行改進(jìn)優(yōu)化,最具代表性之一的當(dāng)屬T.Mikolov等人在2013年基于神經(jīng)網(wǎng)絡(luò)提出的Word2Vec模型[10].Word2Vec模型通過(guò)對(duì)詞語(yǔ)的上下文及詞語(yǔ)與上下文的語(yǔ)義關(guān)系進(jìn)行建模,將詞語(yǔ)映射到一個(gè)抽象的低維實(shí)數(shù)空間,生成對(duì)應(yīng)的詞向量.Word2vec詞向量的維度通常在100~300維之間,每一維都代表了詞的淺層語(yǔ)義特征[11],通過(guò)向量之間的距離反映詞語(yǔ)之間的相似度,這使得Word2Vec模型生成的詞向量廣泛應(yīng)用于自然語(yǔ)言處理 (Natural Language Processing,NLP)的各類任務(wù)中,如中文分詞[12],POS 標(biāo)注[13],文本分類[14,15],語(yǔ)法依賴關(guān)系分析[16]等.與傳統(tǒng)的空間向量文本表示模型相比,使用詞向量表示文本,既能解決傳統(tǒng)向量空間模型的特征高維稀疏問(wèn)題,還能引入傳統(tǒng)模型不具有的語(yǔ)義特征解決“詞匯鴻溝”問(wèn)題,有助于短文本分類[17].但如何利用詞向量有效表示短文本是當(dāng)前的一個(gè)難點(diǎn),目前在這方面的研究進(jìn)展緩慢,常見(jiàn)的方法有對(duì)短文本所包含的所有詞向量求平均值[18],但卻忽略了單個(gè)詞向量對(duì)文本表示的重要程度不同,對(duì)短文本向量的表示并不準(zhǔn)確.Quoc Le和Tomas Mikolov[19]在2014年提出的Doc2Vec方法在句子訓(xùn)練過(guò)程中加入段落ID,在句子的訓(xùn)練過(guò)程中共享同一個(gè)段落向量,但其效果與Word2Vec模型的效果相當(dāng),甚至有時(shí)訓(xùn)練效果不如Word2Vec模型.唐明等人[20]注重單個(gè)單詞對(duì)整篇文檔的影響力,利用TF-IDF算法計(jì)算文檔中詞的權(quán)重,結(jié)合Word2Vec詞向量生成文檔向量,但其單純以詞頻作為權(quán)重考慮因素太單一,生成文本向量精確度不夠,未考慮文本中所含有的利于文本分類的因素的重要性,比如名詞、動(dòng)詞等不同詞性的詞對(duì)于文本內(nèi)容的反映程度是不同的,詞性對(duì)于特征詞語(yǔ)的權(quán)重應(yīng)該也是有影響的.在上述研究的基礎(chǔ)上,考慮到不同詞性的詞語(yǔ)對(duì)短文本分類的貢獻(xiàn)度不同,引入基于詞性的貢獻(xiàn)因子與TF-IDF算法結(jié)合作為詞向量的權(quán)重對(duì)短文本中的詞向量進(jìn)行加權(quán)求和,并在復(fù)旦大學(xué)中文文本分類語(yǔ)料庫(kù)上進(jìn)行測(cè)試,測(cè)試結(jié)果驗(yàn)證了改進(jìn)方法的有效性.

2 相關(guān)工作

短文本自動(dòng)分類是在預(yù)定義的分類體系下,讓計(jì)算機(jī)根據(jù)短文本的特征(詞條或短語(yǔ))確定與它關(guān)聯(lián)的類別,是一個(gè)有監(jiān)督的學(xué)習(xí)過(guò)程.在自動(dòng)文本分類領(lǐng)域常用的技術(shù)有樸素貝葉斯分類器(Navie Bayes Classifier)、支持向量機(jī) (Support Vector Machine,SVM)、K 進(jìn)鄰算法(KNN)等.本文提出的短文本分類算法結(jié)合Word2Vec和改進(jìn)的TF-IDF兩種模型.

2.1 Word2Vec模型

Word2Vec 模型包含了 Continuous Bag of Word(CBOW)和Skip-gram兩種訓(xùn)練模型,這兩種模型類似于NNLM,區(qū)別在于NNLM是為了訓(xùn)練語(yǔ)言模型,詞向量只是作為一個(gè)副產(chǎn)品同時(shí)得到,而CBOW和Skip-gram模型的直接目的就是得到高質(zhì)量的詞向量,且簡(jiǎn)化訓(xùn)練步驟優(yōu)化合成方式,直接降低了運(yùn)算復(fù)雜度.兩種模型都包括輸入層、投影層、輸出層,其中CBOW模型利用詞wt的上下文wct去預(yù)測(cè)給定詞wt,而Skip-gram模型是在已知給定詞wt的前提下預(yù)測(cè)該詞的上下文wct.上下文wct的定義如公式(1)所示:

其中c是給定詞wt的前后詞語(yǔ)數(shù)目.CBOW模型和Skip-gram模型的優(yōu)化目標(biāo)函數(shù)分別為公式(2)和公式(3)的對(duì)數(shù)似然函數(shù):

其中C代表包含所有詞語(yǔ)的語(yǔ)料庫(kù),k代表當(dāng)前詞wt的窗口大小,即取當(dāng)前詞的前后各k個(gè)詞語(yǔ).針對(duì)NNLM輸出層采用Softmax函數(shù)進(jìn)行歸一化處理計(jì)算復(fù)雜度較大的問(wèn)題,Word2Vec模型結(jié)合赫夫曼編碼的Hierachical Softmax 算法和負(fù)采樣 (Negative Sampling)技術(shù)對(duì)式中的條件概率函數(shù)的構(gòu)造進(jìn)行優(yōu)化,處理如公式(4)所示,vw和vw'分別代表詞w的輸入輸出詞向量,W代表詞典大小.之后采用隨機(jī)梯度下降算法對(duì)模型的最優(yōu)參數(shù)進(jìn)行求解.

當(dāng)模型訓(xùn)練完成時(shí)即可得到所有詞語(yǔ)對(duì)應(yīng)的詞向量,發(fā)現(xiàn)詞向量間往往存在類似的規(guī)律:由此可以看出Word2Vec模型對(duì)語(yǔ)義特征的有效表達(dá).

2.2 TF-IDF模型

詞頻與逆文檔頻率(Term Frequency-inverse Document Frequency,TF-IDF)是一種統(tǒng)計(jì)方法,用以評(píng)估詞語(yǔ)對(duì)于一份文件或者一個(gè)文件集的重要程度.字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降.通俗表達(dá)的意思是如果某個(gè)詞或短語(yǔ)在一個(gè)類別中出現(xiàn)的頻率較高,并且在其他類別中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類[21].TF-IDF由詞頻和逆文檔頻率兩部分統(tǒng)計(jì)數(shù)據(jù)組合而成,即 TF×IDF.詞頻 (Term Frequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文檔中出現(xiàn)的頻率,計(jì)算公式如(5)所示:

其中ni, j表示詞語(yǔ)ti在文檔dj中的出現(xiàn)次數(shù),分母則是在文檔dj中所有字詞的出現(xiàn)次數(shù)之和,k代表文檔dj中的總詞數(shù).已知語(yǔ)料庫(kù)中的文檔總數(shù),一個(gè)詞語(yǔ)的逆向文件頻率 (Inverse Document Frequency,IDF)可由總文檔數(shù)目除以包含有該詞語(yǔ)的文檔的數(shù)目得到,計(jì)算公式如(6)所示:

其中表示語(yǔ)料庫(kù)中的文檔總數(shù),代表包含詞語(yǔ)ti的文檔數(shù)目(即的文檔數(shù)目),如果該詞語(yǔ)不在語(yǔ)料庫(kù)中會(huì)導(dǎo)致分母為零,因此一般情況下使用由此可得出詞語(yǔ)ti的TF-IDF權(quán)重歸一化后的計(jì)算公式如(7)所示:

3 基于改進(jìn)的TF-IDF算法的加權(quán)Word2Vec分類模型

短文本分類的關(guān)鍵在于短文本的表示,一般的做法是利用向量空間模型將文檔表示為TF-IDF的加權(quán)向量,但這樣得到的短文本向量往往有特征高維稀疏等問(wèn)題.Word2Vec模型提供了一種獨(dú)特的方法解決特征稀疏問(wèn)題,而且引入了語(yǔ)義特征,能訓(xùn)練出更加豐富準(zhǔn)確的詞向量,短文本向量即可由這些包含語(yǔ)義關(guān)系的詞向量表示.

在Word2Vec詞向量的基礎(chǔ)上,結(jié)合改進(jìn)的TFIDF算法即PTF-IDF算法提出了短文本向量的表示方法及短文本分類模型.

3.1 PTF-IDF

傳統(tǒng)的TF-IDF權(quán)重計(jì)算方法用于短文本分類時(shí)是將文檔集作為整體考慮的,未體現(xiàn)出詞性對(duì)短文本分類的影響程度,但在實(shí)際的分類過(guò)程中,不同詞性的詞語(yǔ)對(duì)短文本分類的貢獻(xiàn)度和影響力是不同的.因此,本文考慮在TF-IDF基礎(chǔ)上根據(jù)詞語(yǔ)的詞性引入一個(gè)貢獻(xiàn)因子,通過(guò)調(diào)整詞性的特征權(quán)重,減少噪音項(xiàng)的干擾,凸顯特征詞的重要程度,使得不同類的短文本差別更明顯.

通過(guò)已有的研究可以了解到,名詞、動(dòng)詞對(duì)文本內(nèi)容的反映程度更強(qiáng),更能表征文本的主題,而形容詞、副詞次之,其他詞性的詞對(duì)于短文本分類的貢獻(xiàn)更小.文獻(xiàn)[22]更是直接指出中文短文本主要依靠名詞、動(dòng)詞、形容詞、副詞4種詞性進(jìn)行表達(dá),文中給出了各種詞性的詞語(yǔ)對(duì)短文本內(nèi)容的表征能力,其中動(dòng)詞和名詞對(duì)短文本內(nèi)容的表征能力最強(qiáng),對(duì)分類類別具有更高的貢獻(xiàn)度.基于此,本文引入基于詞性的貢獻(xiàn)因子與TF-IDF算法結(jié)合作為詞向量的權(quán)重,改進(jìn)的TF-IDF算法(PTF-IDF算法)計(jì)算公式如(8)所示:

式中,ti表示短文本中的當(dāng)前詞,e即為根據(jù)當(dāng)前詞的詞性所分配的權(quán)重系數(shù),且滿足即為公式(7).

3.2 Word2Vec模型結(jié)合PTF-IDF算法表示短文本

將Word2Vec模型應(yīng)用于文本分類解決了傳統(tǒng)空間向量模型的特征高維稀疏問(wèn)題和“詞匯鴻溝”問(wèn)題,但鑒于短文本具有篇幅短小、組成文本的特征詞少等不同于長(zhǎng)文本的特點(diǎn),單個(gè)詞語(yǔ)的重要程度顯得尤為重要,因此與引入了詞性貢獻(xiàn)因子的PTF-IDF算法結(jié)合,借助PTF-IDF算法從詞頻和詞性兩方面計(jì)算短文本中詞匯的權(quán)重.

Mikolov在文獻(xiàn)[10]中指出詞向量的學(xué)習(xí)不僅能學(xué)習(xí)到其語(yǔ)法特征,還能利用向量相加減的方式進(jìn)行語(yǔ)義上面的計(jì)算.為了突出單個(gè)詞語(yǔ)對(duì)文本內(nèi)容的影響,考慮其詞頻、詞性特征作為權(quán)重,可直接對(duì)短文本中的詞語(yǔ)進(jìn)行加權(quán)求和.在分類效果相差不大的情況下,相比于通過(guò)神經(jīng)網(wǎng)絡(luò)構(gòu)建短文本向量具有較高的復(fù)雜度,加權(quán)求和構(gòu)造短文本向量數(shù)學(xué)模型構(gòu)造簡(jiǎn)單且更容易理解.對(duì)于每篇短文本其短文本向量可以表示為如(9)所示的形式:

其中,wi表示分詞ti經(jīng)過(guò)Word2Vec模型訓(xùn)練出來(lái)的詞向量,通常將詞向量的維數(shù)定為200,因此短文本向量同樣是200維,大大減少了分類過(guò)程中的計(jì)算量.即為詞語(yǔ)ti引入了詞性貢獻(xiàn)因子的PTFIDF權(quán)重,Word2Vec詞向量乘以對(duì)應(yīng)的PTF-IDF權(quán)重得到加權(quán)Word2Vec詞向量.累加短文本中詞語(yǔ)的加權(quán)Word2Vec詞向量,得到短文本向量dj.

3.3 短文本分類的工作流程

對(duì)未知短文本的分類過(guò)程如圖1所示.首先利用Word2Vec模型對(duì)大型分好詞的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,將所有詞語(yǔ)根據(jù)其上下文語(yǔ)義關(guān)系映射到一個(gè)低維實(shí)數(shù)的空間向量,即可獲得每個(gè)詞語(yǔ)對(duì)應(yīng)的Word2Vec詞向量.利用結(jié)巴分詞工具對(duì)訓(xùn)練集中的短文本進(jìn)行分詞并與訓(xùn)練Word2Vec模型得到的詞向量一一對(duì)應(yīng).結(jié)巴分詞工具同樣可以對(duì)分好的詞語(yǔ)進(jìn)行詞性標(biāo)注,根據(jù)詞語(yǔ)的詞頻和詞性計(jì)算PTF-IDF值,與Word2Vec詞向量結(jié)合進(jìn)行加權(quán)求和得到短文本向量.

很多研究表明,與其他分類系統(tǒng)相比,SVM在分類性能上和系統(tǒng)健壯性上表現(xiàn)出很大優(yōu)勢(shì)[23],因此實(shí)驗(yàn)選用SVM作為分類工具,根據(jù)短文本向量及其對(duì)應(yīng)的標(biāo)簽訓(xùn)練出分類器.測(cè)試過(guò)程與訓(xùn)練過(guò)程相似,只是最后通過(guò)已訓(xùn)練好的分類器預(yù)測(cè)測(cè)試短文本的標(biāo)簽.

圖1 短文本分類的工作流程

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)集來(lái)自于由復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國(guó)際數(shù)據(jù)庫(kù)中心自然語(yǔ)言處理小組收集發(fā)布的文本分類數(shù)據(jù)集.原始數(shù)據(jù)集共20個(gè)分類,包含文本9804篇文檔,每個(gè)類別中所包含的文檔數(shù)量不等.本文選取其中文檔數(shù)量大于500的類別參與實(shí)驗(yàn),一共包含3435篇文檔,分別是藝術(shù)類、農(nóng)業(yè)類、經(jīng)濟(jì)類和政治類,每個(gè)分類下的文檔數(shù)量如表1所示.從中抽取新聞標(biāo)題作為中文短文本分類數(shù)據(jù)集,并把數(shù)據(jù)集隨機(jī)劃分成5份,每次取其中4份作為訓(xùn)練集,1份作為測(cè)試集,然后把5次分類結(jié)果的平均值作為最終結(jié)果.所有20個(gè)類別的正文內(nèi)容用Word2Vec模型訓(xùn)練詞向量.

表1 數(shù)據(jù)集各類別文檔數(shù)量

4.2 分類性能評(píng)價(jià)指標(biāo)

分類任務(wù)的常用評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Precision),召回率(Recall)和調(diào)和平均值F1.其中準(zhǔn)確率P是指分類結(jié)果中被正確分類的樣本個(gè)數(shù)與所有分類樣本數(shù)的比例.召回率R是指分類結(jié)果中被正確分類的樣本個(gè)數(shù)與該類的實(shí)際文本數(shù)的比例.F1是綜合考慮準(zhǔn)確率與召回率的一種評(píng)價(jià)標(biāo)準(zhǔn).計(jì)算公式分別如下所示:

各參數(shù)含義如表2所示.

表2 分類評(píng)價(jià)指標(biāo)參數(shù)含義表

4.3 PTF-IDF算法的權(quán)重系數(shù)確定

本文提出的分類模型在短文本分類問(wèn)題上的準(zhǔn)確率受PTF-IDF權(quán)重系數(shù)的影響較大.為得到較好的分類效果,需要確定PTF-IDF算法中的最優(yōu)權(quán)重系數(shù).當(dāng)設(shè)置不同權(quán)重系數(shù)時(shí),基于Word2Vec模型與PTFIDF算法結(jié)合表示的短文本向量在SVM分類器中的分類效果不同,選取分類效果最好即F1值最大時(shí)的系數(shù)值作為PTF-IDF算法的權(quán)重系數(shù).

由于動(dòng)詞和名詞對(duì)短文本內(nèi)容的表征能力最強(qiáng),因此實(shí)驗(yàn)中將名詞或者動(dòng)詞的權(quán)重系數(shù)α從0.5開(kāi)始取值,按的規(guī)則,采用三重循環(huán)依次以0.1的步長(zhǎng)增大的值.部分實(shí)驗(yàn)結(jié)果如表3所示.

表3 F1 值與權(quán)重系數(shù)關(guān)系

實(shí)驗(yàn)結(jié)果顯示當(dāng)分別取0.6、0.3、0.2時(shí),分類效果最好,F1 值可達(dá) 93.01%.當(dāng)取 0.8、0.4、0.2 時(shí)其次,F1 值也達(dá)到 92.79%,而當(dāng)三者系數(shù)相近時(shí),如分別取0.5、0.4、0.3和0.7、0.6、0.5時(shí)類似于原TF-IDF算法與Word2Vec詞向量加權(quán)求和,分類效果適中,由此也驗(yàn)證了引入詞性貢獻(xiàn)因子改進(jìn)TF-IDF算法對(duì)短文本分類的有效性.但并不是所有的詞性貢獻(xiàn)因子的組合都能取得不錯(cuò)的效果,當(dāng)過(guò)分看重名詞和動(dòng)詞的權(quán)重而忽略其他詞性的貢獻(xiàn)度時(shí)結(jié)果反而差強(qiáng)人意.因此通過(guò)合理調(diào)整詞性貢獻(xiàn)因子組合,獲得最優(yōu)的詞向量權(quán)重系數(shù),可以提升短文本的分類效果.

4.4 實(shí)驗(yàn)對(duì)比與分析

本文將分別使用TF-IDF、均值Word2Vec、TFIDF加權(quán)Word2Vec以及PTF-IDF加權(quán)Word2Vec四種模型對(duì)實(shí)驗(yàn)數(shù)據(jù)集中的新聞標(biāo)題進(jìn)行分類.

對(duì)于TF-IDF分類模型,使用Scikit-learn提供的TfidfVectorizer模塊提取文本特征并將短文本向量化.均值Word2Vec模型是計(jì)算一篇短文本中所有通過(guò)Word2Vec模型訓(xùn)練出的Word2Vec詞向量的均值.TF-IDF加權(quán)Word2Vec模型是將短文本中詞向量和對(duì)應(yīng)詞匯的TF-IDF權(quán)重相乘得到的加權(quán)Word2Vec詞向量,累加加權(quán)詞向量得到加權(quán)短文本向量化表示.PTF-IDF加權(quán)Word2Vec模型與TF-IDF加權(quán)Word2Vec模型類似,只是引入詞性貢獻(xiàn)因子改進(jìn)TFIDF算法,綜合考慮詞性與詞頻為詞向量賦予不同的權(quán)重,根據(jù) 4.3小節(jié)中權(quán)重系數(shù)確定的實(shí)驗(yàn),將分別設(shè)置為0.6、0.3、0.2.

實(shí)驗(yàn)中分類算法均使用Scikit-learn提供的LinearSVM算法,所有實(shí)驗(yàn)采用五分交叉驗(yàn)證,測(cè)試結(jié)果用準(zhǔn)確率(P)、召回率(R)、F1指標(biāo)進(jìn)行測(cè)評(píng),測(cè)試結(jié)果如表4–表7所列.其中類別 C1、C2、C3、C4分別代表藝術(shù)類、農(nóng)業(yè)類、經(jīng)濟(jì)類、政治類,avg代表C1–C4的平均值.

表4 TF-IDF 模型 (單位: %)

表5 均值 Word2Vec 模型 (單位: %)

表6 TF-IDF 加權(quán) Word2Vec 模型 (單位: %)

表7 PTF-IDF 加權(quán) Word2Vec 模型 (單位: %)

由表4–表7的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),均值Word2Vec模型在SVM分類器上的準(zhǔn)確率、召回率以及F1值比TF-IDF模型稍有提升,由此也驗(yàn)證了Word2Vec模型應(yīng)用于短文本分類的可行性以及Word2Vec模型所生成的詞向量比傳統(tǒng)模型所生成的詞向量更能有效地表示文檔特征.

基于TF-IDF加權(quán)的Word2Vec模型相比均值Word2Vec模型又有所提高,在SVM分類器上所有類別的平均準(zhǔn)確率、召回率、F1值分別提升了2.08%,0.21%,1.04%.這歸因于 TF-IDF 權(quán)重可以權(quán)衡Word2Vec模型生成的每個(gè)詞向量在短文本中的重要性,TF-IDF加權(quán)的Word2Vec詞向量使用于文本分類的短文本表示更合理準(zhǔn)確.

本文提出的引入詞性貢獻(xiàn)因子的PTF-IDF加權(quán)Word2Vec模型較對(duì)比的分類模型效果最好,由圖2也可以清楚地看出,基于PTF-IDF加權(quán)的Word2Vec模型在多數(shù)類別上均有不錯(cuò)的表現(xiàn),所有類別的平均F1值驗(yàn)證了所提出的基于Word2Vec的PTF-IDF加權(quán)求和計(jì)算短文本向量表示方法在短文本分類方面的有效性.

圖2 4種短文本向量表示模型分類效果比較

5 結(jié)束語(yǔ)

針對(duì)當(dāng)前短文本向量表示方法的不足,借助Word2Vec模型的優(yōu)點(diǎn),將Word2Vec模型與引入詞性貢獻(xiàn)因子的改進(jìn)TF-IDF算法結(jié)合,綜合考慮詞頻和詞性特征,提出了一種基于Word2Vec的PTF-IDF加權(quán)求和計(jì)算短文本向量算法,并應(yīng)用于短文本分類問(wèn)題,在復(fù)旦大學(xué)中文文本分類語(yǔ)料庫(kù)上的實(shí)驗(yàn)表明,相較于傳統(tǒng)的TF-IDF模型、均值Word2Vec模型以及TD-IDF加權(quán)Word2Vec模型,本算法模型有更好的短文本分類效果.但文章也有一些不足之處,數(shù)據(jù)集較少,實(shí)驗(yàn)中采用的類別不夠豐富,后續(xù)可在多個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,加強(qiáng)所提算法模型的可移植性; 在進(jìn)行短文本向量表示時(shí)只是簡(jiǎn)單加權(quán)求和,未考慮詞與詞之間的順序及位置關(guān)系,有待后續(xù)進(jìn)一步的研究和實(shí)驗(yàn).

參考文獻(xiàn)

1Manyika J,Chui M,Brown B,et al.Big data: The next frontier for innovation,competition,and productivity.McKinsey Global Institute.https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-datathe-next-frontier-for-innovation.[2015-09-05 ].

2余凱,賈磊,陳雨強(qiáng).深度學(xué)習(xí): 推進(jìn)人工智能的夢(mèng)想.程序員,2013,(6): 22–27.

3Ling W,Luís T,Marujo L,et al.Finding function in form:Compositional character models for open vocabulary word representation.Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon,Portugal.2015.1520–1530.

4朱征宇,孫俊華.改進(jìn)的基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算.計(jì)算機(jī)應(yīng)用,2013,33(8): 2276–2279,2288.

5王榮波,諶志群,周建政,等.基于 Wikipedia 的短文本語(yǔ)義相關(guān)度計(jì)算方法.計(jì)算機(jī)應(yīng)用與軟件,2015,32(1): 82–85,92.

6Rubin TN,Chambers A,Smyth P,et al.Statistical topic models for multi-label document classification.Machine Learning,2012,88(1-2): 157 –208.[doi: 10.1007/s10994-011-5272-5]

7Dumais ST.Latent semantic analysis.Annual Review of Information Science and Technology,2004,38(1): 188–230.

8Hofmann T.Probabilistic latent semantic indexing.Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Berkeley,CA,USA.1999.50–57.

9Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation.J Machine Learning Research Archive,2003,(3): 993–1022.

10Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality.Proceedings of the 26th International Conference on Neural Information Processing Systems.Lake Tahoe,NV,USA.2013.3111–3119.

11Zheng XQ,Chen HY,Xu TY.Deep learning for Chinese word segmentation and POS tagging.Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing.Seattle,WA,USA.2013.647-657.

12Tang DY,Wei FR,Yang N,et al.Learning sentimentspecific word embedding for twitter sentiment classification.Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.Baltimore,MD,USA.2014.1555–1565.

13Kim HK,Kim H,Cho S.Bag-of-concepts: Comprehending document representation through clustering words in distributed representation.Neurocomputing,2017,(266):336–352.[doi: 10.1016/j.neucom.2017.05.046]

14Socher R,Bauer J,Manning CD,et al.Parsing with compositional vector grammars.Proceedings of the 51st Meeting of the Association for Computational Linguistics.Sofia,Bulgaria.2013.455–465.

15Lilleberg J,Zhu Y,Zhang YQ.Support vector machines and Word2vec for text classification with semantic features.Proceedings of the IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing.Beijing,China.2015.136–140.

16Xing C,Wang D,Zhang XW,et al.Document classification with distributions of word vectors.Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA).Siem Reap,Cambodia.2014.1–5.

17Le QV,Mikolov T.Distributed representations of sentences and documents.Proceedings of the 31st International Conference on Machine Learning.Beijing,China.2014.1188–1196.

18唐明,朱磊,鄒顯春.基于 Word2Vec 的一種文檔向量表示.計(jì)算機(jī)科學(xué),2016,43(6): 214–217,269.[doi: 10.11896/j.issn.1002-137X.2016.06.043]

19Turian J,Ratinov L,Bengio Y.Word representations: A simple and general method for semi-supervised learning.Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Uppsala,Sweden.2010.384–394.

20Sun YM,Lin L,Yang N,et al.Radical-enhanced Chinese character embedding.In: Loo CK,Yap KS,Wong KW,et al.eds.Neural Information Processing.Cham: Springer,2014,(8835): 279–286.

21張玉芳,彭時(shí)名,呂佳.基于文本分類 TFIDF 方法的改進(jìn)與應(yīng)用.計(jì)算機(jī)工程,2006,32(19): 76–78.[doi: 10.3969/j.issn.1000-3428.2006.19.028]

22黃賢英,張金鵬,劉英濤,等.基于詞項(xiàng)語(yǔ)義映射的短文本相似度算法.計(jì)算機(jī)工程與設(shè)計(jì),2015,36(6): 1514–1518,1534.

23李玲俐.數(shù)據(jù)挖掘中分類算法綜述.重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,28(4): 44–47.

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧洲成人在线观看| 婷婷五月在线视频| 婷婷亚洲最大| 亚洲av无码成人专区| 亚洲国产日韩一区| 久综合日韩| 亚洲日本www| 18黑白丝水手服自慰喷水网站| 国产精品亚洲五月天高清| 国产福利微拍精品一区二区| 无码免费视频| 久久性妇女精品免费| 亚洲无码不卡网| 免费不卡视频| 日韩毛片免费| 无遮挡国产高潮视频免费观看 | 国产一二三区在线| 少妇精品久久久一区二区三区| 人妻精品久久久无码区色视| 亚洲综合第一区| 国产女人综合久久精品视| 999国产精品| 欧美色视频网站| 国产一级片网址| 亚洲国产天堂在线观看| 久久久久无码精品国产免费| 狠狠色丁香婷婷| 91精品啪在线观看国产60岁| 国产激爽爽爽大片在线观看| 欧美一区二区丝袜高跟鞋| 国产福利一区在线| 91日本在线观看亚洲精品| 亚洲色图欧美在线| 欧美成a人片在线观看| 精品欧美一区二区三区久久久| 老司机精品99在线播放| 国产一级毛片网站| 亚洲Aⅴ无码专区在线观看q| 91精品专区国产盗摄| 57pao国产成视频免费播放| 九九视频免费看| 色婷婷国产精品视频| 亚洲天堂视频在线免费观看| 亚洲国产综合精品一区| 91丝袜乱伦| 欧美精品导航| 四虎成人精品| 毛片卡一卡二| 亚洲av成人无码网站在线观看| 国产日本欧美亚洲精品视| 日本亚洲欧美在线| 欧美精品成人一区二区视频一| 亚洲人成人伊人成综合网无码| 91精品亚洲| 国产H片无码不卡在线视频| 日本精品一在线观看视频| 日本不卡在线| 九色综合视频网| 免费观看男人免费桶女人视频| 看国产毛片| 多人乱p欧美在线观看| 98超碰在线观看| 精品视频在线一区| 婷婷综合在线观看丁香| 欧美日韩高清| 国产欧美精品一区二区| 毛片a级毛片免费观看免下载| 一本一道波多野结衣av黑人在线| jizz在线免费播放| 无码在线激情片| 色香蕉网站| 国产免费黄| 亚洲AⅤ永久无码精品毛片| 国产成人精品一区二区| 美女无遮挡拍拍拍免费视频| 亚洲欧美日韩成人在线| 亚洲va欧美ⅴa国产va影院| 亚洲人在线| 国产成人区在线观看视频| 日韩少妇激情一区二区| 毛片在线看网站| 亚洲国产高清精品线久久|