結(jié)合語(yǔ)義和結(jié)構(gòu)的短文本相似度計(jì)算

2018-08-21 02:07:28倪高偉

計(jì)算機(jī)技術(shù)與發(fā)展 2018年8期

倪高偉，李濤，劉崢

(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院，江蘇南京 210046)

0 引言

短文本在移動(dòng)短消息、即時(shí)消息、BBS標(biāo)題、新聞標(biāo)題、在線聊天記錄、博客評(píng)論、新聞評(píng)論等領(lǐng)域中應(yīng)用廣泛。其主要特點(diǎn)是長(zhǎng)度很短，不超過(guò)200個(gè)字符。如日常使用的手機(jī)短信，往往不超過(guò)70個(gè)字，以及BBS標(biāo)題和新聞標(biāo)題不超過(guò)30個(gè)字。短文本通常具有以下特征[1-2]：

(1)稀疏性：短文本通常只包含幾個(gè)到十幾個(gè)字，不能提供足夠的共現(xiàn)詞或共享上下文作為一個(gè)好的相似度度量，因此難以提取有效的語(yǔ)言特征。

(2)即時(shí)性：短文本立即發(fā)送并實(shí)時(shí)接收。此外，數(shù)據(jù)流量非常大。

(3)非規(guī)范性：短文本描述簡(jiǎn)潔，多為名詞性短語(yǔ)拼接，包含大量的口頭用語(yǔ)，同時(shí)有很多拼寫錯(cuò)誤，如非標(biāo)準(zhǔn)的詞語(yǔ)。

(4)噪聲和分布不平衡性：一些應(yīng)用背景(如網(wǎng)絡(luò)安全)需要處理大量的短文本數(shù)據(jù)。然而，在大規(guī)模的數(shù)據(jù)中，往往只關(guān)注其中的小部分(檢測(cè)對(duì)象)。因此，在某些應(yīng)用背景下有用實(shí)例是很有限的，同時(shí)大量的噪聲數(shù)據(jù)也導(dǎo)致了訓(xùn)練樣本的分布不平衡。

(5)大規(guī)模數(shù)據(jù)和標(biāo)簽瓶頸：很難手動(dòng)標(biāo)記所有的大規(guī)模實(shí)例，同時(shí)有限標(biāo)記的實(shí)例只能提供有限的信息。

詞袋(bag of words，BOW)和術(shù)語(yǔ)頻率信息(term frequency-inverse document frequency，TF-IDF)是常見(jiàn)表示文檔的方法。因短文本共現(xiàn)詞很少，這些方法通常不適合計(jì)算文檔距離，同時(shí)也不能捕獲單個(gè)詞之間的距離。有許多方法試圖通過(guò)學(xué)習(xí)潛在的低維向量表示文檔來(lái)規(guī)避這個(gè)問(wèn)題，如潛在語(yǔ)義索引(latent semantic indexing，LSI)[3-4]特征化BOW特征空間，以及潛在狄利克利分布(latent Dirichlet allocation，LDA)[5-6]通過(guò)概率將相似詞組合成主題，并將文檔表示為這些主題的分布。與此同時(shí)，關(guān)于BOW/TF-IDF有許多變種算法[7-8]。相比于BOW，這些方法產(chǎn)生了更連貫的文檔向量，但它們通常不會(huì)改進(jìn)BOW在基于距離的任務(wù)(例如k近鄰分類器)上的經(jīng)驗(yàn)性能。

1 基于Word2Vec的短文本相似度計(jì)算

2013年，Mikolov等[9-11]發(fā)表的三篇關(guān)于詞向量的論文，通過(guò)捕獲詞語(yǔ)之間的語(yǔ)義相似性開(kāi)發(fā)了Word2Vec。此后，研究者們廣泛應(yīng)用這樣的詞向量來(lái)改善自然語(yǔ)言處理的狀態(tài)，如詞性標(biāo)記[12]、標(biāo)簽預(yù)測(cè)[13]和關(guān)鍵詞提取[14]等。為將詞向量轉(zhuǎn)化為表示大部分語(yǔ)義信息的文本向量，研究者在文本中選擇平均化或最大化詞向量[15-16]，或者通過(guò)多層感知器[17]、聚類[18]等方法。這些方法雖取得了不錯(cuò)的效果，但由于非信息詞的影響，很難捕獲更多的文本語(yǔ)義信息。

因此，為了基于詞向量獲得最佳的文本向量表示，Kusner等[19]將詞向量與EMD[20]相聯(lián)系，用來(lái)度量文檔距離，提出了WMD(word mover’s distance)算法以及犧牲精度降低復(fù)雜度的WCD(word centroid distance)和RWMD(relaxed word mover’s distance)這兩種算法。該算法利用了詞向量高質(zhì)量的語(yǔ)義能力，利用了詞語(yǔ)統(tǒng)計(jì)信息過(guò)濾掉非信息詞，相對(duì)于其他算法(如LSI、LDA)，在KNN文本分類中取得了較低的錯(cuò)誤率。然而，除了語(yǔ)義上的相似度，Li Yuhua等[21]證明了短文本的語(yǔ)法結(jié)構(gòu)對(duì)短文本相似度同樣有著重要的影響。廖志芳等[22]通過(guò)分析中文短文本特征，提出了基于語(yǔ)法語(yǔ)義的短文本相似度算法，但過(guò)度依賴于外部語(yǔ)義知識(shí)庫(kù)，無(wú)法適應(yīng)實(shí)時(shí)、大量、多變的短文本。

在上述研究的基礎(chǔ)上，文中提出了一種考慮到句子中隱含的語(yǔ)義信息和詞序信息的算法，將EMD求解線性規(guī)劃中運(yùn)輸問(wèn)題的最優(yōu)解應(yīng)用于度量?jī)蓚€(gè)短文本的相似度，利用Word2Vec訓(xùn)練高質(zhì)量詞向量用于度量語(yǔ)義相似性，不需要依賴外部知識(shí)庫(kù)，同時(shí)考慮語(yǔ)句詞組順序?qū)ο嗨贫鹊呢暙I(xiàn)，可進(jìn)一步提高短文本分類的準(zhǔn)確率和召回率。

2 基于語(yǔ)義和結(jié)構(gòu)的短文本相似度計(jì)算

2.1 短文本詞序位置相似度計(jì)算

考慮一對(duì)短文本Sen1和Sen2，如：

Sen1：He is very naughty, but he has a good academic record.

Sen2：He has a good job, but he is very mischievous.

由于這兩個(gè)句子含有相同或相近的詞，基于BOW的方法得出Sen1和Sen2非常相似。然而由于Sen1和Sen2的詞序，憑人的主觀判斷Sen1和Sen2在很大程度上不相似。因此，計(jì)算短文本相似度的算法應(yīng)該考慮詞序的影響。

對(duì)于例句Sen1和Sen2，分別進(jìn)行分詞并去掉停用詞，從而得到若干個(gè)詞組或者短語(yǔ)，記作向量T1和T2，并得到它們的并集T：

T1={he very naughty but has good academic record}

T2={he has good job but very mischievous}

T={he very naughty but has good academic record job mischievous}

為T1和T2中的每個(gè)單詞分配唯一的索引號(hào)，索引號(hào)為該詞在句子中出現(xiàn)的順序號(hào)。例如T1中“naughty”的索引為3，T2中“mischievous”的索引為7。在計(jì)算次序相似度時(shí)，基于并集T分別給出T1和T2的詞語(yǔ)順序向量r。以T1為例，對(duì)于T中的每個(gè)詞語(yǔ)ωi，試圖從T1找到與其相同或相似的詞，具體過(guò)程如下：

(1)如果T1中存在相同的詞語(yǔ)，就用T1中該詞的索引號(hào)填寫r1，否則查找T1中最相似的詞語(yǔ)ω'；

(2)如果ωi與ω'之間的相似度大于預(yù)定的閾值，則將ω'在T1中的索引號(hào)填寫到r1的對(duì)應(yīng)位置；

(3)如果兩個(gè)步驟失敗，則r1對(duì)應(yīng)的位置填寫0。

應(yīng)用上述過(guò)程之后，T1和T2的詞語(yǔ)順序向量分別為r1和r2，得到：

r1={1 2 3 4 5 6 7 8 8 3}

r2={1 6 7 5 2 3 0 4 4 7}

因此，詞序向量是句子所攜帶的基本結(jié)構(gòu)信息。處理詞語(yǔ)順序的任務(wù)就是測(cè)量?jī)删湓捲~語(yǔ)順序的相似度，Li Yuhua等[21]提出了一種衡量?jī)蓚€(gè)句子詞序相似度的方法。

(1)

文中提出一種衡量單詞相對(duì)位置距離的方法，稱為偏移量。

s(ωi,ωj)=

(2)

其中，ωi為T1中第i個(gè)單詞，ωj為T2中第j個(gè)單詞；T.indexOf(ω)為單詞ω在T中的下標(biāo)，如T.indexOf(naughty)=3，r1[T.indexOf(naughty)]=3，r2[T.indexOf(naughty)]=7；len(T1)和len(T2)分別為T1和T2的長(zhǎng)度。

從式2可知，兩個(gè)文本中相似的單詞相對(duì)位置越遠(yuǎn)，s(ωi,ωj)越大。

2.2 結(jié)合語(yǔ)義和結(jié)構(gòu)的短文本相似度計(jì)算

EMD算法在計(jì)算短文本相似度問(wèn)題和運(yùn)輸規(guī)劃問(wèn)題上有個(gè)極大的不同點(diǎn)，運(yùn)輸規(guī)劃問(wèn)題中工廠或倉(cāng)庫(kù)是不考慮順序的，而短文本中的單詞是有位置順序的，因此希望語(yǔ)義上相似的兩個(gè)詞在短文本中的位置也是相似的。如上文中提到的例子，對(duì)于包含相同或相似單詞的兩個(gè)句子，由于單詞的位置順序差異，兩個(gè)句子表達(dá)了完全相反的語(yǔ)義。結(jié)合短文本的特點(diǎn)，同時(shí)考慮短文本語(yǔ)義和結(jié)構(gòu)，提出一種基于EMD的短文本相似度度量方法。

圖1 短文本分布

(3)

式3模型的復(fù)雜度為o(p3logp)，其中p表示標(biāo)準(zhǔn)化詞袋(normalized bag-of-words，nBOW)的長(zhǎng)度，即數(shù)據(jù)集中不同單詞的數(shù)目(去掉停用詞)。EMD算法在運(yùn)輸規(guī)劃問(wèn)題的應(yīng)用中，假設(shè)貨物的總重量等于倉(cāng)庫(kù)的總?cè)萘俊．?dāng)不考慮倉(cāng)庫(kù)的容量，即在運(yùn)輸貨物時(shí)只往離工廠最近的倉(cāng)庫(kù)運(yùn)送。該策略應(yīng)用到文本相似度度量方法中，只向離單詞i最近的單詞j轉(zhuǎn)移，同時(shí)只需計(jì)算離單詞i最近的單詞j之間的偏移量s(i,j)。

對(duì)式3去掉第3個(gè)約束條件，可以得到：

(4)

同時(shí)矩陣T應(yīng)該定義為：

(5)

當(dāng)然在運(yùn)輸規(guī)劃問(wèn)題上也可以去掉工廠中貨物量的限制，不斷將貨物運(yùn)輸?shù)絺}(cāng)庫(kù)中，直到倉(cāng)庫(kù)滿為止。在短文本相似度度量問(wèn)題上，往往希望無(wú)論哪一個(gè)短文本被視為工廠，都應(yīng)該計(jì)算得到相同的值。因此總是將兩個(gè)短文本中較長(zhǎng)者作為工廠。原因有如下兩點(diǎn)：一是希望計(jì)算結(jié)果是對(duì)稱的，即無(wú)論順序如何，計(jì)算相似性時(shí)都應(yīng)得到相同的分?jǐn)?shù)；二是為了不遺漏單詞。假設(shè)有兩個(gè)文本，其中一個(gè)短文本中的單詞集合是另一個(gè)短文本單詞集合的子集。若將較短的文本作為工廠，將得到一個(gè)完美的分?jǐn)?shù)。反之，若把最長(zhǎng)的文本作為工廠，文本之間的不一致性就會(huì)因具體的需要對(duì)得分產(chǎn)生影響。

3 實(shí)驗(yàn)與分析

在已有的一些相關(guān)研究中，目前還沒(méi)有合適的標(biāo)準(zhǔn)文本數(shù)據(jù)集來(lái)評(píng)估句子(或短文本)相似性。因?yàn)檎Z(yǔ)言的解釋是主觀的，同時(shí)缺乏更深層次的語(yǔ)境信息，所以構(gòu)建合適的數(shù)據(jù)集需要對(duì)語(yǔ)言發(fā)言者進(jìn)行大規(guī)模的心理學(xué)研究，以便包括不同的文化背景。這樣一個(gè)大的研究超出了本文的范圍，但為了評(píng)估該短文本相似性度量方法，使用10個(gè)自定義短文本作為初步數(shù)據(jù)集。

在文本分類任務(wù)上，選擇3個(gè)有監(jiān)督的短文本數(shù)據(jù)集：SearchSnippets，由Phan等[23]利用預(yù)先定義好的8個(gè)領(lǐng)域短語(yǔ)詞在搜索引擎中檢索出的文本片段作為短文本，其領(lǐng)域包括商業(yè)、計(jì)算機(jī)、健康和教育等；StackOverflow，技術(shù)問(wèn)答社區(qū)StackOverflow數(shù)據(jù)中選取20類不同標(biāo)簽的問(wèn)題標(biāo)題作為短文本，其標(biāo)簽包含SVN、Oracle、Bash和Apache等；Biomedical，國(guó)際知名生物醫(yī)學(xué)類平臺(tái)BioASQ的官方數(shù)據(jù)中選取20類MeSH主題下的論文標(biāo)題作為短文本，共搜集到20 000條數(shù)據(jù)，其主題包含Aging、Chemistry、Cats和Erythrocytes等。

表1展示了每個(gè)數(shù)據(jù)集的樣本個(gè)數(shù)、詞典大小、最長(zhǎng)句子長(zhǎng)度、平均句子長(zhǎng)度和類別個(gè)數(shù)。采用Word2Vec算法的Skip-gram模型對(duì)短文本數(shù)據(jù)集進(jìn)行訓(xùn)練，根據(jù)訓(xùn)練語(yǔ)料的特點(diǎn)，將上下文窗口大小設(shè)置為3，向量維度為100，學(xué)習(xí)速率為0.025，采樣閾值為0.001，單詞的最低出現(xiàn)次數(shù)為3。

表1 數(shù)據(jù)集特征

與其他4種計(jì)算短文本相似度的方法在KNN分類中比較準(zhǔn)確率和召回率。

(1)TF-IDF[8]：由單詞的統(tǒng)計(jì)信息表示文本；

(2)LSI[5]：對(duì)使用BOW表示的文本信息進(jìn)行奇異值分解獲得語(yǔ)義特征空間；

(3)LDA[24]：一種文檔主題生成模型，可以得到文檔到主題的分布，主題到單詞的分布。

(4)RWMD[19]：將詞向量與EMD相聯(lián)系，用來(lái)度量文檔距離。

3.1 短文本相似度計(jì)算方法實(shí)驗(yàn)對(duì)比

表2展示了5種短文本相似度計(jì)算方法的實(shí)驗(yàn)對(duì)比，如序號(hào)1和序號(hào)2測(cè)試句子對(duì)，兩個(gè)短文本含有相同的單詞集合，只是詞語(yǔ)的相對(duì)順序有所差別，憑人的主觀判斷兩個(gè)短文本所表達(dá)的意思差別很大，但傳統(tǒng)的短文本相似度度量方法(如TF-IDF、LSI、LDA、RWMD)計(jì)算兩個(gè)短文本的相似度結(jié)果為1，即它們完全相同，這顯然是不合理的。序號(hào)1,序號(hào)2和序號(hào)3測(cè)試句子對(duì)文中提出的方法計(jì)算結(jié)果分別為0.562 4，0.643 3，0.506 4，相對(duì)于傳統(tǒng)方法有著明顯的改進(jìn)，更加符合人的主觀判斷。

當(dāng)兩個(gè)短文本共現(xiàn)詞很少或沒(méi)有共現(xiàn)詞時(shí)，如序號(hào)4、5測(cè)試語(yǔ)句對(duì)，基于統(tǒng)計(jì)信息的方法(如IF-IDF)明顯不能捕獲語(yǔ)義信息。雖然LSI和LDA相比于TF-IDF得到了一個(gè)不錯(cuò)的效果，但相比于基于Word2Vec的方法，仍舊不能獲得更多的語(yǔ)義信息。RWMD和文中提出的方法在共現(xiàn)詞很少的情況下，可以獲得更多的語(yǔ)義信息，計(jì)算短文本相似度結(jié)果更準(zhǔn)確。

表2 五種方法短文本相似度實(shí)驗(yàn)對(duì)比

3.2 文本分類實(shí)驗(yàn)對(duì)比

圖2和圖3展示了5種短文本相似度度量方法應(yīng)用在3個(gè)數(shù)據(jù)集上的KNN文本分類的準(zhǔn)確率和召回率。相比于TF-IDF，雖然LDA和LSI產(chǎn)生了更連貫的文檔向量，但它們通常不會(huì)改進(jìn)BOW在KNN上的經(jīng)驗(yàn)性能。基于Word2Vec的算法在文本分類任務(wù)上明顯比傳統(tǒng)方法有著較高的準(zhǔn)確率和召回率。相比于RWMD算法，文中算法考慮了文本的語(yǔ)法結(jié)構(gòu)，在文本分類中保持了較高的準(zhǔn)確率，同時(shí)召回率略高于RWMD算法。

圖2 分類準(zhǔn)確率對(duì)比

圖3 召回率對(duì)比

4 結(jié)束語(yǔ)

短文本相似度計(jì)算在事件檢測(cè)、新聞推薦、搜索引擎和自動(dòng)問(wèn)答等多個(gè)領(lǐng)域有著非常廣泛的應(yīng)用。目前的文本相似度計(jì)算技術(shù)在長(zhǎng)文本領(lǐng)域取得了比較好的性能，但是短文本字?jǐn)?shù)較少、不能提供足夠的共現(xiàn)詞或共享上下文、數(shù)量多、即時(shí)性強(qiáng)，傳統(tǒng)的文本相似度技術(shù)并不一定適用。文中將EMD算法與Word2Vec相結(jié)合，同時(shí)考慮短文本的詞序結(jié)構(gòu)對(duì)計(jì)算相似性的影響，提出度量不同文本中兩個(gè)詞語(yǔ)的相對(duì)位置的方法。實(shí)驗(yàn)結(jié)果表明，該方法能夠獲取大部分的文本語(yǔ)義信息，并且在文本分類實(shí)驗(yàn)結(jié)果中擁有比較好的準(zhǔn)確率和召回率。