999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合語(yǔ)義和結(jié)構(gòu)的短文本相似度計(jì)算

2018-08-21 02:07:28倪高偉
關(guān)鍵詞:語(yǔ)義單詞文本

倪高偉,李 濤,劉 崢

(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210046)

0 引 言

短文本在移動(dòng)短消息、即時(shí)消息、BBS標(biāo)題、新聞標(biāo)題、在線聊天記錄、博客評(píng)論、新聞評(píng)論等領(lǐng)域中應(yīng)用廣泛。其主要特點(diǎn)是長(zhǎng)度很短,不超過(guò)200個(gè)字符。如日常使用的手機(jī)短信,往往不超過(guò)70個(gè)字,以及BBS標(biāo)題和新聞標(biāo)題不超過(guò)30個(gè)字。短文本通常具有以下特征[1-2]:

(1)稀疏性:短文本通常只包含幾個(gè)到十幾個(gè)字,不能提供足夠的共現(xiàn)詞或共享上下文作為一個(gè)好的相似度度量,因此難以提取有效的語(yǔ)言特征。

(2)即時(shí)性:短文本立即發(fā)送并實(shí)時(shí)接收。此外,數(shù)據(jù)流量非常大。

(3)非規(guī)范性:短文本描述簡(jiǎn)潔,多為名詞性短語(yǔ)拼接,包含大量的口頭用語(yǔ),同時(shí)有很多拼寫錯(cuò)誤,如非標(biāo)準(zhǔn)的詞語(yǔ)。

(4)噪聲和分布不平衡性:一些應(yīng)用背景(如網(wǎng)絡(luò)安全)需要處理大量的短文本數(shù)據(jù)。然而,在大規(guī)模的數(shù)據(jù)中,往往只關(guān)注其中的小部分(檢測(cè)對(duì)象)。因此,在某些應(yīng)用背景下有用實(shí)例是很有限的,同時(shí)大量的噪聲數(shù)據(jù)也導(dǎo)致了訓(xùn)練樣本的分布不平衡。

(5)大規(guī)模數(shù)據(jù)和標(biāo)簽瓶頸:很難手動(dòng)標(biāo)記所有的大規(guī)模實(shí)例,同時(shí)有限標(biāo)記的實(shí)例只能提供有限的信息。

詞袋(bag of words,BOW)和術(shù)語(yǔ)頻率信息(term frequency-inverse document frequency,TF-IDF)是常見(jiàn)表示文檔的方法。因短文本共現(xiàn)詞很少,這些方法通常不適合計(jì)算文檔距離,同時(shí)也不能捕獲單個(gè)詞之間的距離。有許多方法試圖通過(guò)學(xué)習(xí)潛在的低維向量表示文檔來(lái)規(guī)避這個(gè)問(wèn)題,如潛在語(yǔ)義索引(latent semantic indexing,LSI)[3-4]特征化BOW特征空間,以及潛在狄利克利分布(latent Dirichlet allocation,LDA)[5-6]通過(guò)概率將相似詞組合成主題,并將文檔表示為這些主題的分布。與此同時(shí),關(guān)于BOW/TF-IDF有許多變種算法[7-8]。相比于BOW,這些方法產(chǎn)生了更連貫的文檔向量,但它們通常不會(huì)改進(jìn)BOW在基于距離的任務(wù)(例如k近鄰分類器)上的經(jīng)驗(yàn)性能。

1 基于Word2Vec的短文本相似度計(jì)算

2013年,Mikolov等[9-11]發(fā)表的三篇關(guān)于詞向量的論文,通過(guò)捕獲詞語(yǔ)之間的語(yǔ)義相似性開(kāi)發(fā)了Word2Vec。此后,研究者們廣泛應(yīng)用這樣的詞向量來(lái)改善自然語(yǔ)言處理的狀態(tài),如詞性標(biāo)記[12]、標(biāo)簽預(yù)測(cè)[13]和關(guān)鍵詞提取[14]等。為將詞向量轉(zhuǎn)化為表示大部分語(yǔ)義信息的文本向量,研究者在文本中選擇平均化或最大化詞向量[15-16],或者通過(guò)多層感知器[17]、聚類[18]等方法。這些方法雖取得了不錯(cuò)的效果,但由于非信息詞的影響,很難捕獲更多的文本語(yǔ)義信息。

因此,為了基于詞向量獲得最佳的文本向量表示,Kusner等[19]將詞向量與EMD[20]相聯(lián)系,用來(lái)度量文檔距離,提出了WMD(word mover’s distance)算法以及犧牲精度降低復(fù)雜度的WCD(word centroid distance)和RWMD(relaxed word mover’s distance)這兩種算法。該算法利用了詞向量高質(zhì)量的語(yǔ)義能力,利用了詞語(yǔ)統(tǒng)計(jì)信息過(guò)濾掉非信息詞,相對(duì)于其他算法(如LSI、LDA),在KNN文本分類中取得了較低的錯(cuò)誤率。然而,除了語(yǔ)義上的相似度,Li Yuhua等[21]證明了短文本的語(yǔ)法結(jié)構(gòu)對(duì)短文本相似度同樣有著重要的影響。廖志芳等[22]通過(guò)分析中文短文本特征,提出了基于語(yǔ)法語(yǔ)義的短文本相似度算法,但過(guò)度依賴于外部語(yǔ)義知識(shí)庫(kù),無(wú)法適應(yīng)實(shí)時(shí)、大量、多變的短文本。

在上述研究的基礎(chǔ)上,文中提出了一種考慮到句子中隱含的語(yǔ)義信息和詞序信息的算法,將EMD求解線性規(guī)劃中運(yùn)輸問(wèn)題的最優(yōu)解應(yīng)用于度量?jī)蓚€(gè)短文本的相似度,利用Word2Vec訓(xùn)練高質(zhì)量詞向量用于度量語(yǔ)義相似性,不需要依賴外部知識(shí)庫(kù),同時(shí)考慮語(yǔ)句詞組順序?qū)ο嗨贫鹊呢暙I(xiàn),可進(jìn)一步提高短文本分類的準(zhǔn)確率和召回率。

2 基于語(yǔ)義和結(jié)構(gòu)的短文本相似度計(jì)算

2.1 短文本詞序位置相似度計(jì)算

考慮一對(duì)短文本Sen1和Sen2,如:

Sen1:He is very naughty, but he has a good academic record.

Sen2:He has a good job, but he is very mischievous.

由于這兩個(gè)句子含有相同或相近的詞,基于BOW的方法得出Sen1和Sen2非常相似。然而由于Sen1和Sen2的詞序,憑人的主觀判斷Sen1和Sen2在很大程度上不相似。因此,計(jì)算短文本相似度的算法應(yīng)該考慮詞序的影響。

對(duì)于例句Sen1和Sen2,分別進(jìn)行分詞并去掉停用詞,從而得到若干個(gè)詞組或者短語(yǔ),記作向量T1和T2,并得到它們的并集T:

T1={he very naughty but has good academic record}

T2={he has good job but very mischievous}

T={he very naughty but has good academic record job mischievous}

為T1和T2中的每個(gè)單詞分配唯一的索引號(hào),索引號(hào)為該詞在句子中出現(xiàn)的順序號(hào)。例如T1中“naughty”的索引為3,T2中“mischievous”的索引為7。在計(jì)算次序相似度時(shí),基于并集T分別給出T1和T2的詞語(yǔ)順序向量r。以T1為例,對(duì)于T中的每個(gè)詞語(yǔ)ωi,試圖從T1找到與其相同或相似的詞,具體過(guò)程如下:

(1)如果T1中存在相同的詞語(yǔ),就用T1中該詞的索引號(hào)填寫r1,否則查找T1中最相似的詞語(yǔ)ω';

(2)如果ωi與ω'之間的相似度大于預(yù)定的閾值,則將ω'在T1中的索引號(hào)填寫到r1的對(duì)應(yīng)位置;

(3)如果兩個(gè)步驟失敗,則r1對(duì)應(yīng)的位置填寫0。

應(yīng)用上述過(guò)程之后,T1和T2的詞語(yǔ)順序向量分別為r1和r2,得到:

r1={1 2 3 4 5 6 7 8 8 3}

r2={1 6 7 5 2 3 0 4 4 7}

因此,詞序向量是句子所攜帶的基本結(jié)構(gòu)信息。處理詞語(yǔ)順序的任務(wù)就是測(cè)量?jī)删湓捲~語(yǔ)順序的相似度,Li Yuhua等[21]提出了一種衡量?jī)蓚€(gè)句子詞序相似度的方法。

(1)

文中提出一種衡量單詞相對(duì)位置距離的方法,稱為偏移量。

s(ωi,ωj)=

(2)

其中,ωi為T1中第i個(gè)單詞,ωj為T2中第j個(gè)單詞;T.indexOf(ω)為單詞ω在T中的下標(biāo),如T.indexOf(naughty)=3,r1[T.indexOf(naughty)]=3,r2[T.indexOf(naughty)]=7;len(T1)和len(T2)分別為T1和T2的長(zhǎng)度。

從式2可知,兩個(gè)文本中相似的單詞相對(duì)位置越遠(yuǎn),s(ωi,ωj)越大。

2.2 結(jié)合語(yǔ)義和結(jié)構(gòu)的短文本相似度計(jì)算

EMD算法在計(jì)算短文本相似度問(wèn)題和運(yùn)輸規(guī)劃問(wèn)題上有個(gè)極大的不同點(diǎn),運(yùn)輸規(guī)劃問(wèn)題中工廠或倉(cāng)庫(kù)是不考慮順序的,而短文本中的單詞是有位置順序的,因此希望語(yǔ)義上相似的兩個(gè)詞在短文本中的位置也是相似的。如上文中提到的例子,對(duì)于包含相同或相似單詞的兩個(gè)句子,由于單詞的位置順序差異,兩個(gè)句子表達(dá)了完全相反的語(yǔ)義。結(jié)合短文本的特點(diǎn),同時(shí)考慮短文本語(yǔ)義和結(jié)構(gòu),提出一種基于EMD的短文本相似度度量方法。

圖1 短文本分布

(3)

式3模型的復(fù)雜度為o(p3logp),其中p表示標(biāo)準(zhǔn)化詞袋(normalized bag-of-words,nBOW)的長(zhǎng)度,即數(shù)據(jù)集中不同單詞的數(shù)目(去掉停用詞)。EMD算法在運(yùn)輸規(guī)劃問(wèn)題的應(yīng)用中,假設(shè)貨物的總重量等于倉(cāng)庫(kù)的總?cè)萘俊.?dāng)不考慮倉(cāng)庫(kù)的容量,即在運(yùn)輸貨物時(shí)只往離工廠最近的倉(cāng)庫(kù)運(yùn)送。該策略應(yīng)用到文本相似度度量方法中,只向離單詞i最近的單詞j轉(zhuǎn)移,同時(shí)只需計(jì)算離單詞i最近的單詞j之間的偏移量s(i,j)。

對(duì)式3去掉第3個(gè)約束條件,可以得到:

(4)

同時(shí)矩陣T應(yīng)該定義為:

(5)

當(dāng)然在運(yùn)輸規(guī)劃問(wèn)題上也可以去掉工廠中貨物量的限制,不斷將貨物運(yùn)輸?shù)絺}(cāng)庫(kù)中,直到倉(cāng)庫(kù)滿為止。在短文本相似度度量問(wèn)題上,往往希望無(wú)論哪一個(gè)短文本被視為工廠,都應(yīng)該計(jì)算得到相同的值。因此總是將兩個(gè)短文本中較長(zhǎng)者作為工廠。原因有如下兩點(diǎn):一是希望計(jì)算結(jié)果是對(duì)稱的,即無(wú)論順序如何,計(jì)算相似性時(shí)都應(yīng)得到相同的分?jǐn)?shù);二是為了不遺漏單詞。假設(shè)有兩個(gè)文本,其中一個(gè)短文本中的單詞集合是另一個(gè)短文本單詞集合的子集。若將較短的文本作為工廠,將得到一個(gè)完美的分?jǐn)?shù)。反之,若把最長(zhǎng)的文本作為工廠,文本之間的不一致性就會(huì)因具體的需要對(duì)得分產(chǎn)生影響。

3 實(shí)驗(yàn)與分析

在已有的一些相關(guān)研究中,目前還沒(méi)有合適的標(biāo)準(zhǔn)文本數(shù)據(jù)集來(lái)評(píng)估句子(或短文本)相似性。因?yàn)檎Z(yǔ)言的解釋是主觀的,同時(shí)缺乏更深層次的語(yǔ)境信息,所以構(gòu)建合適的數(shù)據(jù)集需要對(duì)語(yǔ)言發(fā)言者進(jìn)行大規(guī)模的心理學(xué)研究,以便包括不同的文化背景。這樣一個(gè)大的研究超出了本文的范圍,但為了評(píng)估該短文本相似性度量方法,使用10個(gè)自定義短文本作為初步數(shù)據(jù)集。

在文本分類任務(wù)上,選擇3個(gè)有監(jiān)督的短文本數(shù)據(jù)集:SearchSnippets,由Phan等[23]利用預(yù)先定義好的8個(gè)領(lǐng)域短語(yǔ)詞在搜索引擎中檢索出的文本片段作為短文本,其領(lǐng)域包括商業(yè)、計(jì)算機(jī)、健康和教育等;StackOverflow,技術(shù)問(wèn)答社區(qū)StackOverflow數(shù)據(jù)中選取20類不同標(biāo)簽的問(wèn)題標(biāo)題作為短文本,其標(biāo)簽包含SVN、Oracle、Bash和Apache等;Biomedical,國(guó)際知名生物醫(yī)學(xué)類平臺(tái)BioASQ的官方數(shù)據(jù)中選取20類MeSH主題下的論文標(biāo)題作為短文本,共搜集到20 000條數(shù)據(jù),其主題包含Aging、Chemistry、Cats和Erythrocytes等。

表1展示了每個(gè)數(shù)據(jù)集的樣本個(gè)數(shù)、詞典大小、最長(zhǎng)句子長(zhǎng)度、平均句子長(zhǎng)度和類別個(gè)數(shù)。采用Word2Vec算法的Skip-gram模型對(duì)短文本數(shù)據(jù)集進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練語(yǔ)料的特點(diǎn),將上下文窗口大小設(shè)置為3,向量維度為100,學(xué)習(xí)速率為0.025,采樣閾值為0.001,單詞的最低出現(xiàn)次數(shù)為3。

表1 數(shù)據(jù)集特征

與其他4種計(jì)算短文本相似度的方法在KNN分類中比較準(zhǔn)確率和召回率。

(1)TF-IDF[8]:由單詞的統(tǒng)計(jì)信息表示文本;

(2)LSI[5]:對(duì)使用BOW表示的文本信息進(jìn)行奇異值分解獲得語(yǔ)義特征空間;

(3)LDA[24]:一種文檔主題生成模型,可以得到文檔到主題的分布,主題到單詞的分布。

(4)RWMD[19]:將詞向量與EMD相聯(lián)系,用來(lái)度量文檔距離。

3.1 短文本相似度計(jì)算方法實(shí)驗(yàn)對(duì)比

表2展示了5種短文本相似度計(jì)算方法的實(shí)驗(yàn)對(duì)比,如序號(hào)1和序號(hào)2測(cè)試句子對(duì),兩個(gè)短文本含有相同的單詞集合,只是詞語(yǔ)的相對(duì)順序有所差別,憑人的主觀判斷兩個(gè)短文本所表達(dá)的意思差別很大,但傳統(tǒng)的短文本相似度度量方法(如TF-IDF、LSI、LDA、RWMD)計(jì)算兩個(gè)短文本的相似度結(jié)果為1,即它們完全相同,這顯然是不合理的。序號(hào)1,序號(hào)2和序號(hào)3測(cè)試句子對(duì)文中提出的方法計(jì)算結(jié)果分別為0.562 4,0.643 3,0.506 4,相對(duì)于傳統(tǒng)方法有著明顯的改進(jìn),更加符合人的主觀判斷。

當(dāng)兩個(gè)短文本共現(xiàn)詞很少或沒(méi)有共現(xiàn)詞時(shí),如序號(hào)4、5測(cè)試語(yǔ)句對(duì),基于統(tǒng)計(jì)信息的方法(如IF-IDF)明顯不能捕獲語(yǔ)義信息。雖然LSI和LDA相比于TF-IDF得到了一個(gè)不錯(cuò)的效果,但相比于基于Word2Vec的方法,仍舊不能獲得更多的語(yǔ)義信息。RWMD和文中提出的方法在共現(xiàn)詞很少的情況下,可以獲得更多的語(yǔ)義信息,計(jì)算短文本相似度結(jié)果更準(zhǔn)確。

表2 五種方法短文本相似度實(shí)驗(yàn)對(duì)比

3.2 文本分類實(shí)驗(yàn)對(duì)比

圖2和圖3展示了5種短文本相似度度量方法應(yīng)用在3個(gè)數(shù)據(jù)集上的KNN文本分類的準(zhǔn)確率和召回率。相比于TF-IDF,雖然LDA和LSI產(chǎn)生了更連貫的文檔向量,但它們通常不會(huì)改進(jìn)BOW在KNN上的經(jīng)驗(yàn)性能。基于Word2Vec的算法在文本分類任務(wù)上明顯比傳統(tǒng)方法有著較高的準(zhǔn)確率和召回率。相比于RWMD算法,文中算法考慮了文本的語(yǔ)法結(jié)構(gòu),在文本分類中保持了較高的準(zhǔn)確率,同時(shí)召回率略高于RWMD算法。

圖2 分類準(zhǔn)確率對(duì)比

圖3 召回率對(duì)比

4 結(jié)束語(yǔ)

短文本相似度計(jì)算在事件檢測(cè)、新聞推薦、搜索引擎和自動(dòng)問(wèn)答等多個(gè)領(lǐng)域有著非常廣泛的應(yīng)用。目前的文本相似度計(jì)算技術(shù)在長(zhǎng)文本領(lǐng)域取得了比較好的性能,但是短文本字?jǐn)?shù)較少、不能提供足夠的共現(xiàn)詞或共享上下文、數(shù)量多、即時(shí)性強(qiáng),傳統(tǒng)的文本相似度技術(shù)并不一定適用。文中將EMD算法與Word2Vec相結(jié)合,同時(shí)考慮短文本的詞序結(jié)構(gòu)對(duì)計(jì)算相似性的影響,提出度量不同文本中兩個(gè)詞語(yǔ)的相對(duì)位置的方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠獲取大部分的文本語(yǔ)義信息,并且在文本分類實(shí)驗(yàn)結(jié)果中擁有比較好的準(zhǔn)確率和召回率。

猜你喜歡
語(yǔ)義單詞文本
語(yǔ)言與語(yǔ)義
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何快速走進(jìn)文本
最難的單詞
主站蜘蛛池模板: 99久久精品视香蕉蕉| 国产综合亚洲欧洲区精品无码| 国产在线拍偷自揄观看视频网站| 欧美日本中文| 久久人搡人人玩人妻精品| 国产主播在线观看| 国产91透明丝袜美腿在线| 福利片91| 一本大道无码日韩精品影视| 一级毛片在线免费视频| 精品无码人妻一区二区| 直接黄91麻豆网站| 成人一级黄色毛片| 色网站在线免费观看| 亚洲色婷婷一区二区| 久久精品国产精品国产一区| 国产在线观看精品| 国产精品自拍合集| 日韩AV无码免费一二三区| 久久无码高潮喷水| 最新亚洲av女人的天堂| 国产迷奸在线看| 欧美日韩中文字幕二区三区| 亚洲一级色| 亚洲人成网线在线播放va| 日本高清成本人视频一区| 亚洲福利视频一区二区| 国产成人免费| 激情六月丁香婷婷四房播| 99国产精品国产| 欧美高清国产| 亚洲国产成人超福利久久精品| 91在线无码精品秘九色APP| 欧美精品高清| 中国成人在线视频| 国产精品无码久久久久久| 老色鬼欧美精品| 欧美精品1区| 欧美午夜精品| 青青操国产| 欧洲av毛片| 国产啪在线91| 久久综合婷婷| 婷婷综合在线观看丁香| 狠狠亚洲五月天| AV无码一区二区三区四区| 色网站在线视频| 美女被操黄色视频网站| 制服丝袜在线视频香蕉| 国产日韩精品欧美一区喷| 在线观看91精品国产剧情免费| 伊人91视频| 色欲色欲久久综合网| 99久久人妻精品免费二区| 国产96在线 | 91小视频版在线观看www| 国产福利微拍精品一区二区| 国内精品免费| 欧美激情成人网| 久热re国产手机在线观看| 91色在线视频| 国产第一色| 在线精品视频成人网| 久久中文无码精品| 久久超级碰| 日韩精品一区二区三区swag| 97人人模人人爽人人喊小说| 国产理论一区| 日韩精品一区二区三区swag| 亚洲第一成年免费网站| 青青草一区二区免费精品| 久久精品人妻中文系列| 午夜三级在线| 日本AⅤ精品一区二区三区日| 久久综合结合久久狠狠狠97色| 青青国产视频| 久久久亚洲色| 日韩黄色在线| 好吊色妇女免费视频免费| 亚洲性影院| 啪啪永久免费av| 亚洲成人免费看|