999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語(yǔ)義與統(tǒng)計(jì)相結(jié)合的中文微博相似度計(jì)算方法

2017-05-17 18:55:07李楚貞
關(guān)鍵詞:語(yǔ)義

摘要:文本相似度在自然語(yǔ)言處理領(lǐng)域中有著廣泛的應(yīng)用。基于語(yǔ)義的相似度計(jì)算方法能比較準(zhǔn)確地反映詞語(yǔ)之間的復(fù)雜關(guān)系,而基于統(tǒng)計(jì)的相似度計(jì)算方法能發(fā)掘詞語(yǔ)中潛在的相關(guān)性。微博文本具有稀疏性、實(shí)時(shí)性、不規(guī)范性等特點(diǎn),文章在綜合兩者優(yōu)勢(shì)的基礎(chǔ)上,提出了一種語(yǔ)義和統(tǒng)計(jì)相結(jié)合的中文微博相似度計(jì)算方法。實(shí)驗(yàn)證明該方法在各項(xiàng)指標(biāo)上都優(yōu)于單一的相似度計(jì)算方法。

關(guān)鍵詞:相似度計(jì)算;語(yǔ)義;統(tǒng)計(jì)

中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)03-0231-02

文本相似度計(jì)算在文本分類、文本聚類、信息檢索等自然語(yǔ)言處理領(lǐng)域有著廣泛的應(yīng)用。相比詞語(yǔ)相似度計(jì)算,文本相似度計(jì)算不僅要識(shí)別句子結(jié)構(gòu)、語(yǔ)義關(guān)系,還要考慮語(yǔ)境問題。針對(duì)這一問題,目前許多研究是把文本相似度計(jì)算轉(zhuǎn)換為計(jì)算文本中詞語(yǔ)之間的相似度,它通常是通過抽取出文本中所有的名詞和動(dòng)詞,再計(jì)算它們之間的相似度。

目前,常用的文本相似性計(jì)算方法主要有基于語(yǔ)義的相似度計(jì)算方法和基于統(tǒng)計(jì)的相似度計(jì)算方法。基于語(yǔ)義的相似度計(jì)算方法能較準(zhǔn)確地反映出詞語(yǔ)之間的復(fù)雜關(guān)系,但它需要借助本體論,而本體論資源的是否完整又決定了這種計(jì)算方法的準(zhǔn)確性。基于統(tǒng)計(jì)的相似度計(jì)算方法計(jì)算量大,且需要大規(guī)模的文本集,而文本集質(zhì)量的好壞又直接決定計(jì)算結(jié)果的優(yōu)劣。微博文本具有稀疏性、實(shí)時(shí)性、不規(guī)范性等特點(diǎn),導(dǎo)致傳統(tǒng)的相似度計(jì)算方法都很難適用。因此,本文把基于語(yǔ)義和基于統(tǒng)計(jì)的計(jì)算方法兩者結(jié)合起來,提出一種組合相似度計(jì)算方法,即語(yǔ)義和統(tǒng)計(jì)相結(jié)合的相似度計(jì)算方法。

1 常見相似度計(jì)算方法

1.1 基于語(yǔ)義的文本相似度計(jì)算

基于語(yǔ)義的文本相似度計(jì)算常以本體論作為背景知識(shí)。目前常用的本體論主要有Framenet、Wordnet和Hownet(知網(wǎng)),而Hownet(知網(wǎng))是最為著名的采用漢語(yǔ)描述的本體論。在知網(wǎng)中,用概念來對(duì)詞匯語(yǔ)義進(jìn)行描述,每個(gè)詞可以表達(dá)為幾個(gè)概念,而概念又由義原來描述。對(duì)于同義詞、近義詞不僅用來表述它的義原是確定的,而且義原的組合形式也是確定的。在計(jì)算詞匯語(yǔ)義相似度時(shí),較多是采用劉群、李建素提出的基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算公式,即,各符號(hào)代表詳見文獻(xiàn)[1]。

1.2 基于統(tǒng)計(jì)的文本相似度計(jì)算

基于統(tǒng)計(jì)的文本相似度計(jì)算方法中最常用的是基于向量空間模型的TF-IDF方法。向量空間模型是1975年Salton等人提出,它是被廣泛使用的模型之一。它把每一個(gè)文本表示成一個(gè)向量,向量的每一維表示文本的一個(gè)特征[2],形式為:,其中,為特征項(xiàng)在文本中的權(quán)值,為特征集的大小[3]。計(jì)算特征項(xiàng)的權(quán)值使用TF-IDF公式,即,其中,表示特征項(xiàng)在文本中出現(xiàn)的次數(shù),N表示全部文本數(shù)目,表示出現(xiàn)特征項(xiàng)的文本數(shù)。現(xiàn)假設(shè)有兩個(gè)文本,,則與之間的相似度計(jì)算可用下面幾種常用的方法:

2 語(yǔ)義與統(tǒng)計(jì)相結(jié)合的中文微博相似度計(jì)算

本文綜合基于語(yǔ)義和基于統(tǒng)計(jì)兩種相似度計(jì)算的優(yōu)勢(shì),提出了語(yǔ)義與統(tǒng)計(jì)相結(jié)合的中文微博相似度計(jì)算方法。下面詳細(xì)介紹其算法。

2.1 算法第一步,即計(jì)算基于語(yǔ)義的文本相似度

在計(jì)算微博文本的相似度時(shí),必須對(duì)每條微博文本進(jìn)行預(yù)處理,如分詞、詞性過濾、停用詞過濾、詞頻統(tǒng)計(jì)。經(jīng)過預(yù)處理后,每條文本只剩下高頻的、有實(shí)際意義的動(dòng)詞和名詞。本文考慮到不同詞性的詞語(yǔ)在語(yǔ)義上其相似度比較低,所以在進(jìn)行語(yǔ)義相似度計(jì)算時(shí)先進(jìn)行詞性分類表示,即把文本向量中詞性為名詞的歸為一類,詞性為動(dòng)詞的歸為另一類。假設(shè)微博文本用向量表示為={},如果是名詞,是動(dòng)詞,則詞性分類后該文本向量表示為={},再分別計(jì)算文本中名詞集合和動(dòng)詞集合的相似度,最后加權(quán)平均,得到的就是兩條微博文本的語(yǔ)義相似度。

3 實(shí)驗(yàn)結(jié)果與分析

在驗(yàn)證算法的有效性之前需要先確定它的加權(quán)系數(shù),即和的取值。本文抓取新浪微博數(shù)據(jù)7124條,利用SinglePass算法分別計(jì)算和9種不同取值的F值。實(shí)驗(yàn)結(jié)果證明,為0.4,為0.6時(shí),F(xiàn)值最大,因此,本文提出的組合相似度計(jì)算公式中取0.4,取0.6[6]。

為了驗(yàn)證組合相似度算法的有效性,本文借助SinglePass算法分別比較語(yǔ)義相似度、統(tǒng)計(jì)相似度和組合相似度三種不同計(jì)算策略的性能,結(jié)果如圖1所示。

通過圖1可以看出,相比語(yǔ)義相似度和統(tǒng)計(jì)相似度,采用組合相似度計(jì)算策略在各項(xiàng)性能指標(biāo)上都比較好,這說明引入詞匯語(yǔ)義和相關(guān)度的相似度策略能夠更好地識(shí)別相關(guān)的主題。

參考文獻(xiàn)

[1]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三界漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì).臺(tái)北,2002:59-76.

[2]Salton G,Wong A,Yang C S. A Vector Space Model for Automatic Indexing[J]. Communication of the ACM, 1975,18(11):613-620.

[3]鄭慶華,劉均,田鋒,孫霞.Web知識(shí)挖掘:理論、方法與應(yīng)用[M].北京:科學(xué)出版社,2010.

[4]趙應(yīng)秋,羅軍,張君艷.基于知網(wǎng)的詞語(yǔ)語(yǔ)義相關(guān)度計(jì)算[J].信息技術(shù),2010(3):90-93.

[5]Peat H J,Willet P.The limitations of term cooccurrence data for query expansion in document retrieval systems.Journal of American Society for Information Science,1991,42(5):378-383.

[6]李楚貞.中文微博主題層次識(shí)別方法研究[D].廣東技術(shù)師范學(xué)院,2014.

猜你喜歡
語(yǔ)義
為什么字看久了就不認(rèn)識(shí)了
語(yǔ)言與語(yǔ)義
“社會(huì)”一詞的語(yǔ)義流動(dòng)與新陳代謝
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
“吃+NP”的語(yǔ)義生成機(jī)制研究
“V+了+NP1+NP2”中V的語(yǔ)義指向簡(jiǎn)談
認(rèn)知范疇模糊與語(yǔ)義模糊
“V+X+算+X”構(gòu)式的語(yǔ)義功能及語(yǔ)義網(wǎng)絡(luò)——兼及與“V+X+是+X”構(gòu)式的轉(zhuǎn)換
“熊孩子”語(yǔ)義新探
“深+N季”組配的認(rèn)知語(yǔ)義分析
主站蜘蛛池模板: 亚洲欧美另类久久久精品播放的| 日本不卡视频在线| AV不卡无码免费一区二区三区| 久久综合九色综合97婷婷| 国产精品部在线观看| 精品视频福利| 91蜜芽尤物福利在线观看| 日本一区二区三区精品国产| 影音先锋亚洲无码| 三级欧美在线| 亚洲中文在线视频| 四虎影院国产| 久久精品亚洲热综合一区二区| 国内精品久久人妻无码大片高| 萌白酱国产一区二区| 全色黄大色大片免费久久老太| 日韩美一区二区| 激情亚洲天堂| 欧美日韩免费在线视频| 亚洲VA中文字幕| 亚洲狠狠婷婷综合久久久久| 欧美激情,国产精品| 国产精品一线天| 大香伊人久久| 亚洲成人一区在线| 国内精自视频品线一二区| 特级做a爰片毛片免费69| 欧美自拍另类欧美综合图区| 第一页亚洲| 国产日韩欧美在线视频免费观看| 美女视频黄又黄又免费高清| 国产成人亚洲无吗淙合青草| 亚洲色欲色欲www网| 国产精品人莉莉成在线播放| 国内精品久久久久久久久久影视 | 亚洲成在人线av品善网好看| 国产成人精品在线1区| 一级香蕉视频在线观看| 欧美日韩成人| 亚洲中文字幕在线观看| 日韩欧美国产另类| 亚洲综合狠狠| 色综合天天视频在线观看| 91偷拍一区| 成人年鲁鲁在线观看视频| 欧美性精品| 久久77777| 精品亚洲麻豆1区2区3区| 国产成人精品免费视频大全五级| hezyo加勒比一区二区三区| 中文字幕免费在线视频| 日韩一区二区在线电影| 亚洲色婷婷一区二区| 日韩一二三区视频精品| 免费不卡在线观看av| 日本午夜视频在线观看| 91久久夜色精品国产网站| 中文字幕佐山爱一区二区免费| 性喷潮久久久久久久久| 国产精品自在在线午夜| 91蝌蚪视频在线观看| 成人午夜视频免费看欧美| 99精品视频九九精品| 中文字幕无码制服中字| 色综合成人| 老司机久久99久久精品播放| 国产小视频免费| 凹凸精品免费精品视频| 曰韩人妻一区二区三区| 精品无码视频在线观看| 激情视频综合网| 久久不卡国产精品无码| 国产精欧美一区二区三区| 国产亚洲精| 九九精品在线观看| 不卡网亚洲无码| 99激情网| 欧美午夜精品| 97综合久久| 久久女人网| 日韩123欧美字幕| 日韩高清无码免费|