999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于句子的多屬性融合相似度計(jì)算方法①

2022-05-10 08:41:38袁紹正周艷平
關(guān)鍵詞:方法

袁紹正,周艷平

(青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,青島 266061)

計(jì)算句子相似度是自然語(yǔ)言處理領(lǐng)域研究的一個(gè)基礎(chǔ)且重要的工作,有著廣泛的應(yīng)用方向,多用于智能問(wèn)答、信息檢索、語(yǔ)義分析和文本分類(lèi)等場(chǎng)景.

目前對(duì)于句子相似度的研究停留在語(yǔ)義理解范圍,依托越來(lái)越龐大的數(shù)據(jù)庫(kù)做大量的仿真,做到讓機(jī)器理解人類(lèi)的語(yǔ)言,但現(xiàn)有的句子相似度計(jì)算方法主要分為兩大類(lèi):基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法[1].典型的方法有萊文斯坦距離、BM25、TF-IDF、Word2Vec余弦相似度、Jaccard 系數(shù)相似性計(jì)算等.

國(guó)內(nèi)外各個(gè)學(xué)者對(duì)句子相似度的研究做了廣泛的探索.Tian 等[2]提出一種基于同義詞表的改進(jìn)Word2Vec句子相似度算法,通過(guò)構(gòu)建同義詞表和融合詞向量來(lái)提高句子相似度計(jì)算的準(zhǔn)確性;Wilson 等[3]提出一種使用組合語(yǔ)義方法來(lái)測(cè)量文檔相似性的有效方法,該方法結(jié)合了多個(gè)語(yǔ)義計(jì)算;文獻(xiàn)[2,3]的研究由于語(yǔ)義工具和應(yīng)用邏輯的效率決定了應(yīng)用程序的準(zhǔn)確度和整體性能,待進(jìn)一步提升;Goz 等[4]研究基于關(guān)鍵字的社交網(wǎng)絡(luò)相似性的適用性;Ruan 等[5]計(jì)算句子相似度是將Word2Vec 方法和詞嵌入相似度方法結(jié)合,二者對(duì)于關(guān)鍵詞詞性信息稍欠考慮;翟社平等[6]提出多特征的句子詞形、詞序及句長(zhǎng)特征融合的相似度計(jì)算方法,由于句子關(guān)鍵詞存在一詞多義,只考慮了句子的字面特征,將導(dǎo)致相似度匹配不準(zhǔn)確.

句子由多個(gè)詞組成也包含多種屬性,句長(zhǎng)度、詞出現(xiàn)的頻率和詞在句中的詞性以及其在句中的順序?qū)渥诱Z(yǔ)義的影響度不同,需綜合考慮到句子深層和表層所有因素[7].因此本文以句子的語(yǔ)序結(jié)構(gòu)、詞性信息和形態(tài)結(jié)構(gòu)等特點(diǎn)為核心要素,構(gòu)建研究領(lǐng)域本體庫(kù),通過(guò)給各屬性分配權(quán)重,提出一種基于句子的多屬性融合相似度計(jì)算方法,以提升句子相似度計(jì)算的合理性.

1 相似度概念

1.1 句子相似度

文本相似度一般指文本在語(yǔ)義上的相似程度[8],句子相似度指的是句子在語(yǔ)義上的相似程度,用來(lái)評(píng)估句子之間符合程度.如果兩個(gè)句子之間符合程度高,那兩者一定有相似或相同的屬性,令SIM(S1,S2)作為兩個(gè)句子S1和S2的相似度,則其具有以下幾個(gè)特點(diǎn):

(1)SIM(S1,S2)∈[0,1]∩SIM(S1,S2)∈R,表示兩個(gè)句子相似度的取值;

(2)SIM(S1,S2)=0,表示句子之間沒(méi)有任何相同的屬性,兩個(gè)句子不相似;

(3)SIM(S1,S2)=1,表示兩個(gè)句子在形態(tài)結(jié)構(gòu)、語(yǔ)序結(jié)構(gòu)、語(yǔ)義信息等方面具有完全相同的屬性;

(4)SIM(S1,S2)=SIM(S2,S1),表示兩個(gè)句子相似且具有對(duì)稱(chēng)性.

1.2 余弦相似度

兩個(gè)句子的相似度可以用向量余弦值的值來(lái)衡量,稱(chēng)為余弦相似度[9].首先,將兩個(gè)句子數(shù)字化變成向量,其次,計(jì)算其夾角余弦cos(θ),衡量?jī)蓚€(gè)向量之間差異的大小.余弦值接近1,夾角趨于0,表明兩個(gè)向量越相似,余弦值接近0,夾角趨于90 度,表明越不相似.如圖1所示,向量a和向量b的余弦?jiàn)A角小于向量a和向量c的余弦?jiàn)A角,表示a和b具有更高的相似度.

圖1 向量的余弦相似度

將句子S1和S2以向量表示:

則句子的余弦相似度計(jì)算公式為:

2 基于句子的多屬性融合相似度計(jì)算方法

一個(gè)句子除包含的關(guān)鍵詞外,也不能忽略自身的一些屬性,比如詞頻、詞序、詞性和句長(zhǎng),本文將4 個(gè)屬性進(jìn)行加權(quán)融合得到句子相似度.句子之間在詞語(yǔ)形態(tài)上的相似度,即出現(xiàn)共有關(guān)鍵詞的頻率為詞頻相似度;句子之間共有關(guān)鍵詞的相對(duì)位置關(guān)系的相似度為詞序相似度;句子之間共有關(guān)鍵詞的詞性的相似度為詞性相似度;兩個(gè)句子的長(zhǎng)度的關(guān)系為句長(zhǎng)相似度.

傳統(tǒng)方法對(duì)句子進(jìn)行分詞、去停等操作提取關(guān)鍵詞進(jìn)行表面特征的相似度比較,這是不全面的,中文自然語(yǔ)言不同于英文自然語(yǔ)言,中文有著豐富且靈動(dòng)的表達(dá)形式.如詞性方面,“退役士兵有什么需要?”與“退役士兵需要有什么?”,此處的兩個(gè)“需要”字面特征一致,本質(zhì)卻不同,名詞和動(dòng)詞的詞性不同導(dǎo)致句子所表達(dá)的意思有差別.詞性序列如表1所示.

表1 句子關(guān)鍵詞詞性

本文將使用哈爾濱工業(yè)大學(xué)開(kāi)發(fā)的在線語(yǔ)言技術(shù)平臺(tái)(language technology platform,LTP)[10]進(jìn)行分詞并得到所需的句子屬性信息.LTP 處理后的結(jié)果如圖2.

圖2 分詞和詞性標(biāo)注的結(jié)果

2.1 詞頻相似度計(jì)算方法

改進(jìn)基于向量空間模型TF-IDF(term frequencyinverted document frequency)的詞頻計(jì)算方法[11].TFIDF 簡(jiǎn)單結(jié)構(gòu)沒(méi)有考慮詞語(yǔ)的語(yǔ)義信息,無(wú)法處理一詞多義與一義多詞的情況.

采用詞語(yǔ)逆頻率方式計(jì)算加權(quán)算法TF-IWF(term frequency-inverse word frequency),將句子S1和S2各自的詞頻向量映射到向量空間中,其中為關(guān)鍵詞wi的詞頻-逆詞頻率,為關(guān)鍵字wi在文本中出現(xiàn)的頻率,即TF 值,表示關(guān)鍵詞wi出現(xiàn)的次數(shù)與所有詞匯量的比值,iwfwi為逆詞頻率,即IWF 值,表示為所有詞語(yǔ)的頻數(shù)之和與關(guān)鍵詞wi出現(xiàn)的頻數(shù)和的比值.結(jié)合向量余弦相似度方法[12]:

2.2 詞序相似度計(jì)算方法

句子中共有關(guān)鍵詞需考慮其相對(duì)位置關(guān)系,詞序相似度是共有關(guān)鍵詞在兩個(gè)句子中的位置相似度,詞位置順序不同導(dǎo)致句子意思不同.句子S1=“青島籍退役士兵在北京服役政策”,句子S2=“北京籍退役士兵在青島服役政策”.經(jīng)詞性和詞頻相似度計(jì)算,S1和S2相似度是100%,但實(shí)際意義差別較大,采用逆序數(shù)與向量距離相似度度量方法[13,14]融合計(jì)算詞序相似度.

舉例說(shuō)明,S1的中心詞={‘青島’,‘退役士兵’,‘北京’,‘服役’,‘政策’};S2的中心詞={‘北京’,‘退役士兵’,‘青島’,‘服役’,‘政策’}.

以句子S1的序列為標(biāo)準(zhǔn)序列(1,2,3,4,5).

首先以?xún)蓚€(gè)句子所含相同關(guān)鍵詞的逆序數(shù)作為衡量因素,S2的序列為(3,2,1,4,5),Ron(S1,S2,s)代表句子S2中詞匯的逆序數(shù),S為相同關(guān)鍵詞個(gè)數(shù),則采用逆序數(shù)衡量詞序相似度公式為:

得出句子S1和S2的逆序數(shù)詞序相似度為:

然后以?xún)蓚€(gè)句子所含相同關(guān)鍵詞的向量距離[14]作為衡量因素,distance(S1,S2)代表句子S1到S2的向量距離,maxDistance(S1,S2)為distance(S1,S2)的最大值,其計(jì)算公式為:

得出句子S1和S2的向量距離詞序相似度為:

逆序數(shù)Rev(S1,S2)與向量距方法Vec(S1,S2)融合計(jì)算詞序相似度為:

2.3 詞性相似度計(jì)算方法

詞性相似度(nature similarity)指兩個(gè)句子中共有關(guān)鍵詞的詞性相似度,此相似度計(jì)算方法用來(lái)完善一詞多義的情況[15],定義為具有相同詞性的共有關(guān)鍵詞數(shù)與兩個(gè)句子總關(guān)鍵詞數(shù)和之比.計(jì)算公式為:

使用LTP 分詞后并將得到的關(guān)鍵詞詞性進(jìn)行比較,式子中Ncs(S1,S2)是句子S1和S2相同詞性的共有關(guān)鍵詞數(shù),Com(S1)和Com(S2)即句子S1和S2的總關(guān)鍵詞數(shù).顯而易見(jiàn)的,如果得到的兩個(gè)句子詞性相同的關(guān)鍵詞數(shù)越多,那么兩個(gè)句子詞性相似度越高.

2.4 句長(zhǎng)相似度計(jì)算方法

以詞頻、詞序、詞性為核心要素計(jì)算相似度時(shí),而要完整、準(zhǔn)確的反映句子的信息也要考慮句長(zhǎng)的存在.

兩個(gè)句子長(zhǎng)度的差的絕對(duì)值,可以反映一定程度上的句子相似度,其與絕對(duì)值的大小成反比,值越小,說(shuō)明此種程度上的相似度越大.假設(shè)句子S1長(zhǎng)度表示為L(zhǎng)en(S1),S2長(zhǎng)度表示為L(zhǎng)en(S2),句長(zhǎng)相似度表示為L(zhǎng)enSim(S1,S2),則其計(jì)算公式如下:

式中,abs()為絕對(duì)值函數(shù).

2.5 句子的多屬性融合相似度計(jì)算方法

綜合詞頻、詞序、詞性、句長(zhǎng)4 種屬性,融合4 種相似度,其計(jì)算流程如圖3所示.

圖3 方法計(jì)算流程

首先輸入句子S1,S2,經(jīng)過(guò)分詞處理、去停留詞、詞性標(biāo)注等預(yù)處理操作,最終得出句子相似度公式為:

式中,α 、 β、 γ、 δ分別是詞頻、詞序、詞性和句長(zhǎng)相似度的權(quán)重值,其中0≤ α≤1,0≤ β≤1,0≤ γ≤1,0≤δ≤1,且滿(mǎn)足|α+β+γ+δ|=1.

本文采用層次分析法(AHP)[16]通常被用到處理復(fù)雜的決策問(wèn)題,準(zhǔn)備采取決策的問(wèn)題分成3 個(gè)層次,基于該方法計(jì)算出的各相似度的權(quán)重.步驟如下:

(1)將問(wèn)題條理化、層次化,根據(jù)詞頻、詞序、詞性和句長(zhǎng)相似度建立層次結(jié)構(gòu)模型.

(2)根據(jù)經(jīng)驗(yàn)賦予各相似度重要程度并構(gòu)造判斷矩陣,詞頻與詞序相似度重要程度高且一致,相較而言,詞性和句長(zhǎng)相似度重要程度低且一致,并使用1~9 及其倒數(shù)作為標(biāo)度來(lái)確定ai j的值,如表2所示.

顯然,表2 中的元素滿(mǎn)足:

表2 重要程度

根據(jù)層次分析法規(guī)則可得比較矩陣,如表3所示.

表3 比較矩陣

(3)層次單排序并進(jìn)行一致性檢驗(yàn),根據(jù)表3 可得判斷矩陣A.

計(jì)算該判斷矩陣的最大特征值λmax= 3,其對(duì)應(yīng)的特征向量為[0.6934,0.6934,0.1387,0.1387],求出一致性指標(biāo)CI(consistency index):

其中,n為矩陣的維度,得出CI=0,表示完全一致.CI的值越小,表示越一致,CI的值越大,表示越不一致.

(4)使用Satty 模擬1 000 次得到的RI表計(jì)算一致性比率,RI表如表4所示.

表4 RI 表

根據(jù)|α+β+γ+δ|=1,得出基于詞頻和詞序?qū)傩缘南嗨贫葯?quán)值為0.417,基于詞性和句長(zhǎng)屬性的相似度權(quán)值為0.083.

3 實(shí)驗(yàn)及分析

本文算法實(shí)驗(yàn)中,開(kāi)發(fā)環(huán)境為Windows 10 X64,開(kāi)發(fā)工具為VSCode1.54.1,開(kāi)發(fā)語(yǔ)言為Python 3.6.4.采用哈爾濱工業(yè)大學(xué)開(kāi)發(fā)的在線語(yǔ)言技術(shù)平臺(tái)(LTP)進(jìn)行關(guān)鍵詞分詞并得出所需的句子的屬性.

為驗(yàn)證方法的效果,對(duì)本文提出的基于句子的多屬性融合相似度計(jì)算方法和Jarcarrd、文獻(xiàn)[14]方法,設(shè)計(jì)對(duì)比試驗(yàn),以召回率(Recall)、準(zhǔn)確率(Precision)、F-度量值(F-Measure)[17]對(duì)比不同算法的性能,F 度量值綜合涵蓋召回率與準(zhǔn)確率兩個(gè)指標(biāo),值越接近于100%,說(shuō)明準(zhǔn)確率和召回率越均衡,方法的效果越好,相反,如果F 度量值越接近于0,說(shuō)明兩個(gè)指標(biāo)的均衡性越差,方法效果欠缺.

(1)召回率(Recall)衡量相似度匹配的查全率.

(2)準(zhǔn)確率(Precision)衡量相似度匹配的查準(zhǔn)率.

(3)F-度量值(F-Measure)是召回率與準(zhǔn)確率的指標(biāo)歸一化平均值,用于反映整體的指標(biāo).

實(shí)驗(yàn)步驟如下:

實(shí)驗(yàn)所需數(shù)據(jù)為隨機(jī)從國(guó)家與地方退役軍人事務(wù)局等網(wǎng)站爬取的,經(jīng)過(guò)數(shù)據(jù)處理建立的問(wèn)答庫(kù),從中選取300 條問(wèn)答對(duì)作為初始數(shù)據(jù)集S.隨機(jī)從S中選取50 條作為初始標(biāo)準(zhǔn)集,余下250 條作為初始噪聲集,w為標(biāo)準(zhǔn)集的問(wèn)句,w∈S.依次使用w作為百度知道的查詢(xún)條件,利用Python 正則表達(dá)式對(duì)查詢(xún)返回的網(wǎng)頁(yè)進(jìn)行標(biāo)簽分析處理,提取出網(wǎng)頁(yè)中前5 個(gè)標(biāo)題,問(wèn)句w會(huì)有1-5 個(gè)相似問(wèn)句,人工處理篩選出標(biāo)題和問(wèn)句相似度高的句子,得到完善好的包含223 個(gè)元素的擴(kuò)充標(biāo)準(zhǔn)集,將擴(kuò)充標(biāo)準(zhǔn)集和初始標(biāo)準(zhǔn)集混合成為273 個(gè)元素的標(biāo)準(zhǔn)測(cè)試集,相同的將初始噪聲集處理得到包含1 190 個(gè)元素的擴(kuò)充噪聲集,并和初始噪聲集混合得到1 440 個(gè)元素的噪聲測(cè)試集,最后將二者混合得到測(cè)試集.依次從標(biāo)準(zhǔn)測(cè)試集的273 個(gè)句子中抽出一個(gè)問(wèn)句P,然后將其與測(cè)試集的問(wèn)句的相似度計(jì)算出進(jìn)行逆序排列,如果前5 個(gè)句子包括了擴(kuò)充標(biāo)準(zhǔn)集中問(wèn)句P所以對(duì)應(yīng)的1-5 個(gè)句子,則表明句子相似度計(jì)算達(dá)到預(yù)期.實(shí)驗(yàn)結(jié)果如表5所示.

表5 句子相似度對(duì)比實(shí)驗(yàn)(%)

Jaccard 方法和文獻(xiàn)[14]方法與本文方法的實(shí)驗(yàn)結(jié)果從表5 可以看出,Jaccard 方法具有較高準(zhǔn)確率和較低召回率,但該方法以句子的字面量為特征,所以有一定限制在一詞多義層面的相似度計(jì)算方面,句子中包含的關(guān)鍵詞相似,但卻忽略了關(guān)鍵詞詞性的不同.文獻(xiàn)[14]方法解決了一義多詞問(wèn)題,比較而言,其召回率比Jaccard 方法高64.3%,準(zhǔn)確率卻下降了26.2%,顯而易見(jiàn),兩種方法均沒(méi)有達(dá)到均衡穩(wěn)定的效果.本文方法相較于文獻(xiàn)[14]方法準(zhǔn)確率提高約20%,且F-度量值更接近于100%,明顯優(yōu)于使用Jaccard 方法和文獻(xiàn)[14]方法.

4 結(jié)論與展望

本文提出的基于句子的多屬性融合相似度計(jì)算方法,綜合考慮了句子的結(jié)構(gòu)和包含的屬性,以詞頻、詞序、詞性和句長(zhǎng)4 種相似度加權(quán)融合計(jì)算,對(duì)提高句子相似度計(jì)算的準(zhǔn)確率有利,且不會(huì)大范圍出現(xiàn)召回率的降低,其可靠性及可行性?xún)?yōu)于傳統(tǒng)方法,召回率、準(zhǔn)確率不僅均衡且歸一化F度量值較高,達(dá)到87.12%,擁有綜合優(yōu)勢(shì).接下來(lái),將該方法應(yīng)用于智能問(wèn)答系統(tǒng)的句子匹配,可適用普遍存在的句子語(yǔ)法情況,進(jìn)一步研究時(shí),將繼續(xù)優(yōu)化此方法的復(fù)雜度及問(wèn)答效率.

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡(jiǎn)單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
主站蜘蛛池模板: 首页亚洲国产丝袜长腿综合| 国产区91| 国产超碰在线观看| 国内熟女少妇一线天| …亚洲 欧洲 另类 春色| 国产v欧美v日韩v综合精品| 一级黄色欧美| 欧美不卡在线视频| 国产91色在线| 精品无码国产一区二区三区AV| 国产视频一区二区在线观看| 欧美一区二区精品久久久| 亚洲日本www| 国产美女在线观看| 天天综合亚洲| 亚洲动漫h| 好吊妞欧美视频免费| 精品视频一区在线观看| 国产欧美日韩另类| 国产成人无码久久久久毛片| 久久久久九九精品影院| 亚洲成人精品| 国产青榴视频在线观看网站| 欧美精品在线看| 亚洲aaa视频| 成人精品免费视频| 国产一区二区精品高清在线观看| 国产欧美精品午夜在线播放| 久久99国产综合精品1| 国产精品极品美女自在线| 一级毛片中文字幕| 国产a v无码专区亚洲av| 久无码久无码av无码| 亚洲码一区二区三区| 亚洲精品老司机| 中文字幕亚洲精品2页| 特级毛片8级毛片免费观看| 欧美午夜小视频| 欧美亚洲一区二区三区在线| 人人妻人人澡人人爽欧美一区| Jizz国产色系免费| 18禁黄无遮挡免费动漫网站| 国产成人在线小视频| a天堂视频在线| 亚洲第一成网站| 试看120秒男女啪啪免费| 高清不卡一区二区三区香蕉| 欧美成人午夜视频免看| 中文字幕亚洲电影| 国产成人综合亚洲欧洲色就色| 亚洲自偷自拍另类小说| 日韩国产无码一区| 亚洲美女久久| a级毛片网| 97国产在线播放| 国产原创演绎剧情有字幕的| 国产在线日本| 亚洲性一区| 欧美一区精品| 19国产精品麻豆免费观看| 国产无遮挡裸体免费视频| 久久精品亚洲中文字幕乱码| 国产在线麻豆波多野结衣| 亚洲第七页| 国产精品精品视频| 亚洲天堂网视频| 国产久草视频| 中文字幕色在线| AⅤ色综合久久天堂AV色综合| 好吊色妇女免费视频免费| 波多野结衣无码视频在线观看| 国产一二三区视频| 夜夜操国产| 伊人久久精品亚洲午夜| 日韩精品无码免费专网站| 日韩精品一区二区三区视频免费看| 国产精品久久久久久久久| 一级毛片免费观看不卡视频| 亚洲一区色| 黄色网站在线观看无码| 韩日午夜在线资源一区二区| 国产97区一区二区三区无码|