999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)數(shù)據(jù)庫(kù)訪問(wèn)中語(yǔ)義指向性算法優(yōu)化

2016-04-12 00:00:00張光勇陳志偉
現(xiàn)代電子技術(shù) 2016年16期

摘 要: 為解決數(shù)據(jù)庫(kù)從高維單詞空間映射至低維隱含語(yǔ)義空間中,無(wú)法有效實(shí)現(xiàn)數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析的問(wèn)題,提出基于主題模型的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法,建立PLSA主體模型并對(duì)其進(jìn)行求解,通過(guò)PLSA主題模型獲取理想的潛在語(yǔ)義主題,在數(shù)據(jù)庫(kù)訪問(wèn)關(guān)鍵詞上分布以及文檔在潛在語(yǔ)義主題上的分布,將其應(yīng)用于數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析中,針對(duì)數(shù)據(jù)庫(kù)表現(xiàn)出來(lái)的文本特征和結(jié)構(gòu)特征建立PLSA主題模型,通過(guò)自適應(yīng)不對(duì)稱學(xué)習(xí)算法對(duì)不同的PLSA主題模型進(jìn)行集成和優(yōu)化,以實(shí)現(xiàn)數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析,使數(shù)據(jù)庫(kù)訪問(wèn)結(jié)果更加準(zhǔn)確。仿真實(shí)驗(yàn)結(jié)果表明所提算法具有很高的數(shù)據(jù)庫(kù)訪問(wèn)效率及精度。

關(guān)鍵詞: PLSA主題模型; 數(shù)據(jù)庫(kù)訪問(wèn); 語(yǔ)義指向性算法; 主題模型優(yōu)化

中圖分類號(hào): TN926?34; G350 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)16?0112?04

Abstract: To solve the problem that the database is mapped from high?dimensional word space to low?dimensional implied semantic space, and can not effectively implement semantic directivity analysis of database access, the database access semantic directivity algorithm based on theme model is proposed, the PLSA subject model is established and is solved, by which the ideal latent semantic theme is obtained. The key distribution on the database access and document distribution on latent semantic subject are applied to the database access semantic directivity analysis to set up PLSA theme model according to the text feature and structure feature showed by database. The different theme PLSA models are integrated and optimized by adaptive asymmetry learning algorithm to realize the semantic directivity analysis for database access and make the database access results more accurate. The simulation results show that the proposed algorithm has high database access efficiency and accuracy.

Keywords: PLSA theme model; database access; semantic directivity algorithm; theme model optimization

0 引 言

數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析是信息推薦和數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)[1]。在當(dāng)前數(shù)據(jù)庫(kù)訪問(wèn)環(huán)境下,信息內(nèi)容具有動(dòng)態(tài)交互和隨機(jī)性的特點(diǎn)。只有創(chuàng)新數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法,才能提高內(nèi)容主題描述的準(zhǔn)確性。近年來(lái),語(yǔ)義指向性算法受到相關(guān)專家學(xué)者的廣泛關(guān)注[2?4]。

目前,數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法的研究取得了一定的成果。文獻(xiàn)[5]提出一種基于MER 和文本聚類相融合的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法,在MER模型的基礎(chǔ)上,引入文本聚類分析,以實(shí)現(xiàn)數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析,但該方法僅反映了主題內(nèi)容,未考慮用戶的個(gè)性化特征;文獻(xiàn)[6]提出基于語(yǔ)法解析和路徑分析技術(shù)的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法,首先對(duì)關(guān)鍵詞進(jìn)行解析,依據(jù)解析結(jié)果實(shí)現(xiàn)數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面文檔的語(yǔ)義指向性分析,但該方法實(shí)現(xiàn)過(guò)程復(fù)雜,不適用于實(shí)際應(yīng)用;文獻(xiàn)[7]提出基于領(lǐng)域本體和主動(dòng)學(xué)習(xí)法的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法,通過(guò)主動(dòng)學(xué)習(xí)法對(duì)數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面的內(nèi)容進(jìn)行學(xué)習(xí),依據(jù)學(xué)習(xí)結(jié)果建立數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性模型,實(shí)現(xiàn)數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析,該方法耗時(shí)長(zhǎng),效率較低;文獻(xiàn)[8]提出基于集成學(xué)習(xí)和二維關(guān)聯(lián)邊條件隨機(jī)場(chǎng)的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法,通過(guò)訓(xùn)練數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面的特征統(tǒng)計(jì)與采集的先驗(yàn)知識(shí)融合,建立數(shù)據(jù)庫(kù)訪問(wèn)指向性模型,該算法需要大量資源支撐,運(yùn)行成本過(guò)高;文獻(xiàn)[9]提出基于數(shù)據(jù)挖掘的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法,通過(guò)領(lǐng)域本體及數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面文本信息的語(yǔ)義進(jìn)行挖掘,利用聚類法實(shí)現(xiàn)數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性的分析,但該方法未考慮數(shù)據(jù)庫(kù)訪問(wèn)過(guò)程中的隨機(jī)性和動(dòng)態(tài)性,誤差較大。

1 基于主題模型的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法

1.1 PLSA主題模型及求解過(guò)程

數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性即文本中句法結(jié)構(gòu)的某一成分在語(yǔ)義上和其他成分相匹配的概率,而這種匹配概率可通過(guò)PLSA(Probability Latent Semantic Analysis)主題模型進(jìn)行描述,利用PLSA主題模型獲取理想的潛在語(yǔ)義主題,在數(shù)據(jù)庫(kù)訪問(wèn)關(guān)鍵詞上分布以及文檔在潛在語(yǔ)義主題上的分布,從而實(shí)現(xiàn)數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析,使數(shù)據(jù)庫(kù)訪問(wèn)結(jié)果更加準(zhǔn)確。

1.1.1 PLSA主題模型構(gòu)建及參數(shù)調(diào)整

在PLSA主題模型中,文本可通過(guò)共現(xiàn)矩陣[d,w]進(jìn)行描述。其中,[di,wj]用于描述文檔[di]和單詞[wj]共同出現(xiàn),即文檔標(biāo)號(hào)為[i]的文檔里面出現(xiàn)了單詞[j]。可用[ndi,wj]描述文檔[di]中單詞[wj]出現(xiàn)的頻數(shù)。以此可以描述語(yǔ)料庫(kù)的共現(xiàn)矩陣:行代表文檔,列代表單詞。假設(shè)隱含語(yǔ)義空間(即主題)用隱含變量[z=z1,z2,…,zk]進(jìn)行描述,則定義以下幾個(gè)概率:[Pdi]用于描述從文檔中選中文檔編號(hào)為[i]的文檔的概率;[Pzkdi]用于描述在給定文檔[di]的條件下,文檔屬于第[k]個(gè)主題的概率;[Pwjzk]用于描述給定第[k]個(gè)主題的概率條件下,第[j]個(gè)單詞出現(xiàn)的概率,即第[j]個(gè)單詞對(duì)第[k]個(gè)主題的指向性程度。

通過(guò)上述定義的概率,構(gòu)建基于概率的共現(xiàn)矩陣,也就是PLSA主題模型:

[Pdi,wj=PdiPwjdi=Pdik=1KPwjzkPzkdi] (1)

式中:[Pdi]代表以該概率選擇一篇文檔[di];[Pzkdi]代表以該概率選擇一個(gè)主題;[Pwjzk]代表以該概率選擇一個(gè)單詞。

通過(guò)對(duì)式(1)的分析可知,PLSA為混合模型,針對(duì)給定的數(shù)據(jù)庫(kù)訪問(wèn)主題[z],單詞[w]滿足一個(gè)多項(xiàng)分布,而針對(duì)給定的文檔[d],主題[z]則滿足另一個(gè)多項(xiàng)分布,即該模型的參數(shù)為[Pwz]和[Pzd],通過(guò)極大似然準(zhǔn)則對(duì)這兩個(gè)參數(shù)進(jìn)行調(diào)整,就能使該模型數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析達(dá)到最佳。

極大似然準(zhǔn)則函數(shù)對(duì)數(shù)可描述成:

[L=i=1Nj=1Mndi,wjlogPdi,wj =i=1NndilogPdi+j=1Mndi,wjndilogk=1KPwjzkPzkdi] (2)

式中,[ndi]為文檔[di]中全部單詞的數(shù)量。該目標(biāo)函數(shù)也可看作是使[Pwjdi]和[ndi,wjndi]兩個(gè)分布之間的容差性達(dá)到最小,因?yàn)閇ndi,wjndi]已知,所以[Pwjdi]能夠更加有效地描述共現(xiàn)矩陣的實(shí)際分布。

1.1.2 模型的求解

通過(guò)對(duì)PLSA主題模型進(jìn)行分析發(fā)現(xiàn):[ndi]并非模型參數(shù),因此,對(duì)式(2)進(jìn)行約簡(jiǎn),有:

[L∝i=1Nj=1Mndi,wjlogk=1KPwjzkPzkdi] (3)

通過(guò)對(duì)式(3)分析可知,僅需分析模型參數(shù)[Pwjzk]和[Pzkdi]對(duì)[L]的影響就能實(shí)現(xiàn)期望最大化算法對(duì)模型參數(shù)進(jìn)行求解。

期望最大化算法由E步和M步實(shí)現(xiàn),其中E步主要負(fù)責(zé)對(duì)隱含變量關(guān)于觀測(cè)變量的后驗(yàn)概率進(jìn)行計(jì)算;M步將隱含變量看作是觀測(cè)變量,對(duì)隱含變量進(jìn)行修正,使目標(biāo)函數(shù)達(dá)到最大。

E步的計(jì)算公式如下:

[Pzkdi,wj=PwjzkPzkdii=kKPwjzkPzkdi] (4)

式中,[Pzkdi,wj]用于描述出現(xiàn)編號(hào)為[i]的文檔、編號(hào)為[j]的單詞的概率條件下,出現(xiàn)編號(hào)為[k]的主題的概率,也就是給定數(shù)據(jù)庫(kù)訪問(wèn)主題[z],第[i]個(gè)文檔的編號(hào)是[j]的單詞對(duì)主題的指向性程度。

M步的計(jì)算方法如下:

M步需對(duì)兩個(gè)模型參數(shù)[Pwz]和[Pzd]進(jìn)行估計(jì),公式描述如下:

[Pwjzk=i=1Nndi,wjPzkdi,wjm=1Mn=1Nndi,wmPzkdi,wm] (5)

式(5)主要負(fù)責(zé)單詞[w]對(duì)隱含主題[z]的語(yǔ)義指向性進(jìn)行計(jì)算,有:

[Pzkdi=j=1Mndi,wjPzkdi,wjndi] (6)

式(6)主要負(fù)責(zé)第[i]個(gè)文檔對(duì)隱含主題[k]的語(yǔ)義指向性進(jìn)行計(jì)算。

通過(guò)對(duì)EM算法進(jìn)行分析可知,每次迭代首先利用E步驟求出[Pzkdi,wj]矩陣,再將新的[Pzkdi,wj]矩陣代入M步中,求出參數(shù)矩陣[Pwz]和[Pzd]。反復(fù)進(jìn)行,直至迭代次數(shù)大于設(shè)定閾值,或目標(biāo)函數(shù)達(dá)到既定閾值時(shí),停止迭代,將迭代結(jié)果定義為PLSA主題模型的解。

1.2 結(jié)合數(shù)據(jù)庫(kù)特征的算法實(shí)現(xiàn)過(guò)程

數(shù)據(jù)庫(kù)特征主要包括文本特征和結(jié)構(gòu)特征。本文將建立的PLSA主題模型與數(shù)據(jù)庫(kù)表現(xiàn)出來(lái)的文本特征和結(jié)構(gòu)特征相結(jié)合,通過(guò)自適應(yīng)不對(duì)稱學(xué)習(xí)算法對(duì)不同的PLSA主題模型進(jìn)行集成和優(yōu)化,實(shí)現(xiàn)數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析。

假設(shè)數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面的訓(xùn)練集為[D=d1,c1,d2,c2,…,dN,cN],用[SD=s1,s2,…,sN]描述數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面的結(jié)構(gòu)特征集;用[C=C1,C2,…,CN]描述數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面訓(xùn)練集的文本特征集,則基于PLSA模型的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法的實(shí)現(xiàn)過(guò)程如下:

(1) 針對(duì)任意數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面中的文檔[di]進(jìn)行結(jié)構(gòu)解析和文本信息提取,得到描述結(jié)構(gòu)信息的特征向量[sdi]與描述文本信息的特征向量[cdi];

(2) 通過(guò)[sdi]與[cdi]分別建立PLSA主題模型,得到和結(jié)構(gòu)信息與文本信息相應(yīng)的主題分布[Pssα]、[Pssd]和[Pccβ]、[Pcβd];其中,[α],[β]用于描述主題;

(3) 依據(jù)結(jié)構(gòu)特征與文本特征對(duì)理解數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面的重要程度,獲取兩個(gè)PLSA主題模型集成和優(yōu)化的權(quán)重,通過(guò)式(4)完成PLSA主題的集成,得到新的主題分布:

[Pzkdi=ωsiPsαφdi, φ=1,2,…,mωciPcβφ-mdi, φ=m+1,m+2,…,m+n] (7)

式中:[ωsi,][ωci]分別用于描述結(jié)構(gòu)特征與文本特征在數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面文檔[di]中的權(quán)重;[m,][n]分別用于描述和結(jié)構(gòu)特征與文本特征相應(yīng)的主題個(gè)數(shù),[φ=m+n];

(4) 依據(jù)集成后的主題分布[Pzdi],通過(guò)式(5)、式(6)對(duì)[Psz]和[Pcz]進(jìn)行描述;

(5) 依據(jù)描述結(jié)果,針對(duì)新數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面的文檔[dnew]進(jìn)行步驟(1);

(6) 通過(guò)對(duì)[sdnew]與[cdnew]進(jìn)行訓(xùn)練得到[Psnewz]與[Pcnewz],獲取該數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面文檔[dnew]的主題分布,也就是語(yǔ)義指向性[Pzdnew];

(7) 求出結(jié)構(gòu)特征關(guān)鍵詞與文本特征關(guān)鍵詞的后驗(yàn)概率:

[Psdnew=n=1NPszkPzkdnew] (8)

[Pcdnew=n=1NPczkPzkdnew] (9)

(8) 反復(fù)進(jìn)行上述步驟,直至迭代次數(shù)大于設(shè)定閾值,或目標(biāo)函數(shù)達(dá)到設(shè)定閾值時(shí),停止迭代。

最后,通過(guò)后驗(yàn)概率對(duì)語(yǔ)義指向性[Pzdnew]進(jìn)行約束,實(shí)現(xiàn)數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性分析。

2 仿真實(shí)驗(yàn)分析

為了驗(yàn)證本文提出的基于主題模型的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法的有效性,需要進(jìn)行相關(guān)的實(shí)驗(yàn)驗(yàn)證。將采集到的若干領(lǐng)域的真實(shí)數(shù)據(jù)集作為研究對(duì)象,將傳統(tǒng)LDA算法作為對(duì)比進(jìn)行分析。

2.1 兩種算法性能分析

在只采用結(jié)構(gòu)信息、只采用文本信息和綜合采用結(jié)構(gòu)信息及文本信息的情況下建立模型,將查全率和查準(zhǔn)率作為性能評(píng)價(jià)指標(biāo)對(duì)兩種算法的性能進(jìn)行比較分析,得到的結(jié)果分別如表1~表3所示。

表1 只采用結(jié)構(gòu)信息情況下兩種算法性能分析 %

表2 只采用文本信息情況下兩種算法性能分析 %

綜合分析表1~表3可知,本文算法和LDA算法在綜合采用文本信息和結(jié)構(gòu)信息的情況下,性能均優(yōu)于只采用文本信息或只采用結(jié)構(gòu)信息的情況,但本文算法的性能增加幅度更高,且本文算法的綜合性能明顯優(yōu)于LDA算法,因?yàn)長(zhǎng)DA算法不能充分全面地分析所有信息,容易受到數(shù)據(jù)庫(kù)訪問(wèn)頁(yè)面隨機(jī)性和動(dòng)態(tài)性的影響,造成語(yǔ)義指向性分析發(fā)生偏差,影響算法性能。

2.2 效率分析

為了進(jìn)一步驗(yàn)證本文算法的有效性,對(duì)本文算法和LDA算法的效率進(jìn)行比較分析,結(jié)果如圖1所示。

分析圖1可知,采用本文算法完成一次實(shí)驗(yàn)的時(shí)間明顯低于LDA算法,同時(shí)本文算法的時(shí)間曲線較LDA算法更加平穩(wěn),說(shuō)明本文算法不僅具有較高的效率,而且具有較高的穩(wěn)定性,進(jìn)一步驗(yàn)證了本文算法的有效性。

3 結(jié) 論

本文提出一種基于主題模型的數(shù)據(jù)庫(kù)訪問(wèn)語(yǔ)義指向性算法。仿真實(shí)驗(yàn)結(jié)果表明,所提算法具有很高的數(shù)據(jù)庫(kù)訪問(wèn)效率及精度,穩(wěn)定性好,具有較強(qiáng)的實(shí)用性。

注:本文通訊作者為陳志偉。

參考文獻(xiàn)

[1] 潘現(xiàn)偉.基于內(nèi)容和語(yǔ)義相似性的文獻(xiàn)網(wǎng)絡(luò)構(gòu)建方法的比較與評(píng)價(jià)[D].沈陽(yáng):中國(guó)醫(yī)科大學(xué),2014.

[2] 王云英.基于PLSA模型的Web頁(yè)面語(yǔ)義標(biāo)注算法研究[J].情報(bào)雜志,2013(1):141?144.

[3] 譚論正,夏利民,黃金霞,等.基于pLSA模型的人體動(dòng)作識(shí)別[J].國(guó)防科技大學(xué)學(xué)報(bào),2013,35(5):102?108.

[4] 康南南.基于主題模型和圖核模型的圖像分類算法的研究與應(yīng)用[D].重慶:西南大學(xué),2014.

[5] 羅遠(yuǎn)勝.跨語(yǔ)言信息檢索中雙語(yǔ)主題模型及算法研究[D].南昌:江西財(cái)經(jīng)大學(xué),2013.

[6] 冶忠林,賈真,楊燕,等.基于語(yǔ)義擴(kuò)展的句子相似度算法[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,38(3):399?405.

[7] 張瑞杰,李弼程,魏福山.基于多尺度上下文語(yǔ)義信息的圖像場(chǎng)景分類算法[J].電子學(xué)報(bào),2014(4):646?652.

[8] 趙偉.基于并行計(jì)算的概率潛在語(yǔ)義分析算法研究[J].安徽職業(yè)技術(shù)學(xué)院學(xué)報(bào),2014(3):1?3.

[9] 丁宇新,燕澤權(quán),馮威,等.基于有監(jiān)督主題模型的排序?qū)W習(xí)算法[J].電子學(xué)報(bào),2015(2):333?337.

主站蜘蛛池模板: 国产对白刺激真实精品91| 国产毛片不卡| 91色在线观看| a欧美在线| 亚洲天堂网2014| 91av国产在线| 久久综合婷婷| 91青草视频| 欧美日韩动态图| 成人年鲁鲁在线观看视频| 国产麻豆精品在线观看| 青青青伊人色综合久久| 无码内射中文字幕岛国片| 久996视频精品免费观看| 国产成年无码AⅤ片在线| 国产精品香蕉| 国产精品亚洲欧美日韩久久| 免费看美女自慰的网站| 国产福利小视频在线播放观看| 99热最新在线| 中国毛片网| 国产自在自线午夜精品视频| 日韩二区三区| 欧美成人看片一区二区三区| 四虎综合网| 精品国产Av电影无码久久久| 久久96热在精品国产高清| 一级成人a毛片免费播放| 98超碰在线观看| 国产视频欧美| 亚洲第一在线播放| 欧美另类视频一区二区三区| 扒开粉嫩的小缝隙喷白浆视频| 色综合热无码热国产| 手机永久AV在线播放| 国产91无码福利在线 | 亚洲欧美不卡| 婷婷综合色| 久草视频精品| 国产精品自在在线午夜| 国产精品青青| 91精品专区国产盗摄| 国产精品美女自慰喷水| 精品人妻一区二区三区蜜桃AⅤ| 色综合中文| 一级毛片免费播放视频| 一级福利视频| 日本人妻丰满熟妇区| 欧洲亚洲欧美国产日本高清| 国产无码网站在线观看| 中文字幕人成人乱码亚洲电影| 国产95在线 | 四虎综合网| 国产99欧美精品久久精品久久| 国产性爱网站| 亚洲永久视频| 免费在线不卡视频| 色窝窝免费一区二区三区| 五月天久久婷婷| 国产一级毛片高清完整视频版| 五月婷婷综合网| 波多野结衣亚洲一区| 午夜啪啪福利| 国产成人艳妇AA视频在线| 日本爱爱精品一区二区| 亚洲欧洲日韩久久狠狠爱| 国产乱人伦精品一区二区| 在线视频亚洲色图| Aⅴ无码专区在线观看| 亚洲精品久综合蜜| 亚洲首页国产精品丝袜| 国产18在线| 亚洲美女一级毛片| 黄色网页在线观看| 青青热久免费精品视频6| 国产本道久久一区二区三区| 久久无码高潮喷水| 欧美人人干| 色综合天天操| 色屁屁一区二区三区视频国产| 午夜激情福利视频| 亚洲成av人无码综合在线观看|