999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用戶相關(guān)反饋下的空間關(guān)鍵字語義查詢方法

2020-01-14 09:36:30孟祥福趙路路張霄雁
小型微型計算機系統(tǒng) 2019年12期
關(guān)鍵詞:語義文本用戶

孟祥福,趙路路,張霄雁,李 盼

(遼寧工程技術(shù)大學(xué) 電子與信息工程學(xué)院,遼寧 葫蘆島 125105)

1 引 言

隨著GPS等定位服務(wù)技術(shù)的出現(xiàn),獲得地理空間維度信息變得容易,Web上因此也出現(xiàn)了越來越多具位置信息的空間對象,如酒店、咖啡廳和旅游景點等,這些空間對象通常被稱為興趣點(Point of Interest,POI).一個空間對象o主要包含空間信息和文本信息兩部分,空間信息通常由經(jīng)緯度表示,文本信息是對空間對象的文本描述.空間關(guān)鍵字查詢q是以地理位置和關(guān)鍵字作為參數(shù),目的是從空間對象集合中獲取位置相近和文本相似的空間對象.一個空間關(guān)鍵字查詢q的形式為:q(loc,keywords,k,α),其中q.loc代表查詢位置,q.keywords是查詢關(guān)鍵字集合,k是指定返回的結(jié)果個數(shù),α∈[0,1]是一個權(quán)重系數(shù).

目前,普遍采用的空間對象o與查詢q的相關(guān)度計算方法是將空間相近度和文本相似度加權(quán)組合.然而,該類方法存在兩個方面的不足:

1)僅從文本形式上匹配查詢關(guān)鍵字,而普通用戶的查詢意圖通常是不明確的,因此需要語義層面的查詢匹配;

2)查詢關(guān)鍵字的權(quán)重僅根據(jù)關(guān)鍵字在空間對象文本信息中的出現(xiàn)頻率評估,沒有考慮用戶對不同查詢關(guān)鍵字的偏好程度,這很可能導(dǎo)致返回結(jié)果與用戶期望之間的偏差較大,因此,需要依據(jù)用戶的相關(guān)反饋來挖掘用戶隱式偏好并以此來調(diào)整查詢關(guān)鍵字的權(quán)重.

來看一個例子.圖1給出了一個空間關(guān)鍵字查詢和5個空間對象.空間關(guān)鍵字查詢條件為:

q:(location,{beefsteak,music})

該查詢表達的含義是:用戶想要在其位置附近尋找提供beefsteak和music服務(wù)的餐廳.o1~o5是附近的餐廳和茶館,每個對象包含了查詢q與其之間的規(guī)范化歐式距離以及該對象包含的文本信息.如果按照目前普遍采用的相關(guān)度計算方法,o2、o5和o1將是查詢結(jié)果(其中,α=0.5,k=3).然而,實際上并不一定所有的用戶都對上述查詢結(jié)果滿意,或許某些用戶為了方便不愿意到遠地方而選擇o3,即o3也可能是某個或某些用戶的top-3選擇之中.也就是說,上述方法并沒有體現(xiàn)用戶的個性化和語義查詢需求.

圖1 空間關(guān)鍵字查詢的例子Fig.1 An example of spatial keyword query

針對上述問題,本文提出一種基于用戶相關(guān)反饋的空間關(guān)鍵字個性化語義查詢方法.該方法分為兩個階段:第一階段,在離線處理過程中,采用Gibbs方法和LDA主題模型對空間對象的文本信息進行語義擴展,使得數(shù)據(jù)庫中的每個空間對象都在原來文本信息基礎(chǔ)上增加了語義相關(guān)的文本描述.第二階段,對于一個給定的空間關(guān)鍵字查詢,先采用IR-tree索引到語義擴展后的空間數(shù)據(jù)庫中獲取包含k個對象的候選查詢結(jié)果集,并要求用戶從中明確標注出自己感興趣的空間對象(即相關(guān)反饋);然后,根據(jù)用戶的反饋信息,采用改進的Rocchio算法對查詢關(guān)鍵字的權(quán)重進行更新,形成新的查詢條件;接下來,利用更新后的查詢條件對數(shù)據(jù)庫進行檢索,重復(fù)執(zhí)行上述過程,直到結(jié)果令用戶滿意為止.

2 相關(guān)工作

近年來,Internet上興趣點的大量增加以及移動設(shè)備的普遍應(yīng)用,網(wǎng)絡(luò)上出現(xiàn)大量的空間對象,因此空間關(guān)鍵字查詢的研究已成為當前數(shù)據(jù)庫查詢領(lǐng)域的研究熱點.根據(jù)文獻[1],空間關(guān)鍵字查詢大致分為4類:(1)布爾范圍查詢(2)布爾KNN(k近鄰)查詢[20](3)top-k范圍查詢[3](4)top-kKNN(k近鄰)查詢[4].該查詢通過興趣點與查詢點之間的空間距離以及興趣點的文本描述和查詢關(guān)鍵字之間的文本相似度的加權(quán)組合來度量.空間對象o與查詢q的位置相近性計算方法使用歐式距離,文本相似度方法使用余弦相似度方法計算.

然而,需要指出的是,現(xiàn)有的空間關(guān)鍵字查詢僅在形式上匹配關(guān)鍵字,只考慮文本相似度而未考慮查詢與文本的語義相關(guān)度以及用戶對不同查詢關(guān)鍵字的偏好程度.

對于文本間的相似度研究已有很多工作,主要可分為2大類:一是余弦相似度,二是基于主題模型.

Salton等人提出的向量空間模型的計算方法,將文本信息轉(zhuǎn)化為文本向量,然后使用余弦相似度計算文本間相似度.

Chris H.Q.Ding等人提出隱性語義標引(LSI)模型,將高維向量空間中的文本向量映射低維潛在語義空間中,再計算其文本間相似度[26].Blei,Ng,Jordan使用LDA模型,進行文本建模,通過文本中詞項(term)的共現(xiàn)特征發(fā)現(xiàn)文本的主題結(jié)構(gòu).LDA比VSM增加了概率的信息,更側(cè)重語義的挖掘.

與現(xiàn)有方法相比,為了理解空間對象文本信息反映的語義信息,本文使用Markov-Chain Monte Carlo算法中的一個特例Gibbs Sampling算法,同時為了快速有效的獲得空間關(guān)鍵字查詢結(jié)果,使用IR-tree進行檢索.并且本文進一步研究用戶相關(guān)反饋來了解用戶查詢的需求.

3 空間對象的語義擴展和候選集生成

本節(jié)主要描述基于LDA-Gibbs模型的空間數(shù)據(jù)庫的語義擴展方法,以及基于IR-tree索引的候選查詢結(jié)果集生成方法.

3.1 相關(guān)定義

給定一組空間對象集合O={o1,o2,...,on},空間對象o∈O包含了位置信息o.loc和文本信息o.doc.一個空間關(guān)鍵字查詢q的形式為:q(loc,keywords,k,α),其中q.loc代表查詢位置,q.keywords是查詢關(guān)鍵字集合,k是指定返回的結(jié)果個數(shù),α∈[0,1]是一個權(quán)重系數(shù).目前,普遍使用的空間對象o與查詢q的相關(guān)度計算方法為:

Score(o,q)=α·Sspatial(o.loc,q.loc)+(1-α)·
Stext(o.doc,q.keywords)

(1)

其中,Sspatial和Stext分別代表o與q之間歸一化的位置接近度和文本相似度[4,14,19,21,23].

空間對象o與查詢q的位置相近性計算方法如下:

(2)

其中,dist(o.loc,q.loc)表示o與q之間的歐式距離,MaxDist表示o與所有空間對象的最大距離.

空間對象o與查詢q的文本相似度評估的基本思想是,先將空間對象文本和查詢關(guān)鍵字進行向量化處理,分別用Vo和Vq表示(向量的維度是所有空間對象文本信息中包含的不同關(guān)鍵字總數(shù)),再利用余弦相似度方法計算文本相似性,計算方法如下:

(3)

3.2 利用 LDA-Gibbs模型對空間數(shù)據(jù)庫進行語義擴展

對空間數(shù)據(jù)庫進行語義擴展的基本思想是,(1)先將數(shù)據(jù)庫中的所有空間對象文本信息集成到一個文檔中(假設(shè)該文檔包含了K個主題);(2)然后利用LDA模型生成該文檔的主題分布,再針對某個主題生成相應(yīng)的詞分布,在某個主題的詞分布中隨機選擇一個詞,重復(fù)該過程,直到某個主題下?lián)碛腥舾蓚€詞;(3)將空間對象o的文本信息o.doc中的關(guān)鍵字與生成的主題-詞分布中的詞進行比較,若相同,則將該詞對應(yīng)的主題下的詞(該詞的φk,t應(yīng)大于給定的閾值)加入o.doc中,生成新的文本信息,從而使得新的文本信息體現(xiàn)了原有信息的語義.

3.2.1 LDA主題分布

圖2為LDA概率模型圖.其中,α是文檔中主題的多項分布的Dirichlet先驗參數(shù);β為主題下的詞的多項分布的Dirichlet先驗參數(shù);zn為文檔第n個詞的主題;wn為該文檔第n個詞;K是主題數(shù);N為該文檔中詞的個數(shù).θ和φk都是需要求解的未知隱含變量,θ表示該文檔下的主題分布,φk為第k個主題的詞分布.

圖2 LDA概率模型圖Fig.2 LDA probability model diagram

假設(shè)空間數(shù)據(jù)庫中所有空間對象的文本信息構(gòu)成的文檔為D,wn是可以觀察到的已知變量,α和β是根據(jù)經(jīng)驗給定的先驗概率,本文取α=0.5,β=0.1.根據(jù)圖2的LDA的概率模型圖,主題和單詞的聯(lián)合概率分布可表示為:

(4)

3.2.2 基于Gibbs Sampling的LDA學(xué)習(xí)過程

本文采用Gibbs Sampling算法來學(xué)習(xí)未知隱含變量是θ和φk.Gibbs Sampling的執(zhí)行方法為每次選取概率向量中的一個維度,給定其他維度的變量值隨機選取當前維度的值.不斷迭代,直到收斂輸出待估計的參數(shù).圖3給出了基于Gibbs Sampling的LDA學(xué)習(xí)過程.

圖3 基于Gibbs Sampling算法的LDA學(xué)習(xí)過程Fig.3 LDA learning process based on Gibbs Sampling algorithm

該過程首先初始化文檔D中的每個詞,并且隨機分配主題,然后統(tǒng)計每個主題z下出現(xiàn)詞w的數(shù)量和該文檔下出現(xiàn)主題z中的關(guān)鍵字的數(shù)量,即n(w|z)和n(z|D).每一輪計算p(zi|z-i,d,w),根據(jù)其他詞的主題分配來估計當前詞的主題屬于各個主題的概率.根據(jù)當前詞屬于所有主題z的概率分布為該詞隨機選取一個新的主題.循環(huán)執(zhí)行更新下一個詞的主題,當θ和φk收斂時,算法停止,輸出估計的參數(shù)θ和φk.其中p(zi|z-i,d,w)是Gibbs updating規(guī)則,計算公式如下:

(5)

當Gibbs sampling 收斂后,根據(jù)文檔D中所有單詞的主題分配來計算θ和φk.文檔D上主題的后驗分布和每個主題下的詞后驗分布計算方法如下:

p(θ|z,α)=Dir(θ|nDOC+α)

(6)

p(φk|z,w,β)=Dir(φk|nk+β)

(7)

然后,使用Dirichlet分布的期望計算公式

=ai/∑iai

就可得到兩個Multinomial分布的參數(shù)θ和φk的計算公式:

(8)

(9)

3.2.3 空間對象文本信息的語義擴展

將空間數(shù)據(jù)庫中每個空間對象的文本信息根據(jù)LDA-Gibbs模型學(xué)習(xí)到主題-詞分布進行隱式語義分析,將原空間數(shù)據(jù)集擴展成具有語義的新的空間數(shù)據(jù)集.即將空間對象o的文本信息o.doc中的關(guān)鍵字與主題-詞分布中的詞進行比較,若相同,則將該詞對應(yīng)的主題下的詞(該詞的(k,t大于0.07)加入o.doc,生成新的文本信息,使得新的文本信息更全面表達了原有文本信息的語義.

下面利用圖1說明使用Gibbs Sampling算法對空間對象文本進行語義擴展.將圖1中興趣點的文本信息集成到一個文檔,并且假設(shè)主題數(shù)為2,然后LDA模型得到主題-詞分布,如下:

Topic0:beefsteak 0.25 pizza 0.745454

Topic1:tea 0.598125 music 0.396975

最后將o1~o5中關(guān)鍵字與主題-詞分布中的詞進行匹配,匹配相同且參數(shù)值大于0.5的加入o1~o5,擴展成新的空間對象集合為:

o1:(0.25,beefsteak,tea,pizza)

o2:(0.3,beefsteak,pizza)

o3:(0.1,pizza,tea)

o4:(0.3,tea,music)

o5:(0.2,beefsteak,music,pizza,tea)

3.3 候選集獲取

本節(jié)主要研究基于IR-tree索引的空間關(guān)鍵字查詢選取候選集.IR-tree 本質(zhì)上是一棵 R-tree,每一個節(jié)點都參照一個倒置文件來豐富包含在該節(jié)點的子樹中的對象.IR-tree是由R-tree空間索引和文本索引倒排列表Inverted file組成.R- tree將空間對象及索引空間用最小邊界矩形(Minimum Bounding Rectangle)來近似表示,將空間相鄰的對象組織到同一結(jié)點或同一分支, 并將一個結(jié)點對應(yīng)成一個或者多個磁盤頁.該索引策略大大減少了I/O 訪問.倒排索引是一種簡單高效的文本索引, 它列出了每個關(guān)鍵詞以及包含該關(guān)鍵詞的所有對象.

IR-tree的每個節(jié)點包含兩種類型的信息,即子樹的最小邊界距離和包含關(guān)鍵字的倒排列表.圖4和圖5分別給出了根據(jù)圖1中的空間對象構(gòu)建的IR-tree.

圖4 最小外接矩形Fig.4 Minimum external rectangle

圖4為最小外接矩形,其中o1~o5對應(yīng)圖1中的5個空間對象,R1~R5對應(yīng)為最小外接矩形.圖5是根據(jù)圖4構(gòu)建的IR-tree結(jié)構(gòu),根節(jié)點是R5,中間節(jié)點是R3和R4,葉子節(jié)點是R2和R1.每個節(jié)點記錄了以該節(jié)點為根的子樹中所有對象的文本信息(關(guān)鍵字集合)及指針.并且每個節(jié)點的信息分為兩個部分指針和條目集合(entries),指針指向包含該節(jié)點所有關(guān)鍵字的到排文件(InvFile).葉節(jié)點的每個條目包含一些形式為(oi,rectangle,oi.di)的條目,其中oi表示空間對象集合O中的對象,rectangle(矩形)是對象oi的邊界矩形,oi.di是對象oi的文本信息的標識符.非葉節(jié)點包含多個形式的條目(cp,rectangle,cp.di),其中cp是非葉節(jié)點的子節(jié)點的地址,rectangle是子節(jié)點條目中所有矩形的最小邊界矩形 ,并且cp.di是文本信息的標識符.

圖5 IR-tree結(jié)構(gòu)Fig.5 IR-tree structure

利用IR-tree索引獲得位置文本匹配結(jié)果的過程為:

1)初始化優(yōu)先隊列U和一個列表V,U存儲IR-tree中已訪問的條目(entry),列表V用來存儲候選集,e為帶有關(guān)鍵字集合的倒排列表和矩陣的條目.

2)給定一個查詢q,以迭代方式從U中刪除頂部條目給e,若e為空間對象,則添加到V中,若e為非葉子節(jié)點,則判斷查詢q與節(jié)點矩形之間的最小距離是否小于e與查詢q間的距離,若有小于,則判斷查詢q中的關(guān)鍵字集合和節(jié)點e的子條目中的關(guān)鍵字集合是否有交集,有交集則e的子條目添加到U中;否則,若e為葉子節(jié)點,那么獲得查詢q和空間對象之間距離,若該距離比e與查詢點間的距離小,則判斷查詢q中的關(guān)鍵字集合和節(jié)點e包含的對象中的關(guān)鍵字集合是否有交集,若有交集則將e包含的對象添加到U中.如果U為空,則中止上面的進程.

3)根據(jù)score函數(shù)將檢索到的結(jié)果集V進行top-k排序,獲得得分最高的前k個對象作為用戶反饋的候選集.

在圖1所給的實例中,使用IR-tree檢索到與查詢相關(guān)的結(jié)果為o5和o1.

上述利用IR-tree索引進行空間關(guān)鍵字查詢處理的過程如算法1所示.

算法1.生成候選集

輸入:數(shù)據(jù)集D,查詢q,k

輸出:候選集S

1.初始化一個空列表V

2.初始化一個優(yōu)先隊列U

3.將tr的根節(jié)點加入U

4.whileU是否為空 do

5.e←U中頂部條目

6.ife是空間對象othen

7.e添加到V中

8. break;

9.else

10. ife為非葉子節(jié)點 then

11. for 每個子條目eiinedo

12.if(他們之間距離小于e與查詢間的距離

13. and 每個子條目包含關(guān)查詢鍵字)

14.ei添加到U中

15. else

16. for 每個空間對象oiinedo

17.if(他們之間距離小于e與查詢間的距離

18. and每個空間對象包含關(guān)查詢鍵字)

19.oi添加到U中

20.S←使用score函數(shù)從V中選出前k個空間對象

空間數(shù)據(jù)庫中存在大量的空間對象.在反饋過程中,每個回合中通過整個空間數(shù)據(jù)庫進行用戶反饋是不現(xiàn)實的.因此這個階段的目的是通過生成一個較小的候選集合,將其提供給用戶來進行反饋.算法1為第4節(jié)相關(guān)反饋的個性化查詢做準備.

算法1中第1、2行是初始化過程,3~19行是進行IR-tree的初始檢索,第20行是使用score函數(shù)選出檢索結(jié)果的前k個空間對象作為候選集.使用IR-tree進行初次檢索獲取候選集,其時間復(fù)雜度為O(|q.φ|·log|O|).其中|q.φ|為查詢q中關(guān)鍵字數(shù),|O|為空間數(shù)據(jù)庫中空間對象數(shù)量,使用score函數(shù)的KNN的時間復(fù)雜度為log|O|.

4 基于用戶相關(guān)反饋的個性化查詢方法

4.1 相關(guān)反饋基本思想

圖6 基于Rocchio算法的相關(guān)反饋過程Fig.6 Related feedback process based on Rocchio algorithm

通過用戶的相關(guān)反饋,目的是增強語義相關(guān)文本信息中的出現(xiàn)的關(guān)鍵字的權(quán)重,降低在非相關(guān)文本信息中出現(xiàn)的關(guān)鍵字的權(quán)重,進而用戶可以逐漸接近其實際需求,最終得到用戶滿意的結(jié)果.基于Rocchio算法的相關(guān)反饋過程如圖6所示.

4.2 基于Rocchio算法評估關(guān)鍵字權(quán)重

現(xiàn)有方法通常采用式(3)衡量查詢關(guān)鍵字與空間對象文本之間的相似度,其中Vo和Vq是維度相同的向量,令Vo={d1,d2,…,dn},Vq={q1,q2,…,qn}.其中,di和qi分別為空間對象和查詢中包含的關(guān)鍵字權(quán)重,n代表空間對象集合的文本信息與查詢條件中包含的所有不同關(guān)鍵字總數(shù).

關(guān)鍵字的權(quán)重使用tf-idf方法計算,公式如下:

wti=tf(ti,o.doc)*idf(ti,O)

(10)

其中詞頻tf(ti,o.doc)為關(guān)鍵字ti出現(xiàn)在o.doc的頻率,逆文檔頻率idf(ti,O)=log(1/f(ti,O)),f(ti,O)表示包含關(guān)鍵字ti的對象個數(shù).

在進行基于用戶相關(guān)反饋的查詢擴展時,查詢中的關(guān)鍵字的權(quán)重使用基于Rocchio算法進行重新計算,得到

(11)

(12)

其中,β部分為正反饋,γ部分為負反饋,α、β、γ取值為了調(diào)整原查詢、相關(guān)和不相關(guān)對象中文本信息之間的相對重要性.lton和Buckley的實驗發(fā)現(xiàn),一般取α=1,β=0.75,γ=0.25時,Rocchio算法實現(xiàn)的效果最好[11,24].其中wti權(quán)重使用公式(10)計算.

結(jié)合圖1是空間關(guān)鍵字查詢的例子,對于空間關(guān)鍵字查詢q,假設(shè)認為o1、o2、o5是相關(guān)的,o3、o4是不相關(guān)的.利用Rocchio公式計算擴展后的查詢q′:

=(1.09028,1.00000,0.05208,0.00521)

表1 查詢和對象的文本信息中關(guān)鍵字權(quán)重Table 1 Keyword weights in query and object text information

根據(jù)表1和式(3)計算后,得到表2,如下:

表2 查詢與對象間的文本相似度Table 2 Text similarity between queries and objects

由表2可以看出,盡管對象o3與查詢無關(guān),但反饋后的新查詢與對象o3具有語義相關(guān)性,原因是與查詢相關(guān)的對象o1、o2和o5包含對象o3文本信息中的關(guān)鍵字.在查詢過程中,查詢關(guān)鍵字出現(xiàn)的越少,越可能出現(xiàn)此情況.總體而言,基于Rocchio算法的相關(guān)反饋,提高了相關(guān)對象的語義相關(guān)度,提高了查詢的用戶滿意度.

基于用戶反饋的空間關(guān)鍵字查詢的具體過程如算法2.

算法2.基于Rocchio算法的反饋過程

輸入:候選集S,查詢q

輸出:結(jié)果集P

1.向量化候選集S中對象的文本信息d

2.向量化查詢q的文本信息q.t

3.初始化空列表P,rel,norrel

4.whiletruedo

5. 將S中的對象呈現(xiàn)給用戶

6.rel←用戶從S中選擇喜歡的對象oi

7.norrel←用戶從S中選擇不喜歡的對象oi

8. 基于Rocchio公式計算q′.t

9.S←利用IR-tree對查詢條件q′.t檢索

10. if terminate is true then

11.P←S

12. break;

13.returnP;

基于Rocchio算法的反饋過程中IR-tree檢索的時間復(fù)雜度為O(|q.φ|·log|O|).其中|q.φ|為查詢q中關(guān)鍵字數(shù),|O|為空間數(shù)據(jù)庫中空間對象數(shù)量.

4.3 用戶反饋終止條件

用戶相關(guān)反饋的中止方法有兩種:一是用戶自己判斷最終結(jié)果是否滿意;二是系統(tǒng)自動計算中止閾值.本節(jié)給出一種系統(tǒng)自動判斷中止閾值的方法.

令fm和fm-1分別表示第m輪和m-1輪用戶反饋得到的結(jié)果,兩個集合相交,如果交集到達一定數(shù)量,則終止用戶反饋,計算方法見公式(13):

(13)

terminate的取值越小用戶反饋越容易終止,但查詢的結(jié)果集不理想.最后將查詢結(jié)果集中的對象與新查詢的距離相近性和文本相似性用公式(1)將查詢結(jié)果集進行排序,score越大與查詢越相關(guān).

5 效果與性能實驗評價

5.1 實驗設(shè)置

數(shù)據(jù)集:本文使用從Yelp商戶點評網(wǎng)站上抓取的真實的POI數(shù)據(jù)集來進行實驗研究.Yelp是美國著名商戶點評網(wǎng)站,其網(wǎng)站包含了各地餐館、購物中心、酒店等各個領(lǐng)域的商戶信息以及用戶評價和購物體驗等.將這些真實POI數(shù)據(jù)進行處理174567個興趣點,使得每個POI興趣點都有一個ID、位置(以經(jīng)緯度的形式表示)和用戶評論.使用位置作為空間信息,用戶評論作為文本信息.

查詢集:在數(shù)據(jù)集中隨機選擇10個對象作為查詢條件,將其空間位置作為查詢位置,從文本信息中隨機選擇一定數(shù)量的單詞作為查詢關(guān)鍵字.在進行空間關(guān)鍵字查詢過程中,將該對象從數(shù)據(jù)集中排除.查詢關(guān)鍵字數(shù)量分別是2、4、6和8.

5.2 實驗結(jié)果與分析

5.2.1 用戶滿意度調(diào)查實驗

用戶滿意度分析:該實驗?zāi)康氖菧y試現(xiàn)有計算位置相近度和文本相似度方法(即公式(1),且α=0.5)與本文方法在用戶滿意度方面的差別.其方法使用如下公式:

(14)

其中,{relevant}表示用戶標注的與給定查詢相關(guān)的10個對象,{top-10retrieved}表示本文提出的空間關(guān)鍵字查詢方法得到的前10個對象.

實驗設(shè)置:參加測試的用戶數(shù)量多少會對查詢結(jié)果產(chǎn)生影響,用戶測試數(shù)量在5~8個左右,就幾乎能得到所有結(jié)果,更多的測試用戶和使用5個用戶的結(jié)果是相同的.

邀請5名用戶,對于每一個測試查詢條件q,每位用戶使用本文方法獲得前5個相關(guān)對象,然后再用文本相似度方法(公式(1))獲得前5個對象,這樣可以得到30個空間對象(如果有重復(fù)對象,則去重并從空間數(shù)據(jù)庫隨機選取對象加入,使其生成為30個空間對象的集合).

另外邀請1名用戶,令其在每個查詢對應(yīng)的30個對象構(gòu)成的測試集中,分別選取他認為與給定查詢最相關(guān)的前10個對象,這10個對象作為評價查準率的標準.

然后分別利用文本相似度方法(公式(1))和本文方法獲得前10個對象,進而利用公式(14)計算查詢的準確性(即標準的10個對象與不同方法檢索到的10個對象的重疊度).圖7給出了同一個用戶在不同查詢條件下獲得的查詢結(jié)果的準確性.

圖7 不同查詢條件下文本相似度方法和使用用戶反饋獲得結(jié)果集的準確性Fig.7 Text similarity method under different query conditions and the accuracy of the result set obtained by user feedback

邀請10名用戶(分別是導(dǎo)師、研究生同學(xué)和部分本科生),在測試集中選取與某個查詢最相關(guān)的前10個對象.然后在利用文本相似度方法(公式(1))和本文方法分別獲得與該查詢相關(guān)的前10個對象,查看用戶的滿意程度.圖8給出了不同用戶在相同查詢條件下獲得的滿意度對比.

根據(jù)圖7、圖8分別計算平均準確性,不同查詢條件下,同一個用戶使用文本相似度方法獲得結(jié)果集的準確性為0.38,使用用戶反饋方法的準確性為0.73.不同用戶使用文本相似度方法獲得結(jié)果集的準確性為0.41,使用用戶反饋方法的準確性為0.79.由此可見,本文方法獲得的查詢結(jié)果的用戶滿意度較高,這是因為經(jīng)過空間對象文本信息的語義擴展和用戶相關(guān)反饋,本文方法能夠獲得更能滿足用戶語義需求和偏好的結(jié)果.

圖8 不同用戶使用文本相似度方法和使用用戶反饋獲得結(jié)果集的準確性Fig.8 Different users use text similarity method and use user feedback to obtain the accuracy of result set

5.2.2 反饋終止

該實驗?zāi)康氖窃u價終止閾值τ對基于Rocchio算法的用戶反饋的收斂速度的影響.我們將最多的輪數(shù)限制為10,以避免很難達到的情況.其中,取候選集的數(shù)量k=10,20,關(guān)鍵字數(shù)量n=8,τ的取值為0.2,0.4,0.6,0.8.圖9是終止閾值τ的影響.

圖9 終止閾值τ的影響Fig.9 Impact of the termination threshold

從圖9可以看出隨著k值得變大,其該輪得到的結(jié)果集和上一輪相交所得的交集越大,收斂速度變慢,反饋的輪數(shù)增加.當τ值設(shè)置過高時,用戶反饋過程甚至不能終止.

一般情況下用戶反饋7輪就能得到滿意結(jié)果.

6 結(jié) 論

為了更好的理解用戶的查詢意圖,本文提出基于用戶相關(guān)反饋的空間關(guān)鍵字個性化語義查詢方法.將空間數(shù)據(jù)集進行語義擴展,使得新生成的文本信息體現(xiàn)了原有信息的語義.然后進行相關(guān)反饋,得到最終的結(jié)果集,此結(jié)果集最接近用戶查詢,最能滿足用戶的查詢需求.通過實驗,可以看出使用用戶反饋比文本相識的方法的準確率高,說明基于用戶反饋的空間關(guān)鍵字查詢獲得的結(jié)果集更加接近查詢,更符合用戶的查詢意圖.

本文與現(xiàn)有方法的不同之處在于體現(xiàn)了原有信息的語義并且使用用戶反饋體現(xiàn)了個性化查詢,在空間關(guān)鍵字查詢的檢索實驗中,發(fā)現(xiàn)本文提出的方法對于提高用戶效率以及滿足用戶的查詢需求是有效的.

猜你喜歡
語義文本用戶
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認知范疇模糊與語義模糊
如何獲取一億海外用戶
主站蜘蛛池模板: 国产又色又爽又黄| 日韩二区三区| 欧美成人一级| 中文字幕无码av专区久久| 国产精品无码制服丝袜| 中文纯内无码H| 免费xxxxx在线观看网站| 国产欧美日韩另类| 69av免费视频| 综合人妻久久一区二区精品| 人人爱天天做夜夜爽| 伊人查蕉在线观看国产精品| 国产国产人在线成免费视频狼人色| 国产精品漂亮美女在线观看| 亚洲欧美另类专区| 亚洲欧美精品一中文字幕| 日本国产精品一区久久久| 精品伊人久久久香线蕉 | 国产人前露出系列视频| 色婷婷狠狠干| 国产精品美女免费视频大全| 久久国产乱子| 日本道综合一本久久久88| 中文字幕永久在线观看| 日韩午夜片| 思思热精品在线8| 青青草国产在线视频| 国产婬乱a一级毛片多女| 精品福利网| 91蜜芽尤物福利在线观看| 一级毛片免费高清视频| 狠狠色丁香婷婷综合| 亚洲精品波多野结衣| 激情成人综合网| 亚洲制服中文字幕一区二区| 欧美成人二区| 一区二区三区国产| 亚洲综合片| 一本大道香蕉高清久久| 亚洲人精品亚洲人成在线| 日本精品中文字幕在线不卡| 欧美色图第一页| 成人福利在线看| 国产高清无码第一十页在线观看| 亚洲精品在线91| 亚洲精品第一页不卡| 99re精彩视频| 成人午夜免费观看| 99re视频在线| 欧美日韩国产精品va| 人妻中文久热无码丝袜| 一级毛片免费的| 自拍欧美亚洲| 国产一区二区三区在线精品专区| 欧美成人免费一区在线播放| 最新日本中文字幕| 久久人搡人人玩人妻精品一| 国产一区二区精品福利| 国产欧美高清| 国产成a人片在线播放| 亚洲欧美日韩中文字幕一区二区三区 | 国产99精品久久| 久久精品无码专区免费| 99国产精品免费观看视频| 日韩精品一区二区三区swag| 久久男人视频| 久久情精品国产品免费| 中日韩欧亚无码视频| 九九九国产| 天堂网亚洲系列亚洲系列| 色综合国产| 欧美午夜网| 久久久精品无码一区二区三区| 亚洲精品老司机| 国产成人综合久久| 看国产一级毛片| 欧美成人精品在线| 毛片一级在线| 国产视频一二三区| 国产成人无码Av在线播放无广告| 久久毛片网| 午夜激情福利视频|