999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

k*-支配Skyline查詢在實驗數據檢索中的應用

2018-05-21 07:42:09黃金晶
實驗室研究與探索 2018年4期
關鍵詞:排序用戶

黃金晶, 趙 雷

(1. 蘇州工業職業技術學院 軟件與服務外包學院, 江蘇 蘇州 215104;2. 蘇州大學 計算機科學與技術學院, 江蘇 蘇州 215006)

0 引 言

實驗通常會產生大量的實驗數據。實驗數據中較為“突出”的數據往往具有較高的價值。如何從大量的實驗數據中檢索出“突出”的數據,是一個值得研究的問題。找到這些較為“突出”的數據,常常是實驗結果處理過程中需要完成的工作。當樣本點數量巨大且屬性眾多的時候,這項任務非常具有挑戰性。

利用多關鍵字查詢技術可以幫助用戶檢索需要的實驗數據。Skyline查詢是解決多關鍵字查詢的有效方法之一。Skyline查詢是從數據集中選出不被支配的全部數據點,近年來在多目標決策、用戶偏好查詢、可視化等方面應用較為廣泛。然而,當數據量較大時,Skyline查詢響應的時間較長;當數據維度較高時,數據間較難產生支配關系,導致Skyline查詢返回的結果集較大,不易給出有價值的查詢結果。為解決這一問題,Chan等[14]人提出了k-支配Skyline查詢,只要數據點在任意k維度上存在支配關系即可。但是k-支配Skyline查詢有可能產生循環支配的問題,導致查詢沒有結果。

Top-k查詢是應對多關鍵字查詢的另一種常用方法。Top-k查詢僅返回k個結果,可以有效解決結果集太大帶來的結果有效性問題。但是,大多數top-k查詢需要借助評價函數。評價函數雖然可以體現用戶偏好,但是評價函數的確定具有一定的主觀性,結果未必是用戶滿意的。因此,不恰當的評價函數對結果集的有效性同樣可能產生較大的影響。

本文提出一種k*-支配Skyline查詢,將其運用于實驗數據檢索中。該查詢在傳統k-支配Skyline查詢中引入用戶偏好的優先級,消除了k-支配存在循環支配的可能性,既能保證產生結果又能控制結果集的大小,同時查詢返回的結果也更加符合用戶的偏好。將用戶偏好的優先級引入支配關系,是同時解決上述多個問題的關鍵,也是本文最主要的創新點和貢獻。

1 相關研究

Skyline查詢[1]由Borzsonyi等[1]于2001年引入數據查詢領域,提出塊嵌套循環(Block Nested Loop, BNL)算法以及分區回歸(Divide-and-Conquer, DC)算法,是數據庫、數據挖掘領域的經典研究問題,而后產生了很多新的高效算法。比如,Kossmann等[2]提出的近鄰查詢算法(Nearest Neighor, NN),給出一種基于R-樹索引的計算方法;Tan等[3]提出了計算Skyline的位圖算法;Papadias等[4-5]提出了一種分支界限算法(Branch and Bound Skyline, BBS);文獻[6-8]中討論了子空間的Skyline計算問題;Lian等[9]提出了在不確定的數據集上進行Skyline計算;Chen等[10]給出了索引方式的top-k空間關鍵字查詢的方法。當數據量大,數據源分布較多時,集中式環境下進行數據處理效率較低,Huang等[11]提出了分布式環境下的Skyline查詢;文獻[12-13]中分別給出了一種在海量數據集中使用MapReduce的高效Skyline查詢處理方法。在高維數據集中,數據點之間較難產生支配關系,Chan等[14]提出了k-支配skyline查詢,減少了高維空間中Skyline查詢返回的數據點;此外還有一系列對k-支配算法的改進,比如文獻[15]中提出了一種使用簡化預排序的k-支配skyline查詢算法;文獻[16]中提出了一種基于索引的高效k-支配skyline算法。

上述研究成果著重解決在大數據集或高維度數據集上Skyline計算的效率問題,未能有效解決對于高維數據集上結果集較大、結果集有效性差的問題。同時,上述研究成果對用戶偏好并未給予足夠的關注。基于上述原因,本文的研究將著重從兩個方面解決Skyline查詢結果集的有效性問題,一方面既可保證產生結果集,又能控制結果集的大小,另一方面能滿足用戶偏好。

2 相關概念描述

本文在k-支配skyline的基礎上,提出了k*-支配skyline算法,下面首先對k-支配skyline的相關概念進行描述。

定義1支配。給定一個d維的數據集D={D1,D2,…,Dd},p、q為D中的數據點,p={p1,p2,…,pd},q={q1,q2,…,qd},若p在d個維度上的取值都不比q差,且至少有一個維度上的值比q好,則稱p支配q[1]。

定義2Skyline數據集。對于數據集D中的數據點p,若D中不存在能支配p的數據點,則p為D中的Skyline點。D中所有的Skyline點的集合就是Skyline數據集。

為便于展示,以2維空間舉例說明Skyline數據集。在圖1中,不失一般性,設數值越小越好,則b點顯然支配e點。而a與b之間,盡管橫坐標ab,因而它們之間不構成支配關系。圖1中,a、b、c、d4個點組成了Skyline數據集。

圖1 skyline數據集舉例

定義3k-支配。對于d維數據集D中的點p和q,若存在k個維度使得p在這k維上的值都不差于q在這k維度的值,且在這k個維度上,至少有一個維度使得p的值優于q,稱p點k-支配q點[10]。

3 k*-支配Skyline查詢

3.1 k*-支配Skyline定義

由于k-支配可能存在循環支配的現象,比如表1所示的數據點,假定在每個維度上,屬性值越大越好。顯然p13-支配p2,p23-支配p3,p33-支配p4,而p4在d3、d4、d5維度上的值大于p1,因而p43-支配p1。

表1 3-支配舉例

為了消除循環支配,本文提出了一種新的k*-支配Skyline查詢,考慮用戶偏好的優先級關系,使得查詢結果更加符合用戶的實際需求。對于每一個用戶來說,查詢關鍵字的序列不同,偏好的重點不同,因而可以定義一個偏好優先關系R。

定義4R關系(偏好優先關系)。設有一個n維的數據集D={D1,D2,…,Dn},不失一般性,設屬性順序S=(D1,D2,…,Dn)。有元組x={x1,x2,…,xn}和y={y1,y2,…,yn},如關系R={|x,y∈D},滿足?i(1≤i≤n),有xi>yi,且?j(1≤j

為了更好的解釋關系R,下面以實例說明。設兩個不同的用戶查詢x和y,在相同維度上的數值x={2,1,1,1,1},y={2,1,0,1,1},當i=3時,x3>y3且x1=y1,x2=y2,則x和y滿足偏好優先關系R,即x優于y。

引理1R關系具有反自反性、反對稱性和傳遞性。

證明

(1) 反自反性。二元關系,必然找不到一個維度i滿足xi>yi,因而不滿足R關系,即R關系具有反自反性。

(2) 反對稱性。設滿足R關系,則在1到n中能找到一個i使得i之前所有維度上x的值和y值相等,而在i維度上x的值大于y。那么顯然不能滿足R關系,即R關系具有反對稱性。

(3) 傳遞性。設都滿足R關系,則以下關系式成立(i∈(1,n],j∈(1,n]):

由上可得x1>z1,或?k∈(1,n]有x1=z1,x2=z2,…,xk-1=zk-1,xk>zk,即說明x和z之間滿足R關系,即R關系具有傳遞性。

證畢。

k*-支配是在k-支配中加入了偏好優先關系R。下面給出k*-支配的定義。

定義5k*-支配。在一個n維的數據集D={D1,D2,…,Dn}上,p1和p2為D上的數據點,如果p1k-支配p2且p1和p2之間滿足偏好優先關系R,則稱p1k*-支配p2。

定理1k*-支配不存在循環支配關系。

證明設存在一個維的數據集D={D1,D2,…,Dn},p1,p2,…,pn為D上的數據點,則不存在這樣一個序列(px,1,px,2,…,px,m),當px,1k*-支配px,2,px,2k*-支配px,3,…,px,m-1k*-支配px,m時,有px,mk*-支配px,1。

根據k*-支配的定義,px,1k*-支配px,2,說明px,1k-支配px,2的同時偏好優先級大于px,2,同理,px,m-1k*-支配px,m,說明px,m-1k-支配pm的同時偏好優先級大于pm,由引理1可知,R關系具有反對稱性和傳遞性,說明不滿足偏好優先關系R,即px,m不能k*-支配px,1。

證畢。

定義6k*-支配Skyline。k*-支配Skyline是不被任何點k*-支配的數據點所組成的集合。

計算k*-支配Skyline是在k-支配Skyline的基礎上,需要引入屬性的優先級關系。不同的用戶,可以指定不同的屬性優先級關系。在相同的數據集和相同的k值情況下,不同的屬性優先級情況下會查詢得到不同的結果。

3.2 k*-支配Skyline算法

3.2.1樸素算法(NA)

對數據集D中的每一個數據點n,將其與D中的其他所有數據點進行比較,如果p不能被D中的其他數據點k*-支配,則p是k*-支配Skyline數據集中的點。該算法對數據集中的每一個p元素都需要計算集合中其他元素是否能k*-支配p,因而計算量較大,稱其為樸素算法(Na?ve Algorithm,NA)。

3.2.2插入排序剪枝算法(ISPA)

由于偏好優先關系具有傳遞性,若在遍歷集合數據的過程中,對數據點按偏好優先關系R進行排序,能對NA算法進行剪枝,加快算法的運行效率。

(1) 算法思想。根據k*-支配的定義,兩個數據點之間需要同時滿足k-支配和偏好優先關系R才是k*-支配。算法設置k*-支配skyline的候選集C和能被k*-支配的數據點組成的排除集L,其中C中的元素按照偏好優先關系升序排列,L中的元素按照偏好優先關系降序排列。對數據集合D中的數據求k*-支配Skyline的插入排序剪枝算法(InsertionSort Pruning Algorithm,ISPA)思想如下:

① 令C=?,L=?。

② 讀取數據集合D中的元素p,若D中沒有元素,則算法結束。

③ 讀取候選集C中的數據點r,如果偏好優先級rp,若r能k-支配p,則將p插入到L中;若不能繼續讀取C中下一個數據點,繼續判斷。如果r=p,意味著兩個數據點完全相同,去除該數據點,直接讀取D中下一個數據p。

④ 若C中已沒有數據點,說明C中沒有數據點能夠支配p。接著掃描L,看其中的數據點(除去③新加入的)能否k*-支配p。由于L中的元素按偏好優先關系降序排列,直接掃描優先級大于p的數據點。若能支配,則將p插入L中,轉入步驟②;若不能,則說明p暫時不能被k*-支配,將其按升序加入R中,轉入步驟②。

(2) 實例演示。為了更好的說明上述算法,下面舉例說明如何在表2所示數據集中,找出3*-支配Skyline的數據點集合。設屬性順序S=(d1,d2,d3,d4,d5,d6)。

表2 數據集

具體步驟如下:

① 令C=?,L=?。

② 讀取p1,因為C和L中沒有元素,直接將p1加入C集合中。

③ 讀取p2,掃描C中的數據點,p2的偏好優先級大于p1,且p2能3-支配p1,因而將p1加入L中,掃描L中的元素,p1為新加入的元素,不重復比較,直接將p2插入C中。C中的元素為{p2},L中的元素為{p1}。

④ 讀取p3,掃描C中的數據點,p3能3*-支配p2,將p2插入L,而p3不能被L中的p13*-支配,將p3加入C中。C中的元素為{p3},L中的元素為{p2、p1}。

⑤ 讀取p4,掃描C中的數據點,p3能3*-支配p4,將p4插入L中。C中的元素為{p3},L中的元素為{p2、p4、p1}。

⑥ 讀取p5,掃描C中的數據點,p5能3*-支配p3,將p3移出C集合,插入L集合。L中的元素為{p3、p2、p4、p1}。由于C中沒有元素,繼續掃描L中的元素,p3為新加入的元素,不重復計算,p2的偏好優先關系小于p5,由于L是按照偏好優先關系降序排列,其后的元素不再掃描,直接將p5插入C中。C中的元素為{p5},L中的元素為{p3、p2、p4、p1}。

⑦ 讀取p6,掃描C中的數據點,p5能3*-支配p6,將p6插入L集合。C中的元素為{p5},L中的元素為{p3、p6、p2、p4、p1}。

⑧D中已沒有元素,算法結束。本例中3*-支配Skyline的結果為{p5}。

3.2.3預排序剪枝算法(Pre-sortingPruningAlgorithm,PSPA)

在ISPA算法中,候選集C和移除集L中的元素是按插入排序的方法進行排序的,因而時間復雜度為O(n2)。由于偏好優先關系R具有傳遞性,可以將數據集D按照偏好的優先關系進行升序排序,即排在前面的數據點優先級小于等于后面的數據點,根據k*-支配的定義,排在前面的數據點一定不可能k*-支配后面的數據點。整個數據集中最后一個數據點的偏好優先關系最高,不可能被其他數據點支配,所以k*-支配Skyline一定存在結果集。在對數據進行預排序時,可以使用堆排序、快速排序等方法,減小排序的時間復雜度。

令為k*-支配skyline的結果集,PSPA算法的細節如下:

1. 令C=?;

2. forD中的每個元素pdo

3. flag=0;

4. forC中的每個元素rdo

5. ifr被pk*支配 then

6. 將r移出C;

7. else ifp與r相等 then

8. flag=1;

9. end for

10. if (flag==0)

11. 將p加入到C中;

12. end for

13. returnC;

當數據集中存在兩個完全相同的數據點時,由于偏好優先關系不具有自反性,因而兩個相同點之間不存在k*-支配關系,根據算法該點不重復加入結果集。

使用改進算法對表2中的數據集D求3*-支配skyline數據點集合。首先對D集合進行預排序,結果如表3所示。設屬性順序S=(d1,d2,d3,d4,d5,d6)。

具體步驟如下:

①C=?;

② 讀p1取,C集合中沒有元素,直接將p1加入C集合中;

③ 讀取p4,C集合中有一個元素p1,p4能3*-支

表3 預排序后的數據集

{p4};

④ 讀取p2,依次掃描C集合中的元素,p2不能3*-支配p4,因而將p2加入C集合,C={p4,p2};

⑤ 讀取p6,依次掃描C集合中的元素,p6不能3*-支配p4,能3*-支配p2,因而將p2移除C集合,將p6加入C集合,C={p4,p6};

⑥ 讀取p3,p3能3*-支配C集合中全部的元素,因而p4、p6全部被移出C集合,再將p3加入C中,C={p3};

⑦ 讀取p5,p5能3*-支配p3,將p3移出C集合,將p3加入C集合,C={p5};

⑧ 此時D′中已經沒有數據,算法結束,3*-支配Skyline的結果為{p5},與前述算法求得的結果相同。

4 實驗及結果分析

為驗證算法的正確性和有效性,并研究其效率與各可變因素之間的關系,本文在Windows平臺上實現了上述算法。計算環境所用計算機的配置為8 GB內存、3.2 GHz主頻、i5-3470處理器。實驗使用正相關分布數據、獨立分布數據、反相關分布數據分別對算法進行了驗證,并通過改變相關的參數來進行算法的評估。設k表示k*-支配skyline中的k值,size表示數據集大小,d代表數據集D的維度。

(1) 參數k變化。隨著參數k的變化,算法在正相關分布、獨立分布和反相關分布數據中的性能如圖2所示,其中size為默認值300k,d為默認值15,k從9變化到14。

(2) 數據集size變化。隨著數據集大小的變化,算法在正相關分布、獨立分布和反相關分布數據中的性能如圖3所示,其中k為默認值11,d為默認值15。

(3) 維度d和參數k變化。圖4所示的是參數k和維度d變化時,算法的執行效率。

(a) 正相關分布

圖2 參數k變化時算法運行時間

(a) 正相關分布

圖3 數據集size變化時算法運行時間

由圖2可見,當size和d確定時,k對運行時間有顯著影響。同時可以看出,相對于正相關分布的數據集而言,k對獨立分布和反相關分布的數據集上運行時間的影響更顯著。由圖3可見,當d和k確定時,size對運行時間的影響,在3種不同分布的數據集上大時,算法的運行效率會迅速下降。當k與d相同時,k*-支配Skyline查詢會退化成普通的Skyline查詢。綜上可以看出,k*-支配查詢中,k對算法效率的影響是最顯著的。對于維度較多的數據集而言,選取一個合適的且較小的k,既可以得到相對有效性更高的小結果集,同時也可以使查詢的時間大大縮短。而且,k*-支配關系不會成環,查詢結果一定不為空集。

(a) 正相關分布

(b) 獨立分布

(c) 反相關分布

圖4 維度d和參數k變化時算法運行時間

5 結 語

在實驗數據檢索中,使用傳統Skyline查詢,由于數據點之間較難產生支配關系,因而返回的數據點較多。在Skyline查詢的基礎上改進形成的k-支配Skyline查詢,有可能會產生循環支配。本文提出了一種新的k*-支配Skyline查詢,在滿足k-支配的條件下還需滿足偏好優先關系,使得數據點之間不存在循環支配。將k*-支配Skyline查詢用于實驗數據的信息檢索,能有效的返回用戶的偏好數據,本文通過實驗證明了算法的可行性。

參考文獻(References):

[1] Borzsonyi S, Kossmann D, Stocker K. The Skyline operator[C]∥ICDE. Heidelberg:IEEE, 2001:421-430.

[2] Kossmann D, Ramsak F, Rost S. Shooting stars in the sky: An online algorithm for Skyline queries[C]∥Proceedings of the 28th International Conference on Very Large Data Bases. Hong Kong:Springer, 2002:275-286.

[3] Tan K L, Eng P K, Ooi B C. Efficient progressive Skyline computation[C]∥Proceedings of the 27th International Conference on Very Large Data Bases. Roma:Springer, 2001:301-310.

[4] Papadias D, Tao Y, Fu G,etal. An optimal and progressive algorithm for Skyline queries[C]∥Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data. San Diego: ACM Press, 2003: 467-478.

[5] Papadias D, Tao Y, Fu G,etal. Progressive Skyline computation in database systems[J]. ACM Transactions on Database Systems, 2005, 30(1): 41-82.

[6] Lee J, Hwang S. Toward efficient multidimensional subspace Skyline computation[J].The VLDB Journal, 2014, 23(1): 129-145.

[7] Li Y, Li Z, Dong M,etal. Efficient subspace Skyline query based on user preference using map reduce[J]. Ad Hoc Networks, 2015, 35:105-115.

[8] Zhao L, Yang Y, Zhou X. Continuous probabilistic subspace Skyline query processing using grid projections[J]. Journal of Computer Science Technology, 2014, 29(2):332-344.

[9] Lian X, Chen L. Efficient processing of probabilistic group subspace Skyline queries in uncertain databases[J].Information System, 2013,38(3):265-285.

[10] Chen L, Cong G, Jensen C S,etal. Spatial Keyword query processing: An experimental evaluation[J]. PVLDB, 2013, 6(3): 217-228.

[11] Huang Z, Zhang J, Liu Z,etal.Skyline recommendation in distributed networks[J]. The International Arab Journal of Information Technology, 2017,14(3):372-379.

[12] Park Y, Min J, Shim K, Efficient processing of Skyline queries using map reduce[J].IEEE Transactions on Knowledge and Data Engineering, 2017,29(5):1031-1044.

[13] Song B, Liu A, Ding L. Efficient top-k Skyline computation in map reduce[C]∥Proceedings of the12thWeb Information System and Application Conference. Jinan: IEEE,2015:67-70.

[14] Chan C Y, Jagadish H V, Tan K L. Finding k-dominant Skylines in high dimensional space[C]∥Proceedings of the 2006 ACM SIGMOD International Conference on Management of Data. Chicago:ACM, 2006:503-514.

[15] 黃榮躍,趙雷.一種使用簡化預排序的k-支配Skyline查詢算法[J].小型微型計算機系統,2013,34(5):1054-1059.

[16] 印鑒,姚樹宇,薛少鍔,等.一種基于索引的高效k-支配Skyline算法[J].計算機學報,2010,33(7):1236-1245.

猜你喜歡
排序用戶
排排序
排序不等式
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 国产对白刺激真实精品91| 亚洲中文字幕精品| 无码一区二区三区视频在线播放| 国产性生交xxxxx免费| 欧美专区日韩专区| 无码中文字幕乱码免费2| 国产91无码福利在线| 18禁高潮出水呻吟娇喘蜜芽| www.91中文字幕| 欧美翘臀一区二区三区| 老司国产精品视频91| 伊人福利视频| 日韩精品毛片人妻AV不卡| 青青草原国产| 中文字幕亚洲另类天堂| 国内精品视频区在线2021| 国产精品hd在线播放| 黄色免费在线网址| 在线观看免费国产| 日韩欧美中文| www.youjizz.com久久| 国产免费久久精品44| 中文字幕日韩欧美| 秘书高跟黑色丝袜国产91在线| 国产免费福利网站| 精品国产自在在线在线观看| 国产在线视频福利资源站| AV网站中文| 免费又爽又刺激高潮网址| 999国内精品视频免费| 国产在线第二页| 日韩欧美色综合| 国产成人久久综合777777麻豆| 亚洲视频免| 欧美精品在线看| 日本三级黄在线观看| 欧美啪啪网| 国产清纯在线一区二区WWW| 国产一区成人| 无码国产伊人| 乱人伦99久久| 免费一级成人毛片| 欧美日韩动态图| av色爱 天堂网| 国产成人亚洲综合A∨在线播放| 57pao国产成视频免费播放| 国产a在视频线精品视频下载| 久久精品国产精品国产一区| 一级毛片免费观看久| 国产一国产一有一级毛片视频| 欧美另类精品一区二区三区| 精品欧美一区二区三区在线| 精品伊人久久大香线蕉网站| 亚洲av日韩av制服丝袜| 天天躁夜夜躁狠狠躁图片| 欧美一区二区精品久久久| 91久久国产综合精品女同我| 大学生久久香蕉国产线观看| 被公侵犯人妻少妇一区二区三区| 欧美日韩北条麻妃一区二区| 亚洲欧美成人网| 国产日韩欧美在线视频免费观看| 免费毛片全部不收费的| 四虎国产永久在线观看| 青青青视频蜜桃一区二区| 在线观看欧美国产| 久草视频中文| 免费无遮挡AV| 国产精品毛片一区视频播| 2021国产在线视频| 日本午夜在线视频| 欧美在线三级| 亚洲美女视频一区| 91亚洲影院| 99精品久久精品| 99激情网| 日韩天堂视频| 久久亚洲中文字幕精品一区| 福利视频99| 国产精品冒白浆免费视频| 就去吻亚洲精品国产欧美| 国产二级毛片|