莊志惠, 岑 健, 劉 娟, 趙 曉, 王藝璇
(1.廣東技術師范學院自動化學院,廣州 510665; 2.國網(wǎng)南陽供電公司,河南 南陽 473000)
傳統(tǒng)的技術對于不確定性數(shù)據(jù)的處理效率低下,這使得研究人員都致力于設計新的數(shù)據(jù)管理技術應用到不確定性數(shù)據(jù),根據(jù)數(shù)據(jù)特點的區(qū)別[1-4],針對一些結構特性的不確定數(shù)據(jù)給出了相應的處理模型;依據(jù)數(shù)據(jù)特點的區(qū)別,針對一些結構特性的不確定數(shù)據(jù)給出了相應的處理模型;針對時間快速流動的數(shù)據(jù),設計了滑動窗口模型;針對不同語義與應用背景的多種查詢方法設計了如:Top-k與Skyline等查詢方法[5-9]。近2年來隨著研究的不斷深入,不確定數(shù)據(jù)方面的研究水平有了顯著改進,而與此同時隨著各種模型與查詢方法的設計與改進,其處理的效果也有很大的提升[10-12]。然而如數(shù)據(jù)測量有誤,影響到整個傳輸過程等;相關人員沒有準確的處理數(shù)據(jù)等方面的問題依然需要進一步發(fā)展,在相關學術界的研究中發(fā)現(xiàn)在不確定數(shù)據(jù)元組的數(shù)目很大時,現(xiàn)有的發(fā)展模型基本上不可能得到有效的查詢結果[13,5,7],本文基于這一方向的考慮,進一步改進不確定數(shù)據(jù)Top-k查詢的有效結果,采用控制集合方法完成了不確定數(shù)據(jù)查詢算法的改進及優(yōu)化驗證,這一研究對于大元組不確定的數(shù)據(jù)管理具有顯著的理論和實踐價值。
U-Topk、Uk-Ranks、PT-k以及Pk-Topk是當前不確定數(shù)據(jù)的4種Top-k查詢算法,這4種算法的共同點是要將數(shù)據(jù)元組中最大分值的k個找出,不同的是它們在語義上和處理方式是有區(qū)別的,各有各的特點。與最初的處理方法相比,這幾種方法的處理效果確實有很大的提升,但是仍有一些地方還需要改進,這里主要針對PT-Tok查詢算法進行改進。

普通關系的數(shù)據(jù)查詢是對數(shù)據(jù)進行精確或完全相同的查詢處理,而DRA關系的查詢則有所不同,它的相關查詢是基于數(shù)據(jù)庫存在不確定性,所查詢的對象是不確定性數(shù)據(jù)。精確查詢與設計的DRA查詢是設計的DRA模型兩種的查詢操作,精確查詢所指的是在設計的DRA關系R=(U,B,V,M)中,設定y為此關系中所要查詢的目標,查詢結果可分為兩種,即典型結果集合M與邊界結果集合N:M(y)=Gd([y]),N(y)=Bv([y]);而另一種查詢操作則指的是在設計的DRA關系R=(U,B,V,M)中,設定y依然是此關系中所要查詢的目標,查詢結果一樣可分為兩種,即典型結果集合M與邊界結果集合N:M(y)={Gv([y]):[y]?Cy},N(y)={Nv([y]):[y]?Nn(y)}。

表1 相互獨立的不確定數(shù)據(jù)元組
這里以上表中的數(shù)據(jù)進行算法設計的實現(xiàn)過程分析。根據(jù)大小對幾率值進行排序,從而得出PT-k的結果。
(1)
(2)
(3)
根據(jù)上述算法改進設計,表1中的數(shù)據(jù)便可獲得表2的結果。

表2 PT-k查詢處理結果
以下是采用上述模型城市的負荷數(shù)據(jù)天氣進行實驗應用。
這里針對20天的城市的負荷數(shù)據(jù)天氣特征值進行低21天的數(shù)據(jù)預測,圖1所示算法數(shù)據(jù)應用預測結果,圖2則相應給出了實際情況的預報誤差,實際例證結果表明,算法訓練速度快、時間短、收斂效果好。為了進一步詳細說明算法設計的有效價值及應用效果,下面通過java進行虛擬實驗對比及詳細分析。

圖1 預測結果

圖2 預報誤差
2.2.1實驗數(shù)據(jù)
對java中的random函數(shù)進行調用而隨機生成的實驗數(shù)據(jù),其分值范圍為0~2 000,概率值范圍為0~1。由于在可能世界實例中,分值一樣的情況無法對排序進行明確,因此在當前的研究中,兩個獨立的元組有著一樣的分值的情況并不在考慮之列。故這里所研究的情況并未將分值相等考慮其中,實驗中所采用的數(shù)據(jù)表一共有100張,其中有10份數(shù)據(jù)是元組個數(shù),分別為:100,200,300,400,500,600,700,800,900,1 000;而這10份數(shù)據(jù)實驗結果的平均值即為該實驗結果。
2.2.2實驗對比結果
圖3所示為查詢在數(shù)據(jù)量與k值不同的情況下,所獲得的控制集合中元組的數(shù)目,由圖4可知,隨著數(shù)據(jù)量的增大控制集合的數(shù)目也有不太明顯的變化(稍增),因為即便原始數(shù)據(jù)有所增大因為上文中已經(jīng)對控制集合以外的元組成為查詢結果的可能性為0進行了論證,因此當控制集合較小時,該方法的的優(yōu)勢更為明顯。

圖3 控制集合的數(shù)據(jù)量
圖4、5所表示的是采用DRA方法,當k保持不變時,查詢的結果也會保持不變,數(shù)據(jù)更新對查詢結果無影響的概率則是1—194 860/200 000=2.57%。由圖可以看到,控制集合中的元組隨著k值的增大而變大,查詢結果受影響的概率降低。

圖4k不同時更新數(shù)據(jù)需要重查的概率

圖5數(shù)據(jù)量不同時更新數(shù)據(jù)需要重查的概率
圖6所示為采用現(xiàn)有方法與改進后的方法處理PT-k查詢時所需處理的平均元組數(shù)。由圖6可知,這兩種方法的差距隨著數(shù)據(jù)量的變大而變大,造成這種現(xiàn)象的主要原因是使用現(xiàn)有的方法需對所有元組成為PT-k結果的可能性進行計算,接著再將成為PT-k查詢結果不小于閾值P的概率值取出,再根據(jù)由大到小的順序對這些概率值進行排序,而相應的元組也就是最后的查詢結果,而改進后的方法在閾值P>0.25時控制集合中比閾值p小的元組概率值是無需考慮的,這是由于PT-k查詢所要查找的是在全部可能世界實例中排在前k位的概率總和不小于閾值P的元組,而任一元組排在全部可能世界實例中前k位的概率總和不可能大于這一元組的存在性概率值,因此,存在性概率值比閾值P小的元組成為PT-k的查詢結果是不存在的,前面已經(jīng)對僅在查詢閾值比0.25大的情況進行了論證,PT-k查詢只能用于基于控制集合的方法,故如果閾值超過0.25,控制集合中可能成為PT-k的查詢結果僅僅是存在性概率值比0.25大的元組。實驗室中分別將0.3、0.5、0.7作為3個閾值,因為所取閾值不一樣,所需計算的元組也會有所變化,但比現(xiàn)有方法所處理的元組數(shù)要少的多,因此,圖中所顯示的這3種情況差不多。

圖6 數(shù)據(jù)量不同時對PT-k查詢的影響
對于不確定數(shù)據(jù),相關研究人員已經(jīng)提出了許多數(shù)據(jù)模型。而這些數(shù)據(jù)模型的共同點就是其核心思想都是基于可能世界模型而產(chǎn)生的。所謂的可能世界實例指的是可能世界模型由一個或一個以上的不確定數(shù)據(jù)源演化為多個確定的數(shù)據(jù)庫實例,其中全部實例的幾率總和為1。雖然可以先對每個實例的查詢結果進行分別計算,再將中間結果合并從而得到最終查詢結果,但可能世界實例比不確定性數(shù)據(jù)庫的規(guī)模要大的多,因此,該方法并不適用。本文對此作了具體說明,將100份數(shù)據(jù)結果的平均值作為實驗結果,同時,對現(xiàn)有方法進行了全面的對比,這樣可更加客觀的對該方法的改進進行評價。
參考文獻(References):
[1]陳愛東,劉國華,肖瑞,等. 均勻分布下不確定數(shù)據(jù)的關聯(lián)規(guī)則變粒度查詢[J]. 計算機工程與科學,2013(10):79-88.
[2]陳愛東,劉國華,費凡,等. 滿足均勻分布的不確定數(shù)據(jù)關聯(lián)規(guī)則挖掘算法[J]. 計算機研究與發(fā)展,2013(S1):186-195.
[3]黃娜,王洪濤,范辭冬,等. 基于不確定度和敏感度分析的LCA數(shù)據(jù)質量評估與控制方法[J]. 環(huán)境科學學報,2012(6):1529-1536.
[4]王意潔,李小勇,祁亞斐,等. 不確定數(shù)據(jù)查詢技術研究[J]. 計算機研究與發(fā)展,2012(7):1460-1466.
[5]祁亞斐,王意潔,李小勇. 基于高斯模型的不確定數(shù)據(jù)流Skyline查詢方法[J]. 計算機研究與發(fā)展,2012(7):1467-1473.
[6]周遜,李建中,石勝飛. 不確定數(shù)據(jù)上兩種查詢的分布式聚集算法[J]. 計算機研究與發(fā)展,2010(5):762-771.
[7]王悅,唐常杰,楊寧,等. 在不確定數(shù)據(jù)集上挖掘優(yōu)化的概率干預策略[J]. 軟件學報,2011(2):285-297.
[8]汪金苗,張龍波,鄧齊志,等. 不確定數(shù)據(jù)頻繁項集挖掘方法綜述[J]. 計算機工程與應用,2011(20):121-125.
[9]白梅,信俊昌,東韓,等. 不確定數(shù)據(jù)流上的概率反輪廓查詢處理[J]. 計算機研究與發(fā)展,2011(10):1842-1849.
[10]孫永佼,袁野,王國仁. P2P環(huán)境下面向不確定數(shù)據(jù)的Top-k查詢[J]. 計算機學報,2011(11):2155-2164.
[11]王爽,王國仁. 面向不確定感知數(shù)據(jù)的頻繁項查詢算法[J]. 計算機學報,2013(3):571-581.
[12]蔣濤,高云君,張彬,等. 不確定數(shù)據(jù)查詢處理[J]. 電子學報,2013(5):966-976.
[13]盧鑫,陳華輝,董一鴻,等. MapReduce框架下的不確定數(shù)據(jù)Top-k查詢計算[J]. 模式識別與人工智能,2013(7):695-704.