張凱斐,王翠娥
(呂梁學院 計算機科學與技術系,山西 離石 033001)
隨著信息技術的不斷發展,分布式空間數據庫的規模逐漸增大,存儲數據逐漸增多,因此,如何從分布式空間數據庫中提取到有用的數據,使得有效數據的檢測效率提高,成為了前信息領域中的一個難題[1].通過設置數據聚類中心O,數據聚類半徑R,依托隸屬度計算、數據檢測偏差S計算,完成有效數據檢測路徑的搭建.然后將分布式空間數據庫中的數據屬性經過離散化處理,成為模糊集合,檢測符合關聯模糊規則條件的數據,確定有效數據檢測目標,最后使用結合并行檢測算法的FCM聚類算法對分布式空間數據庫中的數據空間屬性進行處理,依托模糊集分類檢測,最終實現分布式空間數據庫中的有效數據高效檢測.仿真實驗結果表明了本文設計的數據檢測方法在分布式空間數據庫的有效數據檢測方面具有優勢.
在分布式空間數據庫中提取數據,進行有效數據檢測,能夠提取到數據庫中隱藏的信息,為以后的數據決策提供依據,具體的數據檢測路徑如下:
將分布式空間數據庫中的各個空間屬性數據,組成一個集合,在各個數據集合中,O為數據聚類中心,R為數據聚類半徑,S為數據檢測過程中的偏差,V為各項數據的信息要素[2].在時刻t,從分布式空間數據庫中始發點Yj出發開始進行數據檢測,檢測到數據聚類中心O,產生的數據檢測偏差為S,對始發點Yj數據進行隸屬度計算.
為了避免在進行有效數據的檢測過程中,出現多樣的數據聚類中心O,從而導致數據檢測失敗.引入檢測調控因子,對數據聚類中心O進行計算.
在分布式空間數據庫中進行有效數據檢測的過程中,數據庫中所有的數據都為待檢測數據,通過設置數據聚類中心O,數據聚類半徑R,依托隸屬度計算、數據檢測偏差S,完成有效數據的檢測,得到目標數據[3].
確定分布式空間數據庫中有效數據的檢測目標由三步驟構成,第一步,將分布式空間數據庫中的數據屬性經過離散化處理,成為模糊集合[4].第二步,收集目標數據的相關屬性數據以及屬性的模糊頻繁值.第三步,在小信任度的條件下,檢測符合關聯模糊規則條件的數據,最終得到目標數據.

圖1 分布式空間數據庫的結構示意圖
分布式空間數據庫的結構形式為非共享型數據庫,設分布式空間數據庫共有數目為P的處理器,每個處理器都有一個專門的存儲器和內存,并且各個處理器都是通過通信電纜連接,形成一個通信網絡[5],分布式空間數據庫的結構示意圖如圖1所示.
分布式空間數據庫中有效數據檢測采用的是關聯規則的檢測方法,以典型的計數分配算法為基礎,減少了存儲器的通信開銷.在分布式空間數據庫中,每個處理器都有與之對應的候選集散列樹,所以數據庫中的處理器都能在檢測時得到候選集的支持.
分布式空間數據庫中有效數據檢測通過申請一個求和操縱命令,可以得到對應的候選集的全部支持數.每一個完整的候選集散列樹都是分布式空間數據庫中有效數據檢測的重要組成部分,所以,在進行有效數據的檢測時,要盡量減少額外消耗開銷[6].通過確定分布式空間數據庫中有效數據檢測路徑,確定有效數據檢測目標,完成有效數據檢測方法的設計.從而實現了有效數據的檢測.
分布式空間數據庫中的數據主要為具有空間屬性的數據,通過采用FCM聚類算法,對分布式空間數據庫中的數據,根據空間屬性進行分類.FCM聚類算法作為無監督模糊聚類算法,在檢測分布式空間數據庫中的有效數據時,需要開銷很多的輸入/輸出(I/O)接口,并且占用很大的內存空間,因此需要花費很多的時間來進行檢測[7].
通過結合并行檢測算法,來實現有效數據的檢測.首先將分布式空間數據庫中的數據根據空間屬性進行分類,在分類過程中區分原始化數據集,從而得到s/n個數據,s為檢測的進程數據,n為進行數據檢測的總數目.在檢測過程中,將所有的檢測進行歸零,然后逐次進行標記,同時將歸零過程設置為根進程.將歸零過程當做初始化檢測中心O(i=1,2,…c),將檢測信息發送到全部檢測進程,記錄所有檢測進程收到的檢測信息Vi(i=1,2,…c),計算收集到的信息隸屬度[8].這樣完成了對檢測數據的初始化處理,然后計算檢測數據子集的隸屬度,對檢測進行偏差計算,得到具體數值時,停止檢測.
對分布式空間數據庫的所有數據進行空間屬性分類,可以獲得數據空間屬性的矩陣以及聚類中心.每個空間屬性對應的數集都可以視為一個模糊集,數據空間屬性的矩陣可以表示模糊集的水平,結合并行檢測算法的FCM聚類算法可以對分布式空間數據庫中的有效數據檢測,結合后的FCM聚類算法有更好的適應性以及可擴展性.
使用結合并行檢測算法的FCM聚類算法,對分布式空間數據庫中的數據空間屬性進行處理之后,得到多個不同空間屬性的模糊數據集.將所獲得的模糊數據集,對應的匹配到分布式空間數據庫的每個處理器中,網絡通信檢測傳輸是數據檢測過程中的主要檢測途徑[9].
有效數據高效檢測方法的實現具體步驟如下所述:

圖2 有效數據高效檢測方法的工作流程示意圖
首先,將分布式空間數據庫中的全部數據平均分配到各個檢測進程中,然后利用C均值模糊聚類算法再次對數據庫中的數據根據空間屬性進行聚類,同時計算各個數據空間屬性的隸屬度.
其次,把分布式空間數據庫中的數據初始空間屬性轉變成數據空間屬性模糊集,計算各個模糊集的隸屬度,獲得相應的數據模糊屬性的值.根據模糊聯規則,對分布式空間數據庫中的數據空間屬性進行均值處理,獲得若干模糊集,形成具有不同的界限數據集合.
最后,對分布式空間數據庫中的數據進行反復檢測,對各個檢測進程是否達到結束檢測的條件進行判斷,判定是否繼續執行檢測[10].有效數據高效檢測方法的工作流程如圖2所示.
使用結合并行檢測算法的FCM聚類算法對分布式空間數據庫中的數據空間屬性進行處理,依托模糊集分類檢測,最終實現了分布式空間數據庫中的有效數據高效檢測.
為了保證本文提出的分布式空間數據庫有效數據高效檢測方法的有效性,進行仿真實驗分析.實驗過程中,以不同的數據庫有效數據檢測方法作為仿真實驗對象,對數據庫有效數據檢測效率進行仿真模擬.為了保證實驗的有效性,使用常規檢測方法作為比較對象,進行仿真實驗.記錄兩次仿真的實驗結果,并將其呈現在同一數據圖表中.
為了減少仿真實驗的影響因素,確保實驗過程、結果的準確度,設置仿真實驗環境.仿真實驗使用的PC機的內存為4G DDR3,配置為core CPU T4300.使用傳統的數據庫數據檢測方法進行仿真對比實驗,設置分布式空間數據庫中的數據總數為N,有n種不同的數據空間屬性,數據構成的集合為(a1,a2,…an),數據空間屬性構成的集合為(b1,b2,…bn),待檢測的有效數據為ai,具有的空間屬性是bj,利用數據檢測過程中的檢測效率、檢測準確度對兩種檢測方法的有效性進行對比.
利用傳統數據檢測方法以及本文提出的數據高效檢測方法對數據庫中的數據進行檢測,兩種數據檢測方法檢測后的實驗結果如表1所示。
根據表1中的仿真實驗結果可知,本文設計的有效數據高效檢測方法相比于傳統檢測方法,數據檢測的有效率提高了21.5%.實驗數據表明本文設計的有效數據高效檢測方法能夠有效的提高數據檢測的質量,對于分布式空間數據庫來說,該檢測方法能夠更好地為人們提高服務.
為了進一步證明本文設計的檢測方法的優越性,在仿真實驗中逐步增加待檢測數據的數量,利用傳統數據檢測方法以及本文提出的檢測方法對數據庫中的數據進行數據檢測,記錄檢測用時.獲得的仿真實驗結果可以如圖3所示。
由圖3可知,本設計的有效數據高效檢測方法的檢測效率明顯高于傳統數據檢測方法,仿真實驗證明本設計的數據檢測方法能夠顯著的提高數據檢測的效率.

表1 兩種數據檢測方法仿真實驗結果對比

圖3 兩種數據檢測方法耗時對比
本文通過確定分布式空間數據庫中有效數據檢測路徑、確定檢測目標,完成了數據檢測方法的設計,最后使用結合并行檢測算法的FCM聚類算法對分布式空間數據庫中的數據空間屬性進行處理,依托模糊集分類檢測,最終實現了分布式空間數據庫中的有效數據高效檢測.通過仿真實驗證明,本文提出的數據檢測方法具有極強的有效性,希望本文能夠為數據檢測提供參考依據.