王潤芳,李艷博
(長春工業大學人文信息學院信息工程系,長春 130122)
大數據技術的成熟和數據儲存技術的推廣使得社會諸多領域的數據信息量正呈指數增長[1]。數據信息中包含了很多有效信息,可因為我們缺少行之有效的手段和方法尚不足以完全發揮出其應有的作用。面對如此海量的原始數據信息,怎樣采取合理的方式從中獲取有價值的信息,是放在我們面前急需解決的一個重要問題。
根據大數據特性,給出既定的數據集合D,D 代表d 維數據集,定義d 維空間內所含聯系的密集數據單元的最大集合屬于一個聚類區域。數據集D 通過數據的劃分后,每一個聚類的點集勢必會存在一個臨界點。依據首先求取出來的臨界單元來獲取數據聚類點的大概取值范圍,這個區域內的所有點不可能全部屬于離群點,從而是可以將其進行刪除的[2]。
在對離群點進行檢測以前需要計算并保存數據單元集合(即聚類區域)內每一數據的模,對數據集進行預處理。數據點的模信息存儲在模信息列表中,表內每一數據點均需將數據模值進行保存,由于所占空間比較小,能夠常駐內存[3]。
離群點檢測首先需要對其進行有效劃分,如此能夠明顯提高計算效率。本文提出的大數據分析是一種全新空間劃分辦法,該算法繼承了以往空間劃分的優勢,并具備較高的分布均勻性。在數據聚類區域內為每個集匹配其二進制編碼,用于迅速判斷數據之間的關系;接下來根據一定的計算步驟將獲取的集匹配給各個數據節點,使每個節點的數據個數保持一致。
隨機選取一個數據單元集合中一個未經訪問的點p,按照事先設置的歐式距離法計算該點所屬的數據單元構建d 維空間函數,將數據單元集合的信息投射到相對應的函數中,計算該單元所包含的全部離群數據并放入離群點集中,同時刪除其中的聚類點;離群度檢測的主要任務就是在完成數據集預處理后對離群點集的進行檢測的過程。

對于數據集D,既定參數k 與p 都屬于集合D,那么點p的離群因子就可以定義為p 和其k 相鄰對象的平均距離;其中,代表p 在D 中的第k 個最相鄰對象的集合。代表點p 和它的第k 個對象的距離來度量p 的離群程度;p 越遠離k相鄰區域內的數據對象,越大,則離群程度也就越大。
為了更加清楚、具體的看出本文設計的離群點檢測算法的實際效果,特與傳統離群點檢測算法,對其算法效率大小進行比較。
為保證實驗的準確性,在其他條件不變的前提下,將兩種離群點檢測算法置于相同的試驗環境之中,對算法效率進行試驗。
實驗過程中,通過兩種不同的離群點檢測算法同時在相同環境中進行工作,分析算法效率的變化。實驗效果對比圖如下所示。

圖1 實驗結果對比圖
根據實驗結果的對比,本文設計的算法在檢測正確率上相比于傳統算法而言,擁有較大優勢,具體體現在其算法檢測的正確率基本在80%以上,最高可達99%,且隨著節點數量的增多,并不對其檢測造成消極影響。
本文對基于大數據分析的海量數據離群點檢測算法進行分析,依托大數據分析機制,根據對海量數據離群點檢測的分析,對其進行調整,實現本文設計。希望本文的研究能夠為基于大數據分析的海量數據離群點檢測算法提供理論依據。