王鵬宇
(山西應用科技學院 山西 太原 030000)
在網絡技術不斷發展下,各種新型IT設備不斷涌現,導致大量數據不斷產生,這無疑加大了人們對海量數據的處理難度。而不確定頻繁模式挖掘算法的出現和應用可以很好地解決以上問題,該算法綜合利用了極小數據結構,不僅可以提高數據處理效率和效果,還能保證挖掘精確度,完全符合不確定數據庫處理需求。因此,為了從海量數據中分析和挖掘出有用的信息,在極小數據結構的應用背景下,如何科學地分析和應用不確定頻繁模式挖掘算法是相關人員必須思考和解決的問題。
頻繁模式挖掘主要是指從大量的指定數據庫中分析和挖掘有價值的信息數據。在正式進行數據挖掘處理之前,需要設置相應的最小支持度,用于實現對最小閾值的精確衡量。換而言之,一旦發現某一模式的支持度遠遠超過最小閾值,說明該模式屬于人們比較感興趣的頻繁模式。例如:在使用FPGrowth這一挖掘算法時,由于該算法充分利用了樹結構頻繁模式,不僅可以保證搜索內容的深度和廣度,還能提高數據挖掘效率和效果,確保樹結構存儲大量的有價值的壓縮數據,從而極大地提高了用戶的搜索體驗。FPGrowth這一挖掘算法流行的主要原因是該算法突破了Apriori的局限性,當演變為FP-Tree時,可以實現對海量壓縮數據的安全存儲和管理,不僅降低了計算時間成本,還有效地節約了數據存放內存。在這之后,出現了多種類型的FPGrowth變形算法。例如:通過借助附加數列,可以最大限度地提高算法處理速度,同時,還能降低掃描次數,降低操作復雜度。隨后,又出現了一種新型、先進的LP-Growth算法,該算法所存儲的信息數據主要以數組元素為主,具有較高的數據挖掘效率,為保證數據挖掘結果的精確性和可靠性產生積極的影響。由此可見,為了進一步提高不確定數據庫處理效果,需要確保所提出的不確定頻繁模式挖掘算法能夠快速、科學地處理不確定數據,從而實現對多種不確定頻繁模式的挖掘和利用,為充分發揮和利用極小數據結構的應用優勢,有效地滿足不確定數據庫處理需求打下堅實的基礎。
當出現不確定頻繁模式挖掘概念后,多種相關挖掘算法不斷涌現。與普通數據相比,不確定數據通常會附帶相應的數據概率。Apriori作為首次出現的不確定頻繁模式挖掘算法,在具體的運用中,主要借助了Apriori基礎方法,因此,其算法處理性能較低,難以遠遠超過Apriori算法。此外,Apriori不確定頻繁模式挖掘算法主要是在MBP算法的基礎上發展而來的,該算法通過綜合利用模糊統計技術,可以極大地提高運算效率和效果。緊接著,出現了一種IMBP算法,該算法主要是在MBP算法的基礎上進行改進后形成的,與MBP算法相比,其運算效率得以顯著提升,有效地降低了內存消耗量。但是,該算法的精度較低,尤其是在處理高密度數據庫時,其算法精度越來越低,同時還表現出一定的不穩定性。總之,IMBP和MBP兩種算法盡管都能實現對數據庫的多次掃描,并形成相應的候選集,但是由于這兩種算法均使用的模糊技術,難以保證最終挖掘結果的精確性和全面性。
在極小數據結構的應用背景下,為了充分發揮和利用不確定頻繁模式的應用優勢,現提出一種新型、先進的挖掘算法。為此,在充分介紹不確定頻繁模式問題描述相關內容的基礎上,對不確定頻繁模式數據結構進行深入分析和研究,最后對挖掘算法進行詳細化、全面化描述。
根據給定的D(不確定數據庫)和minSup(用戶最小支持度),對UFPs各個集合進行挖掘處理,確保用戶從不確定數據庫中挖掘出多種算法模式[1],從而起到支持minSup的作用。
通過構建相應的新型數據結構,可以確保挖掘算法的有效性和針對性。此外,不確定頻繁模式挖掘算法在具體的運用中,需要借助CUFP-Tree型結構,實現對多種不確定信息數據的獲取和處理[2]。在此基礎上,還要根據樹型序列路徑長度,對CUFP-Tree序列進行增加處理,一旦處理操作不當,挖掘算法會在最短時間內停止工作。由此可見,通過利用本文所提出的不確定頻繁模式挖掘算法,可以有效地避免出現過長序列路徑問題[3]。
在極小數據結構的應用背景下,為了更好地了解和把握不確定頻繁模式挖掘算法詳細內容,現對算法第1次掃描流程和第2次掃描流程進行全面介紹。第1次掃描算法流程圖見圖1,從圖1中可以看出,該算法在具體運用中,首先要做好對指定數據庫的首次掃描工作,在此基礎上構建數據結構模型[4]。同時,為了進一步提高數據庫掃描效率和效果,還能為數據庫內各項數據設置相應的expSup,然后篩選并去除小于minSup的值。此外,還要根據其他項目特點,構建相應的關鍵值降序序列,當降序列長度遠遠超過給定值s時,需要刪除該序列[5],并將最終處理結果存儲于棧底中,在此基礎上,為棧中其他序列進行編號操作。

圖1 第1次掃描算法流程圖
第2次掃描算法流程圖見圖2,從圖2中可以看出,該算法在完成第1次掃描的基礎上,對給定數據庫進行第2次掃描。然后,根據已構建好的關鍵值完成對表序名的一一構建,同時,對構建好的表序名進行再次掃描處理[6]。另外,對多對K-list進行編碼處理,從而形成多種算法模式。最后,通過對各種數據結構的全面檢查,對搜索時間進行縮短處理,只有這樣才能最大限度地提高挖掘效率和效果。

圖2 第2次掃描算法流程圖
本次實驗中所使用的Window10操作系統型號為Intel(R)Core(MT)i5-5200,CPU大小為2.31 GHz,內存達到了4.0 GB。同時,通過利用基礎數據庫和合成數據庫,構建相應的多維圖譜,此外,還要借助不確定函數f(0,1),得到大量的不確定數據[7]。在此基礎上,從算法執行時間、算法精度兩個方面入手,對以下8種挖掘算法進行對比和分析,結果見表1。

表1 實驗結果比較
從表1中的數據可以看出,通過利用IMBP挖掘算法,所消耗的時間最長,而執行時間最短的是VBG挖掘算法。同時,IMBP挖掘算法精度最高[8],而VBG挖掘算法精度次之。由此可見,根據以上實驗對比結果,不難發現本文所提出的不確定頻繁模式挖掘算法具有處理時間短、算法精度高等優點。
綜上所述,在極小數據結構的應用背景下,提出一種新型、高效的不確定頻繁模式挖掘算法,該算法通過構建不確定數據結構模型,可以實現對不確定數據的科學分析和挖掘,并挖掘出有價值的信息數據,從而進一步提高信息數據的利用率。同時,通過利用該算法,還能降低算法處理時間,提高挖掘精確度,完全符合不確定數據庫處理需求。因此,本文所提出的不確定頻繁模式挖掘算法具有非常高的應用價值和應用前景。