潘 燕
(福建農業職業技術學院 福建 福州 350007)
隨著“互聯網+”在全球的不斷普及,計算機信息技術的應用范圍也變得越來越廣闊。尤其是在數據庫里信息分析、處理領域里面,數據挖掘技術當中的數據挖掘算法發揮了其獨一無二的作用。大量研究中,關聯規則下的數據挖掘算法作為數據挖掘技術的集中體現,便是其重要研究成果之一,本文將對此做出詳細探討。
數據挖掘技術在進行信息處理的時候,相比于傳統技術,它是一種比較新型的信息處理技術,無論是從商業價值還是從經濟價值上來看,它都能從根本上對傳統數據處理技術提出挑戰[1]。
在關聯規則下,數據挖掘的在進行的過程當中,主要有兩個步驟。首先,相關工作人員需要從復雜的數據庫當中篩選出比較集中的一部分高頻項目組。其次,要將選好的高頻項目組進行一定的分類、歸納,并且找到其中的某些關聯。在歸納的過程當中,要對各種各樣的數據進行統一的統計,并且對于數據庫中一些相關的屬性進行集中的反應,進而實現實時統計,這種方法被稱為 AQ 法[2]。
在進行實際高頻組篩選的時候,需要注意的是高頻的概率指的是一個項目組在所有數據當中出現的概率達到一定的水平,而不是單個的數據信息。而從專業的角度上來說,此概率可以被稱之為支持度。在第二階段當中,相關高頻項目組,在進行關聯規則,獲取的時候也需要注意信賴度的問題,而這里的信賴度是指相關項目組當中所有的數據真實度達到一定的水平。在關聯規則下,必須要信賴度達到一定標準的項目組才能被舉例出來。
在關聯規則下,原創Apriori算法主要是用于對頻繁項數據的挖掘。在進行Apriori算法使用的時候,主要應用的是迭代方法。并且,此算法的應用過程分為兩個步驟。第一個步驟是連接步,通過把自身與kl-1連接起來,從而快速的找到頻繁k項集,進而在一定程度上產生候選k項集Ck,在此過程當中,kl-1當中的元素都可以被直接連接起來。第二個步驟是剪枝步,這之后,Ck就作為Lk的超集,需要注意的是,在Ck當中的元素,它可以是具有頻繁性的,也可以是不具有頻繁性的。在Ck當中,包含了所有的頻繁項集,因此,在對數據庫進行實際掃描的時候,可以具體到確定每一個數值。從而使得Lk在一定程度上被確認,但是在此期間需要注意的是,Ck項集里面如果數值很大的話,就容易引起相對的偏差。所以通常情況下都會對Ck項集做壓縮處理。具體過程如下。
輸入:首先在事物數據庫中輸入D;并且獲得最小的支持度閾值為min-sup
輸出:然后在D中的頻繁項集設置為L
(1)L1=find_frequent_1_etemsets(D);
(2)for(k=2;k++){
(3)Ck=aproiri_gen(Lk-1;min_sup);
(4)for each transaction t D{//對D進行掃描并獲取計數
(5)Ct=subset(Ck,t);//這樣能夠獲得t的一些候選子集
(6)for each candidate 錯誤!未找到引用源。Ct
(7)c.count++;
(8))}
(9)Lk={Ck|c.count≥min_sup}
(10)return L=錯誤!未找到引用源.Lk;procedure_apriori_gen(Lk_1;frequent(k-1)-itemsets)重復,返回Ck
這就是進行Apriori算法,在操作執行中經歷的各個階段流程。
為了有效避免數據重復這一情況,相關關聯規則下的數據研究人員往往會對數據挖掘技術的研究過程進行整體上的改革,進一步加大研究力度,刷新挖掘目標,科學的完善整體的挖掘計算機制。比如,相關研究人員在進行實際研發的時候,要對數據挖掘計劃做一個詳細的數據總結,并且對整個系統當中的工作控制具體到任務分配環節上來。使得每一位研究人員都能夠在一個理想的挖掘數據信息環境當中來指定挖掘算法的約束。進而從不同的階段上面,來對數據挖掘技術基本形式進行實時的數據交互。
在進行實際數據挖掘算法研究的過程當中往往會受到很多不可測因素的影響,所以在其間建立有效的反饋機制和負反饋機制是非常有必要的。針對于計算結果,要及時的進行驗證,防止由于錯誤導向導致的算法數據修正。因為在數據修正的過程當中會消耗大量的人力、物力以及時間。建立約束機制是必不可少的,數據挖掘算法當中的各個階段都需要約束機制的作用。確保邏輯上的正確性,并且根據客戶的側重面來進行實際主觀改良。數據挖掘算法的約束是不變的,像數學上的邏輯性一樣。在研究的過程當中一定要滿足各方面的實際需求,符合邏輯性。
在進行約束類型選擇的過程當中,一定要遵守相關的關聯規則:在時態的約束條件之下。數據量的上升以及計算機的內存是呈線性關系的,倘若在一個數據庫中,對數據挖掘算法進行掃描的時候,發現少了I/O個數的話,在關聯規則之下,數據挖掘算法就有其必要性,此內容就是ISS的容量控制。ISS容量控制如果非常科學、合理的話,能夠在一定程度上減少CPU的占用量,提升性能。
在我們的日常生活當中,常使用數據挖掘算法來進行各種問題的求解,數據挖掘算法轉化成現實應用有多種類型。其中,C4.5算法是比較常見的,在運用C4.5的算法方式時,主要利用決策樹來創建完整的分類器,其主要指的是和流程圖比較相似,能夠對各種新數據展開合理分配,從而構建了完整的決策樹。同時,在對數據展開挖掘操作時,應用比較普遍的工具就是分類器,通過對各種數據進行明確劃分種類,而且能夠及時對一些新數據種類進行預測。在運用C4.5算法來進行計算時,必須充分結合C4.5來提供的相關表達內容,這樣才能按照所給的數據性質,來分別組成不同的數據集合,并且展開數據分類。如果在數據集中含有的病人信息非常龐大,那么在已知病人的年齡、脈搏、血壓、最大攝氧量以及家族病史等等信息之后,需要充分應用病人的數據屬性集合與病人所反饋的相關類型保持對應,只有充分運用C4.5算法,才能針對病人的需求,充分結合病人的屬性因素,構建科學、合理的決策樹圖形,實現數據挖掘應用。
在關聯規則之下,數據挖掘算法是在數據挖掘技術當中所引發出來的非常重要的數據處理方法,它的合理應用能夠使得數據庫在進行大范圍內的數據處理時,能夠高效,及時并且容錯率低地進行數據統計、分析、計算、預測。所以,本文中的主體主要是介紹數據挖掘技術以及數據挖掘算法,以供相關讀者參考。
[1] 吐爾遜江?托合提.基于關聯規則映射的生物信息網絡多維數據挖掘算法分析[J].無線互聯科技,2015(19):35-36.
[2] 楊澤民,郭顯娥,王文軍.數據挖掘中關聯弱化問題的解決方法分析[J].計算機科學,2013,40(08):220-222.