張博
(深圳博十強志科技有限公司 廣東省深圳市 518000)
模糊聚類算法在數據挖掘模型中的主要作用為通過對比不同集群的相似度,實現對數據的分析,為數據的深入挖掘提供依據,因此,為了提高大數據分析的效率、準確性,應深入探討模糊聚類算法的改進方法,并根據算法的形成構建,找準算法改進切入點,以搭建出更加優質的模糊聚類算法體系,促進數據發掘模型性能水平的優化發展。
模糊聚類算法是一種基于模數學理論體系,形成的數學方法。其從基礎理論上來看,與經典集合論中所強調的非黑即白理念存在顯著的差異,同時,也能突破該理念,對具備不確定性特質的數據,進行精準的篩選與分析。但從本質上來看,模糊聚類算法的作用原理是將差異較小的數據劃分為一類,并確保類與類之間具備明顯差異,以實現數據聚類分析的目的。在此過程中,人們需要基于模糊算法,建立模糊矩陣以描述對象的屬性,然后根據該屬性進行聚類處理,再利用模糊數學理論、算法,總結出樣本之間的模糊關系,以達到精準聚類的效果,因此,從整體來看,該算法的常規運行應分為以下四個步驟:
(1)計算出數據樣本的距離矩陣;
(2)將矩陣中的元素縮到0 與1 中,使其成為一個模糊矩陣;
(3)構建模糊矩陣的等價性,并使用褶積,基于之前得出的模糊矩陣,構建一個模糊等價矩陣;
(4)使用樣本數據,對矩陣進行賦值,實現模糊聚類,落實基于模糊算法的數據分析。
增量型模糊聚類算法的最顯著特點是能夠支持相對龐大的數據聚類分析,因此,從大數據的視域下來看,數據挖掘模型所用的模糊聚類算法主要為增量型。在此過程中,該類型模糊聚類算法的運行原理為,先對大規模的數據進行拆分,使其轉化為多個小數據塊,以便于將其順利地讀入內存,此后,通過找出小數據塊的中心點,結合相應的算法,確立原有大規模數據的中心點,為后續距離矩陣的構建提供依據。而其中,中心點確立過程中應用的算法有兩種,需要合理選擇算法,以優化模糊聚類算法的落實效果,因此,可以以此為改進切入點,通過對比兩種方法,來進行科學的選擇,達到算法改進的效果。在算法的選取應用中,其中一種應用方法是,先逐一找出小數據塊的中心點,再采用聚類算法,建立中心點的集合,以找出所求的中心點,而在模糊聚類算法中,這種中心點計算方法的應用主要體現在OFCMD 這一增量型算法中。另一種中心點計算方法是,將迭代計算應用在小數據塊的中心計算上,即基于某一小數據塊中心,采用迭代算法,計算出下一中心點,直至求出所需中心點為止,而該種應用方法則通常應用在SPFCM 這一增量型模糊聚類算法中。由此可以看出,以OFCMD 為代表的聚類算法相較于SPFCM 算法,所需的迭代計算步驟更少,適宜運行更加快捷,因此,可以通過選用OFCMD 算法,來達到模糊改進聚類算法的效果。
在OFCMD 算法中,需先計算出小數據塊的中心點,然后用聚類算法,用這些中心點,構建出一個新集群,繼續使用聚類算法,對該集群進行計算,以得出最終的中心點。在此過程中,該算法所選取的小數據塊中心點數量,通常是用戶提前確定的,所以,而一般情況下,用戶往往難以明確小數塊,在整體數據中的分布情況,導致其無法準確確定選取多少個中心點,才能保證最終的中心點確定結果正確,影響了OFCMD 算法優勢的發揮。為此,在該算法的實際應用中,需采取相應的改進措施,以優化該算法的應用效果,提升模糊聚類算法的運行水平。在改進過程中,可以基于實際需求設置固定比例,并將整體數據中心點選取權重與整體數據權重之間的比值,與固定比例進行對比,以選出具有代表性的中心點,進而將對個數的要求,轉化為對權重的要求,來減少數據塊分布問題對中心點選取的影響,達到算法改進的目的,提升模數聚類算法的運行效果。
在模糊聚類算法中,距離矩陣需要通過對數據的相似度,才能做出相應的類別劃分,因此,距離矩陣的形成原理涉及到大量的相似度概念。從距離矩陣的形成機理來看,其主要是由一組點間兩兩相互距離所組成的矩陣,并能夠通過衡量點間相似度、相異度來描述距離。其中,相似度的區間為[0,1],數值越小相似度越小,相異度區間也為[0,1],數值越小相異度越小。基于此,采用距離計算度量方法,來描述數據間的相似、相異程度,即可形成距離矩陣。在此過程中,需要采用相應的度量計算方法,構建相似度、相異度矩陣,以代替算法運行所需的原始數據,形成具有通用性的距離矩陣,因此,可以將相似度、相異度矩陣建設,以及度量方法應用作為模糊聚類算法的改進切入點,并通過準確地求取相似度、相異度矩陣、合理應用距離度量方法,達到算法改進的效果。
在距離矩陣的建設中,為了提高距離矩陣建設的效果,可以選用歐氏距離度量法、余弦相似度度量法這兩種度量方法,來描述距離的類型,并用相似、相異度為兩點間的距離提供更加詳盡的描述,實現算法的改進。其中,歐氏距離度量法,即歐幾里得度量,其是指對m 維空間中兩點實際距離的度量方法。在該度量法背景下,二維空間中的兩點間距離可以表示為,其中,兩點坐標分別為(x1,x2),(y1,y2),三維空間兩點間距離可以表示為,其中,兩點坐標分別為(x1,y1,z1),(x2,y2,z2),由此可以推斷出,m 維空間中,兩點間的距離可表達為,其中,兩點坐標分別為(x1,x2,x3……,xn),(y1,y2,y3……,yn)。借助該種度量方法,人們可以基于上述兩點間距離表達式,推導出閔氏距離表達式,即當P 為1 時兩點間呈曼哈頓距離、P 為2 時兩點間呈歐氏距離、當p →∞時兩點間呈切比雪夫距離。
在距離矩陣的改進建設中,余弦相似度計算是指一種通過計算兩個向量間夾角余弦值,來度量數據間相似度的距離度量方法,其度量結果為以相似度作為描述工具的數據間距離情況,能夠較為全面、準確地反映出數據間的距離狀態,增強距離矩陣運行性能。在此過程中,可以基于歐里幾得點積公式,即其中,a、b 表示兩點向量,來進行余弦值的計算。在計算過程中,需根據點積公式,推導出相似性計算公式,即:,其中,當余弦值為1 時說明兩個數據之間的相似度達到最大,兩者距離最小,當余弦值為0 時,則說明兩個數據之間不存在相似性,兩者的距離最大,且相互獨立。
根據上述描述,在增量型算法的改進中,將對中心點個數選取的要求,轉變為對權重的要求,以達到優化中心點確立準確性的效果。但該措施在實際應用中,雖然該措施在很大程度上,降低了數據對象分布狀態對中心點確立的影響,但當數據對象均分布在集的邊緣位置,那么就會形成全部數據對象權重均較小的情況,因此,無法找出具有明顯代表性的數據,導致該種算法依然缺乏普適性,影響了該改進方法的落實效果,造成了增量型算法的局限性問題,需要采取相應的措施,針對該問題,進行深入優化,以實現模糊改進聚類算法的目的[1]。
在改進措施中,為了優化增量型算法性能,可以采用最小權重閾值法,對中心的確立加以把控,并待小數據塊模糊聚類處理完畢后,按照此過程中,得出的中心點權重與整體數據權重比,確定中心點的最小權重閾值,然后基于此,得出中心點選取個數,再按照這個個數,組建中心點新集群。此后,再次進行模糊聚類計算,得出權重矩陣,并從中選取權重最大者作為整體數據的中心,最后,圍繞該中心,按照距離度量結果,對數據進行分類,實現模糊聚類計算。在此過程中,由于該最小權重閾值的形成是以所有小數據塊的模糊聚類結果為基礎,因此,其能夠描述整體數據的中心點權重范圍,避免了數據對象集中分布在邊緣的情況,以確保中心點的選取具有足夠的代表性,改善了上述增量算法中存在的局限性問題,提升了模糊聚類算法的運行水平。基于此,經過改進后的增量算法步驟為:
(1)定義中心點集合,并將集合中的中心點定義為每個數據塊中權重最大的三個數據;
(2)通過權重矩陣算法、隸屬度矩陣算法,處理數據塊,構建權重、隸屬矩陣;
(3)借助上述矩陣得出最小權重閾值,再根據最小權重閾值,確定集合中中心點數量的最小值;
(4)從每個數據塊中選擇3 個中心點,組成新集合;
(5)得出該集合的距離矩陣,并基于此,實現增量型模糊聚類算法的改進優化,保證聚類結果的準確性[2]。
根據上述論述,最終確定的模糊改進聚類算法思路為,首先,將整體數據劃分為小數據塊,并計算出其權重矩陣V、隸屬矩陣U,并將其作為最小權重閾值的基礎依據。其次,按照中心點權重與整體數據權重比,確定最小權重閾值,再根據與最小權重閾值的接近程度,從每個小數據塊中選取m 個數據的權重,構建出一個新的集群。再次,從集群中選擇三個權重最大的數據,作為中心點,再將該中心點與其他小數據塊的中心點組成一個新的數據塊。最后,再次采用最小權重閾值法,確定該數據塊的中心點,此時,該中心點即為整體數據的中心點,利用該中心點,結合距離矩陣,即可對整體數據進行模糊聚類。在此過程中,需要注意,確立改進算法之前,應做好相應的參數定義,并基于傳統方法,結合改進措施,采用拉格朗日乘數法,針對權重矩陣、隸屬度矩陣的計算公式,進行更新推導,使其能夠適用于新的增量型模糊聚類算法的運算思路,以保證該算法的順利落實,增強數據挖掘模型的運行效果[3]。
待算法改進思路明確后,還要將經過改進后的算法投入到實際應用中,以驗證其在實踐上的可行性與正確性,以保證此次算法改進的有效性。在實驗中,將經過改進后的算法與傳統的算法進行了對比,以檢驗算法的改進措施是否產生了顯著的效果,達到算法驗證的目的。在此過程中,實驗參數值為0.1、最小權重閾值為1.5、數據集聚類數為k、停止閾值為1*10-5、用戶模型數據聚類數為3,同時,計算遵循的規則為傳統增量型模糊聚類算法規則,且所劃分的數據塊依次占總體數據比例的10%、20%、40%、60%。實驗結果顯示,經過改進后的算法,其聚類準確性相較于傳統算法,高出了10%左右,而且呈現出了更強的普適性,因此,經過改進后的算法對原數據的要求不高,可以適用于各類數據分析環境。將其用于數據挖掘模型的建設,能夠增強模型的數據分析能力,深入優化大數據的挖掘效果,有助于大數據技術水平的發展[4]。
綜上所述,增強算法改進策略的落實效果,能夠提高模糊聚類算法的數據分析能力。在數據挖掘模型中,改進模糊聚類算法可以增強算法類型選用的準確性、保證距離矩陣建設效果、改善傳統算法中的問題、明確改進后算法的可行性,從而提升大數據技術的運行水平,為信息化時代的發展提供助力。