趙偉杰 戶江民 文小琴


【摘要】? ? 在社會經濟和科學技術持續發展背景下,各個行業發展所產生數據也越來越多,數據庫規模也不斷擴大,如何在大量數據中挖掘出可利用信息,也成為現代人們密切關注的問題。而直接采用傳統數據挖掘技術將耗費大量時間,在充分考慮挖掘效率、負載平衡、運行環境等因素下,將全局通訊網絡模式進行應用,不僅可以提高數據挖掘效率,還能夠降低運行成本。
【關鍵詞】? ? 數據挖掘? ? 全局通訊網絡模式? ? 并行算法? ? 動態調度? ? 分析
隨著社會經濟不斷發展,尤其是工業和商業經濟的發展,數據挖掘重要性作用愈發凸顯,通過對可利用價值數據進行挖掘,可以為各行業穩定持續發展提供決策支持。但是在數據規模不斷擴大背景下,如何持續提升數據挖掘質量與效率,這一問題也引發社會各界廣泛關注和思考[1]。尤其是在對有價值信息數據挖掘時,不僅需要先進技術支撐,還需要耗費大量計算資源。本文提出一種新型并行關聯規則挖掘算法,不僅可以降低通信成本,還能夠使挖掘效率得到提高。
一、數據挖掘概述
對數據挖掘內涵進行闡述,主要是通過在大量信息數據中挖據出極具利用價值信息的過程總稱。對這些數據信息進行利用,可以為經營者做發展規劃和策略提供支持,甚至通過數據規律掌握和分析,可以對一個行業未來發展形式和方向進行預測。此外,作為一門新興學科,開展數據挖掘工作需要對多個領域知識進行應用,如:數理統計、人工智能等等。通常情況下,數據挖掘涵蓋了準備、挖掘和評價3個階段,見下圖1。
二、關聯規則挖掘
在進行數據挖掘時,對關聯規則進行有效挖掘是面臨的重要問題之一,開展這項工作需要對頻繁項目集進行快速和精準確定。在一些研究中也提出了采用關聯規則和并行計算數據兩種挖掘算法,實際應用時對這兩種算法也進行了創新,但是從最終應用結果來看,依然存在可擴展性差、通訊量大等問題。[2-3]。為有效解決這些存在問題,提出新的并行數據挖掘算法,通過將大數據集劃分成為若干份,然后將其分配到計算機群進行運行,然后對各并行單元運用全局通訊網絡模式(Master-Worker模式),如下圖2所示。該種模式下各節點之間存在耦合性比較小,無論是添加節點,還是減少節點也都比較便利,進而起到縮短數據挖掘時間,提高數據挖掘效率和質量作用。
三、動態調度算法
在將并行算法任務進行分配時,需要建立在遵循調度規則和策略基礎上,將任務分配到系統各個節點上,不但可以解決存在的任務調度問題,而且能夠提高系統任務執行效果,若是將動態調度算法融入到其中,這一效果更加顯著,開展任務工作系統適應性也會進一步增強,隨著負載不平衡情況不斷減輕,系統運行效率也會得到提高。同時,在Master-Worker模式下,通過Master直接和依次的向Worker發送工作任務,并通過循環方式對其任務執行狀況進行檢查,當Worker完成一項任務以后,Master也會及時接收任務返回值并發送下一次任務,直到合成關聯規則形成為止。
四、算法步驟
對數據挖局最為主要問題在于關聯規則挖掘,而對關聯規則進行有效挖掘需要通過發現頻繁項目集實現。這時候數據庫就可以對數學矩陣工具進行充分利用,并通過將其轉換成為向量矩陣,同時充分發揮計算機作用,對向量矩陣實施處理,可以快速發現隱藏的關聯規則。具體算法:假設數據庫由M個屬性和N個元組組成,那么數據庫的規模可以用M×N表示,P為計算機可用節點數,需要解決問題為“在P個節點上,從M×N規模數據庫中對關聯規則進行挖掘”。
操作流程:首先,對大規模數據庫進行劃分,使之成為若干個小數據庫;其次,將各小數據庫分配到計算機群不同節點上,然后開展任務工作,對各數據庫中存在的關聯規則進行充分挖掘;最后,在合成挖掘結果,構建全局關聯規則以后,篩選和輸出存在規則集[3]。
五、結果分析
為了對全局通訊網絡模式(Master-Worker模式)應用有效性進行驗證,對這種算法進行了實驗驗證。通過在實驗室局域網PC機群上搭建運行環境,并以信息傳遞接口(MPI)實現節點數據通訊功能。
根據上圖3所示,可以發現與串行、靜態調度算法相比較,本文提出的動態調度關聯規則挖掘并行算法效率更高。從挖掘效率、挖掘時間層面來說,Master主要職能為工作任務發送和接收,對系統挖掘計算工作不參與,因此將其與串行挖掘和靜態調度進行比較,花費在通訊上的時間會更多。但是結合上圖3所示,Master負責節點數量比較多,并且隨著節點數量增多,加速比呈現持續上升狀態,挖掘時間和挖掘效率也會得到優化[3-4]。
結語:隨著社會不斷進步、科技不斷發展,所面臨數據也越來越龐大,提高了數據處理和分析難度,尤其是對大規模數據庫有價值信息數據挖掘,不僅需要對運行環境進行考慮,還需要對負載平衡和挖掘效率加以把握,而將全局通訊模式進行應用,可以使互相通信效果得到提升,同時結合動態調度原則,將劃分好的挖掘任務分配至各處理器中,可以確保挖掘效率和質量。
參? 考? 文? 獻
[1]徐廣宇,孟繁軍.全局通訊網絡模式的數據挖掘方法研究[J].電腦與信息技術,2013,21(4):1-5.
[2]張語涵.全局通訊網絡模式的并行關聯規則挖掘方法研究[J].通訊世界,2015,(17):79-80,81.
[3]胡文瑜,孫志揮,張柏禮.分布式數據挖掘中的最優K相異性取樣技術[J].東南大學學報(自然科學版),2008,38(3):385-389.