王世興
(山東交通職業學院,山東 濰坊 261206)
時代的進步和發展讓互聯網的應用越來越廣泛,并在諸多領域展現重要優勢?;ヂ摼W技術的發展和進步也衍生出“云計算”技術,該技術是在互聯網支撐下的相關服務的使用、交互與增加,通常情況下是利用互聯網提供虛擬化、動態化、易擴展性的資源,這都讓互聯網技術在原有基礎上得以進一步的發展,也在數據拓展方面予以不斷拓展。也正是因為大數據數量及應用范圍的延伸,都讓數據關聯規律的挖掘顯得日漸重要,通過數據挖掘平臺的建立以及大數據關聯規律挖掘分析方法的探索,能夠讓云計算技術得以最大價值的提升,也讓數據挖掘在現實中具有應用價值[1]。
云計算屬于計算平臺的范疇。在云計算中,可以利用服務器與部分大規模的數據,通過動態的數據流動形式,將多樣化的信息資料呈現出來。云計算對分布式計算、并行計算與網絡計算三種計算形式,開展了相關的整理與合并活動,利用動態化與透明化的形式,將部分虛擬計算活動提供給用戶,還可以存儲有關的信息資源。在具體的實踐活動中,關于云計算方面,利用虛擬計算互動,可以促使客戶所有的具體需要得到滿足,還能夠將其中的資源科學的分配給與之相對應的用戶,這樣,所具備的存儲能力非常突出,而且所花費的成本費用比較少,將其應用于具體的活動中,所取得的效果比較理想[2]。
(1)目標系統模型。在基于云計算的數據挖掘系統架構中,所需要的硬件資源比較簡潔,相關活動話費的成本費用比較低。在開展項目研發活動時,通過模塊與模塊間的合作,可以通過系統資源直接開展相關的研究與分析活動。
在具體的實踐活動中,通過目標系統模型,可以將多樣化的信息服務提供給廣大客戶。在目標系統中,可以開展應用程序的建設活動,促使具備開放性接口的生成。在進行實踐活動的過程中,利用終端,用戶還可以開展運用活動。通過對有關應用程序做出間接調用,可以對所有開放式的接口模式作出提供,在開展有關研究工作時,可以研究并分析所運用的算法種類與數量數據處理方式,關于具體的考量工作方面,無需研究計算機的存儲率與系統自身的實現能力。
(2)功能層次框架設計。在功能層次框架系統的層次架構中,重點對由下而上的結構形式作出了運用,主要對一些模塊做出了利用,比如:數據規約工具、云計算平臺、開放接口、用戶界面、氛圍異構數據集合,在這些層次中,需要將透明化的服務提供給上一層次。利用底層的云計算平臺,可以對云計算中的應用程序接口作出提供。關于用戶與云計算的交互活動方面,在開展有關設計工作的過程中,主要在頂層的開放式接口中完成。在開放接口中,其主要作用就是,將多種多樣的信息數據提供給廣大用戶,這樣用戶就可以對數據集作出獲取。除此之外,還可以將所有算法提供給用戶,并集成應用各種算法,在此基礎上,確保平臺開行特征的完成[3]。
云計算大數據挖掘技術的實現需要對其中關鍵技術予以深入分析,并結合其中的關鍵技術來深入探索大數據關聯規律,進而實現數據挖掘價值呈現。其中的關鍵技術主要包括數據采集和儲存、數據預處理、數據挖掘算法并行化等內容,本節就相關技術進行分析。
在大數據的采集技術中,可以利用多樣化的方法,比如:社交網絡交互數據、傳感器數據、移動互聯網數據 、RFID視頻數據等,對所有非結構化和半結構化以及結構化的大數據信息作出獲取。伴隨著科學技術的日新月異,數據信息的增長速度也處于不斷加快之中,尤其是非結構化數據具備飛快的增長速度。所以,在開展有關工作的過程中。所運用的基礎設備,除了具備優良的性能與較大容量之外,所具備的吞吐率也應當比較突出,只有這樣,才可以確保大數據存儲工作的順利實現。
數據預處理指的是,在開展發掘任務工作之前,針對不規則的大數據或非標準的大數據,初步開展相關的預先處理活動。倘若數據信息具備一定的真實性與高效性,可以促使處理結果的準確性與可靠性得到保障。在預處理有關數據信息的過程中,除了上述工作之外,數據的選取、轉換、清洗、集成、數據規約與異常檢測等內容同樣居于主要地位。所以,面對大量的數據信息,在完成數據預處理工作之后,方可開展數據的挖掘活動,這樣可以增強處理后數據質量,與此同時,還可以提升數據挖掘活動的可靠性與高效性,確保相關活動的順利實現[4]。
要想促使數據挖掘算法并行化工作的順利完成,主要運用的是基于云計算的大數據關聯規律挖掘技術,該技術發揮著至關重要的作用。通過基于云計算數據挖掘這一關鍵技術的應用,可以最大限度實現大數據發掘適用性能的提升。在基于云計算的大數據關聯規律挖掘技術中,并行關聯、聚類、分類與回歸算法也居于主要地位,具有非常重要的作用。運用數據挖掘的常用算法并行化的方式方法,可以有效推動與之相對應的優化工作的完成。還可以將Map Reduce計算模型,應用于云計算的平臺中,進而促使在相關平臺中,可以直接開展大數據挖掘活動。所以,為了提升大數據挖掘工作完成的科學性與高效性,可以進一步探究數據挖掘算法的并行化實現工作。
大數據挖掘技術要想真正得以應用與滲透,就需要做好數據挖掘平臺的搭建,這也成為大數據挖掘技術的重要支撐。該平臺建設涵蓋了云計算技術、虛擬化技術、分布式存儲技術等多技術手段,并將這些技術融會貫通,實現了云計算技術挖掘平臺的高質量建設,為云計算大數據挖掘技術的更好實現提供了支撐和基礎。
在以云計算技術為基礎,開展數據挖掘平臺設計工作的過程中,三層結構模式的運用居于主要地位,發揮著至關重要的作用。在該過程中,將主要層次確定為數據預處理、云計算與數據挖掘平臺,以此來實現平臺總體性能的提高,推動數據挖掘功能的完成。在主要的系統設計結構中,首先需要對通信資源信息與服務器端數據,開展數據預處理工作,并使有關信息進入數據倉庫,然后,利用云計算技術,對有關信息的規則、模式、模型與圖表作出處理。最后,進入數據挖掘平臺,為決策管理與資源管理活動的開展提供重要支撐,進一步改進并優化通信性能[5]。
在開展數據挖掘系統結構設計工作時,通過數據預處理層,可以儲存分布式數據文件,推動整個平臺分布式管理工作的完成。在云計算層中,可以從整體上調度并控制所有數據的挖掘步驟與模塊,確保原始數據預處理工作的順利完成,并對多樣化的挖掘數據做出獲取。在具體的實踐活動中,可以高效利用數據挖掘平臺,可以對具體需要做出系統考量,科學開展設計工作[6]。
在云計算技術下的數據挖掘平臺中,其數據挖掘功能比較多樣,是由多個模塊共同組成的,如:數據預處理模塊、數據收集模塊、應用接口模塊等。在數據收集模塊中,主要負責整理平臺服務器端口中的數據信息,歸納用戶的所有信息材料,利用文本形式開展收集活動,并將上述信息數據返回。在數據預處理模塊中,利用所返回的數據信息,去除部分不存在價值的信息數據,促使數據挖掘系統的挖掘性能得到強化。在應用接口模塊中,主要負責有效對接并處理數據與數據挖掘平臺。
在具體的數據庫設計活動中,可以將所有數據庫特征高效運用起來,這樣能夠高效刪減冗余數據,統一開展數據的存儲活動。通過主鍵與外鍵,可以促使生產動態視圖的生成,為編寫程序與查詢檢索代碼創造更加優良的條件。在該平臺中,通過Reduce,可以對所有模式的任務數據作出接收,任務不同,其所傳輸的信息數據也具備一定的順序。在云計算下的數據挖掘平臺中,倘若Reduce接收的是較少的數據信息,可以直接將其存儲于內存中。在數據量不低于緩沖區比例的情況下,可以合并并處理所有信息數據。
通過高效整合數據挖掘技術與云計算,在規模無窮的機器集群中,可以高效的開展計算機的擴散分析活動。在以Map/Reduce為基礎的框架中,可以計算分析并處理所有請求活動。在進行數據挖掘時,可以劃分具體的數據挖掘作業,分成為不同的任務,并在此基礎上,開展分配活動,利用不同的機器完成相關任務。在完成有關任務之后進入至下一個數據挖掘步驟中,合并上述文件,并對企業開展輸出活動。在數據平臺系統中,利用循環應用算法,可以對所生成的Reduce任務,開展有關處理工作,使其轉變成數據挖掘目標文件,滿足具體的需要活動。通過數據挖掘平臺算法對數據挖掘平臺進行設計,可以促使數據信息變得更加靈活,提高數據挖掘效率,強化數據挖掘質量,實現工作效率的提升。
伴隨著互聯網和信息技術突飛猛進的發展和進步,信息的總量更是與日俱增,世界范圍內所面臨的大數據挑戰更加嚴峻。云計算的海量數據與突出的計算和數據處理能力,可以為數據發掘活動提供重要支撐。通過基于云計算的大數據關聯規律發掘分析活動,可以對業務數據的發掘應用起到有效的推動作用,平臺用戶還可以對大量的數據信息作出獲取,并開展相關儲存活動,在提升數據管理效率的同時,降低有關成本費用。