朱 娜
(哈爾濱職業技術學院 黑龍江 哈爾濱 150001)
數據挖掘技術可針對大量、不完整,甚至存在噪聲和模糊數據中,提取具有應用價值的數據信息,便于數據信息的應用。在具體的數據挖掘時,可以將其是為一個發現新數據、信息知識的過程中。將云計算技術應用到數據挖掘平臺設計中,其可借助“云”中的多個資源完成對數據的挖掘任務,且可進一步增強數據挖掘平臺的功能,提升效率。而且,借助云計算技術,可有效打破實際網絡下數據挖掘的限制,可使之商業化水平更高。由此可見,云計算技術運用到數據挖掘平臺中,具有極高的應用價值,對推動數據挖掘平臺優化具有極高的現實意義。
針對大數據時代,信息的爆炸式增長,全面加大了信息攫取的難度,對于噪聲、不完整的數據信息,如果不選擇有效技術,則無法完成對這些信息的利用,則導致信息資源浪費。而傳統數據挖掘平臺,在實際的運用中,也存在一定的限制,效率相對較低。針對這種情況,可展開對云計算技術下數據挖掘平臺,結合數據特點,實現云計算技術的運用,對數據信息進行有效過濾和轉化,可全面增強數據挖掘平臺的效率。而且,在面向海量用戶數據信息時,云計算技術下的數據挖掘平臺,可從計費數據、業務訂購數據和網管數據等中發現商業信息,可為進一步的市場營銷提供幫助。
平臺在具體設計中,主要選擇三層結構,包括具體數據預處理、云計算和數據挖掘平臺。借助三層結構達到改進優化傳統數據挖掘平臺功能的目的,突出平臺的可用性,滿足用戶的基本需求。其中,結構中的不同內容實現不同的功能。各項結合的相互配合可保障數據挖掘的整體效果,提升數據的利用質量。其中數據預處理層,主要是完成對數據文件的存儲工作,選擇分布式存儲方式,簡單實現數據信息的過濾,便于平臺對數據信息的分布式管理。云計算層主要是在云計算的支持下,借助規則、模式、模型和圖表等方式,完成對數據挖掘步驟的控制與調度,并實現原始數據的有效預處理。對于數據挖掘平臺,則由各種實際應用體現,并具備決策管理、資源管理和通信性能優化等內容。
在研究平臺總體設計的基礎上,對平臺具體功能展開設計。云計算技術下數據挖掘平臺,可實現多種數據挖掘功能。具體的功能設計選擇模塊化的設計方案,具體功能模塊的示意圖如圖1所示。

圖1 功能模塊圖
(1)數據采集模塊。該模塊的功能較為明顯,主要是完成對數據信息采集,具體的數據信息包括平臺服務器終端的數據,用戶等級數據信息等。數據信息的采集,決定了平臺的功能性與可靠性。
(2)數據處理模塊。該模塊的功能,是對數據采集模塊所采集的數據信息進行處理或是直接將預處理返回的數據信息進行進一步處理。其主要目的是將數據信息中無用信息、冗余數據進行控制,從而達到節省平臺數據挖掘時間的效果。其是系統中不可或缺的功能模塊。具體數據處理中,需要合理的對算法進行選擇,遺傳算法是數據挖掘中,常用的算法類型,在遺傳算法基礎上,可對算法進行進一步優化,可有效提升數據處理效果。
(3)模式規則選擇模塊。它屬于的一種學習策略,有助于平臺獲取各個站點的通用模式,保障平臺的功能性體現。
(4)應用接口模塊。應用接口是實現數據與數據挖掘平臺連接的關鍵,借助應用接口模塊,可順利完成對數據信息的傳遞。
根據圖1所示,平臺數據庫是平臺結構中的重要組成部分,其可實現對數據存儲與調用,便于用戶對挖掘后的數據信息進行利用,綜合提升平臺的服務性能。在具體的數據庫設計中,需對其基本特征進行利用,最大限度的降低冗余數據,并借助主鍵與外鍵對應動態生成所需視圖,從而達到便于查詢的目的。另外,借助查閱數據庫的相關資料,對各類表鍵對應關系進行研究。
云計算技術下數挖掘平臺的算法是確保數據挖掘效果的關鍵,直接影響數據挖掘效率和質量。故此,必須展開對具體算法的研究。云計算與數據挖掘相結合,可在無限規模的機器集群上展開。本文所構建的平臺中,具體的Map/Reduce中,但凡一次計算請求,均算作一次作業。它在實施作業中,將具體作業流程分為若干個差異明顯的Map任務,并按照一定規則,將所有Map任務發送到機器中,由機器執行。完成后,則展開合并,并輸出。這一過程展開的同時,平臺也生成若干個Reduce任務,算法與之相同,最后生成目標文件。
在研究具體平臺設計方案和具體算法實現的基礎上,對平臺中具體的關鍵技術展開研究,詳細內容如下。
具體的云計算技術在數據挖掘平臺構建中,分別運用到分布式存儲技術、虛擬化技術、并行云計算技術。
(1)分布式存儲技術。借助這種方式完成對數據信息的存儲,可完成對硬件不足的彌補,并構建一個資源池,提升數據信息的利用效果
(2)虛擬化技術。全面虛擬條件下的應用與整合,可保障云計算環境下,數據挖掘實現。借助虛擬化技術,可實現資源調度與數據挖掘的跨平臺整合,借助IT資源匯合海量數據,達到提供虛擬化資源的目的。
(3)并行云計算技術。可保障數據挖掘與計算的高效性,還可完成對部分技術細節的封裝,包括數據分布、并行、容錯等,可提升研發效率。
可針對不同類型的數據進行匯集,且接入云計算數據挖掘平臺業務數據,可順利完成對數據相關規約問題的控制,可支持多種源數據格式。服務調度與管理技術,是為平臺提供必要管理與調度功能,可保障平臺的安全與可靠,綜合提升平臺的服務性能,滿足用戶的基本需求。
本文研究分析云計算技術數據挖掘平臺,主要從云計算技術與數據挖掘平臺的相關研究入手,分析云計算技術的應用價值及具體平臺設計需求。再展開對具體云計算技術下數據挖掘平臺的設計方案進行研究,詳細對總體設計、功能設計、數據庫設計和算法實現等進行闡述,從而完成對云計算技術下數據挖掘平臺的構建。最后,研究分析具體平臺構建過程中所運用到的關鍵技術,包括分布式存儲技術、虛擬化技術、并行云計算技術等。借助關鍵技術的運用,積極推動平臺的功能擴展。
[1] 劉建東.云計算下數據挖掘平臺架構及其關鍵技術的探索[J].科技與創新,2017(6):128-128.
[2] 包永紅.云計算技術下數據挖掘平臺設計及技術[J].現代電子技術,2016,39(16):61-63.