王水萍+++王方
【 摘 要 】 隨著網絡技術的飛速發展,不僅給人們生產和生活提供更多有價值的信息,而且又能提升人類從大量數據中發現有價值信息的能力。現階段,數據挖掘技術已廣泛應用在各行各業當中,并且已取得了較好成果。本文主要針對基于云計算的數據挖掘平臺架構設計與實現進行了深入探究和分析。
【 關鍵詞 】 云計算;數據挖掘;平臺架構;設計和實現;探究
1 引言
近年來,隨著科學技術的飛速發展,大量的數據被存儲到計算機等存儲介質當中。通常情況下,所存儲的數據多是復雜的、數據量較大的等。因此,難以通過人工而直接獲得。尤其是在科研或是商業發展領域中,需要對海量的數據進行分析,從而找出更多有價值的信息。為解決上述問題,很多研究人員聚集在一起,研究出一種新型的數據挖掘技術。
近來,由于計算機技術、云計算技術的飛速發展,大量的數據都存儲到了網絡當中,而這些海量的、復雜式的數據信息給數據挖掘系統的實現帶來很多的難題,如數據相對復雜,現有的計算能力難以達到技術要求,而可以借助云計算數據挖掘技術可提升處理復雜數據的能力。
2 云計算數據挖掘系統架構設計的分析
2.1 目標系統模型
在云計算環境下,構建目標系統為各種終端用戶提供高透明化的界面服務,并且在此基礎上也提供了開放式的接口支持。這樣一來,用戶不僅能夠通過終端訪問用戶訪問來使用系統,也或是利用其它應用程序調用開放式接口間接式的應用系統服務。不管遇到上述哪一種情形,用戶都無需對系統實現而擔心其存儲能力,只需考慮要選擇何種算法進行處理,最后通過任務形式部署給系統獲得所需的挖掘結果。除此之外,云計算環境下的數據挖據平臺中得模塊都是利用用戶界面和開放式接口提供服務的。其中,由開放式接口提供的服務均為外部可見服務。而當涉及到高級權限使用功能時,可通過用戶界面直接調用開放式接口服務功能。
2.2 功能層次框架設計
2.2.1算法層
該層主要是利用下一層所提供的統一數據源來調用相關算法及對接口進行合理的管理。由于不同算法的執行順序和得到的結果有所不同而分開的。例如數據清洗算法服務,它是針對具有噪聲數據的數據及在應用數據挖掘算法前需要進行接口服務調用,把清洗后的數據利用數據層再儲存到云計算平臺中,為后續數據挖掘工作提供更好的服務;數據挖掘調用服務,在應用該服務之前,將已清洗的及不需要清洗的數據利用數據挖掘技術統一對數據進行調用。
2.2.2應用層
和其它層相比,該層的抽象性較強,它是把海量數據挖掘涉及到的數據、算法等之間的內在關系描述成任務,同時提供提供應用調用服務和維護接口等。
2.2.3用戶層
該層主要為用戶提供身份驗證和授權等功能。
2.3 設計關鍵點
2.3.1插件系統設計
插件是結合相應的應用程序開發接口規范而實現的一種程序。其中,任何一個插件都是由三大部分構成的,即擴展點、業務邏輯、調用下層擴展點,并且這三者都是由相同的負責模塊管理幫頂包跟各種服務所構成的。另外,每個綁定包涉及到一個服務說明接口與多個服務調用接口兩種類型的接口。要求綁定包接口必須滿足相關規范要求,若把插件防止到平臺的某個特定目錄下,能夠識別和加載該動態。除此之外,算法實現不同于以往針對特定個數、排列數據而實現。它是在滿足實現算法的基礎上,利用抽象數據提供更多的兼容性。盡管這種算法實現存在很大的難度,但其算法的復用性有了顯著提升。
2.3.2開放接口設計
通常情況下,開放接口主要被應用數據挖掘平臺的開發使用。利用上述接口,開發者能夠更好地利用數據挖掘平臺提供的資源及數據服務。為實現開放接口高效性、直觀性的目的,其平臺接口主要應用的是表述性狀態轉移接口,英文縮寫為:REST。該類接口的優勢在于為無態型。也就是說,在同一個局域網中,瀏覽器中的緩沖裝置可替代服務的重復調用。這樣一來,不僅能夠有效減輕服務器的運行負擔,而且若用戶量過多造成底層服務影響整個系統的運行,而此時可利用橫向服務器數量的增加擴展線性的吞吐量。因此,利用云計算平臺,能夠為用戶提供無窮大的數據吞吐能力,滿足系統的性能要求。
3 云計算數據挖掘平臺架構的實現
3.1 開發環境
Google的云計算開發環境主要為App Engine。當遇到重載或是數據量非常的情形時,也能輕松構建安全的應用程序。這是因為此環境的優勢在于可提供動態服務、自動擴展等。
3.2 開發思想和技術
3.2.1原型開發模型
首先,需進行快速分析。在相關人員和用戶的共同合作下,可準確確定出系統的需求,再結合原型的特征描述需求,來滿足開發原型的需求。其次,原型的建構。在經過分析的基礎上,結合需求快速建構一可行性較高的系統。在此情況下,需要有相應的軟件工具提供可靠的技術支持,同時不考慮系統細節方面的具體要求。再次,原型的運行。此環節是為及時發現問題,從而快速消除問題的一個關鍵環節。最后,對原型的評價。原型運行的前提下,對原型的特性予以科學性的考核,對運行結果能否滿足用戶期望而進行分析。而針對該過程中存在的錯誤或是增添的新要求等,提供合理性的修改建議和意見。
3.2.2基于WSGI規范的開發
通過分析可知,在基于WSGI規范基礎上的開發具有很多的優勢。其根本目的是提升系統的可用性和實現跨平臺性操作。因此,基于WSGI規范的實現遠比傳統的C/S模塊使用簡單的多。用戶通過對瀏覽器來訪問系統,同時增加了用戶的終端的可選擇性。此外,由于WSGI規范是在Python的語言環境下而實現的。而該種語言屬于一種跨平臺性開發語言。這樣一來,不管是把已開發的系統放置到云計算平臺上還是在本地開發應用都是極其方便的。endprint
3.3 開發步驟
3.3.1算法模塊插件系統
算法模塊主要涉及到數據集清洗算法、數據挖掘算法、結果可視化算法等多種。而一個完整的執行過程必須在原始數據集的噪聲及不規則數據的情況下借助數據集清洗算法把數據集統一進行整理。也或者是由異狗、分布式等數據源中轉化而得到,再自動生成規則的數據集。將這些規則的數據集利用數據挖掘算法予以處理,進而獲得數據挖掘結果信息,再經過可視化算法的處理,最終將數據信息傳遞給用戶。其中,任何一個環節數據的調用都必須利用REST接口而實現,并且接口間的數據信息轉換和傳遞都是采用XML格式。特別是近年來,由于數據挖掘平臺各種算法模塊插件的出現,這樣一來,云計算平臺下的數據挖掘平臺所提供的功能也會逐步增多。
3.3.2數據集訪問模塊
該模塊的實現和上述算法模塊插件系統實現具有很多相同點。它也是通過插件方式進行維護和調用的。尤其是在訪問數據集的過程中,其訪問模塊文件被索引處在被用戶調用的狀態。而和算法模塊插件系統的不同之處是在調用數據集訪問模塊前,系統自動把數據機實例文件解析成若干個元數據組合及物理訪問地址,最后把此類數據組合成字典類型結構的參數傳遞到數據機訪問模塊中。
4 結束語
總體來說,在云計算平臺下的數據挖掘系統逐步趨于完善,增強了數據規約的功能,從而更好地解決異構數據訪問的問題。同時在App Engin開發平臺上,設計出一套更為完善的數據挖掘系統,提升了云計算和數據挖掘技術結合的可靠性與高效性。文章主要針對基于云計算的數據挖掘平臺架構設計與實現予以深入的研究,并且對今后云計算環境下的數據挖掘系統的延伸發展予以展望,希望能夠通過論述對讀者產生一些積極影響。
參考文獻
[1] 楊慶平.基于云計算的數據挖掘平臺架構及其關鍵技術研究[J].中興通訊技術,2013,19(1);122-123.
[2] 黃章樹.基于云計算服務模式的數據挖掘應用平臺的構建[J].電信科學,2012,28(1);138-139.
[3] 莊福振.基于云計算的大數據挖掘平臺[J].中興通訊技術,2013,19(4);130-131.
作者簡介:
王水萍(1980-),女,河南許昌人,鄭州經貿職業學院,講師;主要研究方向和關注領域:數據挖掘。
王方(1981-),女,河南安陽人,鄭州經貿職業學院,講師;主要研究方向和關注領域:軟件應用。endprint