摘 ?要:在現代信息技術中物聯網是非常重要的一部分,物聯網的出現推動了人類社會的發展進程。隨著物聯網的大規模應用,物聯網數據挖掘技術的優勢也逐漸凸顯,但是任何事物的發展過程都是曲折的,物聯網數據挖掘也面臨著更為嚴峻的挑戰,對云平臺下物聯網數據挖掘的探究,有助于其技術優化與升級。
關鍵詞:云計算;物聯網;數據挖掘;Hadoop
中圖分類號:TP391.45;TN929.5 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)05-0174-03
Abstract:The internet of things is a very important part of modern information technology,and the emergence of the internet of things has promoted the development of human society. With the large-scale application of the internet of things,the advantages of data mining technology of the internet of things are gradually highlighted,but the development process of anything is tortuous,and data mining of the internet of things is also facing more severe challenges. Exploring data mining of the internet of things under the cloud platform will help to optimize and upgrade its technology.
Keywords:cloud computing;internet of things;data mining;Hadoop
0 ?引 ?言
對物聯網技術的研究是信息化時代不斷發展的結果,物聯網技術在人類生產與生活中的影響逐漸增大,基于云計算平臺的物聯網數據挖掘也成為了研究熱點。云計算的出現,為物聯網數據挖掘的發展提供了廣闊的空間,也促進了社會各個生產領域的信息化建設,其強大的IT技術支撐能力與數據挖掘分析能力,為人們提供了巨大便利。
1 ?物聯網與云計算概述
1.1 ?什么是物聯網
物聯網屬于新生代網絡,用萬億節點表示對象,在不同傳感器設備、網絡服務器、超級計算機集群中進行數據的傳遞、匯總、應用。此新型科技,既包含計算機技術、通信技術,又展示了網絡的發展方向。物聯網中可通過對物理對象的利用,形成無縫信息網絡,促進業務流程的有序運行。利用網絡服務可加強“智能對象”之間的聯系,在安全保障下,解決用戶不同需求。
物聯網的整體特征可概括為三大點:
(1)充分利用現有技術感知信息,利用電子標簽了解基本信息;
(2)為信息的傳遞提供可靠性,如:同時包括有線網絡信息輸出與無限網絡信息傳輸,比較常見的是利用傳感器網絡、其他通信等獲取、傳遞,并確保信息傳遞的可靠性;
(3)在云計算的模式下進行數據智能處理,通過模糊識別等技術對海量異構數據進行高效處理,提升信息整合的有效性,保證數據運用效率,實現智能化控制物體。
1.2 ?什么是云計算
1.2.1 ?云計算概念
互聯網計算的不斷應用與發展,逐漸形成了一種新型的計算公式,即為云計算。云計算具有強大的功能,結合互聯網自治等性能,加強了用戶管理能力,并且可以按照制定需要進行計算。
云計算技術以分布式作為計算平臺,在大量數據中挖掘數據背后蘊藏的價值,大大提升數據挖掘的有效性。采用分布式數據處理方法,可從分布式存儲、并行計算兩方面雙管齊下,有效的解決數據存儲、計算、容錯等內容要求,進而保證數據具有安全性、高性能等特點。在此基礎上,由谷歌提出的分布式文件系統理論并在行業中逐漸發展起來,此系統稱之為GFS,可深層次解決數據搜索、存儲、分析等問題要求。而行業中,由Google研發的開源系統逐漸發展成為了Hadoop分布式文件系統(HDFS)、Kosmos文件系統(KFS)等,組建成為豐富的分布式數據存儲系統體系。
通過分布式并行計算系統框架完成挖掘數據背后價值的任務,現階段常見的分布式并行計算框架可實現封裝技術細節,進而保證用戶在進行數據提取時,僅需關注任務的邏輯要求,不需考慮過多技術細節,進而提升了數據的研發效率,有效控制并降低了系統維護所需成本。常見的分布式并行計算框架包括MapReduce并行計算框架、Pregel迭代處理計算框架等,行業市場流行的開源云計算平臺主要包括:Hadoop平臺、Enomalism云計算平臺、abiCloud等。
1.2.2 ?Hadoop概述
Apache軟件基金會開發研制出的Hadoop,主要是由分布式系統構成的基礎性框架,現階段應用為其他運算法的研發平臺,如:通過有效的技術研發,為云計算提供了良好支持,用戶通過此軟件提高了應用效率,同時該軟件的應用也大大保證了分布式程序的開發,實現了應用價值。Hadoop平臺以集群方式,利用開源優勢向使用者提供強大的信息存儲、數據運算功能。由此可見,分布式Hadoop可為IT產業提供Linux系統,并促進其發展。HDFS和MapReduce是Hadoop系統的應用核心,在良好的計算與儲存環境下,能夠提高數據應用能力。
HDFS容錯性高、伸縮性強,可滿足用戶將Hadoop部署在不同硬件系統中的要求,進而形成分布式文件系統,不斷提高文件的質量。在MapReduce編程模型下,一些系統底層的用戶實現了應用程序的不斷研究與開發,通過進一步實踐,相關的數據信息能夠同MapReduce實現整合,從而提升數據分析的高效性、數據處理的準確性。Hadoop進一步搭建了分布式計算云平臺,提高了技術應用效率,可以為用戶挖掘計算機資源提供方便,為處理海量數據提供集群計算功能、存儲功能。
2 ?數據挖掘技術研究
2.1 ?什么是數據挖掘技術
相對來說,數據挖掘存在一定的局限性,其發展、形成時間較短,自上個世紀90年代發展以來,逐漸擴展了應用范圍,其不僅有利于信息處理,同時對生產生活等各個方面都有重要意義。現階段,挖掘數據的相關技術不僅屬于科學研究領域,同時屬于多元化的技術交叉領域,因此在各行各業中都有充分利用數據挖掘技術,不斷對此技術進行完善與發展的情況。綜合實際情況,部分學者總結,現代化的信息挖掘、數據挖掘含義包括:
(1)在真實的基礎上不斷豐富數據,實現大量的海量的數據資源庫;
(2)利用對數據的挖掘、匯聚信息、分析價值,為更多行業提供服務,滿足不同行業的數據需求,為生活提供便利;
(3)更容易被人們理解、接受、運用,可為決策提供依據,可通過對數據的分析判斷,提升決策的科學準確性。
2.2 ?數據挖掘技術的特征
在物聯網挖掘數據價值的過程中,主要技術手段呈現出規模化、分布化的特點,可有效的利用有限的資源節點,保障數據運用的安全性。因此,物聯網依據數據的分布性將數據存儲于不同位置中,每處數據具有屬于自己的獨特歸類。同時物聯網數據大量且冗雜,往往需要其自身帶有大量傳感器節點,進而提升處理重要節點信息的時效性。
2.3 ?物聯網數據挖掘面臨的挑戰
物聯網有一定的自身運行特點,需要結合其運行模式、運營規律等應用優勢,在任何新技術發展的過程中都存在一定的挑戰,物聯網也不例外,其面對的主要挑戰包括:
(1)物聯網缺乏有序的數據存儲章法,雜亂無章,主要是以中央管理為主,缺乏對分布式數據的探知能力;
(2)數據存儲規模較大,及時處理信息存在節點,以中央處理模式為核心,需要高質量的、高性能的計算機硬件設備,現有基礎設備不完善,難以保證數據信息挖掘的有效性;
(3)隨著不斷增加的數據利用率,數據節點需求增加,可滿足需求的節點日漸減少,需要與供給之間的矛盾增加,需要引入新技術彌補完善此類問題,需要采用新技術不斷解決數據使用的實際問題;
(4)存在較多的不穩定影響因素,數據安全性、網絡穩定性、信息保密性等都影響物聯網的運行,需要在發展過程中逐一解決。
由此可見,挖掘物聯網的實際價值,發揮物聯網的數據應用效益,需要建立良好完善的數據應用平臺,通過提供安全可靠的運行環境,發揮物聯網的使用價值。
3 ?基于云計算的數據挖掘關鍵技術
3.1 ?云計算數據挖掘技術
在時代的發展過程中,數據的價值不斷凸顯,挖掘數據的價值并將其充分利用,成為獲取行業競爭優勢的重要途徑,在此基礎上,云技術迅速崛起,成為全新的數據挖掘方式,為獲取數據資源的價值提供了更便捷的途徑。利用云計算模式可通過搜集、存儲、運算數據等,挖掘數據背后的深層價值。
3.1.1 ?數據匯集調度技術
利用云計算平臺可實現對不同類型數據的匯聚調度,此技術可稱之為數據匯聚調度技術,利用此技術實現不同格式間數據的交流與連接,實現同步連接多種數據。利用此數據技術以解決不同數據的規約問題為主要任務,在設計問題解決方案時需要保證可支持不同系統數據生成格式,包括聯機事務處理系統形式數據、聯機分析處理系統形式數據、各種日志數據、爬蟲數據等,進而實現充分有效的分析挖掘數據。
3.1.2 ?服務調度和服務管理技術
為了保證云計算平臺可為不同業務系統服務,平臺需要具備服務調度、管理功能。服務調度功能主要指,在分析服務等級、資源匹配等基礎上實現對優先級服務的調度,有效解決服務間的隔離、互斥問題等,進而保證云服務具有一定的安全運行空間。服務管理功能主要是指通過將服務注冊、服務暴露等功能統一化,大大提升本地服務能力的可暴露性,保證充分挖掘第三方接入數據的價值,進而促進平臺挖掘數據的服務能力。
3.1.3 ?挖掘算法并行化技術
在云計算平臺中以挖掘算法并行化為有效的基礎能力技術,其包括選擇可行性算法、并行性算法、并行策略等技術。主要的數據挖掘算法包括決策樹算法、關聯規則算法、K-平均值算法等,云計算平臺通過并行化算法實現對數據的充分挖掘與利用。
3.2 ?云計算物聯網數據挖掘應用
運用云計算為服務平臺的主要運行網絡平臺包括物聯網數據平臺,此平臺以熱點Hadoop為基礎,通過有效的平臺搭建實現其應用。從實際的運行模塊看,要包括物聯網感知層,要有實際的傳輸層、數據層,同時也要有完善的數據挖掘服務層。其關鍵技術如下。
3.2.1 ?物聯網感知層
物聯網感知層大量的采集節點不止在目標區域內,利用不同節點,通過使用攝像頭、數據傳感器等設備有效的完成物聯網所需數據的采集工作,再與互聯網感知層進行通信,結合無線傳感網絡促使提高工作效率。同時要進行網絡匯聚節點數據,匯總數據后進行存儲,進而將相關信息向云平臺數據庫傳送。
3.2.2 ?傳輸層
傳輸層要通過不同形式的數據感知網絡形態,向數據網絡傳輸可靠數據,進而保證數據的高速性、無縫性、靈活性,保證云計算數據中心高質量的感知不同數據,強化不同系統中數據連接的全面性、互通性。同時利用此層級系統,可實現對數據傳輸設備間的監測,進而強化網絡監測設備間數據傳輸的高速性。
3.2.3 ?數據層
在物聯網運行平臺中,數據層是挖掘信息的重要服務平臺,物聯網數據具有一定的海量性、異構性,因此在數據層需要根據數據的上述特點運行,保證數據存儲的安全性、物聯網平臺數據挖掘的可行性,提升物聯網的運行性能。其中,數據層要有相關的儲存與轉化模塊,要能夠實現科學化的轉化,以提高數據應用效率。在進行轉化過程中,要重視提高數據的采集水平,從而結合實際研究,做好云計算物聯網數據挖掘應用工作。通過結合數據轉換器,重視對數據進行多樣化的轉化。在各個NameNode節點以分布式采集PML文件型數據。對此,通過PML描述自然物體,以XML語言為基礎,利用同樣的核心思想,通過PML可提供詳細物品研發信息,實現交換物品信息。
例如:通過物聯網節點,結合PML相關技術進行建模,其能夠實現數據傳輸與儲存能力,為了提高建模質量,要包括位置數據,也要涵蓋物體屬性,從而才能通過分析物體信息相關歷史元素,實現對于物品信息的科學化分析。
3.2.4 ?數據挖掘服務層
云計算平臺通過一系列的模塊組成數據挖掘服務層。其中,根據不同類型數據知識進行挖掘,以數據挖掘引擎模塊進行數據特征的區分、演化分析,研究數據的關聯性、聚類識別、確定局外者、進行偏差、類似性分析。結合數據挖掘方式,充分利用引擎模塊中的算法集,實現挖掘價值。在Hadoop平臺中通過優化傳統數據算法,實現并行化算法處理。
在進行用戶模塊系統運行時,可將平臺更好的與使用人員相聯系,將數據以可視化的方式呈現給用戶,用戶以操作界面的形式挖掘數據,有效的對知識進行收集,并且能夠深入理解知識。為了提高服務質量,要不斷優化與增強用戶模塊,保證其平臺的可移植性,積極確保用戶服務底層模塊服務的開放性,豐富物聯網的應用價值。
3.3 ?構建云計算物聯網挖掘平臺
本次選擇Hadoop搭建云計算平臺,并以此進行模擬實驗。
(1)實驗過程要準備PC機器,并且要進行優化配置,以Win 10系統為主,并且安裝虛擬機,其虛擬系統可以為Linux操作系統,隨后對其進行科學布置,此次實驗安裝3個虛擬機來研究;
(2)安裝與Linux版本相適應的Eclipse 7.5開發環境,同時在PC機上安裝SSH服務,在實驗開始之后用于實驗數據傳遞;
(3)在3臺虛擬機中也要安裝SSH服務,從而為Hadoop平臺運用。在完成配置安裝之后,使用關聯規則算法,依據C++代碼程序將數據轉換成標準的PML文件,文件大小為1G,再利用HDFS將文件傳入Hadoop平臺,采用分布式存儲。多次模擬實驗之后不難發現,Hadoop平臺拓展性能很強,為此要積極去探索,從而才能滿足數據挖掘工作的開展要求。
4 ?結 ?論
社會經濟與信息技術的高速發展,催生了物聯網技術。在物聯網技術日漸完善的背景下,數據數量也不斷海量增長,與之相關的數據挖掘技術也成為了研究熱點。云計算基礎上的數據挖掘技術優勢顯著,對其進行進一步挖掘和討論是優化和完善物聯網技術的關鍵,是信息化社會發展之必然。
參考文獻:
[1] 王友羲.以云計算平臺為基礎的物聯網數據挖掘探討 [J].中國新通信,2018,20(2):57.
[2] 徐少甫,姚湘.云計算平臺下物聯網的數據挖掘 [J].電子技術與軟件工程,2017(24):153-154.
[3] 任偉.基于云計算的物聯網數據挖掘模型研究 [J].軟件,2017,38(12):229-232.
[4] 馬亮亮.淺談云計算下物聯網的數據挖掘模式分析 [J].電子測試,2017(4):90+92.
作者簡介:張艷慧(1997.07-),女,漢族,遼寧朝陽人,本科,研究方向:計算機科學與技術。