肖鈺麟 田新
摘要:大數據時代,通過分析獲得大數據的衍生價值和潛在價值,對企業在各個領域獲取競爭優勢、引領行業發展十分重要。大數據的異構性、規模性、及時性、復雜性以及隱私問題成為數據創造價值進展過程中的阻力。文章討論了物聯網數據的問題和挑戰,提供了物聯網數據處理的計算基礎架構,重點關注大規模數據處理面臨的挑戰。通過討論新興計算技術,為改善大規模數據管理提供幫助。
關鍵詞:大數據;云計算;可擴展性;異構計算;海量數據處理技術
網絡技術已經滲透到人們社會生活的方方面面,甚至是不可或缺。移動手機和其他移動通信設備,如筆記本電腦、平板電腦、電子書閱讀器如Kindle*HNook、GPS車載信息系統等,幾乎所有的社交媒體都在廣泛使用網絡,移動互聯的便利越來越多地被用戶接受。未來“物聯網”生態系統將主宰世界,每一個有形實體都有一個身份,和用戶對話交互,通過觸摸掌上電腦PDA或單擊鼠標鍵你就可以控制所有的物品。
每一件日常用品都可以通過互聯網尋址和控制。人們獲取信息和交流的方式發生根本性的改變。可以預計,在不久的將來,幾乎所有物品和每個人都能夠實現實時無線互聯。在未來,移動手機將作為中心或遠程控制器,聯系人們周圍的一切,這是所謂的物聯網。
物聯網的概念于1999年提出,物聯網是一個動態、具有配置功能的全球網絡基礎設施,基于國際標準、能夠共同操作的通信協議,是將所有物品通過各種信息傳感設備,如射頻識別裝置、紅外感應器、3s技術(即遙感技術+地理信息系統+全球定位系統)、激光掃描器等各類裝置與互聯網結合起來,實現數據采集、融合、處理,并通過操作終端,實現智能化識別和管理u。。在此定義的“物品”具有物理身份和虛擬身份2個身份,物理屬性和虛擬身份使用智能接口無縫地集成到信息網絡,這是未來互聯網的一個集成部分。據研究估計,到2020年,連接物品對象的數量將達到500億。物聯網承諾人類生活在一個智能的、高度網絡化的世界,在這個世界里,它允許廣泛地與環境交互。無論你去哪里,都可以運用對象超鏈接。手機終端是驗證這些連接的,并保持連接的關鍵設備。對象超鏈接又稱硬鏈接,是一個新詞,通常指互聯網延伸到現實世界中的對象和地點。
對象超鏈接通過URLs(地址)對現實世界的對象進行標記,有形的物體或位置就成為元對象,目標是實現網絡到現實世界的擴展。大多數物體的某些特性被標記集成或附加到對象。這些標記可以使用不同種類的無線近場通信進行分析,例如使用RFID標簽或藍牙設備,其他視覺標記可以使用相機掃描進行分析,例如標準的一維條形碼或現代流行二維條碼。這些對象標簽可以被無線移動設備讀取,對象和位置相關的信息就會被檢索并顯示。使用RFID標簽,每一個實際物體在模擬計算機世界里可能有一個唯一的識別號碼,像一個IP地址一樣。
1.物聯網數據處理
在大數據時代,通過分析獲得大數據的衍生價值和潛在價值,對企業在各個領域獲取競爭優勢、引領行業發展十分重要。物聯網的興起,導致產品的數量數據和產品類型數據以前所未有的速度增長。大數據的異構性、規模性、及時性、復雜性以及隱私問題成為數據創造價值進展過程中的阻力。在物聯網中,傳感器、執行器、RFID標簽是物理對象的表現,從公路到心臟起搏器,它們通過供應鏈被放置在不同種類產品中,通過有線和無線網絡連接,對庫存商品監控、住院病人管理、停車場和互聯網汽車上使用一系列的傳感器進行管理,方便了各種不同數據的采集。
專業人士積極利用大數據可挖掘出有價值的信息,這要求計算機具備巨大的存儲和計算資源,加上先進的軟件系統,能保證分析各種圖形的運算、生成和顯示。物聯網導致產品的數量和類型方面的數據以前所未有的速度激增。公司運用這些數據進行分析,進而改進業務流程,預測趨勢和損失。這些數據也可以為產品開發、客戶支持、生產經營和團隊營銷提供決策信息,利用這些信息來改善產品的性能、增加收入、降低成本等。
2.物聯網數據的特征
(1)物聯網生成大量的數據信息。物聯網信息生成的速度遠遠超過了傳統系統,并且產生各種不同的類型的監測信息。新興數據形式的多樣性表明現實社會存在許多有趣的企業。例如,國外的Twitter、Facebook和國內的微博、微信等社交媒體已經成為大數據的主要來源之一。2015年8月,美國的Facebook首次突破在一天內達到10億人在線,而國內騰訊QQ目前歷史最高實時在線人數已達2.28億。由于傳感器與世界互動,“物聯網”產生的數據量是相當可觀的,數字處理需求成為可行。
(2)物聯網數據的多樣性。與傳統的事務處理不同,“物聯網”爆炸式數據量來自傳感器,數據可以不斷采集,且速度快。“物聯網”數據的多樣性取決于傳感器的類型和不斷擴大的數據源。處理大量復雜數據和信息的方式也多種多樣,這取決于數據背后的語義模型。因此,數據收集形式也不同,因為有結構化的數據、非結構化的數據、半結構化的數據以及混合型數據。數據的多樣性對數據存儲和數據庫設計催生新的需求,比如要求數據庫動態適應數據格式等。
(3)物聯網數據的真實性。數據的真實性可以確保使用的數據是可信的、真實的和受保護的,以免受未經授權的訪問和修改,保證數據在整個生命周期的安全性。從可信任的來源收集數據,在可信任的計算設施上處理數據,在可信任的存儲設施上存儲數據。隨著時間的推移,“物聯網”數據的真實性也可以改善傳感器和其他數據的質量。例如,使用RFID生成比10年前更可靠的信息。數據生成量大,加上越來越快的生成速度以及日益增加的數據樣式,大量的原始數據需要分析處理來創造新的價值。
3.物聯網數據處理的變化與挑戰
通過物聯網傳感器產生的數據以指數級速度增加。數據的異構性、規模性、及時性、復雜性和數據隱私問題阻礙了數據從采集到創造價值各個進展的所有階段。加上數據正日益變得更加多樣化、復雜化和去結構化,對數據的迅速處理己勢在必行。滿足這樣的需求對傳統數據庫構成了巨大的挑戰。它需要鞏固電子基礎設施平臺,以確保研究連續性和跨學科協作、提供持續的服務,與之適應的治理模式,還有升級所需的架構滿足這些需求。這種大數據根本上的需求需要大規模分布式架構和大規模并行處理管理和分析數據。endprint
巨大的物聯網數據被3個主要數據庫管理:收集數據庫、查詢數據庫和管理數據庫。所有這些主要的挑戰是數據通信。通信成本遠遠高于處理成本,通信成本最小化,同時滿足額外的存儲和數據需求。網絡帶寬和延遲是網絡2個主要的性能,網絡性能將影響客戶端和數據服務器間的通信。
4.大數據管理相關技術
相關研究人員在大規模數據管理方面已作了大量的工作。岡薩雷斯提出RFID-Cuboids模型,存儲大規模RFID數據。也有許多作者提出一對一的模型和多對多模型存儲的WSN(無線傳感器網絡)數據。為管理從不同設備提取的異構數據,楊斌提出了基于SOA(面向服務的體系結構)的物聯網數據管理解決方案,但是,SOA架構應用程序的效率可能會降低。此外,上述解決方案的主要缺點是,它們只對特定的數據格式,缺乏系統性。針對大規模物聯網數據處理的挑戰,楊斌工作組集中關注其系統性方面,提出基于SOA物聯網數據的框架來支持大規模物聯網數據管理。但是丁治明解決方案的核心是RDBMS(關系數據庫管理系統),盡管聯合運算避免所有的數據存儲在一個表中,但不支持并發控制,因為RDBMS采用了加鎖機制。
Tingli Li提出了基于NoSQL的物聯網存儲管理架構,被稱為IOTMDB,滿足了物聯網數據存儲的需求。IOTMDB不僅關注如何合理和有效地存儲大量的物聯網數據,而且還關注到數據共享和協作。結合RNS物聯網公共服務平臺和基于本體的數據抽象,能夠輕松地搜索和定位數據,最終實現不同的物聯網應用程序之間的數據共享。物聯網數據存儲策略包括預處理機制和數據分布策略,以滿足通用需求、特定需求和統一數據表達的需求。這些策略有利于提高數據聚集和存儲的有效性。
目前占主導地位的大數據技術商業化代表是Apache的Hadoop和NoSOL。NoSQL數據庫(Not Only SOL意為“不僅僅是SQL”)通常被認為是一項全新的非關系型的數據庫,可以為大數據建立快速、可擴展的存儲庫,具有實時事件檢測過程;也可以被看作是數據分析功能的促成技術,如上下文搜索應用程序。因為NoSQL模型具有靈活性,該模型可以根據數據的范圍和格式,自動識別查詢的維度,而不是由開發人員預先確定。這對數據科學家和業務數據分析師來講尤其重要,他們通常在數據分析的初期使用這種敏捷的方法進行推測,以免使用的常規的方法信息被掩蓋或受限制。
Hadoop是數據密集型的分布式應用程序軟件框架,根據大量公開發表的學術論文,由谷歌公司研究并行處理領域的科研人員開發。Hadoop有2個主要組件:一個是Hadoop文件系統(HDFS)。一個高度可擴展的、便攜式文件系統來存儲數據;另外一個是Map-Reduce(映射一歸約)模式。使用并行編程模型來處理數據。使用Map-Reduce模式框架允許分析數據分布式和高度可擴展性,并且Hadoop生態系統包括一系列工具來簡化分析或管理更大規模的數據。這些工具創建Map-Reduce模式程序然后在HDFs系統中執行。分析工具主要包括:(1)Apache Hive接口工具。Apache Hive是數據倉庫工具,提供一個簡單的類似SQL的接口,可以將結構化的數據文件映射為一張數據庫表,并提供完整的SQL查詢功能,可以將SQL語句轉換為MapReduee任務進行運行。(2)Apache Pig高級過程語言。該語言適用于Hadoop和MapReduee平臺來查詢大型半結構化數據集。通過允許對分布式數據集進行類似SQL的查詢,Pig可以簡化Hadoop的使用。(3)Apache Mahout數據挖掘。通過靈活的機器學習來構建智能應用程序,進行數據分析。
Hadoop是專為大規模數據設計開發的軟件,面向批處理,一個簡單的查詢可能僅需要幾分鐘就可返回結果。在典型的面向大數據分析環境中,數據專家使用這一系列工具,首先會選擇通過一些小的數據集,把它以某種方式進行轉換,然后與數據倉庫中關系數據進行組合,進行數據分析。大數據分析通常具有探索性和迭代性特征,與傳統信息管理案例相比可能需要更多的自由。
Hadoop提供了使用Map-Reduce模式框架這種基本功能分析數據,以及其他一系列的分析工具,同時,在每個分析過程中Hadoop還需要一個預備步驟。另外,Hadoop低成本的數據存儲模型有助于提供一個數據池,這些數據池的每一項價值對組織來講可能是有限的,但對于任何給定的業務問題可能每一項都是不可或缺的環節。數據可能被選中、轉換和加強,然后轉移到另外一個相關設備,與企業傳統數據進行組合,執行更多的互動分析。Hadoop面向批處理,為了支持實時交互,要求其他技術也要同時具備。當前,這一領域最常見的技術是復雜事件處理(CEP)、內存分布式數據網格、內存數據庫和傳統的關系數據庫。NoSQL數據庫等相關技術也支持這些新技術,要么用于Hadoop集群的頂層使用,要么在特定的數據存儲層使用。
5.結論
在海量數據的推動下,人們正進入一個研究異構計算驅動的新紀元。大數據的異構性、規模性、及時性、復雜性以及隱私問題成為數據創造價值進展過程中的阻力。設計一個可擴展的系統,在靈活并行性、靈活分區和靈活可擴展性方面進行開創性研究,以實現對現實世界數據集的分析、處理和挖掘,這種大規模的數據技術時代將創造出很多令人激動的研究機會和挑戰。endprint