符志軍
(江西工程學院,江西 新余 338029)
建設危險廢物動態管理體系,對危險廢物進行處理與跟蹤,保證危廢管理部門能夠實時地了解危險廢物的動態信息,并且利用智能化的數據管理方式提高對危險廢物的監控水平,能夠在一定程度上提高危廢管理的質量和效率。為了實現對危廢運輸車輛的監控,可以利用全球定位系統(Global Positioning System,GPS)定位裝置,掌握危廢運輸車輛的動態情況,對轉移過程進行實時監測。因此,如何設計GPS危廢運輸車輛監控系統是危險廢物運輸管理部門需要解決的主要問題。現階段,學者對于大數據背景下危廢運輸車輛GPS監控系統的研究較少,導致數據庫的存儲壓力較大,查詢效率不高,不利于危廢車輛的管理。文章利用HBase進行數據的存儲和處理工作,從而滿足了性能需求[1-2]。
Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)實現對危廢運輸車輛GPS監控產生的大量數據進行分布式存儲和管理,從而保證在數據迅速增長的同時也能夠進行科學、有效的管理及存儲工作。HDFS能夠將大量的文件進行模塊化的存儲,同時進行并行讀取,利用HDFS對數據進行管理具有以下特點:
(1)實現高數量級數據的分布式存儲。(2)文件支持一次讀、多次寫的模式。(3)HDFS能夠實現大規模流式讀取以及隨機讀取。(4)利用分布式讀取的方式達到較高的輸入、輸出吞吐量。
HBase是一個數據庫,建立在Hadoop的HDFS之上,能夠實現對數據的快速查詢與訪問。HBase以表的形式進行數據的存儲,其中,列被分成許多個列族,而HBase表當中的所有列都是列族的組成部分。此外,HBase通過稀疏存儲結構來保存數據信息,為了保證讀寫性能,可以把類型相似的列放置到一個列族當中,縮小存儲的路徑。將HBase應用到危廢運輸車輛GPS監控系統中,極大地提高了吞吐量,實現了動態擴展功能,提高系統的響應速度[3]。
MapReduce分布式編程框架由谷歌公司首次提出,以此編程框架為基礎,HDFS以及HBase可以完成編程框架主動控制、數據公開透明的數據資源并行調度以及數據的同步存儲。其中,利用MapReduce分布式編程框架能夠處理高數量級的大量數據。除此之外,MapReduce能夠實現對后續的數據進行分析,GPS監控系統能夠對交通情況進行研究,同時保證HBase作為InputFormat。
危廢運輸車輛GPS監控系統主要由3個部分組成:車載終端、GPS網關以及車輛監控服務平臺。
(1)車載終端,是一種配置在危廢運輸車輛上的終端裝置,主要是把危廢運輸車輛的位置信息及其狀態傳送給服務器,借助運營商基站實現和網關之間的通信。
(2)網關,起到了中轉信息的作用,主要服務于車載終端以及車輛監控服務平臺中間,完成對數據定位信息以及狀態信息的接收工作。相應的信息在GPS網關緩存以后,同時傳輸至數據庫服務器當中[4-5]。
(3)車輛監控服務平臺,主要完成后臺管理工作,按照在GPS網關獲取的危廢運輸車輛位置及其狀態信息內容,向管理人員提供相應的危廢運輸車輛定位、信息監測、歷史跟蹤等服務,而且車輛監控服務平臺是在平臺服務器的基礎上運行的。
在大數據環境下,危廢運輸車輛GPS監控系統主要實現車輛的監控、歷史軌跡實時查詢、定位跟蹤、狀態信息動態監測等功能,此外,系統還能存儲以及管理大量的數據信息,擴展性能較高,吞吐率得到了大幅度的提高。
在危廢運輸車輛管理過程中,監控數據主要有以下的特點:首先,要對經緯度、里程數等車輛信息進行實時收集,采集的頻率較高且數據較為龐大;其次,當危廢運輸車輛較多的時候,寫入量迅速增加,因此對系統的吞吐量有較高的要求,而且要求系統的相應速度快,實時性能以及擴展性能良好;最后,系統對數據主要執行插入以及查詢工作,不涉及刪除、更新等。
隨著危廢運輸車輛的不斷增加,數據庫的信息存儲空間需求越來越大,會給危廢物品管理人員帶來極大的困難。因此,需要系統能夠實現大量數據的存儲功能以及動態信息實時監測管理功能,而將大數據技術應用到危廢運輸車輛GPS監控中,可以解決存儲空間不足、存儲速度慢、處理效率低等問題。
首先,優化設計數據庫。由于車載終端設備收集的數據較多,因此在危廢運輸車輛GPS監控系統設計的過程中要減少冗余。通過大數據技術把一個較大的數據庫結構分成許多個小的數據庫,保證數據庫之間訪問的科學、有效性。其次,共享內存技術。在內存當中設置一個能夠共享的區域,將經常用到的數據類型、參數等讀入到共享區域當中,這樣在對數據進行訪問、查詢的時候就能直接利用共享內存區域的數據實現,極大地提高了管理效率。最后,多進程并行處理模式。將一個小程序分為多個程序,從而進行并行處理,能夠極大地提高處理效率[6]。
首先,創建一張表,定義表的名稱為GPSTABLE,表格當中要包括危廢運輸車輛的全部信息,為了方便查詢及管理,可以使用車牌號加上時間的命名方式作為行鍵(rowkey),便于對HBase中的數據進行快速定位。rowkey的原則必須在設計上保證其唯一性,將經常讀取的數據存儲到一塊,將最近可能會被訪問的數據放到一塊。
設備號方便管理人員進行數據的查詢工作,車牌號可以為普通的用戶提供查詢信息。定義危廢運輸車輛信息的一個列族,包括以下信息:危廢運輸車輛的品牌(brand)、車輛的型號(model)、顏色(color)、速度(speed)、可行駛的最大距離(miles)等。
此次試驗環境為一個6節點的Hadoop集群上,其中,DataNode的節點個數為5,NameNode的節點數為1,HMaster的節點數為1,RegionServer的節點數為5,Zookeeper的節點數為3。主要對危廢運輸車輛GPS監控數據的導入和查詢性能進行研究和分析,假定總記錄數為10億條,當單行記錄不小于1 kb的時候完成數據的導入和數據的查詢工作。
實驗結果表明,將HBase應用到危廢運輸車輛GPS監控系統的設計當中,不僅能夠實現對大量數據進行實時、隨機的查詢,而且其存儲和查詢效率得到了極大的提高,較好地滿足了各方面的需求。
文章通過對大數據在危廢運輸車輛GPS監控中的應用進行探究,了解到利用HBase數據庫進行危廢運輸車輛GPS監控設計,極大地提高了吞吐量,實現了動態擴展功能,提高了系統的響應速度,保證了危廢車輛監控工作的順利進行。