[摘 要] 隨著農業信息化的建設和發展,農業電子商務的發展越來越快,農業電子商務數據平臺的建設成為了農業電子商務發展的重要部分,而Hadoop大數據技術可以滿足農業電子商務數據平臺建設的需要。基于此,本文對我國傳統農業電子商務建設和發展中存在的問題進行分析,提出基于Hadoop技術的農業電子商務數據平臺的設計方案,并對基于Hadoop技術的農業電子商務數據平臺進行分析和研究。
[關鍵詞] 農業現代化;電子商務;數據平臺建設;Hadoop技術
[中圖分類號] TP311.13;F724.6 [文獻標識碼] A [文章編號] 1674-7909(2017)28-87-2
隨著我國農業信息化的建設和發展,在我國的農業電子商務發展中,農業電子商務平臺存儲的用戶數據和農產品數據呈海量式的規模發展,傳統的數據平臺已經不能滿足農業電子商務數據平臺對數據處理的需求。而Hadoop技術在農業電子商務數據平臺中的應用,滿足了農業電子商務數據平臺對數據的存儲和處理需要,促進了我國農業電子商務的發展。
1 我國傳統農業電子商務平臺建設和發展存在的問題
我國傳統的電子商務數據平臺主要是采用磁盤陣列技術和關系型數據庫對存儲的數據進行處理,數據平臺存儲可擴展性比較差,而且平臺對數據的處理能力也較低。
1.1 平臺數據采集問題
農業電子商務數據平臺建設的基礎是數據的采集[1],在數據采集過程中要保證數據的完整性,要對多個終端相對應的節點進行數據的采集。數據采集完成后,要經過多個節點進行轉發對數據進行傳輸等操作,然后在數據平臺上進行存儲。隨著農業電子商務的快速發展,平臺的數據量變得越來越大。傳統的農業電子商務數據平臺在對數據的采集和傳輸過程中,受平臺節點多和網絡傳輸質量的影響,會出現數據丟失的現象。這就需要采用分布式數據處理技術建立完整的數據采集機制,來解決平臺數據采集和傳輸過程中出現的問題,提高數據采集的安全性。通過數據采集機制的建立,可以對整個平臺的數據進行分布式處理,對數據進行分布式采集的過程實現有效的監控,如果系統中的節點出現問題,那么可以對出現問題的節點采取容錯方式進行處理,保證平臺數據采集的正常進行,提高數據采集的高效性。
1.2 平臺數據存儲問題
傳統的農業電子商務數據平臺的數據庫是基于小型數據的,隨著農業電子商務網站應用的用戶數量和規模的不斷擴大,平臺數據呈海量式增長,對數據的存儲不能進行很好的擴展。另外,傳統的農業電子商務數據平臺在數據的容災恢復和數據備份等方面都不能進行很好的處理。農業電子商務數據平臺最基本的功能就是對海量的數據進行基本的分析和處理,但是平臺數據的存儲量非常大,在對數據進行處理時需要實現數據處理的高效性和正確性,才能夠保證數據平臺的數據分析工作正常進行。傳統農業電子商務數據平臺對平臺存儲的數據進行分析和處理主要是利用關系型數據庫技術[2],處理少量的數據比較容易,對海量的平臺數據進行處理就存在耗時大和處理效率低的問題,不能滿足海量數據處理的基本需要。
2 農業電子商務數據平臺中Hadoop技術的應用特點
隨著農業電子商務的快速發展,農業電子商務網站的用戶數據量越來越多,對用戶的數據進行挖掘和分析可以為企業提供有價值的重要的農業信息,在一定程度上可以促進農業電子商務的建設和發展。基于Hadoop技術的農業電子商務數據平臺建設,可以滿足農業電子商務對數據處理的需要。在農業電子商務數據平臺的建設中應用Hadoop技術是非常重要的。Hadoop技術是一種開源的分布式處理技術,Hadoop技術的云計算軟件平臺在我國的農業和工業中都得到了廣泛的應用,其應用優勢主要表現如下。首先,Hadoop技術可以對非結構化的數據進行處理,并通過通用的方式把處理的結果發送給其他的應用服務。其次,Hadoop技術可以對海量的數據進行排序,在分布式數據處理中Hadoop技術具有很強的數據處理能力[3]。再者,Hadoop技術具有高性能和高擴展性。高擴展性是Hadoop技術的一個重要優勢,隨著數據量的增長,Hadoop技術通過可擴展性可以對節點進行擴展,甚至可以擴展到幾千個節點。隨著農業電子商務數據量的海量式增長,Hadoop技術可以對集群進行相應的擴展工作。此外,Hadoop技術可以對存儲空間進行擴展來實現對數據的存儲,可以通過建立數據副本的方式來提高數據的容錯性。在價格低廉的機器中都可以安裝Hadoop技術,所以Hadoop技術可以以低成本的優勢來對數據完成容錯性的存儲和計算,大大降低用戶的經濟成本。目前,Hadoop是比較受歡迎的云計算平臺,應用范圍非常廣。Hadoop的開源性,使得Hadoop分布式平臺在企業和公司中非常受歡迎;Hadoop技術對海量數據進行處理的能力,也是農業電子商務數據平臺應用Hadoop技術的主要優勢。
3 基于Hadoop技術的農業電子商務數據平臺設計
3.1 平臺架構
Hadoop平臺提供了分布式的計算處理能力,平臺的架構是一個主從式的分布式架構結構,采用分布式文件數據存儲系統。分布式主從架構部分結構圖如圖1所示。
圖1 分布式主從架構結構圖
圖1是一個分布式的主從架構圖,HDFS是分布式文件存儲系統;YARN是資源管理器,YARN的應用程序在運行時可以帶動一個Hadoop集群一起運行;MapReduce是一種計算引擎,采用批處理的方式。Hadoop技術具有非常強大的并行方式的計算能力,可以對大數據集進行數據分區的操作。在Hadoop的平臺架構中,數據存儲架構是作為存儲的組件,采用分布式文件系統,具有高吞吐量的特點,也可以對大文件進行腹瀉。高吞吐量決定了可以對網絡的輸出和輸入進行優化。數據存儲架構還具有可伸縮性的特點,可以對數據進行容錯。資源管理調度系統在Hadoop中可以進行分布式的資源調度,當Hadoop集群操作5 000節點時,整個數據平臺就會面臨擴展性問題,需要增加額外的節點,并改進可伸縮性。分布式計算框架MapReduce是對分布式計算的批處理框架進行模仿的,分布式計算框架MapReduce可以對原始數據進行并行化計算[4],與日志功能相結合從數據庫中提出客戶的反問記錄,這個操作過程對于傳統的編程技術來說需要很長的時間,但使用分布式計算框架MapReduce技術就可以把時間節約到幾分鐘。分布式計算框架MapReduce通過并行化的計算對并行處理進行了簡化。
3.2 數據采集技術
農業電子商務數據平臺的數據量增長非常快,數據采集工作是平臺工作的主要部分。在傳輸數據時,系統對數據轉發的中間節點數量增加,數據在網絡傳輸中可靠性下降,數據采集過程中會發生數據丟失的現象。面對數據采集的分布式的準確性問題,需要對數據采集機制進行研究來提高采集數據的可靠性。數據采集模式流程圖如圖2所示。
文件是否變化
][ 從變化文件內讀取新增記錄
][ 將新增記錄存儲到消息隊列
][結束流程
][是]
圖2 數據采集模式流程圖
農業電子商務網站使用客戶規模在快速增長,每天會產生大量的日志數據,有時候每天會產生幾太字節的數據。因此,數據采集采用Flume多級代理模式。農業電子商務網站按照地區性的特點可以把采集的數據劃分為地理數據、物流數據和不同區域的機房數據等,這些數據在不同地區的節點進行分布,采用分層模式進行數據的采集,數據從低級節點傳輸到高級節點,高級節點在接收到數據后再向更高級的節點進行傳輸,最后將數據進行匯集,并且對不同區域的數據進行存儲計算。
4 結語
農業電子商務的發展是農村信息化建設的重要內容,是我國社會經濟發展的必然趨勢。Hadoop技術在農業電子商務數據平臺中的應用,從技術方面有利地推動了農村電子商務的發展。
參考文獻
[1]孫忠富,杜克明,鄭飛翔,等.大數據在智慧農業中研究與應用展望[J].中國農業科技導報,2013(6):63-71.
[2]吳勝,劉建波,劉士彬.ASP.NET MVC框架下內容管理系統的探索與實現[J].微計算機信息,2010(36):30-32.
[3]林璇,馮健文,陳啟買.餐飲決策支持系統中OLAP數據倉庫的設計與實現[J].計算機工程與設計,2016(21):4142-4144.
[4]梁強.政府支持對包容性創業的影響機制研究——基于揭陽軍埔農村電商創業集群的案例分析[J].南方經濟,2016(1):42-56.