張 航,張 欣,張平康,李 琪
(貴州大學 大數據與信息工程學院,貴州 貴陽 550025)
隨著我國信息化建設程度的不斷提高,通過觀察、訪問、調研等方式積累了大量對扶貧開發領域極具實際指導意義的扶貧數據,而目前,傳統的扶貧開發系統在管理和處理扶貧大數據方面所面臨的問題也日漸凸顯:(1)各級部門信息獨立,各自為戰,主要以結構化的關系型數據倉庫的形式來存儲處理數據;(2)扶貧大數據具有強烈的自身特點,包括醫療、交通、教育等領域相互之間的關系和影響,使得關于扶貧的數據庫與知識庫具有大型、多維、動態變化等特點;(3)各級部門對于扶貧大數據的集中管理和利用效率不高,對數據的存儲和價值挖掘方面,存在數據失真、信息分散、處理能力弱的現象,這些都使得精準扶貧的治理參考缺少系統性的判斷預測,從而影響精準扶貧的治理成效。對此,通過將大數據處理技術與精準扶貧的有機結合,將跨平臺、跨系統的各方數據進行整合,對采集到的數據進行并行處理,挖掘出有價值數據成果,不僅能完善精準貧困評估的數據系統,建立扶貧管理的動態機制,還能強化貧困問題的科學分析,有效地實現精準管理、精準幫扶、精準保障。
Hadoop是由Apache軟件基金會所開發的一個允許對大型數據集進行分布式處理的框架。通過其核心技術HDFS(Hadoop Distributed File System)和MapReduce以一種可靠、高效、可伸縮的方式進行數據處理[1]。其中HDFS負責為海量數據提供對數據的存儲管理服務,由于它使用Java語言開發,以及所具有的高容錯性和高自主性等特點,使得Hadoop可以很容易地在低成本的硬件上部署形成分布式系統。……