冀昊悅 高迎


摘 ?要:隨著我國信息化建設的不斷發展,在扶貧開發領域已經積累了大量具有實際指導意義的扶貧數據,如何有效管理和利用這些日益增長的扶貧大數據是當前亟待解決的問題。為實現高性能的扶貧大數據管理平臺的建設,本文針對精準扶貧工作中產生的扶貧數據管理問題,提出基于Hadoop架構的精準扶貧大數據系統設計方案,研究使用FP-Growth算法實現精準扶貧數據的深入挖掘,保證數據的安全可靠和智能化利用,為精準扶貧工作提供有力依據。
關鍵詞:精準扶貧;扶貧數據管理;Hadoop架構
中圖分類號:TP311.52;F323.8 ? ?文獻標識碼:A 文章編號:2096-4706(2019)12-0018-03
Abstract:With the continuous development of information construction in China,a large number of practical poverty alleviation data has been accumulated in the field of poverty alleviation and development. How to effectively manage and utilize these growing poverty alleviation big data is an urgent problem to be solved. In order to realize the high-performance poverty alleviation big data management platform construction,this paper proposes a design scheme for accurate poverty alleviation big data system based on Hadoop architecture for the poverty alleviation data management problem generated in the precision poverty alleviation work,and research on the use of FP-Growth algorithm to achieve in-depth mining of precise poverty alleviation data to ensure the safe,reliable and intelligent use of data,providing a strong basis for precise poverty alleviation work.
Keywords:precision poverty alleviation;poverty alleviation data management;Hadoop architecture
0 ?引 ?言
精準扶貧是對貧困地區的環境、居民和資源進行綜合統籌,利用科學有效的信息化手段進行精準識別、精準幫扶和精準管理脫貧治理方法。早在2013年,習近平總書記在湖南湘西考察時就提出“實事求是、因地制宜、分類指導、精準扶貧”的重要指示。經過多年的精準脫貧政策實施,各級部門通過觀察、走訪、調研等方式積累了大量的精準扶貧開發領域數據,這對于決戰扶貧攻堅工作有著重要的指導意義。
1 ?構建基于大數據的精準扶貧信息管理系統的必要性
盡管在扶貧開發工作過程中各地都先后開發了扶貧信息管理系統,但普遍存在以下幾點問題:
(1)各扶貧工作部門相對獨立,信息系統對數據的關聯性處理不夠,“信息孤島”問題嚴重存在;
(2)扶貧數據與戶籍、醫療、交通、教育、礦產資源等各領域數據息息相關,現有的信息管理系統無法構建與各個領域數據相關聯的知識庫;
(3)扶貧信息的利用率較低,各級部門只可以在系統內查看扶貧統計信息,信息系統也只滿足數據存儲和查詢的功能需求,對數據的深度發掘利用程度不高;
(4)扶貧信息系統內的數據多由人工填寫或導入,數據較為分散,難以保證數據的準確性和可靠性。
針對上述問題從技術層面分析可知,現有的扶貧信息管理系統采用的是集中式數據管理架構,數據庫在不斷增容的情況下會出現數據處理能力不足的情況,對硬件系統的處理能力提出了很大挑戰;不同領域的非結構化扶貧數據形成了海量的數據群,但這些數據之間缺乏關聯性,從而形成了數據孤島。綜上所述,在原有的存儲和統計功能的基礎上,扶貧信息系統要在數據可靠性管理和數據深度挖掘利用等方面進行進一步設計,將傳統的扶貧數據倉庫利用到精準服務工作中去,實現科學有效的大數據策略支持。
2 ?精準扶貧大數據信息系統架構
Hadoop是一種被廣泛使用的大數據集分布處理技術框架,是由著名的非營利性組織Apache軟件基金會提出和開發的。Hadoop架構的核心技術是HDFS和MapReduce,具有高可靠性、高性能、可伸縮特性等數據處理技術優勢。HDFS(Hadoop Distributed File System,分布式文件系統)實現了海量大數據倉庫的存儲和維護服務,具有極高的容錯性和自主性,在保證Hadoop架構的高性能的同時也可以為供應商提供成本較為低廉的分布式服務。MapReduce是一種利用集群技術進行高速高效運算的技術,它具有支持領域搜索、海量數據計算等特點。
通過技術研究可知,Hadoop架構的使用可以很好地解決原有扶貧信息系統數據可靠性難以保證和數據深度挖掘能力不足的問題。因此,在進行基于大數據的精準扶貧信息系統設計的過程中決定采用Hadoop結構來實現分層結構,如圖1所示。
從圖1可以看出,精準扶貧信息管理系統分為用戶層、應用層、服務層、資源層和運行層5個層次。用戶層實現了人機交互界面,通過不同地點和版本號的客戶端來訪問應用層的各個業務系統;應用層實現了精準扶貧工作的基本業務,同時基于MapReduce對各個數據倉庫中的海量數據進行大數據計算和分析;服務層提供了系統通用的業務功能實現服務,如系統用戶信息維護、系統數據備份還原、報表輸出打印、數據接口交互服務等;資源層負責將各業務系統的業務數據庫進行有效整合;運行層在整個架構最底部,實現了系統運行所需的軟硬件、中間件和網絡環境的綜合管理。
3 ?精準扶貧信息的數據挖掘過程
精準扶貧信息的數據挖掘過程可以概括為業務分析、統一存儲、計算轉換、模型分析、模式評估和知識表示等,精準扶貧數據挖掘過程如圖2所示。
從圖2可以看出,精準扶貧信息的數據挖掘過程要按照數據轉換、預處理、算法挖掘和決策輸出等步驟進行。由于扶貧信息的元數據具有容量大、內容多、結構復雜等特點,在進行數據轉換的過程中要首先進行業務分析來確定數據挖掘對象和具體指標,然后按照分析結果進行數據收集和存儲;初步轉換得到的挖掘數據群數據的完整性、格式和有效性無法保證,還要進行進一步的預處理和清晰才能進行后續操作,因此在此階段要按照前邊制定的挖掘指標進行計算轉換,通過平滑聚集、數據概化、規范約束等方式得到適用于數據挖掘算法的清洗后數據;得到清洗數據后就要根據所選的算法構建計算模型,此階段要根據業務需要來有針對性地選擇數據挖掘算法,這樣才能保證后續的模式評估和知識表達的正確性,為領導層的決策支持找到有價值的規則和模式,最終以圖標的方式呈現給用戶層的相關用戶。
4 ?精準扶貧數據挖掘FP-Growth算法
FP-Growth是一種基于分治策略的關聯分析算法,FP-Growth在數據挖掘中的應用是通過頻繁模式樹(FP樹)形成的樹狀結構實現的,具體做法就是將頻繁項集壓縮至頻繁模式樹上,再根據模式樹得出劃分模式的一組或多組條件數據庫,分別進行數據挖掘從而得出結論。頻繁模式樹的主要過程可以概括為FP樹構建和計算挖掘兩部分,當數據集容量不斷增大時,頻繁模式樹的存儲會占用大量的內存空間,此時就會造成頻繁模式樹的挖掘效率降低。本文針對FP-Growth算法進行優化設計,提高算法的數據挖掘效率。
本次對FP-Growth算法的改進分為5個步驟,將原有的單次數據庫掃描和MapReduce計算變為兩組執行,以事務數據集和最小支持度為輸入,以所有支持度技術大于最小支持度的頻繁模式集合為輸出,快速得到數據挖掘結果。
步驟1:數據分片。將數據挖掘數據集以片段的形式存在便于讀取的多個節點上。
步驟2:并行計算。掃描目標數據庫,計算出每個節點上的支持度數量并同步至頻繁項集合,該并行計算過程由第一次組MapReduce任務完成。
步驟3:數據分組。將步驟2同步得到的頻繁項集合劃分為M組,每個組包含若干項頻繁項集合的子集。
步驟4:并行挖掘。對步驟3中得到的子集進行Map-Reduce計算,得出由組號和事務組成的數據對組別,劃分完成后將結果生成FP樹進行進一步的挖掘,得到頻繁模式。
步驟5:聚合。在步驟4的挖掘計算得出結果后,通過聚合的方式形成最終結果。
5 ?結 ?論
本分分析了精準扶貧信息管理的重要性,研究了現有信息管理系統的弊端,提出了基于Hadoop架構的大數據精準扶貧信息系統架構,介紹了精準扶貧信息的數據挖掘過程和核心算法FP-Growth算法的使用方法,最后通過改進FP-Growth算法實現了數據挖掘的高效性改進。基于大數據的精準扶貧信息管理系統的構建,可以有效打破各部門的“信息孤島”枷鎖,實現扶貧開發工作的全過程透明化管理和跟蹤,為精準扶貧工作打造良好的信息通道,實現數據的共建、共享和挖掘利用。
參考文獻:
[1] 張航,張欣,張平康,等.基于Hadoop的精準扶貧大數據信息系統 [J].電子科技,2018,31(7):59-62+71.
[2] 陳小寧,郭進,李俊松,等.基于大數據的旅游精準扶貧信息系統設計研究 [J].科技展望,2016,26(36):7.
[3] 孫紅,郝澤明.大數據處理流程及存儲模式的改進 [J].電子科技,2015,28(12):167-172.
[4] 陳吉榮,樂嘉錦.基于Hadoop生態系統的大數據解決方案綜述 [J].計算機工程與科學,2013,35(10):25-35.
[5] 劉黨朋.不均衡環境下面向Hadoop的負載均衡算法研究 [D].北京:北京郵電大學,2015.
[6] 張栗粽,崔園,羅光春,等.面向大數據分布式存儲的動態負載均衡算法 [J].計算機科學,2017,44(5):178-183.
[7] 申利民,陳真,李峰.考慮數據變化范圍的Web服務服務質量協同預測方法 [J].計算機集成制造系統,2017,23(1):215-224.
[8] 梁弼.基于Struts2的Web控制層研究及應用 [J].計算機與數字工程,2016,44(5):912-916.
[9] 崔妍,包志強.關聯規則挖掘綜述 [J].計算機應用研究,2016,33(2):330-334.
[10] 郭曉波,趙書良,王長賓,等.一種新的面向普通用戶的多值屬性關聯規則可視化挖掘方法 [J].電子學報,2015,43(2):344-352.
作者簡介:冀昊悅(1998-),女,漢族,北京人,本科,研究方向:大數據扶貧。