浙江東方職業技術學院 鄭定超
隨著經濟水平快速發展,垃圾產生的數量、速度也是一直在加快,如何進行垃圾處理和回收成為急需解決的問題之一。傳統的投放垃圾回收終端設備需要龐大的資金以及政府的相關政策支持,難以可持續性發展。通過引入大數據技術,對海量的垃圾數據進行分析處理,挖掘背后的數據價值,為有關政府部門、企業提供數據咨詢服務,吸引資金與政策支持,幫助解決垃圾處理問題,實現可持續發展。利用相關軟件技術設計一個“垃圾處理”大數據平臺,能夠進行數據的分析與可視化,效果良好。
為了提高垃圾處理水平、改善生態環境,實現垃圾無害化和資源化處理,使經濟發展具有可持續性,在垃圾分類治理中利用大數據技術。針對海量的“垃圾”相關數據,通過大數據技術進行處理、存儲與分析,挖掘數據背后的價值,提供科學直觀的數據分析報告,讓政府及有關公司決策更加科學、準確,使垃圾處理問題得到更加妥善的解決。實踐表明,大數據技術的利用能很好地提高垃圾的分類資源回收利用率。
大數據(Big Data)是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。面對海量的數據信息,大數據技術包括數據獲取、清洗、存儲、分析與可視化,對數據進行加工,實現數據的價值。大數據處理流程如圖1所示。
圖1 大數據處理流程
大數據的5V特點主要為大量(Volume)、高速(Velocity)、多樣(Variety)、低價值密度(Value)、真實性(Veracity)。
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,用戶可以在不了解分布式底層細節的情況下開發分布式程序,充分利用集群進行高速運算和存儲。Hadoop框架核心主要為HDFS(Hadoop Distributed File System)和MapReduce。HDFS實現海量數據的分布式存儲,MapReduce則是一種編程模型,用于大規模數據集(大于1TB)的并行運算。
分布式存儲系統是將數據分散存儲在多臺獨立的設備上。分布式網絡存儲系統采用可擴展的系統結構,利用多臺存儲服務器分擔存儲負荷,利用位置服務器定位存儲信息,它不但提高了系統的可靠性、可用性和存取效率,還易于擴展。
MapReduce的核心思想是“分而治之”。所謂“分而治之”就是把一個復雜的問題,按照一定的“分解”方法分為等價的規模較小的若干部分,然后逐個解決,分別找出各部分的結果,把各部分的結果組成整個問題的結果。
Flask是一個輕量級的可定制框架,使用Python語言編寫,較其他同類型框架更為靈活、輕便、安全且容易上手。Flask主要包括Werkzeug和Jinja2兩個核心函數庫。其中,Werkzeug庫支持URL路由請求集成,支持交互式Javascript調試,提高用戶體驗;其可處理HTTP基本事務,快速響應客戶端推送過來的訪問請求;Jinja2庫支持自動HTML轉移功能,能夠很好控制外部黑客的腳本攻擊。
Flask的基本模式是在程序里將一個視圖函數分配給一個URL,每當用戶訪問這個URL時,系統就會執行給該URL分配好的視圖函數,獲取函數的返回值并將其顯示到瀏覽器上。
本項目通過智能垃圾桶收集到相關的“垃圾”數據后,采用大數據技術進行清洗、分析、存儲、可視化,生成“垃圾”報告,包含垃圾投放的數量、地點、時間、種類等信息,可以提供給相關政府或公司,幫助他們制定相關政策。比如:何時清運垃圾最好、哪些區域容易產生垃圾應該重點治理、哪種垃圾產生最多等、對于可回收垃圾進行及時有效回收等。大數據處理“垃圾數據”平臺方案的設計框圖如圖2所示。
圖2 “垃圾處理”大數據平臺
“垃圾處理”大數據平臺能夠將“垃圾”信息數據上傳到Hadoop大數據平臺,然后采用MapReduce技術,在Hadoop平臺上直接用map函數和reduce函數進行數據分析得到分析結果,最后用Python語言進行可視化得到數據展示。
項目通過智能垃圾桶收集“垃圾”相關的數據,選取了3個小區,歷時2個月,最終得到上萬條的“垃圾”數據,每條數據包括小區名稱、投放日期時間、垃圾名稱、類別等屬性。
首先對收集到的數據進行清洗和存入數據庫,然后根據信息的屬性分析制作了3種分析圖形。用條形圖表示不同小區在各類垃圾產生數量的比較,可以看出不同小區產生的各類垃圾的數量,相互之間可以比較,根據不同種類的垃圾數量,可以制定回收的策略。
用餅圖表示各小區產生垃圾占總垃圾數量的比例,可以得出哪個小區產生的垃圾最多,從而協調垃圾清運的次數。
用折線圖表示各個時間段產生的垃圾數量對比,可以分析出某個時間段產生的垃圾數量最多,從而判斷人們的活動越頻繁。
為了讓每條垃圾數據都有記錄可查,系統提供了模糊查詢功能,用戶輸入想要查詢的關鍵字,就會顯示所以的相關的垃圾數據,如圖3所示。
圖3 垃圾查詢
結論:每個人在生產生活中都會不可避免的產生垃圾,垃圾產生的數量、速度越來越快,如何有效的進行垃圾處理、回收至關重要。在實際社會中,投放垃圾分類終端設備需要巨大的資金支持,因此除了垃圾分類回收的利潤之外,通過終端設備在分類回收垃圾時收集相關信息數據。在數字經濟時代,城市居民的消費數據可以幫助相關企業優化生產、物流、營銷、研發等工作,具有極大的商業價值。我們通過分析垃圾背后的數據,提供結論給政府、企業等相關部門,吸引投資,最終幫助我們解決垃圾問題。