◎北京神舟航天軟件技術有限公司 吳彥軍 丘斌 王占峰 嚴慶江
隨著移動互聯網、智能設備、傳感器、無線通信等技術的飛速發展,各行各業產生的數據量呈指數級增長,數據類型也各式各樣,對于數據的傳輸、存儲和分析提出了更高的挑戰。為了應對大數據的挑戰以及充分利用大量數據所帶來的價值,NoSQL數據庫、云平臺、數據挖掘、人工智能等技術應運而生,并廣泛應用于公安、金融、政府等各個領域中。
大數據不僅僅體現在數據的海量上,還在于其數據類型的復雜性、多樣性。不僅包括結構化數據,還包括圖片、文檔、視頻等非結構化數據。與傳統的數據相比,大數據具有數量大、增長速度快、種類多、價值密度低等特性。
大數據的爆發意味著機遇,同時也帶來了挑戰。傳統的數據處理手段已經無法滿足大數據的海量實時處理需求,需要采用新一代的信息技術來應對。大數據技術主要分為五類,如表1所示。
某政府部門需要對轄區內工業企業的經濟運行狀況進行統計,并在統計數據基礎上對未來的經濟走勢進行預測,對重大項目進行審批和監管,以便對工業企業進行有效管理,并針對不同行業提供有針對性的金融支持或產業扶持政策。
事實上,企業每個月都需要給統計局上報相應的經濟運行數據,包括能源消耗量、原料消耗量、工業總產值等,但是數據的時效性不高,用于經濟運行情況監控、預警預測、輔助調控區域經濟的價值不大。
隨著大數據技術的飛速發展,利用傳感器、視頻監控、分布式數據庫等工具與技術,可以多途徑實時了解企業生產經營情況,準確統計企業經濟運行情況,可大幅提高工作效率。
該部門需要收集的數據包括企業申報的經濟數據、項目數據,企業的實時用水用電等能耗數據,以及已批準項目的建設現場視頻數據。

表1 大數據技術分類
通過整合傳感器、云平臺、BI工具等軟硬件工具,搭建一套完整的工業企業經濟運行情況統計與預測系統。其系統總體架構如圖2所示。
系統分為采集層、傳輸層、存儲層、集成層、應用層、展示層和用戶層。采集層包括智能終端設備、視頻監控設備和客戶端;傳輸層包括有線網絡和無線網絡;存儲層包括關系型數據庫、非關系型數據庫及數據倉庫;集成層包括數據抽取、數據加載、數據清洗、數據交換及數據整合;應用層包括應用開發與集成平臺和項目申報、項目審批等應用模塊;展示層包括BI展示、GIS展示及視頻展示;用戶層包括企業用戶和省、市、縣三級政府用戶。
為了獲取基礎數據,數據采集來源包括智能終端設備、視頻監控設備和客戶端。系統在重點企業安裝水、電、氣等智能終端設備,在重點項目建設現場安裝視頻監控設備,同時由企業指定人員在客戶端定期上報能耗、經營等數據。

圖2 系統總體架構圖

圖3 利用Matlab搭建的BP神經網絡模型
系統采集的數據不僅包括結構化數據,還包括大量的半結構化和非結構化數據。為了實現異構數據的高效存儲,系統采用的存儲工具包括結構化數據庫MySQL以及非結構化數據庫HDFS。其中,企業基本信息、經濟運行數據、水電氣等物聯網數據都保存在MySQL數據庫中,而項目申報中的附件、圖片及項目現場視頻等保存在HDFS中。
針對來自智能終端設備、視頻監控設備和客戶端的數據,系統搭建了數據倉庫,并采用了ETL工具,實現了多源數據的抽取、轉化和加載,便于數據的后期分析與展示。
對于數據倉庫中的數據,系統采用BI工具進行展示。BI工具中配有地圖,包括矢量地圖和GIS地圖。矢量地圖可到區(縣)一級,可交互顯示各地區的統計分析;GIS地圖可標注園區、企業、攝像頭位置,可動態展示所標注節點的信息。通過對工業增加值及增速、主要產品產量、財務指標等數據進行預先配置,分析各所有制形式、10大行業、地區(省、市、區縣)、國標行業、時間、企業分類等維度的總體經濟情況。
1、基于計算機視覺的視頻分析
由于視頻監控的目的是為了掌握項目施工進度,為項目的各個節點驗收提供數據支持。而很多時候項目現場沒有變化,視頻信息量又很大,耗費的流量費較多。為了降低視頻監控流量費用,可以在項目現場發生變化的時候才保存視頻信息。為了自動地進行視頻數據的智能存儲,采用計算機視覺技術,通過對視頻信息的實時解讀,實時保存現場發生變化的視頻信息,減少流量費用并減輕大量的視頻數據信息對服務器存儲的壓力。
2、基于BP神經網絡的經濟預測
人工神經網絡對信息的處理具有自組織、自學習的特點,便于聯想、綜合和推廣。神經網絡的神經元之間的連接強度用權值大小來表示,這種權值可以通過對訓練樣本的學習而不斷變化,而且隨著訓練樣本量的增加和反復學習,這些神經元之間的連接強度會不斷增加,從而提高神經元對這些樣本特征的反應靈敏度。其中BP網絡是最著名的多層網絡學習算法,同時利用Matlab建模,建立的模型如圖3所示。
在不限制隱層節點數的情況下,兩層的BP網絡可以實現任意非線性映射,所以BP神經網絡包含輸入層、一個隱層和輸出層。BP神經網絡采用的激活函數為Sigmoid函數。通過輸入數據對神經網絡進行訓練,得到神經元之間的連接權重以及每個功能神經元的閾值。
該政府部門工作職能包括投資項目審批以及對重點投資項目進行補貼。為了對所補貼項目進度進行管理,項目承擔方需要在關鍵項目進度節點上上報項目進展情況。同時為了防止項目上報情況不符,系統在重點建設項目現場安裝了視頻監控,能夠實時查看項目施工進度情況。通過多渠道數據源的綜合分析,政府管理部門能夠對重點項目進度進行有效的監管,保證國家補助資金的精準投放和有效使用。
基于該平臺,能夠對投資項目的申報、審批進行有效的數字化管理。同時在項目審批后,通過項目現場的視頻監控能夠實時查看項目建設進度,對重大投資項目進行有效的監管。
面對經濟結構調整和產業轉型的壓力,政府對于工業能耗及綜合利用提出了更高的要求,本項目建立了符合地區實際的統一、科學、全面的節能降耗監測指標體系。在能耗統計和實時監測數據基礎上,全面建立涉及能源生產、消費、流通、庫存、利用效率、綜合利用的工業企業能耗數據指標體系。
利用水、電、氣等相關智能設備采集的數據,分別根據綜合指標(如萬元工業產值綜合能耗、萬元工業增加值綜合能耗、萬元工業增加值綜合水耗)和單項指標(如發電標準能耗、碳素產品單位能耗、鐵合金單位產品冶煉電耗)進行統計,掌握企業的整體能源消耗水平及增長趨勢,為節能降耗目標完成提供數據支撐。企業能耗統計如圖4所示。

圖4 企業能耗統計
基于該系統,政府部門能全面掌握全省工業運行的現狀以及變化趨勢,能從行業、地域、工業園區、產品、企業等不同的角度展現全省工業經濟運行情況。工業經濟運行監測包含重點企業運行監測、園區運行監測、行業運行監測、重點產品運行監測等,是精細化的工業經濟運行監測和精準化經濟運行綜合協調的核心支撐能力之一。
企業按行業劃分主要包括:煤炭、電力、化工、冶金、有色、輕紡、機械、建材、醫藥等行業。按行業統計的各行業工業增加值及增速如圖5所示。
通過開發面向工業經濟運行的預警規則和知識模型,對各項管理指標能夠設置預警,并實現主要指標數據預測功能。在運行監測業務門戶中,展示工業運行中超出預警線的業務指標,使領導可以看到超出預警線的指標,及時針對出現的問題提出解決方案。
同時對工業經濟的預測主要考察兩個指標:工業增加值和工業增加值增速。利用建立的模型對整個省級及各地級市的工業增加值和工業增加值增速進行預測,得到相關預測曲線。某地區2018年的工業增加值及工業增加值增速預測值如圖6所示。
同時隨著數據量的不斷增加,模型需要進行及時訓練,從而使預測結果具有更大的可信度。

圖5 各行業工業增加值及增速

圖6 某地區2018年的工業增加值及工業增加值增速預測值
通過整合傳感器、無線通信、分布式數據庫等大數據技術,實現了多數據源的高效采集、傳輸、存儲和分析,搭建了一套用于重大投資項目管理、企業節能降耗監測、經濟運行監控與預測的工業大數據管理系統。利用該系統不僅服務于現有政府項目管理、經濟統計工作,還能夠對經濟形勢進行預測,為企業轉型、政府產業機構調整提供技術支撐。同時系統保留二期的擴展能力,加強與統計、電力、稅務、銀行等部門的企業數據共享、關聯比對和分析,充分挖掘企業動態數據價值,改進提升經濟運行監測、預測和風險預警,從而帶動工業大數據相關產業發展。