田肖,楊帥鵬,賈會梅,李進曌,霍賀婧,李賀
(1.南陽醫學高等專科學校衛生管理系,河南南陽,473004;2.北京郵電大學網絡與交換技術國家重點實驗室,北京,100876;3.南陽師范學院 計算機科學與技術學院,河南省數字圖像大數據智能處理工程研究中心,河南南陽,473061;4.西安恒品電子科技有限公司,陜西西安,710086;5.河南中光學集團有限公司,河南南陽,473003)
智能數據采集和大數據分析技術解決了傳統數據收集中特色數據難統一、數據匯總繁瑣、分析復雜等問題,可在短時間內收集整理數據、分析數據趨勢,有利于緊急事件的及時研判和提高日常工作效率。本文設計的智能數據采集及可視化分析系統能夠收集和管理數據,也可以根據需求快速創建任何表單,利用大數據可視化技術進行分析展示,滿足應急事件、日常辦公等多應用場景的需求,極大提高工作效率。
智能數據采集及可視化分析系統技術架構如圖1所示,本系統采用前后端分離模式,嚴守企業級架構和規范,采用主流后端技術棧Spring Cloud+Mysql+Redis+RabbitMQ等微服務、分布式、微架構。微服務架構易于開發和維護,技術棧不受限,可以根據需求合理選擇,還可以按需伸縮,實現細粒度的擴展。可將系統架構具體分為用戶層、業務層、信息處理層和數據存儲層。
用戶層提供可視化的數據匯總、分析界面;數據處理層實現智能數據收集及可視化分析系統的具體功能,包括表單創建、數據收集、數據匯總及數據分析可視化等功能;數據存儲層完成對所收集數據的備份存儲等。

圖1 系統技術架構
用戶利用系統提供大量控件自主創建表單,并支持拖拽式全屏編輯,使得采集表單更加清晰結構化。如圖2所示。

圖2 用戶編輯頁面
支持設定標簽,使用標簽也能進行分類,或用來標識特定屬性的表單,以實現表單的快速定位。添加表單介紹可以讓采集人員或填表人員更加明確采集的內容和要求.表單發布時對已創建的表單關聯選擇填表成員進行發布,填表成員需要登陸賬號進行數據填報;支持多種分發模式:所有人可填、按部門采集、選擇人員可填等。
本系統采用的是微服務架構,通過Hystrix庫用于隔離訪問遠程系統,服務或者第三方庫,防止級聯失敗,從而提升系統的可用性和容錯性。使用Zuul構建服務網關,利用Zuul過濾器進行用戶身份驗證、壓力測試、負載均衡等功能。以及使用Spring CloudConfig統一管理微服務配置。通過以上內容保證用戶數據安全、完善使用體驗、提高工作效率。
系統通過調取用戶提交的表單或者用戶手動導入的方式進行數據收集,經過智能化數據匯總,數據清洗后,為用戶提供可視化界面,分析顯示數據分布、趨勢、比例等隱含內容,為用戶進一步決策提供有效數據參考。
(1)表單創建:基礎模塊、布局模塊及高級模塊多種方式相結合,包含靜態文本、單行文本框、復選框、信息區、隱藏域、下拉框、列表框、單選框、按鈕、日歷組件、意見框、字典、會議室、明細、組織結構、圖形、圖像域、日期、地圖、文件上傳等30多種控件,滿足各類信息收集需求。支持向導式建表,支持拖拽式全屏編輯,操作簡單、更加人性化、合理化。
(2)表單分發:表單發布時對已創建的表單關聯選擇填表成員進行發布,填表成員需要登陸賬號進行數據填報;支持多種分發模式:所有人可填、按部門采集、選擇人員可填等。
(3)表單收集:本系統可通過PC端采集、移動端采集、Web在線采集等多種采集方式,且多端數據互聯,用戶操作不受約束。填表人可以通過表單提交或文件導入的方式進行數據收集。經過智能化數據匯總,數據清洗后,創表人可通過表格方式看到采集到的數據,并且數據自動填充填表人員、填表部門、填表時間等信息,使得數據更加得豐富、檢索更快捷。

圖3 數據可視化分析展示
(4)表單匯總分析、可視化:系統對所收集數據進行匯總分析,支持一鍵發布、一鍵關閉,并且可以選擇采集的開始時間和截止時間,使得數據采集更加方便有效。數據統計是強大的匯總、分析數據的工具,幫助用戶了解、對比數據情況、趨勢和數據中隱藏的模式,數據可視化提供了一種非常清晰的溝通方式,可以讓數據更快的呈現在人們面前,便于人們對于數據的理解。
用戶在使用本系統時首先可通過導入表單方式進行數據分析或根據需求創建表單,再選擇關聯填表成員進行發布,填表成員需要登陸賬號進行數據填報,系統支持多種分發模式:所有人可填、按部門采集、選擇人員可填等。發布者可通過系統查看表單填寫回收情況,系統將所收集表單進行匯總,用戶可按需選取內容進行可視化顯示。實現對表單數據的快速創建、分發、收集、匯總分析、可視化等。
本系統采用Spring Cloud框架進行開發,此框架具有Netflix、Eureka、Hystrix等一系列完善的開發組件,更精準的制定優化服務方案,提高系統的可維護性,采用去中心化思想,服務之間采用Restful等輕量級通訊,比ESB更輕量。能夠為用戶提供更加快速、穩定的服務。
Hystrix是由Netflix開源的一個延遲和容錯庫,用于隔離訪問遠程系統,服務或者第三方庫,防止級聯失敗,從而提升系統的可用性和容錯性。Hystrix主 要通過包裹請求、跳閘機制、資源隔離、監控、回退機制、自我修復等實現延遲和容錯。實現機制如圖4所示。

圖4 Hystrix 實現機制
本系統利用大數據處理技術對用戶收集數據進行可視化分析展示,幫助用戶直觀對比了解數據情況,預測發展趨勢等數據中隱藏模式。在Hadoop平臺下利用HDFS分布式存儲框架,MapReduce分布式計算框架,Yarn資源調度平臺,能夠支撐大量數據的同時處理、存儲,為系統提供穩定支撐。