鄧林 四川職業技術學院 計算機科學系
隨著國家大力提倡“互聯網+”,現在各行各業都在大量使用互聯網來重構本行業的數據系統,這種趨勢也已經滲透到各個行業。同時,數據的重要性也越發明顯,每個企業都會越來越重視各企業所產生的數據,開發出適應本單位的大數據系統顯得勢在必行。大數據包括結構化、半結構化和非結構化等異構數據源,其中結構化數據是指存儲于數據庫之類的關系型數據庫中的數據,非結構化的數據指聲音、圖像等數據,半結構化則是介于兩者之間的一種非關系型數據文件。隨著大家對互聯網的依賴程序地提高,非結構化數據越來越成為數據的主要部分,由此可見,異構數據源的集成是相當復雜的。我們要考慮如何去建立體系完整、標準統一、結構合理、功能完善的大數據系統,為單位或企業提供日常業務等提供綜合數據支撐。
整個系統前端首先接觸到數據的平臺就是數據采集平臺,數據采集平臺決定了初始數據的有效性,同時,數據的安全也顯得至關重要,為保證平臺的安全性,整個系統的終端在采集了實時數據后,利用安全手段通過數據單向傳輸存儲向專網大數據平臺傳輸終端數據。在傳輸過程中,對所有數據按照國家制定的該行業數據規范進行安全檢測存儲,檢測過程嚴格遵循數據的清洗、數據的加載以及數據的轉換的三大原則。并且終端錄入的實地數據按照接口規范以固定格式和固定路徑進行統一化存儲管理。
(1)由授過權的管理技術人員通過授權管理的主機在授權管理平臺中對設備進行授權記錄添加操作。
(2)授權管理技術人員將采集終端的設備連接到授權管理的主機上。
(3)授權管理技術人員登錄經過授權的客戶端程序,通過該程序自動去查找當前已連接的終端采集設備。
(4)授權管理技術人員對自動查找到的終端采集設備進行授權操作,允許其進行數據采集的權限,而客戶端程序則通過授權管理平臺對外接口進行查詢該設備的授權記錄。
(5)在授權管理平臺中查找到授權的相關數據時,授權相關的數據將通過對就的接口傳送至采集數據的終端設備上,并將本次授權相關的數據通過彈框的方式在采集終端的應用程序中進行提示。
(6)如果授權管理平臺未查找到相關授權的任何數據,也將通過彈框的方式在授權客戶端中進行提示。
(7)采集終端授權完成后,采集工作員可在授權截止日期前,提示采集到的信息必須在應用程序中進行登錄。
(8)采集工作員開始進行所有數據的采集工作。
(9)采集工作員完成數據采集工作后,將采集終端再次連接到采集授權管理的主機上,通過授權管理客戶端進行數據同步操作。
(10)終端采集數據完成同步后,將通過授權管理客戶端進行反授權操作,反授權成功后的設備將無法使用上次授權信息進行登錄。
(11)重復進行前面九步,循環地進行數據采集任務。
關系型數據集成工具的主要功能是通過與外部系統接口的定制開發,實現對來自政府、企事業和民眾等各類異構的結構化數據源的采集。隨后,通過關系型數據集成工具的關系型數據處理配置模塊、關系型數據處理管控模塊和關系型數據處理過程模塊實現對關系型數據的ETL處理,為數據倉庫提供完整、準確、統一、標準的數據。
關系型數據集成工具可以選擇一些開源的數據工具進行數據的操作,如Talend Open Studio等,將關系型數據集成以后便可以將數據傳遞給上層的分布式關系型數據庫進行存儲。
文件數據處理工具的功能是通過與外部系統接口的定制開發,實現對來自外部系統各類文本數據的采集。隨后,通過文件數據處理工具的文件數據處理配置模塊、文件數據處理管控模塊和文件數據處理過程模塊實現對文本數據的ETL處理,為數據倉庫提供完整、準確、統標準的文件數據。
對于文本數據的處理,一般通過提前設置好配置文件、管控模塊和過程模塊,對收集到的各類文本文件進行處理,即可將文件提交給上層的分布式數據庫進行存儲。
多媒體數據處理工具的功能是通過與外部系統接口的定制開發,實現對來自外部系統各類多媒體數據的采集。隨后,通過多媒體數據處理工具的多媒體數據處理配置模塊、多媒體數據處理管控模塊和多媒體數據處理過程模塊實現對多媒體數據的ETL處理,為數據倉庫提供完整準確、統一、標準的多媒體數據。
多媒體數據一般包括圖片、視頻、音頻文件等,通過多媒體數據處理工具可以將多媒體數據進行處理并以某種確定的形式儲存在分布式文件系統中或者分布式數據庫中。
流數據處理工具的功能是通過與外部系統接口的定制開發,實現對來自外部系統流數據的采集。隨后,通過流數據處理工具的多媒體數據處理配置模塊、多媒體數據處理管控模塊和多媒體數據處理過程模塊實現對流數據快速處理。
流數據處理工具擬采用Storm進行開發。Storm是一個免費開源、分布式、高容錯的實時計算系統。Storm令持續不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經常用于在實時分析、在線機器學習、持續計算、分布式遠程調用和ETL等領域。Storm的部署管理非常簡單,而且,在同類的流式計算工具,Storm的性能也是非常出眾的。
本論文結合某行業開發的在建系統,分別對前端數據源的構成進行了分析,然后提出了數據采集的詳細步驟,對每一步如何操作進行了說明。最后,重點對每一種異構數據源如何進行數據采集進行了分析,分別構建相應的采集平臺,實現每種異構數據采集工具。在下一步研究工作中,將重點研究大數據下數據集成后如何使用的問題,因此還需做更多的研究。