文/陳琨,王萍利
為保證系統數據資源的全面性和合理性,本文基于數據庫設計了一款功能完善、實用性強的大數據平臺。首先,本文在分析大數據平臺需求的基礎上,對該大數據平臺進行了科學設計;其次,為全方位確保大數據平臺的運行效果,本文為該大數據平臺配置了14臺服務器;最后,經過測試,在數據庫的應用背景下,本文所設計的大數據平臺運行正常、可靠、穩定,且平臺中各功能模塊均滿足相關設計要求。總的來說,該大數據平臺有效地提高了數據集成水平,有助于企業更加高效地運轉。本次研究旨在為相關技術人員提供有效借鑒。
得益于互聯網技術的迅猛發展,大數據技術被廣泛地應用于各個領域,從而更好地滿足了日益多樣化的信息資產需求,同時也為企業的現代化運行提供了重要的技術支持。隨著數據庫及大數據平臺的優化設計和推廣應用,企業的數據集成與分析應用水平進一步提高,進而促使企業更加高效地運轉。在此背景下,如何科學地設計和使用大數據平臺,成為相關技術人員必須思考和解決的問題。

為確保所設計的基于數據庫的大數據平臺能夠更好地滿足企業用戶的實際需求,本文盡可能全面地收集和整理了相關企業實際需要的系統數據資源。經整理,這些系統數據資源主要包含以下幾種。(1)工程管理系統。該系統通常涉及投資計劃、工程物質等數據,這類數據條目通常高達130萬條以上。(2)生產管理系統。該系統通常涉及庫存數據、運行操作數據以及設備物資數據等數據信息,這類數據條目通常在1900萬條以上。(3)人力資源系統。在實際運行過程中,該系統通常涉及員工薪資、員工職務等數據信息,且這類數據條目往往不少于4萬條。(4)財務管理系統。該系統主要包含企業在實際經營過程中所需要的發票、合同、報銷等相關數據信息,這類數據條目通常在400萬條以上。本文通過系統化分析和研究上述系統數據資源,發現相關企業在實際管理和經營過程中,各數據系統均表現出一定的獨立性和分散性,這無疑增加了信息數據共享的難度,同時極易引發“數據孤島”等問題。而基于數據

庫的大數據平臺的設計和應用,不僅可以更好地歸納、存儲和轉化結構化數據及非結構化數據,同時還能極大地提高數據集成水平,從而為相關企業的后續高效化、科學化運營和管理提供良好的平臺支持。
通常,在大數據平臺設計階段,技術人員必須在嚴格遵循統一性、經濟性、時效性等原則的基礎上,完成大數據集成平臺的總體框架設計。本文所研究的大數據集成平臺的總體框架設計如圖1所示。從圖1中可以看出,該大數據平臺重點整合了以下幾個層面。(1)數據源層。數據源層主要包含結構化數據、非結構化數據、實時數據等。為確保數據管理的統一性和集中性,用戶需要采用統一命名的方式,對不同類型的系統進行科學命名[1],并以此提高數據存儲的規范性。(2)數據集成層。數據集成層主要包含接口數據文件、消息隊列、接口表等內容。基于對系統所獲取的數據源層數據的整理和轉化,該大數據平臺能夠將數據存儲層進行有效連接。此時,用戶便可以通過大數據平臺提供的接口表[2],對結構化數據進行不間斷的銜接處理,進而確保結構化數據能夠安全、準確地傳輸到數據倉庫緩沖區。(3)數據存儲層。數據存儲層主要涉及數據倉庫平臺、流數據平臺以及分布式數據平臺。用戶可以利用數據存儲層,向數據源層安全、可靠地傳輸所需要的數據倉庫緩沖區的數據。
另外,在進行非結構化數據集成設計期間,本文主要采用了FTP文件傳輸方式,并對數據文件進行了科學化處理;同時,本文還利用FTP文件傳輸方式將非結構化數據傳輸到FTP服務器中;隨后,本文向數據平臺中安全、可靠地導入和存儲了此前獲取的非結構化數據,并向數據倉庫存儲區導入相應的數據結構信息,從而完成了數據存儲層的構建。需要注意的是,當大數據平臺內部含有大量的非結構化數據時,用戶需要采用接口調用的方式,向數據倉庫緩沖區導入所需要的非結構化數據。同時,由于實時數據監控系統在實際運行過程中,需要處理的數據量相對較大,且這些數據的時效性通常較強,所以本文所設計的大數據平臺可以通過數據源層來大量生成實時數據,并實時向數據平臺傳輸所需數據。此外,該大數據平臺的流數據平臺設計示意圖如圖2所示。在流數據平臺的實際設計環節,本文主要利用Redis技術和Java程序,完成了對Java轉儲程序的編寫;之后,本文將最終編寫好的轉儲程序存入了分布式數據平臺數據轉儲區。

當前,大數據平臺所使用的產品主要包含數據倉庫、流數據平臺、分布式數據倉庫等,這些產品的對應用途分別為分布式存儲、內存數據庫、數據倉庫等。為了進一步提高用戶的使用體驗,本文為此次設計的大數據平臺配置了14臺服務器;同時,本文嚴格按照大數據平臺部署圖,將管理節點、存儲節點同步設置到大數據平臺中。[3]隨后,本文結合相關企業的實際應用需求,對服務器進行了科學配置,從而在提高服務器資源利用率的基礎上,全面確保該大數據平臺具備強大的存儲功能和計算功能。此外,本文將設計完成的基于數據庫的大數據平臺科學地應用到某水電企業。經過六個月的運行使用,本文確定該大數據平臺完全符合該水電企業的實際使用需求,并且該大數據平臺在運行過程中具備較強的穩定性和可靠性,能夠為企業后期集成和分析應用數據提供良好的技術支持,便于企業實現高效化、自動化運行。[4]
綜上所述,本文對基于數據庫的大數據平臺的設計與實現,大致經歷了以下幾個階段。(1)本文通過全面分析相關企業的系統數據資源,發現各分部數據系統表現出一定的分散性和孤立性。對此,本文通過構建擴展性高、數據處理能力強的大數據平臺,從根本上解決了各信息系統間存在的“數據孤島”等問題。(2)本文在嚴格遵循大數據平臺先進性、時效性的基礎上,完成了大數據集成平臺總體框架的科學化設計,從而為企業更好地整合企業全類型數據奠定了基礎。(3)本文采用逐層分解的方式,優化了該大數據平臺的總體框架設計,完成了大數據平臺的整體構建,從而有效提高了系統運行的穩定性和可靠性。