佘俊 周宇鵬 王林 董天波 蘭天
摘 要 隨著物聯網、大數據等IT技術的快速發展,產生了大量多源異構的數據,但這些數據往往是各自為政、孤立存在,數據中蘊藏的知識和價值不能得到有效釋放。首先分析了工業大數據的現狀和特性,針對大數據時代的數據應用挑戰,提出元數據驅動的大數據服務平臺的體系結構,利用元數據實現數據標準化管理,并驅動合適粒度的數據服務,實現大數據時代的數據自服務平臺,推動數據共享和價值釋放。
關鍵詞 大數據;元數據;數據服務
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2018)206-0105-03
隨著物聯網、大數據等IT技術的快速發展,包括電力企業在內的行業均產生大量的數據,其數據儲存也占據著大量的資源,依據相關數據限制,在未來的發展中其數據總量呈現上升趨勢,大數據時代屬于一場前所未有的革命。當前大數據主要應用在互聯網、傳統商業領域,主要是開展客戶挖掘、購物行為預測,購物需求分析等。在信息時代下,工業化生產逐漸朝著智能化、柔性化的方向發展。不管是在生產設備,或者是感知設備均屬于數據的生產者。依據相關資料顯示,制造行業內的數據儲存量明顯高于其他行業。在2012年其數據儲存量已經接近于2EB。隨著數據儲存量的增長,其管理難度、數據種類也在不斷變化,呈爆炸式增長趨勢,直接導致工業大數據爆發[ 1 ]。德國的4.0工業、美國的工業互聯網行業的深入發展以及“中國制造2025”規劃,將促使智能化分析與物聯網實現密切配合,以此對現存的生產方式、管理方式進行轉變[ 2 ]。德國4.0工業也提出過“智能工廠”“智能物流”等發展理念,在任何一種發現理念中,其數據屬于底層核心。工業4.0就是將多源異構的數據整合并支撐前端智能的過程。無疑,數據將會滲透到企業運營的整個生命周期,推動制造業向智能化轉型,意味著工業大數據時代到來[ 3 ]。
結合相關資料,工業大數據本身具備采樣性、多樣性的排列順序,其數據還具備混雜性的特點[4]。工業數據主要分為密集數據、慢數據、快數據。通過深入分析發現,工業數據還具有多源性、廣泛性、動態性的特點,在工業數據的應用與管理上存在著較多的問題與挑戰。主要是因為工業數據涉及的部門較多,其涉及的領域也比較廣,在實際工作中面臨著數據安全、所有權、質量、管理、控制等問題。加之當前我國對工業數據管理與控制上還未能形成統一的管理制度與管理固定,在實際的管理中“信息孤島”現象普遍存在。這就對工業產生的海量數據,如何進行合理管理,科學儲存,以此提升數據資源的利用率,成為當前工業行業改革的重點問題之一。
使用元數據,能夠對工業數據進行目錄化管理,實現數據服務,這類技術能夠彌補傳統數據集中中的缺陷,特別是數據集成不完善問題。從而能使工業大數據能得到更好的存儲和共享。
1 平臺體系架構
多源異構的數據就像一個個信息孤島,如何集成到統一的數據中心并在統一管理下對外提供數據服務是研究的重點。為了打破數據壁壘,釋放數據價值,應用元數據管理技術建立元數據管理平臺,實現元數據的采集、變更、刪除及檢索,并在元數據的驅動下實現數據的抽取、轉換、加載,結合數據標準管理、數據模型管理和數據質量管理,建立電子化數據目錄,最終實現統一的對外數據服務。
數據中心將來源于設備狀態監測、企業管理信息系統等不同來源、不同特性的數據通過統一的ETL過程存儲下來,并在此過程中實現元數據的采集和稽核,建立電子化的數據目錄并存儲在元數據庫中,同時在服務平臺上建立適當粒度的數據服務。外部應用可以在元數據管理平臺中檢索元數據和數據服務,并構成數據服務請求進而訪問數據,從而實現應用系統以自助式、自主式的方式獲得數據,真正意義上打破數據壁壘,實現工業大數據環境下的數據自服務,釋放數據價值。
2 關鍵技術
2.1 元數據管理
元數據是一種結構化的信息,用于對某項信息資源進行描述、解釋、定位,使其易于提取和使用。工業大數據時代,如何從海量數據中發現知識進行分析成為難題。為此通過元數據管理高效支撐海量數據資產的快速識別定位、高效有序管理和智能便捷應用,使決策者知曉數據資產概況,管理者知曉數據資產的健康運行狀況,使用者知曉數據資產的來龍去脈。
元數據包括業務元數據、技術元數據和管理元數據。元數據管理以業務模型為切入點,以數據模型(特指基于業務原始數據且未進行邏輯加工處理的模型)為中心,制定業務模型和數據模型標準,管理數據模型、數據應用、數據集成、數據處理、數據視圖等對象元數據信息,監控標準的執行情況。
元數據管理包含元數據采集、元數據維護、元數據發布、血緣分析、影響度分析、表關聯度分析、元數據稽核等功能。通過自動采集ETL轉換過程,對結構化、非結構化的數據進行統一管理,進而支撐上層數據服務。
2.2 數據標準管理
數據標準管理要符合企業數據標準管理的相關辦法,落實數據標準管理相關人員的職責,固化數據標準管理的流程規范。
數據標準管理通過采集抽取元數據,建立標準數據與元數據映射,并對關鍵元數據進行篩選,按照業務、地域、系統3個維度進行劃分形成數據目錄,數據目錄支持按維度下鉆瀏覽,同時支持數據標準對數據地圖進行探索;數據標準管理支持數據分布智能查詢、數據分布瀏覽功能。可根據元數據信息及專業數據,結合業務經驗,將具有詞典意義的單詞定義為標準單詞,也可將多個單詞組合成業務術語或技術用語。
2.3 數據模型管理
數據模型管理是對企業概念模型、邏輯模型和物理模型進行統一管理,覆蓋模型的設計、發布和應用等各階段。數據模型管理將企業模型管理規范、模型與數據庫映射管理導入數據模型管理組件中,并提供模型信息維護、版本管理、業務模型與物理模型映射等功能。數據模型管理也提供模型的可視化展現、在設計期、開發期、運行期的模型分析比對、模型的分發功能,進行模型的全生命周期管理。
2.4 數據服務總線
數據服務總線建立基于元數據和數據模型的對外數據服務,采用基于數據模型的可視化配置的方式,節省繁復的接口腳本編寫過程,提高數據服務的效率。
數據服務總線提供的統一的數據服務目錄,對數據資產的產生、位置、責任單位、共享范圍、更新維護方式、服務方式等方面的信息進行全面描述,為企業提供統一的數據資源全景地圖,明確信息資源有什么,在哪里,誰負責,做到“信息清、資源清”。
通過數據服務標準化開放訪問,幫助數據中心和應用中心實現應用和數據分離,提高應用開發效率和生產效率。訪問接口支持Web?Service、Http/ Rest、FTP等,并提供統一的服務封裝能力,將對外共享的數據按照一定粒度封裝為獨立的服務實體,盡可能屏蔽內部的細節,只提供標準化的交互接口,保證了數據的安全性和數據交換的標準化。
3 應用實踐
中國南方電網有限責任公司調峰調頻發電公司成立于2006年7月,隸屬于中國南方電網有限責任公司。公司主要負責南方電網區域內的調峰、調頻電廠的運營、維護、管理和建設工作。其工作目的是為南方電網提供優質運行服務,確保南方電網的安全性、經濟性。目前,公司的已投運機組容量642萬kW,在建機組容量158萬kW,前期開發項目容量660萬kW。公司的管轄范圍主要包括:調峰、調頻、調相、事故備用等,是確保電網安全運行的關鍵環節,直接帶動了當地經濟的發展。
當前調峰調頻發電公司正在開展圍繞發電設備狀態監測的狀態監測中心研究與建設工作。其軟件環境分為數據中心和應用中心兩大部分。數據中心集中存儲設備準實時數據和管理業務的結構化數據,分為采集層、存儲層、數據倉庫層、數據服務層。應用中心以輕量化應用的思路,遵循OSGi技術規范,支持PC端、移動端的組件化應用。
通過應用元數據驅動的數據服務平臺,狀態監測中心的數據中心已具備各類準實時的設備監測數據和結構化的業務系統數據統一采集、存儲、綜合管理、分析和數據服務等功能,初步實現應用和數據的解耦,為設備實時管理、企業實時管控和科學決策提供支持。
4 結論
隨著數據的指數級爆發式增長,企業信息化轉型和數字化驅動的迫切需求,如何應對大數據時代,從數據中發現知識并驅動企業發展,成為當前的熱點問題。提出元數據驅動的數據服務平臺,適合大數據的存儲分析應用需求,是實現數據自服務、推動企業數據化運營的可行路線。在未來的工作中,要考慮如何將數據服務平臺支撐的應用效果反饋到平臺中,實現閉環的數據服務體系,對設備監測和企業管理進行控制優化。
參考文獻
[1]GE智能平臺.工業大數據云利用大數據集推動創新、競爭和增長[J].自動化博覽,2012(12):40-42.
[2]羅平.淺談工業大數據的價值實現方式[J].商,2015(29):210-2l1.
[3]馬蕾.何為工業大數據[J].經營者(汽車商業評論),2015(7):105-108.
[4]劉強,秦泗釗.過程工業大數據建模研究展望[J].自動化學報,2016(2):161-171.
[5]王淑芬.基于大數據的制造運行監測與分析平臺研究[D].廣州:廣東工業大學,2014.