尹君 代作松 王文哲
1. 國網(wǎng)烏魯木齊供電公司 新疆 烏魯木齊 830000
2. 南京南瑞信息通信科技有限公司 江蘇 南京 210003
3. 中國葛洲壩集團國際工程有限公司 北京 100025
所謂的元數(shù)據(jù),指的是一種描述性數(shù)據(jù),是對系統(tǒng)進行理解和使用的重要資料,也就是說所有對系統(tǒng)進行描述的數(shù)據(jù)都屬于元數(shù)據(jù),如文檔、手冊等。從使用者的角度進行劃分,可以將元數(shù)據(jù)分為業(yè)務(wù)與技術(shù)兩種;從記錄形式上劃分,可以分為結(jié)構(gòu)化與非結(jié)構(gòu)化兩種。元數(shù)據(jù)最主要的作用就是對系統(tǒng)進行描述,從而幫助系統(tǒng)使用人員準確全面的了解系統(tǒng)的各項功能。如果系統(tǒng)中缺少了元數(shù)據(jù),那么系統(tǒng)中所收集的和儲存的數(shù)據(jù)將會失去它的作用[1]。
由于各平臺間存在的差異,元數(shù)據(jù)的獲取方式各不相同,要想獲得完整準確的元數(shù)據(jù),存在著一定困難。各企業(yè)所建立的大數(shù)據(jù)平臺都有一定的閉源性,特別是平臺相關(guān)的元數(shù)據(jù)獲取十分困難。第二,系統(tǒng)自動獲取的元數(shù)據(jù)信息只對技術(shù)進行了描述,而缺少業(yè)務(wù)類的元數(shù)據(jù)信息,這不利于大數(shù)據(jù)平臺的數(shù)據(jù)提取與挖掘工作。第三,平臺元數(shù)據(jù)模型出現(xiàn)變更,通常是事后才發(fā)現(xiàn),這會對數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量造成較大的影響。企業(yè)業(yè)務(wù)變更頻繁的同時,元數(shù)據(jù)模型也需要進行頻繁的更新,在對元數(shù)據(jù)進行管理中需要保證模型與業(yè)務(wù)數(shù)據(jù)的同步,如果管理中出現(xiàn)問題,將會影響到系統(tǒng)對元數(shù)據(jù)的采集,從而影響了數(shù)據(jù)的質(zhì)量。通過上述問題可以看出,在大數(shù)據(jù)平臺日常的管理過程中,企業(yè)通常忽視了元數(shù)據(jù)管理的重要性,在需要使用時才發(fā)現(xiàn)元數(shù)據(jù)出現(xiàn)了問題[2]。
3.1.1 技術(shù)型元數(shù)據(jù)的自動獲取。電力行業(yè)的大數(shù)據(jù)平臺一般使用關(guān)系型數(shù)據(jù)庫進行元數(shù)據(jù)的儲存。其具體的儲存情況如下:視圖信息、索引表的基礎(chǔ)信息、Hive表、儲存表都儲存在TBIS之中;視圖授權(quán)信息以及屬性信息儲存在平臺的儲存庫中。根據(jù)表與表之間的關(guān)聯(lián)性對表內(nèi)信息進行整合,從而獲取表內(nèi)的字段、視圖等技術(shù)型元數(shù)據(jù)信息,在獲取這些元數(shù)據(jù)信息以后,通過業(yè)務(wù)表模型與業(yè)務(wù)字段模型來對電力行業(yè)大數(shù)據(jù)平臺的元數(shù)據(jù)信息進行儲存。
3.1.2 元數(shù)據(jù)關(guān)聯(lián)性信息的分析。其具體的分析過程如下:第一,在日志文件中對HIVESQL數(shù)據(jù)進行讀取,獲取到需要進行處理的數(shù)據(jù)信息。第二,對數(shù)據(jù)信息中的關(guān)鍵信息進行分塊處理,從而形成信息的邏輯分塊。第三,從形成的邏輯分塊中獲取到被處理信息的目標、源、邏輯以及字段等信息,然后對這些信息進行整合,形成元數(shù)據(jù)的基本信息,同時對數(shù)據(jù)的流向信息進行記錄,進而組建信息的關(guān)聯(lián)性。第四,在完成元數(shù)據(jù)信息的提取后,可以將這些信息封裝在平臺的任務(wù)之中,實現(xiàn)大數(shù)據(jù)平臺對元數(shù)據(jù)處理的自動化執(zhí)行。在大數(shù)據(jù)平臺實際進行數(shù)據(jù)信息的處理時,由于數(shù)據(jù)量較大,需要分析的工作量是巨大的。這時就可以采用日志切分法、多線程處理法等多種處理方式,提高數(shù)據(jù)信息分析處理效率,從而滿足電力行業(yè)數(shù)據(jù)處理的需求。
以技術(shù)部門為管理主導(dǎo)。元數(shù)據(jù)的管理工作與其他管理工作不同,其管理方式更偏向于技術(shù)活動。需要專業(yè)的技術(shù)人員對其進行開發(fā)與維護,在大數(shù)據(jù)平臺建設(shè)之初就需要對元數(shù)據(jù)管理工作進行建設(shè),并對其具體工作流程進行明確的規(guī)定。
制定元數(shù)據(jù)的管理制度。管理制度中需要包含元數(shù)據(jù)的具體管理要求以及相關(guān)的注意事項,具體內(nèi)容:第一,在元數(shù)據(jù)管理系統(tǒng)建立之初,就需要對業(yè)務(wù)型元數(shù)據(jù)的屬性進行補充,且補充的內(nèi)容要準確、全面并符合元數(shù)據(jù)補充規(guī)范,在系統(tǒng)完成后需要相關(guān)技術(shù)人員對補充的元數(shù)據(jù)信息進行審核。第二,當大數(shù)據(jù)平臺的業(yè)務(wù)信息、數(shù)據(jù)結(jié)構(gòu)以及相關(guān)功能發(fā)生變更時,需要對相關(guān)的元數(shù)據(jù)進行及時的更新,保證元數(shù)據(jù)信息與系統(tǒng)信息的一致,同時需要注意對歷史版本進行保留。第三,大數(shù)據(jù)平臺建設(shè)時,相關(guān)開發(fā)人員需要參照相關(guān)元數(shù)據(jù)的內(nèi)容,避免平臺后期開展的業(yè)務(wù)活動,與元數(shù)據(jù)信息的脫節(jié)。第四,當大數(shù)據(jù)平臺中相關(guān)業(yè)務(wù)下線時,要對相元數(shù)據(jù)進行保存,以方便后期的查閱。
充分利用元數(shù)據(jù)管理系統(tǒng)。對元數(shù)據(jù)信息的利用,不僅局限于分析數(shù)據(jù)的關(guān)聯(lián)性以及版本的管理等,上述功能更偏向于為技術(shù)人員提供服務(wù)。在元數(shù)據(jù)的實際使用中,應(yīng)該充分挖掘元數(shù)據(jù)的利用方式。只有充分利用元數(shù)據(jù),才能體現(xiàn)出這些數(shù)據(jù)的價值,元數(shù)據(jù)的管理工作是為了更好的對其進行利用,在利用過程中出現(xiàn)的問題又能反向的對其管理工作進行完善。電力行業(yè)管理人員以及技術(shù)人員要養(yǎng)成使用元數(shù)據(jù)的習慣,從而更加充分的對其進行利用。
血緣分析主要是對分析元數(shù)據(jù)的數(shù)據(jù)來源進,通過查看元數(shù)據(jù)的關(guān)聯(lián)信息,能反向進行分析直到數(shù)據(jù)信息的起點,從而了解數(shù)據(jù)信息的來源。血緣分析能夠為企業(yè)解決數(shù)據(jù)的追溯問題,提高平臺數(shù)據(jù)信息的質(zhì)量。
關(guān)聯(lián)分析主要是分析信息的重要程度。通過分析信息的重要程度實現(xiàn)信息的準確評估。這主要是幫助電力行業(yè)技術(shù)人員對重要數(shù)據(jù)進行認知,使技術(shù)人員能夠準確地對重要數(shù)據(jù)進行優(yōu)化,從而提升平臺的運行效率。
元數(shù)據(jù)影響分析主要是分析數(shù)據(jù)的影響范圍。影響分析主要是對數(shù)據(jù)進行正向的分析,從而到達數(shù)據(jù)的終點。影響分析主要是對電力行業(yè)各種數(shù)據(jù)的影響變化程度以及影響范圍進行分析。該分析能解決企業(yè)數(shù)據(jù)平臺無法準確定位影響范圍的問題,能為企業(yè)的平穩(wěn)生產(chǎn)提供數(shù)據(jù)保障。
總之,電力行業(yè)對業(yè)務(wù)的精細化管理提出了更高的要求,這就需要電力行業(yè)改變以往的數(shù)據(jù)管理方式。而對元數(shù)據(jù)進行管理則是企業(yè)數(shù)據(jù)管理的基礎(chǔ),并在一定程度上保證了企業(yè)數(shù)據(jù)的質(zhì)量。