999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于運營商的數據質量管控體系探討

2016-11-17 02:37:52林碧蘭張暉黃學田
中國新通信 2016年17期

林碧蘭 張暉 黃學田

【摘要】目前電信運營商均在進行各類網絡及數據的集約化,集約化過程中數據涉及較多環節,任何一個環節出現問題都會影響數據質量。本文對數據質量管控內容、運營商數據質量現狀做了深入研究,詳細論述了如何借助系統,通過數據質量監控和數據質量分析等手段,發現數據質量問題,并針對可能出現的各類數據質量問題,提出了切實可行的解決方案。該體系方案已在中國電信多個數據集中項目中得到了實施,并取得了良好的應用效果。

【關鍵詞】質量監控 質量分析 數據補救措施

“數據,已經滲透到當今每一個行業和業務職能領域。”大數據時代的來臨,為企業特別是運營商帶來了前所未有的機遇,與此同時,數據分析及應用的挑戰也接踵而來。運營商所需存儲處理的數據量驚人,數據來源及結構繁多復雜,要想充分發揮大數據所賦予的價值,必須擁有可靠、準確、及時的高質量數據。

只有從高質量的大規模數據中提取隱含的真實有用的信息,運營商才能做出更加精準、更加符合市場和客戶需求的決策,否則大數據的優勢將化為泡影。為此,運營商需要更加注重大數據時代下的數據質量。

一、數據質量管控內容

數據質量管理,是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。數據質量通常通過以下幾個維度來衡量:完整性、準確性和及時性。完整性指的是數據信息是否存在缺失的狀況,數據缺失的情況可能是整個數據記錄缺失,也可能是數據中某個字段信息的記錄缺失。準確性是統計數據質量在統計信息客觀真實性方面的體現,是統計數據使用者的首要要求。數據的準確性包含正確性和有效性。及時性是統計數據質量在統計信息的時間價值上的體現,及時性對于數據分析本身要求并不高,但如果數據分析周期加上數據建立的時間過長,就可能導致分析得出的結論失去了借鑒意義。

二、產生數據質量問題的原因

數據分析系統的靈魂是數據。“臟數據”,即數據質量差的數據,它們的存在直接影響了分析系統的使用質量。如果數據倉庫中存在著大量的不可信賴的臟數據,那么基于它所做的分析項目就會受到極大的影響。因此提高數據質量是運營商大數據分析必須面對的問題。為了更好地解決數據質量問題,就必須對臟數據來源有個清晰的了解。歸結起來主要有3個來源:源系統、數據集成過程及數據分析過程。

致使源數據系統中存在臟數據的原因主要包括:數據實施過程中完整性受到破壞但未被發現;軟硬件故障導致數據質量被破壞;不同的源系統的數據相互之間不一致,這可能由于各系統來自不同的廠商,沒有統一的數據定義,沒有采用統一的規則等;沒有正確的命名規范或數據定義,可能會導致統計上的混淆。

第二大產生臟數據的過程就是在源數據加載到數據倉庫之前的清洗、加載流程,即數據集成過程。由于錄入到數據倉庫的數據來自于各個不同平臺系統,源數據之間的數據結構、信息編碼、數據定義等方面可能都不一致,集成過程就是把這些凌亂的數據源進行整理和統一。而開發人員對數據源系統的業務方面理解的不充分,導致規則理解錯誤,或者即使規則很明確,ETL開發的過程中也會發生一些錯誤,例如邏輯錯誤、書寫錯誤等,這些都將直接導致臟數據的產生。

數據分析建模是指用適當的統計分析方法、模型對收集來的大量數據進行分析,提取有用信息形成結論。在該過程中,可能存在同一指標不同開發人員多個算法、或者開發人員人為處理錯誤等導致臟數據的產生。

三、傳統數據質量管控方式

運營商的各個網管、IT系統經過長期的建設演進,雖然在各系統內部已初具一些數據質量監控手段,但傳統的數據質量監控方式仍比較單一,由各自專業網管承擔,通常需較多人為干預,效率較低,且數據質量好壞很大程度上依賴于維護人員的業務熟悉程度。目前運營商在進行各類數據的集約化,集約化過程中數據涉及采集層、處理層及應用層等多層面,而且網管、平臺數據從采集、處理到大數據應用,需跨多地域多個專業系統,專業領域跨度大且涉及多個廠商及不同接口,存在越來越多數據質量隱患環節,任何一個環節出現問題都會影響數據質量。

傳統的數據管理模式逐漸滿足不了網絡運維管理集中化及大數據分析的要求,難以對數據質量進行有效監控,無法快速對各類數據問題進行溯源分析,且數據質量監控工作各個環節相應的角色和職責等機制未建立,難以支撐數據質量問題的及時處理。

在網管集約化的演進趨勢下,亟需建議一套完善的數據質量管控體系,智能化主動發現問題,并改變以往逐層進行問題排查的盲目工作方式。

在該體系下,對跨區域、跨系統數據端到端采集、處理流程進行梳理,設置數據質量監測點,并通過可視化視圖使網管維護人員清晰地發現和定位問題出現點,主動地發現解決問題,并采用自動派單及時通知相關維護人員處理,提升數據維護效率及數據質量。

四、建立數據質量管控體系

建立數據質量監控體系需基于統一數據集約及監控平臺上從數據質量監控、分析及數據補救幾個環節入手,下圖為數據質量管控體系結構規劃圖。

4.1數據質量監控

數據質量主要監控功能包括數據完整性、準確性、及時性監控、數據異常告警以及接口運行監控等。在采集層及數據處理主要階段設置數據質量檢測點,支持對數據質量的全程監控,同時,將監控界面可視化,使維護人員能夠快速直觀地定位到問題所在。

4.1.1數據完整性監控

對數據的完整性監控,通過系統界面設置各類數據在每個采集周期的監控粒度、系統進行數據完整性檢查的時間周期后,應可以看到該采集源下數據完整性監控的矩陣圖,該界面提供具體采集信息,包括完整率、采集條數、經驗值、完整率閾值等。比如對省平臺上報的文件數量或大小波動是否大于閾值進行監控,對省平臺上報文件數量、大小與集團平臺獲取到的文件數量、文件大小是否一致進行核對和監控等,并形成告警,提供可視界面對告警信息的詳情查看的輔助功能。

4.1.2數據準確性監控

數據質量監控是以數據的提供信息的準確性為目標。數據準確性監控,主要是針對重點考核的指標進行正確性、有效性的監控和分析。

數據正確性監控。根據同期或歷史經驗值(可設置)進行重點采集和指標合理性對比分析,能夠自動對那些超出閾值的重點指標進行篩選,以及同一指標在不同報表或報告中是否一致對比等。這種情況可能會發生在當其他檢查規則都未出現異常時,指標準確性仍可能出現異常,如某天的數據上報文件數量和大小都正常,但文件的部分指標值為0或與上月波動超過閥值。

數據有效性監控。大多數情況下,字段的空值、空字符串、負值、0都是無效信息,或者某些字段有固定的格式,若與格式不相符,我們也認為該取值是無效信息。無效值的比例越多,建模時能夠利用的信息就越少。當無效值的比例大到一定程度,我們甚至認為該變量對于建模是無效的。對于無效值較多的變量,我們將首先懷疑數據處理過程是否存在錯誤。如無錯誤,對于極差和無效的變量,在建模時將慎用甚至棄用。系統應支持對多維度重要字段數據無效率的分析,當無效率超過閾值時,在下一步數據分析前剔除該部分數據。另外,系統應支持對異常值的原因分析。

及時監控的同時,系統均應形成告警,并在可視界面上提供對告警信息的詳情查看的輔助功能,運維人員可及時對這些異常指標進行數據處理和采取相應補救措施,避免這些不合理的采集數據對上層應用決策和分析造成負面影響。

4.1.3數據及時性監控

對數據及時性進行監控,應具備對上報接口是否及時上報或數據處理過程是否在規定的時間內處理完成進行監控的能力。在數據可視矩陣圖上應能夠清晰地標注出采集及時的數據、延時的數據、采集異常的數據,以及處理延時、異常的數據。

同時,該功能能夠對不及時或異常的數據進行及時監控,形成告警,并提供可視界面對告警信息的詳情查看的輔助功能。

4.1.4接口運行監控

監控接口是避免故障突發的重要措施。通過分析運行情況,監控接口能實現異常情況的提前預警,有效地縮短故障持續時間。接口運行監控是指采集適配平臺對各接口的運行情況的監控功能。

接口監控負責監控與統一適配平臺對接的接口,包括接口連接是否正常,連接進程狀態,連接數量,數據采集是否正常、網絡速率是否正常等。主要根據接口調用返回的異常結果來進行顯示。同時,能夠支持將接口運行狀態形成告警,并以可視界面進行管理。

4.2數據質量分析

數據質量分析功能要求系統能夠支持多手段、多維度數據質量分析。分析手段方面,采用總量稽核和分量稽核的全面校驗手段。總量稽核的基本算法是對入口源和出口各相鄰處理環節的數據,進行數據總量的驗證。總量驗證需要對所有度量指標進行比對,如總記錄數、總次數、總時長、文件大小等。

分量稽核是在總量稽核正確的前提下,從各個角度對重要指標進行稽核,比如對各類重要數據的占比、同比、環比、異常比例、不同節點問是否一致等進行比較,以保證數據的質量。

分析維度方面,可從系統維度、廠家維度、省份維度、接口類型維度等多維度分析。通過總量稽核、分量稽核及多維度地分析處理,系統生成相關的數據稽核報表,從而評定數據質量,并對其進行有效的管理。

4.3數據補救措施

當數據不完整、延時、不準確等狀況發生時,應主要致力保障采集層數據質量以支撐上層應用系統正常運行。主要的補救措施包括數據自動補采、人工補采、數據剔除等。

4.3.1系統自動補采

當系統發現數據不完整時,系統應能依據策略自動或手動觸發數據補采。數據自動補采策略內容包括補采檢查時間點、數據完整率補采閥值等。系統支持定時輪詢檢測數據完整率情況,當數據完整率低于設定值時,管理服務器會根據補采策略在閑時下發補采任務,自動執行數據補采操作,同時系統應支持補采完成通知配置。

4.3.2人工補采

當通過完整率監控無法發現數據質量問題時(即有時通過數據準確性發現問題),支持通過系統界面,選擇相應的補采策略,進行手工補采。可支持進行單個時間點、單個文件、單個指標的補采,也可支持批量補采。

4.3.3數據剔重及填充

在進行數據處理前,有個一比較重要的操作就是去除數據中的重復記錄。有時候由于接口或網絡的問題,數據源傳過來時會存在較多的相同數據,就需要將這些重復數據剔除掉。在進行完整性監控時,需要對源數據和采集數據進行一致性比較,當采集數據量大于源數據時,需要支持對該部分數據進行剔重的功能。

當源系統數據由于客觀原因導致無法進行自動或人工補采時,系統可支持維護人員根據數據填充規則對近期缺失的數據進行批量填補,以確保數據的完整性。數據填補規則包括指標的設定、指標值的范圍設定(平均值、最大值、經驗值,數值可編輯)、數據填補時間段及時間點的設定。另外,可以憑借經驗值對由于設備故障或網絡等因素產生的異常數據或者偏離很大的數據進行修補,從而保障數據質量。

五、結束語

目前,上述數據質量管控體系方案已在中國電信集團公司網運部的數據集約項目中得到了初步實施及驗證。通過該體系系統,維護人員可較快定位數據質量問題所在,數據質量得到了較好地管控。

隨著網絡運行及經營數據的日趨龐大,數據質量的稽查工作也將變成日常工作中越來越重要的一項。如何盡量避免在數據質量核查時過多的人工操作,避免因手工操作而產生的人為性失誤,這就需要對整個系統、業務流程非常熟悉和了解,對每一個可能發生的數據質量問題都能夠提出應對措施,爭取數據質量監控和數據質量解決全部實現程序自動化。另外,制定出更科學的數據質量評判規則及標準,以便建立一套完善的數據質量管控體系,這也是在今后的數據質量管理工作中努力的目標和方向。

主站蜘蛛池模板: 欧洲亚洲一区| 在线观看的黄网| 成人日韩视频| 黑人巨大精品欧美一区二区区| 中文天堂在线视频| 国产91精品久久| 91青青在线视频| 日韩欧美综合在线制服| 日本久久免费| 欧美不卡视频在线| 亚洲天堂视频在线播放| 国产精品无码久久久久久| 欧美一级高清免费a| 国产成人高清亚洲一区久久| 午夜精品久久久久久久99热下载 | 亚洲无卡视频| 欧美啪啪一区| 亚洲欧洲自拍拍偷午夜色| www欧美在线观看| 日韩久草视频| 午夜精品福利影院| 国产激情无码一区二区APP| 日韩欧美国产成人| 9cao视频精品| 91成人在线免费观看| 国产三级国产精品国产普男人 | 91久久夜色精品| 精品欧美日韩国产日漫一区不卡| 激情无码字幕综合| a级毛片一区二区免费视频| 国产成人在线无码免费视频| 亚洲三级色| 国产一区二区三区视频| 亚洲成在人线av品善网好看| 国产精品分类视频分类一区| 国产精品2| 精品国产亚洲人成在线| 日韩在线1| 四虎国产精品永久一区| jizz国产在线| 精品无码人妻一区二区| 看av免费毛片手机播放| 国产乱人伦精品一区二区| 亚洲欧美另类中文字幕| 久久久久青草大香线综合精品 | 成人午夜精品一级毛片 | 欧洲熟妇精品视频| 91青青视频| 日本a∨在线观看| 亚洲日韩高清在线亚洲专区| 91区国产福利在线观看午夜| 国产精品第页| 欧美a在线看| 亚洲成人高清无码| 国产精品第页| 中文字幕亚洲电影| 国产精品午夜福利麻豆| 亚洲综合九九| 精品视频一区在线观看| 国产福利一区视频| 欧美一级视频免费| 欧美日韩成人| 亚洲精品桃花岛av在线| 欧美天天干| 成人免费网站久久久| 国产SUV精品一区二区| 亚洲综合第一区| 91国内视频在线观看| 国产精品不卡片视频免费观看| 一级毛片视频免费| 国产人人射| 久久精品中文无码资源站| 欧美高清视频一区二区三区| 国产精品内射视频| 欧美在线国产| 成人看片欧美一区二区| 亚洲国产精品不卡在线| 毛片网站免费在线观看| 粗大猛烈进出高潮视频无码| 99精品热视频这里只有精品7 | 欧洲日本亚洲中文字幕| 国产高清在线精品一区二区三区 |