999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據技術的家寬覆蓋地址數據治理方法

2017-02-06 06:14:38雷水平李杰龍江立斌汪新勇
移動通信 2017年23期
關鍵詞:數據處理質量

何 慶,雷水平,李杰龍,江立斌,易 娜,汪新勇

(中國移動通信集團廣東有限公司南方基地,廣東 廣州 510640)

1 引言

電信運營商家庭寬帶(以下簡稱“家寬”)業務的核心基礎數據——家寬覆蓋地址數據的質量對其發展越來越重要。傳統粗放的數據管理方式導致了大量數據質量問題的涌現,如數據缺失、信息不準確、格式不統一等,成為運營商家寬業務發展的瓶頸之一,亟待解決。

數據治理[1]為從企業視角處理地址數據質量問題提供了理論基礎。數據治理是指從使用零散數據變為使用統一主數據,從具有很少或沒有組織和流程的治理到企業范圍內的綜合數據治理,從嘗試處理主數據混亂狀況達到主數據井井有條狀態的一個過程,目的是建立數據擁有者、使用者,以及數據和支撐系統之間互補的關系,從全企業視角協調,統領各層面的數據管理工作,確保內部各類人員能夠及時、準確地獲得數據支持和服務[2]。

大數據時代給電信運營商數據質量管控帶來了挑戰[3-5],但也提供了契機。近年來已有國內外學者開始研究大數據治理問題。談韻等人[6]針對支撐電網大數據應用所采集的數據,研究了電網大數據治理體系。李吉元[7]針對運營商如何利用好系統的數據資源的問題,以移動精準營銷平臺為依托,對大數據的治理進行了研究,以Hadoop的MapReduce并行處理框架和MPP庫為基礎,通過云化ETL和爬蟲技術設計實現了移動精準運營平臺的數據挖掘以及數據預處理功能。金天驕[8]根據稅務治理需求,搭建政務云稅務云環境,基于稅務云環境開展稅務數據治理,通過數據治理實現各類數據的集中定義和管理,為建立統一數據視圖、數據倉庫、數據集市提供語義基礎,充分利用大數據、云計算技術,提升數據治理能力。

鑒于此,本文將對電信運營商家寬覆蓋地址數據的質量問題,以數據治理理論為基礎,利用大數據技術對家寬覆蓋地址數據的治理方法展開研究,以提升家寬覆蓋地址數據的質量。

2 治理家寬覆蓋地址數據面臨的挑戰

覆蓋地址數據的質量問題主要有信息雜亂(即數據中摻雜非地址信息,如手機號、訂單號)、格式不統一(各地市的地址格式不相同)、關鍵數據缺失(如經緯度、街道、房號等數據缺失)、數據冗余(同一地址重復出現)等。由于缺乏統一的地址管控標準,使得家寬覆蓋地址數據的處理面臨3個方面的挑戰。

(1)如何解決海量地址數據的存儲和復雜運算問題

思考:在這個過程中,幼兒為了得出缺角的圓是否會遇到遺失的角,進行主動查閱資料、主動交流分享,并得出答案。這個過程充分體現了幼兒自主學習的過程。在自主學習的過程中,他們不僅熟悉的掌握了繪本《失落的一角》的故事內容,也在主動查找的過程中,體會到成功的喜悅,激發幼兒自主學習的欲望與興趣。

家寬覆蓋地址數據量達到億級別,兼具數據存儲和處理能力的傳統工具(如Excel)在性能和靈活性方面無法滿足要求。此外,地址數據處理還涉及有大量的非結構化數據(文本)操作,普通的數據庫處理起來需要耗費大量的時間。因此,要研究解決家寬覆蓋地址數據的存儲和復雜運算的方法。

(2)面對多種數據質量問題如何設計有效的處理流程

同一個地市會存在多種不同的數據質量問題,不同地市之間的數據質量問題也存在差異,設計有效的數據處理流程要能兼顧解決以上兩個方面的問題。

(3)如何實現快速檢驗治理后的數據是否滿足質量要求

由于地址數據量大,不可能人工對其進行檢驗,因此,需要實現快速自動化檢驗地址數據治理結果。

3 數據處理技術架構

大數據技術為海量數據的存儲和計算提供了技術支撐[9],針對家寬覆蓋地址數據的質量問題,提出了基于大數據技術的數據治理架構,接著對地址數據治理邏輯進行了分析,最后探討了數據治理的技術架構。

3.1 數據治理邏輯

治理數據不僅要保證數據處理的效率,還要能實現對治理后的數據質量是否達標進行校驗,數據治理邏輯如圖1所示:

圖1 大數據治理邏輯

首先對存在質量問題的數據進行處理,然后通過校驗方法檢驗處理結果,接著將檢驗結果實時反饋給處理環節,對不符合要求的數據再次進行處理,通過這種處理和校驗之間的不斷迭代來最終保證數據治理的質量。

3.2 地址數據處理技術架構

為解決地址數據處理過程中的存儲和計算問題,提出數據治理技術架構,如圖2所示。

◆數據存儲層:利用HDFS[10]解決家寬覆蓋地址數據的存儲問題,其中Sqoop用以實現關系數據庫與HDFS之間的數據傳輸,YARN/Zookeeper用于管理分布式集群資源。

◆數據處理層:在HDFS基礎之上,利用分布式計算框架Spark實現數據處理算法,同時解決數據處理過程中的性能問題,MySQL用于存儲結果數據。

圖2 數據治理技術架構

◆數據校驗層:數據自動化校驗服務利用地圖開發平臺提供的API接口,通過MySQL向地圖開放平臺傳輸數據,并實時返回校驗結果。

4 家寬覆蓋地址數據治理方法

根據3.1節的數據治理邏輯,本節對處理和校驗環節進行了分析,包含處理算法和校驗算法兩部分。

4.1 家寬覆蓋地址處理算法流程

家寬覆蓋地址處理流程如圖3所示,其流程描述如下:

(1)抽取總表的數據;

(2)以地市為基準對總表進行分表處理;

(3)利用正則表達式匹配規則,編寫程序處理問題數據;

(4)判斷去除的數據是否包含有用信息,若無,對無用的干擾信息置空;若有,則保留有用數據;

(5)根據校驗環節返回的數據檢驗結果,優化數據處理規則;

(6)輸出家寬地址數據處理結果。

4.2 家寬覆蓋地址校驗算法流程

數據校驗算法流程如圖4所示,校驗思路見圖4左側。首先抽取數據庫清洗后的地址數據,然后調用地圖開放平臺提供的API接口對處理后的地址進行校驗,最后獲取校驗返回的結果,檢驗地址是否符合標準,詳細流程見圖4右側。

圖3 數據處理算法流程

圖4 數據校驗算法流程

5 案例分析

5.1 案例描述

以某省某電信運營商為例進行探討。隨著該省家寬業務的快速發展,家寬覆蓋地址的質量問題逐漸凸顯,問題地址數據量大、涉及區域廣,嚴重影響運營商該業務的發展。通過分析得知,地址數據的質量問題主要集中在“摻雜非地址信息”、“非自建地址”、“不符合七級地址規范”3個方面。

5.2 解決方案

(1)數據治理流程

綜合上文提出的數據治理方法,結合本案例公司的家寬地址數據的特點設計了數據處理和校驗流程,如圖5所示。

(2)環境搭建

◆硬件環境

集群硬件:3臺2×8核CPU、128 G內存的x86服務器。

◆軟件環境

操作系統:Linux系統;

軟件:CDH5.4.5、MySql、python 3.4、SecureCRT 7.3、Navicat Premium。

5.3 結果分析

通過對案例省份各地市的家寬覆蓋地址數據進行自動化處理,使該省滿足質量要求的家寬覆蓋地址數在原來的基礎之上提升了24.5%。表1展示的是案例運營商家寬覆蓋地址治理前后的對比示例,通過對比處理前和處理后的數據,從表1中可以看出非地址信息(如編碼XQ0024、電話號碼0760-218178、特殊字符(FTTH)等)被處理,覆蓋地址質量得到提升。

圖5 某省某運營商家寬地址數據治理流程

6 結論

針對電信運營商家寬覆蓋地址數據的質量問題,結合數據治理理論,利用大數據技術提出了數據治理技術架構,設計了數據處理算法和校驗算法,實現了對有質量問題的地址數據的高效自動化處理,最后以某省電信運營商為例驗證提出的數據治理方法,結果表明該方法可以有效改善家寬覆蓋地址的質量問題。本文提出的數據治理方法目前只解決了已有家寬覆蓋地址數據的質量問題,后續在家寬覆蓋地址數據源的質量管控問題上需展開更加深入的研究。

[1] 桑尼爾·索雷斯. 大數據治理[M]. 匡斌,譯. 北京: 清華大學出版社, 2014.

[2] 張一鳴. 數據治理過程淺析[J]. 中國信息界, 2012(9): 15-17.

[3] 李衛,張云勇. 大數據時代電信運營商數據管控研究[J].移動通信, 2014,38(13): 10-14.

[4] 楊迪,馬怡安,王錚,等. 運營商在大數據背景下對數據質量管理體系的探索及思考[J]. 互聯網天地,2016(1): 73-79.

表1 家寬覆蓋地址治理前后對比示例

[5] 宗威,吳鋒. 大數據時代下數據質量的挑戰[J]. 西安交通大學學報(社會科學版), 2013,33(5): 38-43.

[6] 談韻. 電網大數據治理體系初探[J]. 電子技術與軟件工程, 2017(5): 182-183.

[7] 李吉元. 基于Hadoop的移動運營大規模數據治理[D]. 南京: 南京郵電大學, 2014.

[8] 金天驕. 稅務數據治理在運營商政務云平臺的實現方案研究[J]. 郵電設計技術, 2016(6): 69-73.

[9] 孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展, 2013,50(1): 146-169.

[10] Shvachko K, Kuang H, Radia S, et al. The Hadoop Distributed File System[C]//Symposium on MASS Storage Systems and Technologies. IEEE Computer Society, 2010:1-10.★

猜你喜歡
數據處理質量
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
“質量”知識鞏固
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
質量守恒定律考什么
做夢導致睡眠質量差嗎
關于質量的快速Q&A
MATLAB在化學工程與工藝實驗數據處理中的應用
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
Matlab在密立根油滴實驗數據處理中的應用
石器時代與質量的最初萌芽
主站蜘蛛池模板: 啪啪免费视频一区二区| 久久精品嫩草研究院| 国产美女91视频| 国产精品无码久久久久久| 在线观看精品国产入口| 高潮毛片免费观看| 国产成人毛片| 亚洲女同一区二区| 国产精品久久久久久久久久98| 亚洲欧洲综合| 免费观看男人免费桶女人视频| 亚洲AⅤ无码国产精品| 欧美精品二区| 色哟哟色院91精品网站| 国产成人精品日本亚洲77美色| 无码人中文字幕| 亚洲午夜福利精品无码不卡| 国产原创自拍不卡第一页| 亚洲首页国产精品丝袜| 香蕉精品在线| 欧美中文字幕在线二区| 亚洲国产精品无码久久一线| 国产丰满成熟女性性满足视频 | 久精品色妇丰满人妻| 亚洲小视频网站| 中文毛片无遮挡播放免费| jizz在线观看| 日韩小视频在线观看| 黄色不卡视频| 国产99热| 另类综合视频| 无码一区中文字幕| 亚洲一区免费看| 波多野结衣无码AV在线| 91成人在线免费视频| 国产欧美日韩另类| 国产欧美性爱网| 日本一区二区三区精品国产| 国产欧美另类| 亚洲二区视频| 美臀人妻中出中文字幕在线| 亚洲乱码在线视频| 伊人色综合久久天天| 国产成人精品综合| 成人免费黄色小视频| 成人伊人色一区二区三区| 狠狠色丁婷婷综合久久| 久996视频精品免费观看| 国产精品夜夜嗨视频免费视频| 亚洲精品日产精品乱码不卡| 玖玖精品视频在线观看| 亚洲视频一区在线| 久久婷婷人人澡人人爱91| 久久久久国产精品嫩草影院| 亚洲日本中文字幕乱码中文 | 亚洲三级成人| 日韩精品成人在线| 国产最爽的乱婬视频国语对白 | 国产尤物jk自慰制服喷水| 亚洲AV成人一区国产精品| 高清乱码精品福利在线视频| 中文字幕在线看| 国产一区二区精品高清在线观看| 久久伊人久久亚洲综合| 91麻豆国产视频| 首页亚洲国产丝袜长腿综合| 亚洲第一视频区| 99久久国产自偷自偷免费一区| 人人看人人鲁狠狠高清| 国产精品短篇二区| 视频一本大道香蕉久在线播放 | 国产杨幂丝袜av在线播放| 伊在人亞洲香蕉精品區| 国产91蝌蚪窝| 欧美一级高清片久久99| 最新日本中文字幕| 国产地址二永久伊甸园| 色婷婷久久| 亚洲综合一区国产精品| 四虎影视库国产精品一区| 亚洲无码在线午夜电影| 久久一色本道亚洲|