何 慶,雷水平,李杰龍,江立斌,易 娜,汪新勇
(中國移動通信集團廣東有限公司南方基地,廣東 廣州 510640)
電信運營商家庭寬帶(以下簡稱“家寬”)業務的核心基礎數據——家寬覆蓋地址數據的質量對其發展越來越重要。傳統粗放的數據管理方式導致了大量數據質量問題的涌現,如數據缺失、信息不準確、格式不統一等,成為運營商家寬業務發展的瓶頸之一,亟待解決。
數據治理[1]為從企業視角處理地址數據質量問題提供了理論基礎。數據治理是指從使用零散數據變為使用統一主數據,從具有很少或沒有組織和流程的治理到企業范圍內的綜合數據治理,從嘗試處理主數據混亂狀況達到主數據井井有條狀態的一個過程,目的是建立數據擁有者、使用者,以及數據和支撐系統之間互補的關系,從全企業視角協調,統領各層面的數據管理工作,確保內部各類人員能夠及時、準確地獲得數據支持和服務[2]。
大數據時代給電信運營商數據質量管控帶來了挑戰[3-5],但也提供了契機。近年來已有國內外學者開始研究大數據治理問題。談韻等人[6]針對支撐電網大數據應用所采集的數據,研究了電網大數據治理體系。李吉元[7]針對運營商如何利用好系統的數據資源的問題,以移動精準營銷平臺為依托,對大數據的治理進行了研究,以Hadoop的MapReduce并行處理框架和MPP庫為基礎,通過云化ETL和爬蟲技術設計實現了移動精準運營平臺的數據挖掘以及數據預處理功能。金天驕[8]根據稅務治理需求,搭建政務云稅務云環境,基于稅務云環境開展稅務數據治理,通過數據治理實現各類數據的集中定義和管理,為建立統一數據視圖、數據倉庫、數據集市提供語義基礎,充分利用大數據、云計算技術,提升數據治理能力。
鑒于此,本文將對電信運營商家寬覆蓋地址數據的質量問題,以數據治理理論為基礎,利用大數據技術對家寬覆蓋地址數據的治理方法展開研究,以提升家寬覆蓋地址數據的質量。
覆蓋地址數據的質量問題主要有信息雜亂(即數據中摻雜非地址信息,如手機號、訂單號)、格式不統一(各地市的地址格式不相同)、關鍵數據缺失(如經緯度、街道、房號等數據缺失)、數據冗余(同一地址重復出現)等。由于缺乏統一的地址管控標準,使得家寬覆蓋地址數據的處理面臨3個方面的挑戰。
(1)如何解決海量地址數據的存儲和復雜運算問題
思考:在這個過程中,幼兒為了得出缺角的圓是否會遇到遺失的角,進行主動查閱資料、主動交流分享,并得出答案。這個過程充分體現了幼兒自主學習的過程。在自主學習的過程中,他們不僅熟悉的掌握了繪本《失落的一角》的故事內容,也在主動查找的過程中,體會到成功的喜悅,激發幼兒自主學習的欲望與興趣。
家寬覆蓋地址數據量達到億級別,兼具數據存儲和處理能力的傳統工具(如Excel)在性能和靈活性方面無法滿足要求。此外,地址數據處理還涉及有大量的非結構化數據(文本)操作,普通的數據庫處理起來需要耗費大量的時間。因此,要研究解決家寬覆蓋地址數據的存儲和復雜運算的方法。
(2)面對多種數據質量問題如何設計有效的處理流程
同一個地市會存在多種不同的數據質量問題,不同地市之間的數據質量問題也存在差異,設計有效的數據處理流程要能兼顧解決以上兩個方面的問題。
(3)如何實現快速檢驗治理后的數據是否滿足質量要求
由于地址數據量大,不可能人工對其進行檢驗,因此,需要實現快速自動化檢驗地址數據治理結果。
大數據技術為海量數據的存儲和計算提供了技術支撐[9],針對家寬覆蓋地址數據的質量問題,提出了基于大數據技術的數據治理架構,接著對地址數據治理邏輯進行了分析,最后探討了數據治理的技術架構。
治理數據不僅要保證數據處理的效率,還要能實現對治理后的數據質量是否達標進行校驗,數據治理邏輯如圖1所示:

圖1 大數據治理邏輯
首先對存在質量問題的數據進行處理,然后通過校驗方法檢驗處理結果,接著將檢驗結果實時反饋給處理環節,對不符合要求的數據再次進行處理,通過這種處理和校驗之間的不斷迭代來最終保證數據治理的質量。
為解決地址數據處理過程中的存儲和計算問題,提出數據治理技術架構,如圖2所示。
◆數據存儲層:利用HDFS[10]解決家寬覆蓋地址數據的存儲問題,其中Sqoop用以實現關系數據庫與HDFS之間的數據傳輸,YARN/Zookeeper用于管理分布式集群資源。
◆數據處理層:在HDFS基礎之上,利用分布式計算框架Spark實現數據處理算法,同時解決數據處理過程中的性能問題,MySQL用于存儲結果數據。

圖2 數據治理技術架構
◆數據校驗層:數據自動化校驗服務利用地圖開發平臺提供的API接口,通過MySQL向地圖開放平臺傳輸數據,并實時返回校驗結果。
根據3.1節的數據治理邏輯,本節對處理和校驗環節進行了分析,包含處理算法和校驗算法兩部分。
家寬覆蓋地址處理流程如圖3所示,其流程描述如下:
(1)抽取總表的數據;
(2)以地市為基準對總表進行分表處理;
(3)利用正則表達式匹配規則,編寫程序處理問題數據;
(4)判斷去除的數據是否包含有用信息,若無,對無用的干擾信息置空;若有,則保留有用數據;
(5)根據校驗環節返回的數據檢驗結果,優化數據處理規則;
(6)輸出家寬地址數據處理結果。
數據校驗算法流程如圖4所示,校驗思路見圖4左側。首先抽取數據庫清洗后的地址數據,然后調用地圖開放平臺提供的API接口對處理后的地址進行校驗,最后獲取校驗返回的結果,檢驗地址是否符合標準,詳細流程見圖4右側。

圖3 數據處理算法流程

圖4 數據校驗算法流程
以某省某電信運營商為例進行探討。隨著該省家寬業務的快速發展,家寬覆蓋地址的質量問題逐漸凸顯,問題地址數據量大、涉及區域廣,嚴重影響運營商該業務的發展。通過分析得知,地址數據的質量問題主要集中在“摻雜非地址信息”、“非自建地址”、“不符合七級地址規范”3個方面。
(1)數據治理流程
綜合上文提出的數據治理方法,結合本案例公司的家寬地址數據的特點設計了數據處理和校驗流程,如圖5所示。
(2)環境搭建
◆硬件環境
集群硬件:3臺2×8核CPU、128 G內存的x86服務器。
◆軟件環境
操作系統:Linux系統;
軟件:CDH5.4.5、MySql、python 3.4、SecureCRT 7.3、Navicat Premium。
通過對案例省份各地市的家寬覆蓋地址數據進行自動化處理,使該省滿足質量要求的家寬覆蓋地址數在原來的基礎之上提升了24.5%。表1展示的是案例運營商家寬覆蓋地址治理前后的對比示例,通過對比處理前和處理后的數據,從表1中可以看出非地址信息(如編碼XQ0024、電話號碼0760-218178、特殊字符(FTTH)等)被處理,覆蓋地址質量得到提升。

圖5 某省某運營商家寬地址數據治理流程
針對電信運營商家寬覆蓋地址數據的質量問題,結合數據治理理論,利用大數據技術提出了數據治理技術架構,設計了數據處理算法和校驗算法,實現了對有質量問題的地址數據的高效自動化處理,最后以某省電信運營商為例驗證提出的數據治理方法,結果表明該方法可以有效改善家寬覆蓋地址的質量問題。本文提出的數據治理方法目前只解決了已有家寬覆蓋地址數據的質量問題,后續在家寬覆蓋地址數據源的質量管控問題上需展開更加深入的研究。
[1] 桑尼爾·索雷斯. 大數據治理[M]. 匡斌,譯. 北京: 清華大學出版社, 2014.
[2] 張一鳴. 數據治理過程淺析[J]. 中國信息界, 2012(9): 15-17.
[3] 李衛,張云勇. 大數據時代電信運營商數據管控研究[J].移動通信, 2014,38(13): 10-14.
[4] 楊迪,馬怡安,王錚,等. 運營商在大數據背景下對數據質量管理體系的探索及思考[J]. 互聯網天地,2016(1): 73-79.

表1 家寬覆蓋地址治理前后對比示例
[5] 宗威,吳鋒. 大數據時代下數據質量的挑戰[J]. 西安交通大學學報(社會科學版), 2013,33(5): 38-43.
[6] 談韻. 電網大數據治理體系初探[J]. 電子技術與軟件工程, 2017(5): 182-183.
[7] 李吉元. 基于Hadoop的移動運營大規模數據治理[D]. 南京: 南京郵電大學, 2014.
[8] 金天驕. 稅務數據治理在運營商政務云平臺的實現方案研究[J]. 郵電設計技術, 2016(6): 69-73.
[9] 孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展, 2013,50(1): 146-169.
[10] Shvachko K, Kuang H, Radia S, et al. The Hadoop Distributed File System[C]//Symposium on MASS Storage Systems and Technologies. IEEE Computer Society, 2010:1-10.★